DeepSeek V4 e l'ondata open source di aprile 2026: GLM-5.1, Kimi K2.6, Qwen 3.6 — la nuova realtà dei prezzi
DeepSeek V4 è uscito il 24 aprile 2026 e la tabella dei prezzi che ne è seguita è il segnale più chiaro che la frontiera open source ha appena ribaltato l'equazione dei costi. Ma a fine aprile 2026 la storia più grande non è più DeepSeek da sola — è l'ondata open source di aprile 2026. Nelle ultime quattro settimane, GLM-5.1 ha conquistato la prima posizione su SWE-Bench Pro, Kimi K2.6 ha rilasciato un runtime con sciami di 300 agenti, Qwen 3.6 ha pubblicato un modello dense da 27B che batte concorrenti MoE da 397B sul coding agentico, e DeepSeek V4-Pro è salito al #1 su LiveCodeBench. Se a fine aprile 2026 sta ancora pagando le tariffe di GPT-5.5 Pro o Opus 4.7 per inferenze di routine, i conti si sono spostati più di quanto pensi.
Cosa è stato effettivamente rilasciato nelle ultime quattro settimane
Sei modelli che contano, in ordine cronologico:
- 7 aprile 2026 — GLM-5.1 (Z.ai / Zhipu): MoE da 754B, contesto 200K, licenza MIT. In testa a SWE-Bench Pro al 58,4%, batte GPT-5.4 (57,7) e Claude Opus 4.6 (57,3). Addestrato su chip Huawei Ascend.
- 16 aprile 2026 — Claude Opus 4.7 (Anthropic): l'attuale flagship GA a $5/$25 per milione di token — stesso prezzo di 4.6, con miglioramenti misurabili in affidabilità e ragionamento.
- 21 aprile 2026 — Kimi K2.6 GA (Moonshot): MoE 1T totali / 32B attivi. SWE-Bench Verified 80,2%, Terminal-Bench 2.0 al 66,7%, input video nativo, sessioni di coding autonomo da 12 ore e orchestrazione fino a 300 sub-agenti su 4.000 step coordinati.
- 22 aprile 2026 — Qwen 3.6-27B (Alibaba): un modello open-weight dense, Apache-2.0 che supera il fratello MoE Qwen 3.5 da 397B sui benchmark di coding agentico. In più Qwen 3.6-Plus (proprietario, contesto 1M) per l'enterprise.
- 23 aprile 2026 — GPT-5.5 (OpenAI): il flagship per il lavoro agentico a $5/$30 standard, $30/$180 per il tier Pro.
- 24 aprile 2026 — DeepSeek V4 (DeepSeek): V4-Pro (1,6T / 49B attivi) e V4-Flash (284B / 13B attivi), licenza MIT, contesto 1M, il modello frontier-class più economico sul mercato.
Ognuno di questi rilasci esce sotto licenza permissiva (MIT o Apache-2.0) tranne Qwen 3.6-Plus. Ognuno ha pareggiato o battuto Anthropic, OpenAI o Google su almeno un benchmark pubblicato entro una settimana dal lancio. Questa è l'ondata.
La tabella dei prezzi che conta davvero a fine aprile 2026
USD per milione di token, input / output, per i modelli tra cui realisticamente sceglierebbe a fine aprile 2026:
| Modello | Input | Output | Licenza | Note |
|---|---|---|---|---|
| DeepSeek V4 Flash | $0,14 | $0,28 | MIT | Modello small più economico sul mercato pubblico |
| MiniMax M2.7 | $0,30 | $1,20 | Non commerciale | Forte ma la licenza esclude la maggior parte dell'uso commerciale |
| GLM-5.1 | $1,00 | $3,20 | MIT | Miglior punteggio SWE-Bench Pro (58,4%) |
| DeepSeek V4 Pro | $0,145 | $3,48 | MIT | #1 su LiveCodeBench (0,935) |
| Claude Haiku 4.5 | $1,00 | $5,00 | Closed | Tool-use maturo, stack di sicurezza solido |
| Gemini 3.1 Pro | $2,00 | $12,00 | Closed | Il più economico del top tier closed |
| Claude Opus 4.7 | $5,00 | $25,00 | Closed | Massima affidabilità per agenti one-shot |
| GPT-5.5 | $5,00 | $30,00 | Closed | Miglior shaping del tool-use, flagship per il lavoro agentico |
| GPT-5.5 Pro | $30,00 | $180,00 | Closed | Massimo contesto, chiamate di ragionamento più difficili |
Da questa tabella emergono due fatti.
V4-Flash è ora il modello small più economico ovunque. L'output è circa 4,5x più economico di GPT-5.4 Nano, il precedente campione del budget tier. Per classificazione, routing ed estrazione first-pass, il prezzo per token è quasi trascurabile.
V4-Pro è il modello frontier-class più economico, sotto Sonnet 4.6 di circa 4,3x sull'output e Opus 4.7 di circa 7,2x. Il titolo molto diffuso "40x più economico di GPT-5.5 Pro" è in realtà conservativo — V4-Pro a $3,48 di output contro GPT-5.5 Pro a $180 di output è 52x più economico, non 40x.
Perché è così economico: compressed sparse attention
Le release notes di DeepSeek attribuiscono il merito a due mosse architetturali. La prima è uno schema di compressed sparse attention più aggressivo di quello usato in V3.2. La seconda è un routing MoE sparso più spinto — V4-Pro mantiene attivo circa il 3% dei parametri per token (49B su 1,6T). Il numero che spinge il listino prezzi: in un contesto da 1M token, V4-Pro userebbe solo il 27% dei FLOPs per token che usava V3.2. Si paga il compute, non il numero di parametri, e DeepSeek ha tagliato il compute per token di circa quattro volte mantenendo la parità benchmark con i modelli closed frontier di una generazione fa.
Il claim "1M context" merita una nota a piè di pagina. In pratica le performance degraderebbero oltre i 128k token. Per la maggior parte dei carichi di coding agentico — codebase, output di tool, catene di ragionamento — 128k bastano e avanzano. Se ha progettato la sua architettura intorno a una finestra onesta da 1M, riveda le ipotesi.
Dove ogni nuovo modello si guadagna il suo posto
DeepSeek V4-Flash è il sostituto giusto per chiamate di routing e classificazione. Se sta pagando le tariffe di Claude Haiku 4.5 ($1 / $5) per classificazione di documenti, estrazione di entità o sintesi first-pass, V4-Flash a $0,14 / $0,28 è circa 17x più economico sull'output. La decisione raramente è automatica — Haiku ha uno shaping del tool-use più forte — ma con quel divario, anche una penalizzazione di qualità del 10-15% si compensa con un passaggio di verifica.
DeepSeek V4-Pro è la chiamata più difficile. La parità benchmark è con Opus 4.6 e GPT-5.4, non con la generazione attuale, e il gap nelle valutazioni sui task di ragionamento più difficili è reale. Dove V4-Pro è la scelta giusta: generazione di piani long-running con uno step di verifica, code review e suggerimenti di refactoring con humans in the loop, analisi bulk di codebase (audit di sicurezza, mappatura delle dipendenze). Dove Opus 4.7 si guadagna ancora il suo premium: task agentici one-shot che devono riuscire senza supervisione, matematica di difficoltà frontier, percorsi production-critical dove un tasso di fallimento del 2% si compone.
GLM-5.1 è il leader su SWE-Bench Pro. Se il suo carico di lavoro è specificamente software engineering — leggere codebase di grandi dimensioni, fixare bug, implementare feature end-to-end contro test suite — GLM-5.1 è il modello da battere ad aprile 2026. Il suo punteggio del 58,4% supera GPT-5.4 (57,7) e Opus 4.6 (57,3) sul benchmark verified-task più difficile del settore.
Kimi K2.6 è costruito per il lavoro agentico a lungo orizzonte. Dove si distingue: sessioni di coding autonomo da 12 ore, input video nativo e pattern di orchestrazione che scalano fino a 300 sub-agenti su 4.000 step coordinati. Se sta progettando sciami di agenti per refactor batch, analisi su larga scala o task di ricerca che durano ore, K2.6 è l'unico modello open-weight ingegnerizzato per quel profilo di runtime.
Qwen 3.6-27B è la storia del dense model. Un transformer dense da 27 miliardi di parametri che batte concorrenti MoE da 397B sulle eval di coding agentico — ed è Apache-2.0. Per i team che preferiscono modelli dense per latenza di inferenza prevedibile, determinismo nei batch o semplicità di fine-tuning, questa è la vittoria più pulita del mese.
MiniMax M2.7 ha il miglior rapporto costo-per-capacità a $0,30 / $1,20, ma la licenza è passata da MIT (M2 e M2.5) a non commerciale per M2.7. Legga la licenza prima di progettarci sopra. Per ricerca, prototipazione e tooling interno va bene; per prodotti che generano fatturato serve un accordo enterprise.
I limiti onesti
Tre caveat impediscono che si tratti di una vittoria pulita su tutta la linea.
Censura. Sia DeepSeek che Kimi escono con guardrail pesanti su temi legati alla Cina. Il lavoro puro di coding ed engineering raramente li attiva; i workflow di contenuto che toccano geopolitica, analisi di news o commento culturale aperto vedranno rifiuti o output sanitizzati.
Gap di harness. GPT-5.5 e Opus 4.7 escono con API tool-use first-class — lo schema tool-use di Anthropic, la Responses API di OpenAI, function calling che semplicemente funziona. I modelli open source di aprile 2026 richiedono tutti più codice di glue: V4 vuole prompt XML in stile DSML per output strutturato affidabile, Kimi K2.6 ha le sue convenzioni di agent loop, GLM-5.1 ha un'API tool-use parziale. OpenCode integra V4 in modo pulito. Il supporto LangChain è parziale ovunque.
Contesto effettivo. La maggior parte di questi modelli pubblicizza 1M token ma degrada oltre i 128k. Se il suo layer di retrieval e ranking è approssimativo, nessuna finestra di contesto la salverà. Faccia un audit della qualità del retrieval prima di puntare sul numero da copertina.
Cosa significa per i team che pagano tariffe frontier ad aprile 2026
Il modo semplice per pensare a fine aprile 2026: il pavimento dei prezzi open source è appena sceso sotto il soffitto di quello closed source, e ora ci sono quattro frontiere open source credibili (V4, GLM-5.1, K2.6, Qwen 3.6) invece di una. Se la sua bolletta mensile di inferenza è dominata da chiamate a Opus 4.7 o GPT-5.5, il percorso per tagliare quella voce di 5-10x senza abbandonare la capacità frontier è ora operativamente credibile — a patto di investire in un layer di routing e valutazione.
La sequenza di migrazione che consigliamo:
- Faccia un audit di quali chiamate hanno effettivamente bisogno di ragionamento frontier. Nella maggior parte dei sistemi agent in produzione, il 60-80% delle chiamate è routing, classificazione o sintesi semplice. Le sposti su V4-Flash per primo.
- Scelga un modello frontier open source per workload. Coding in stile SWE-bench → GLM-5.1. Loop agentici long-horizon → Kimi K2.6. Ragionamento mid-tier al costo più basso possibile → V4-Pro. Determinismo dense-model → Qwen 3.6-27B.
- Lanci eval dual-path. Mandi un campione del traffico di produzione sia all'incumbent che al candidato. Misuri qualità, latenza e modalità di fallimento per almeno due settimane prima di tagliare.
- Costruisca il router. I task difficili restano sulla frontiera closed (Opus 4.7 o GPT-5.5). I task mid-tier passano alla giusta frontiera open source dietro un verifier. I task facili passano a V4-Flash.
- Reinvesta i risparmi in disciplina di valutazione. Una riduzione di costo 5x è priva di significato se il suo error rate sale 2x e non se ne accorge.
Per i team enterprise che ragionano su roadmap di AI agentica, fine aprile 2026 è il momento in cui le unit economics sono cambiate in modo permanente. I team che ignorano questo e continuano a pagare prezzi frontier per task di routine sono quelli che i concorrenti mangeranno sul margine.
I numeri
| Metrica | DeepSeek V4-Pro | DeepSeek V4-Flash | GLM-5.1 | Kimi K2.6 |
|---|---|---|---|---|
| Parametri totali | 1,6T | 284B | 754B | 1T |
| Parametri attivi | 49B | 13B | MoE | 32B |
| Finestra di contesto | 1M (128k effettivi) | 1M (128k effettivi) | 200k | 256k |
| Licenza | MIT | MIT | MIT | Open-weight |
| Prezzo input (per M token) | $0,145 | $0,14 | $1,00 | n/d |
| Prezzo output (per M token) | $3,48 | $0,28 | $3,20 | n/d |
| Benchmark di copertina | LiveCodeBench #1 (0,935) | Modello small più economico | SWE-Bench Pro #1 (58,4) | SWE-Verified 80,2 |
FAQ
DeepSeek V4 è ancora il lancio più degno di nota di aprile 2026? Per i prezzi sì — V4-Pro è il modello frontier-class più economico e V4-Flash è il modello small più economico. Per i benchmark, GLM-5.1 guida SWE-Bench Pro e Kimi K2.6 guida il coding agentico long-horizon. La risposta giusta dipende dal suo workload, non dai titoli.
Posso eseguire localmente uno qualsiasi di questi? V4-Flash a 160GB si quantizza su un Mac Studio da 128GB o un MacBook Pro M5. V4-Pro a 865GB richiede un'infrastruttura GPU seria. Qwen 3.6-27B è la storia di local-deployment più semplice — un modello dense da 27B sta comodo su una singola H100 da 80GB, o quantizzato su un M5 Max. Kimi K2.6 richiede un'infrastruttura di orchestrazione seria ed è più pratico via API.
E MiniMax M2.7? Modello forte, prezzi taglienti — ma la licenza è passata a non commerciale. M2 e M2.5 erano MIT; M2.7 no. Se richiede open source per uso commerciale, questo lo squalifica. Per ricerca e tooling interno va bene.
Come fanno GPT-5.5 e Opus 4.7 a competere ancora? Guidano su maturità di harness, shaping del tool-use e affidabilità in loop agentici non supervisionati. Per i task one-shot che devono riuscire senza un verifier, la frontiera closed si guadagna il suo premium. Per tutto il resto, l'ondata open source significa che dovrebbe testare alternative.
Devo migrare tutto? No. Migri prima le chiamate di routine ad alto volume (V4-Flash per classificazione e routing). Aggiunga un modello frontier open source per tipo di workload dietro un verifier (GLM-5.1, K2.6, V4-Pro a seconda del workload). Tenga la frontiera closed sui task più difficili e più sensibili al fallimento finché non ha dati di eval che mostrano che un'alternativa open può sostituirli. I team che vincono questa transizione sono quelli che fanno routing intelligente, non quelli che cambiano in blocco.
Fonti e verifica
- Annuncio DeepSeek V4 (24 aprile 2026)
- Release notes GLM-5.1 da Z.ai (7 aprile 2026)
- Blog GA Kimi K2.6 da Moonshot (21 aprile 2026)
- Rilascio Qwen 3.6-27B da Alibaba (22 aprile 2026)
- Annuncio Claude Opus 4.7 da Anthropic (16 aprile 2026)
- Annuncio GPT-5.5 da OpenAI (23 aprile 2026)
- Classifiche correnti di LiveCodeBench, SWE-Bench Verified, SWE-Bench Pro
- Model card di Hugging Face e disponibilità su OpenRouter confermate
Il terremoto dei prezzi è reale. Il quadro competitivo è più ampio di qualsiasi singolo lancio. Per i team che pagano ancora tariffe frontier per task che non hanno bisogno di ragionamento frontier, i conti si sono spostati di più in 30 giorni che nei 12 mesi precedenti.
Vuole aiuto per progettare un layer di routing multi-modello che catturi questi risparmi senza sacrificare l'affidabilità? È il tipo di lavoro che Context Studios costruisce per i clienti ogni settimana.