DeepSeek V4 et la déferlante open source d'avril 2026 : GLM-5.1, Kimi K2.6, Qwen 3.6 — la nouvelle réalité tarifaire

DeepSeek V4 est sorti le 24 avril 2026 et la grille tarifaire qui a suivi est le signal le plus net que la frontière open source vient d'inverser l'équation des coûts. Mais à 72 heures de distance, l'histoire ne se résume plus à DeepSeek seul — il s'agit de la déferlante open source d'avril 2026. En quatre semaines, GLM-5.1 a pris la tête de SWE-Bench Pro, Kimi K2.6 a livré un runtime d'essaim à 300 agents, Qwen 3.6 a publié un modèle dense de 27B qui bat des concurrents MoE de 397B en codage agentique, et DeepSeek V4-Pro a grimpé à la première place de LiveCodeBench. Si vous payez encore les tarifs de GPT-5.5 Pro ou d'Opus 4.7 pour de l'inférence de routine à fin avril 2026, le calcul a bougé bien plus loin que vous ne l'imaginez.

Ce qui est réellement sorti au cours des quatre dernières semaines

Six modèles qui comptent, par ordre chronologique :

7 avril 2026 — GLM-5.1 (Z.ai / Zhipu) : MoE de 754B, contexte de 200K, sous licence MIT. Domine SWE-Bench Pro à 58,4 %, devant GPT-5.4 (57,7) et Claude Opus 4.6 (57,3). Entraîné sur des puces Huawei Ascend.
16 avril 2026 — Claude Opus 4.7 (Anthropic) : le modèle phare GA en vigueur à 5 $ / 25 $ par million de tokens — au même prix que la 4.6, avec des gains mesurables en fiabilité et en raisonnement.
21 avril 2026 — Kimi K2.6 GA (Moonshot) : MoE 1T total / 32B actifs. SWE-Bench Verified à 80,2 %, Terminal-Bench 2.0 à 66,7 %, entrée vidéo native, sessions de codage autonome de 12 heures et orchestration de jusqu'à 300 sous-agents sur 4 000 étapes coordonnées.
22 avril 2026 — Qwen 3.6-27B (Alibaba) : un modèle open-weight dense, sous Apache-2.0 qui surpasse son frère MoE Qwen 3.5 de 397B sur les benchmarks de codage agentique. Plus Qwen 3.6-Plus (propriétaire, contexte de 1M) pour l'entreprise.
23 avril 2026 — GPT-5.5 (OpenAI) : le modèle phare orienté travail agentique à 5 $ / 30 $ en standard, 30 $ / 180 $ pour le palier Pro.
24 avril 2026 — DeepSeek V4 (DeepSeek) : V4-Pro (1,6T / 49B actifs) et V4-Flash (284B / 13B actifs), sous licence MIT, contexte de 1M, le modèle de classe frontier le moins cher du marché.

Tous sortent sous licence permissive (MIT ou Apache-2.0), à l'exception de Qwen 3.6-Plus. Tous, à une semaine du lancement, se hissent au niveau d'Anthropic, OpenAI ou Google — ou les dépassent — sur au moins un benchmark publié. C'est cela, la déferlante.

La grille tarifaire qui compte vraiment à fin avril 2026

USD par million de tokens, entrée / sortie, pour les modèles entre lesquels vous arbitrez réellement à fin avril 2026 :

Modèle	Entrée	Sortie	Licence	À noter
DeepSeek V4 Flash	0,14 $	0,28 $	MIT	Le petit modèle le moins cher du marché public
MiniMax M2.7	0,30 $	1,20 $	Non commerciale	Solide, mais la licence disqualifie la plupart des usages commerciaux
GLM-5.1	1,00 $	3,20 $	MIT	Meilleur score SWE-Bench Pro (58,4 %)
DeepSeek V4 Pro	0,145 $	3,48 $	MIT	N°1 sur LiveCodeBench (0,935)
Claude Haiku 4.5	1,00 $	5,00 $	Fermée	Tool-use mature, stack de sécurité solide
Gemini 3.1 Pro	2,00 $	12,00 $	Fermée	Le moins cher du haut de gamme fermé
Claude Opus 4.7	5,00 $	25,00 $	Fermée	Fiabilité maximale pour les agents one-shot
GPT-5.5	5,00 $	30,00 $	Fermée	Meilleur shaping de tool-use, phare du travail agentique
GPT-5.5 Pro	30,00 $	180,00 $	Fermée	Plus grand contexte, raisonnement le plus dur

Deux faits sautent aux yeux dans cette grille.

V4-Flash est désormais le petit modèle le moins cher où que ce soit. La sortie coûte environ 4,5x moins que GPT-5.4 Nano, le précédent champion du segment budget. Pour de la classification, du routage et de l'extraction de premier passage, le coût par token devient anecdotique.

V4-Pro est le modèle de classe frontier le moins cher, avec un écart d'environ 4,3x en sortie face à Sonnet 4.6 et d'environ 7,2x face à Opus 4.7. Le titre largement repris « 40x moins cher que GPT-5.5 Pro » est en réalité conservateur — V4-Pro à 3,48 $ en sortie contre GPT-5.5 Pro à 180 $ en sortie est 52x moins cher, pas 40x.

Pourquoi c'est aussi peu cher : compressed sparse attention

Les notes de version de DeepSeek créditent deux choix d'architecture. Le premier est un schéma de compressed sparse attention plus poussé que celui utilisé par V3.2. Le second est un routage MoE creux plus agressif — V4-Pro garde environ 3 % des paramètres actifs par token (49B sur 1,6T). Le chiffre qui dicte la grille tarifaire : sur un contexte de 1M de tokens, V4-Pro n'utiliserait que 27 % des FLOPs par token consommés par V3.2. Vous payez le compute, pas le nombre de paramètres, et DeepSeek a divisé le compute par token par environ quatre tout en maintenant la parité sur les benchmarks face aux modèles fermés frontier d'une génération antérieure.

L'allégation « contexte de 1M » mérite une note de bas de page. Les performances se dégradent en pratique au-delà de 128k tokens. Pour la plupart des charges de codage agentique — bases de code, sorties d'outils, chaînes de raisonnement — 128k suffisent largement. Si vous avez architecturé autour d'une fenêtre honnête de 1M, revérifiez vos hypothèses.

Où chaque nouveau modèle gagne sa place

DeepSeek V4-Flash est le bon remplaçant pour les appels de routage et de classification. Si vous payez les tarifs de Claude Haiku 4.5 (1 $ / 5 $) pour de la classification de documents, de l'extraction d'entités ou du résumé de premier passage, V4-Flash à 0,14 $ / 0,28 $ est environ 17x moins cher en sortie. La décision n'est rarement automatique — Haiku a un meilleur shaping de tool-use — mais à cet écart, même une pénalité de qualité de 10-15 % se rentabilise derrière une passe de vérification.

DeepSeek V4-Pro est l'arbitrage plus délicat. La parité sur les benchmarks se fait avec Opus 4.6 et GPT-5.4, pas avec la génération en vigueur, et l'écart d'éval sur les tâches de raisonnement les plus dures est réel. Là où V4-Pro est le bon choix : génération de plans à long horizon avec étape de vérification, revue de code et suggestions de refactoring avec humain dans la boucle, analyse en masse de bases de code (audits de sécurité, cartographie de dépendances). Là où Opus 4.7 mérite encore sa prime : tâches agentiques one-shot qui doivent réussir sans supervision, mathématiques de difficulté frontière, chemins critiques en production où un taux d'échec de 2 % se compose.

GLM-5.1 est le leader de SWE-Bench Pro. Si votre charge porte spécifiquement sur le génie logiciel — lire de grandes bases de code, corriger des bugs, implémenter des features de bout en bout face à des suites de tests — GLM-5.1 est le modèle à battre à fin avril 2026. Son score de 58,4 % devance GPT-5.4 (57,7) et Opus 4.6 (57,3) sur le benchmark verified-task le plus dur du domaine.

Kimi K2.6 est conçu pour le travail agentique à long horizon. Ses points forts : sessions de codage autonome de 12 heures, entrée vidéo native, et patterns d'orchestration qui passent à l'échelle de 300 sous-agents sur 4 000 étapes coordonnées. Si vous concevez des essaims d'agents pour des refactors par lots, de l'analyse à grande échelle ou des tâches de recherche s'étalant sur plusieurs heures, K2.6 est le seul modèle open-weight conçu pour ce profil de runtime.

Qwen 3.6-27B est l'argument du dense. Un transformer dense de 27 milliards de paramètres qui bat des concurrents MoE de 397B sur les évals de codage agentique — et il est sous Apache-2.0. Pour les équipes qui préfèrent les modèles denses pour la latence d'inférence prévisible, le déterminisme des batchs ou la simplicité du fine-tuning, c'est la victoire la plus nette du mois.

MiniMax M2.7 offre le meilleur ratio coût / capacité à 0,30 $ / 1,20 $, mais la licence est passée de MIT (M2 et M2.5) à non commerciale pour M2.7. Lisez la licence avant d'architecturer autour. Pour la recherche, le prototypage et l'outillage interne, c'est très bien ; pour des produits générant du chiffre d'affaires, il vous faut un accord d'entreprise.

Les limites honnêtes

Trois réserves empêchent de parler d'une victoire nette sur toute la ligne.

Censure. DeepSeek et Kimi embarquent tous deux des garde-fous lourds sur les sujets liés à la Chine. Le pur travail de codage et d'ingénierie les déclenche rarement ; les workflows de contenu qui touchent à la géopolitique, à l'analyse d'actualité ou au commentaire culturel ouvert se heurteront à des refus ou à des sorties aseptisées.

Écart de harness. GPT-5.5 et Opus 4.7 livrent des API de tool-use de premier ordre — schéma tool-use d'Anthropic, Responses API d'OpenAI, function calling qui marche tout simplement. Les modèles open source d'avril 2026 demandent tous davantage de glue code : V4 veut des prompts XML façon DSML pour une sortie structurée fiable, Kimi K2.6 a ses propres conventions de boucle d'agent, GLM-5.1 a une API de tool-use partielle. OpenCode intègre V4 proprement. Le support LangChain est partiel partout.

Contexte effectif. La plupart de ces modèles annoncent 1M de tokens mais se dégradent au-delà de 128k. Si votre couche de retrieval et de ranking est négligée, aucune fenêtre de contexte ne vous sauvera. Auditez la qualité du retrieval avant de parier sur le chiffre du titre.

Ce que cela signifie pour les équipes qui paient les tarifs frontière en avril 2026

La manière simple de penser fin avril 2026 : le plancher tarifaire de l'open source vient de passer sous le plafond du closed source, et il existe désormais quatre frontières open source crédibles (V4, GLM-5.1, K2.6, Qwen 3.6) au lieu d'une seule. Si votre facture mensuelle d'inférence est dominée par des appels Opus 4.7 ou GPT-5.5, le chemin pour réduire cette ligne de 5x à 10x sans abandonner les capacités frontière est désormais opérationnellement crédible — à condition d'investir dans une couche de routage et d'évaluation.

La séquence de migration que nous recommandons :

Auditez quels appels ont réellement besoin de raisonnement frontière. Dans la plupart des systèmes d'agents en production, 60 à 80 % des appels relèvent du routage, de la classification ou de la synthèse simple. Migrez ceux-là vers V4-Flash en premier.
Choisissez un modèle frontière open source par charge. Codage façon SWE-bench → GLM-5.1. Boucles agentiques à long horizon → Kimi K2.6. Raisonnement intermédiaire au coût le plus bas possible → V4-Pro. Déterminisme du modèle dense → Qwen 3.6-27B.
Lancez des évals à double voie. Envoyez un échantillon du trafic de production à la fois au sortant et au candidat. Mesurez la qualité, la latence et les modes de défaillance pendant au moins deux semaines avant de basculer.
Construisez le routeur. Les tâches dures restent sur la frontière fermée (Opus 4.7 ou GPT-5.5). Les tâches intermédiaires basculent sur la bonne frontière open source derrière un vérificateur. Les tâches faciles vont sur V4-Flash.
Réinvestissez les économies dans la discipline d'évaluation. Une réduction de coût de 5x ne vaut rien si votre taux d'erreur double et que vous ne le voyez pas.

Pour les équipes en entreprise qui réfléchissent à leurs roadmaps d'IA agentique, fin avril 2026 est le moment où l'économie unitaire a basculé durablement. Les équipes qui ignoreront cela et continueront à payer les tarifs frontière pour des tâches de routine sont celles dont les concurrents grignoteront les marges.

En chiffres

Métrique	DeepSeek V4-Pro	DeepSeek V4-Flash	GLM-5.1	Kimi K2.6
Paramètres totaux	1,6T	284B	754B	1T
Paramètres actifs	49B	13B	MoE	32B
Fenêtre de contexte	1M (128k effectifs)	1M (128k effectifs)	200k	256k
Licence	MIT	MIT	MIT	Open-weight
Prix d'entrée (par M tokens)	0,145 $	0,14 $	1,00 $	n/d
Prix de sortie (par M tokens)	3,48 $	0,28 $	3,20 $	n/d
Benchmark phare	LiveCodeBench n°1 (0,935)	Petit modèle le moins cher	SWE-Bench Pro n°1 (58,4)	SWE-Verified 80,2

FAQ

DeepSeek V4 reste-t-il le lancement le plus marquant d'avril 2026 ? Côté tarifs, oui — V4-Pro est le modèle de classe frontier le moins cher et V4-Flash le petit modèle le moins cher. Côté benchmarks, GLM-5.1 mène SWE-Bench Pro et Kimi K2.6 mène le codage agentique à long horizon. La bonne réponse dépend de votre charge, pas des gros titres.

Puis-je faire tourner l'un d'entre eux en local ? V4-Flash à 160 Go se quantifie sur un Mac Studio de 128 Go ou un MacBook Pro M5. V4-Pro à 865 Go demande une infrastructure GPU sérieuse. Qwen 3.6-27B est l'histoire de déploiement local la plus simple — un modèle dense de 27B tient confortablement sur une seule H100 de 80 Go, ou en quantifié sur un M5 Max. Kimi K2.6 demande une infrastructure d'orchestration sérieuse et se prête mieux à l'API.

Et MiniMax M2.7 ? Modèle solide, tarification mordante — mais la licence est passée en non commerciale. M2 et M2.5 étaient sous MIT ; M2.7 ne l'est plus. Si vous exigez de l'open source pour un usage commercial, c'est rédhibitoire. Pour la recherche et l'outillage interne, c'est très bien.

Comment GPT-5.5 et Opus 4.7 restent-ils compétitifs ? Ils mènent sur la maturité du harness, le shaping de tool-use et la fiabilité dans les boucles agentiques non supervisées. Pour les tâches one-shot qui doivent réussir sans vérificateur, la frontière fermée mérite sa prime. Pour tout le reste, la déferlante open source signifie que vous devriez tester les alternatives.

Faut-il tout migrer ? Non. Migrez d'abord les appels de routine à fort volume (V4-Flash pour la classification et le routage). Ajoutez un modèle frontière open source par type de charge derrière un vérificateur (GLM-5.1, K2.6, V4-Pro selon la charge). Gardez la frontière fermée sur les tâches les plus dures et les plus sensibles aux échecs jusqu'à ce que vos données d'éval prouvent qu'une alternative ouverte peut les remplacer. Les équipes qui gagnent cette transition sont celles qui routent intelligemment, pas celles qui basculent en bloc.

Sources et vérification

Annonce DeepSeek V4 (24 avril 2026)
Notes de version GLM-5.1 de Z.ai (7 avril 2026)
Billet GA Kimi K2.6 de Moonshot (21 avril 2026)
Sortie Qwen 3.6-27B d'Alibaba (22 avril 2026)
Annonce Claude Opus 4.7 d'Anthropic (16 avril 2026)
Annonce GPT-5.5 d'OpenAI (23 avril 2026)
Classements LiveCodeBench, SWE-Bench Verified et SWE-Bench Pro en vigueur
Cartes de modèle Hugging Face et disponibilité OpenRouter confirmées

Le séisme tarifaire est réel. Le tableau concurrentiel est plus large qu'aucun lancement isolé. Pour les équipes qui paient encore les tarifs frontière sur des tâches qui n'ont pas besoin de raisonnement frontière, le calcul a bougé plus loin en 30 jours qu'il ne l'avait fait au cours des 12 mois précédents.

Besoin d'aide pour architecturer une couche de routage multi-modèles qui capte ces économies sans sacrifier la fiabilité ? C'est le genre de mission que Context Studios livre à ses clients chaque semaine.

DeepSeek V4 et la déferlante open source d'avril 2026 : GLM-5.1, Kimi K2.6, Qwen 3.6 — la nouvelle réalité tarifaire

DeepSeek V4 et la déferlante open source d'avril 2026 : GLM-5.1, Kimi K2.6, Qwen 3.6 — la nouvelle réalité tarifaire

Ce qui est réellement sorti au cours des quatre dernières semaines

La grille tarifaire qui compte vraiment à fin avril 2026

Pourquoi c'est aussi peu cher : compressed sparse attention

Où chaque nouveau modèle gagne sa place

Les limites honnêtes

Ce que cela signifie pour les équipes qui paient les tarifs frontière en avril 2026

En chiffres

FAQ

Sources et vérification

Partager l'article