DeepSeek V4 und die Open-Source-Welle im April 2026: GLM-5.1, Kimi K2.6, Qwen 3.6 — Die neue Preisrealität

DeepSeek V4 erschien am 24. April 2026 und kippt die Kostengleichung an der Open-Source-Front. Doch der eigentliche Befund ist die Open-Source-Welle des Monats: GLM-5.1, Kimi K2.6, Qwen 3.6 und V4 zwingen Teams, ihre Inferenzbudgets neu zu denken.

DeepSeek V4 und die Open-Source-Welle im April 2026: GLM-5.1, Kimi K2.6, Qwen 3.6 — Die neue Preisrealität

DeepSeek V4 und die Open-Source-Welle im April 2026: GLM-5.1, Kimi K2.6, Qwen 3.6 — Die neue Preisrealität

DeepSeek V4 erschien am 24. April 2026, und die darauf folgende Preistabelle ist das deutlichste Signal dafür, dass die Open-Source-Front die Kostengleichung gerade umgekehrt hat. Drei Tage später ist die größere Geschichte jedoch längst nicht mehr DeepSeek allein — es ist die Open-Source-Welle im April 2026. Innerhalb von vier Wochen hat GLM-5.1 die Spitzenposition auf SWE-Bench Pro übernommen, Kimi K2.6 hat eine Runtime für 300-Agenten-Schwärme ausgeliefert, Qwen 3.6 hat ein dichtes 27B-Modell veröffentlicht, das 397B-MoE-Konkurrenten beim agentischen Coding schlägt, und DeepSeek V4-Pro ist auf Platz 1 in LiveCodeBench geklettert. Wer Stand Ende April 2026 noch GPT-5.5-Pro- oder Opus-4.7-Tarife für Routine-Inferenz zahlt, hat den Anschluss an die Mathematik verloren.

Was in den letzten vier Wochen tatsächlich erschienen ist

Sechs Modelle, die zählen, in chronologischer Reihenfolge:

  • 7. April — GLM-5.1 (Z.ai / Zhipu): 754B MoE, 200K Context, MIT-lizenziert. Führt SWE-Bench Pro mit 58,4 % an, vor GPT-5.4 (57,7) und Claude Opus 4.6 (57,3). Trainiert auf Huawei-Ascend-Chips.
  • 16. April — Claude Opus 4.7 (Anthropic): aktuelles GA-Flaggschiff zu $5/$25 pro Million Token — gleicher Preis wie 4.6, mit messbaren Zugewinnen bei Zuverlässigkeit und Reasoning.
  • 21. April — Kimi K2.6 GA (Moonshot): 1T total / 32B aktive MoE. SWE-Bench Verified 80,2 %, Terminal-Bench 2.0 bei 66,7 %, native Video-Eingabe, autonome Coding-Sessions über 12 Stunden und Orchestrierung von bis zu 300 Sub-Agenten über 4.000 koordinierte Schritte.
  • 22. April — Qwen 3.6-27B (Alibaba): ein dichtes, Apache-2.0-lizenziertes Open-Weight-Modell, das den 397B-MoE-Bruder Qwen 3.5 in agentischen Coding-Benchmarks schlägt. Dazu Qwen 3.6-Plus (proprietär, 1M Context) für den Enterprise-Bereich.
  • 23. April — GPT-5.5 (OpenAI): das Flaggschiff für agentische Arbeit zu $5/$30 Standard, $30/$180 für den Pro-Tier.
  • 24. April — DeepSeek V4 (DeepSeek): V4-Pro (1,6T / 49B aktiv) und V4-Flash (284B / 13B aktiv), MIT-lizenziert, 1M Context, das günstigste Frontier-Class-Modell am Markt.

Jedes dieser Modelle erscheint unter einer permissiven Lizenz (MIT oder Apache-2.0) — außer Qwen 3.6-Plus. Jedes einzelne hat innerhalb einer Woche nach Launch in mindestens einem veröffentlichten Benchmark mit Anthropic, OpenAI oder Google gleichgezogen oder sie geschlagen. Das ist die Welle.

Die Preistabelle, die Stand Ende April 2026 zählt

USD pro Million Token, Input / Output, für die Modelle, zwischen denen Sie Stand Ende April 2026 realistisch wählen würden:

ModellInputOutputLizenzBemerkenswert
DeepSeek V4 Flash$0.14$0.28MITGünstigstes Small-Modell am öffentlichen Markt
MiniMax M2.7$0.30$1.20Non-commercialStark, aber die Lizenz disqualifiziert die meisten kommerziellen Use-Cases
GLM-5.1$1.00$3.20MITTop-Score auf SWE-Bench Pro (58,4 %)
DeepSeek V4 Pro$0.145$3.48MITPlatz 1 auf LiveCodeBench (0,935)
Claude Haiku 4.5$1.00$5.00ClosedAusgereifter Tool-use, starker Safety-Stack
Gemini 3.1 Pro$2.00$12.00ClosedGünstigstes Modell der geschlossenen Top-Liga
Claude Opus 4.7$5.00$25.00ClosedHöchste Zuverlässigkeit für One-Shot-Agenten
GPT-5.5$5.00$30.00ClosedBestes Tool-use-Shaping, Flaggschiff für agentische Arbeit
GPT-5.5 Pro$30.00$180.00ClosedHöchster Context, härteste Reasoning-Calls

Zwei Punkte stechen aus dieser Tabelle hervor.

V4-Flash ist nun das günstigste Small-Modell überhaupt. Der Output ist rund 4,5x günstiger als GPT-5.4 Nano, der bisherige Champion im Budget-Tier. Für Klassifikation, Routing und First-Pass-Extraktion fällt der Preis pro Token kaum noch ins Gewicht.

V4-Pro ist das günstigste Frontier-Class-Modell, mit rund 4,3x günstigerem Output als Sonnet 4.6 und etwa 7,2x günstigerem Output als Opus 4.7. Die viel zitierte Schlagzeile "40-mal günstiger als GPT-5.5 Pro" ist tatsächlich konservativ — V4-Pro mit $3.48 Output gegen GPT-5.5 Pro mit $180 Output ist 52x günstiger, nicht 40x.

Warum es so günstig ist: Compressed Sparse Attention

Die Release-Notes von DeepSeek nennen zwei architektonische Hebel. Der erste ist ein deutlich aggressiveres Compressed-Sparse-Attention-Schema als in V3.2. Der zweite ist ein noch aggressiveres Sparse-MoE-Routing — V4-Pro hält pro Token rund 3 % der Parameter aktiv (49B von 1,6T). Die Zahl, die die Preisliste treibt: in einem 1M-Token-Context nutzt V4-Pro Berichten zufolge nur 27 % der per-Token-FLOPs, die V3.2 verwendete. Sie zahlen für Compute, nicht für die Parameterzahl, und DeepSeek hat die Compute pro Token rund vierfach reduziert — bei gleicher Benchmark-Parität zu Frontier-Closed-Modellen einer Generation davor.

Die Angabe "1M Context" verdient eine Fußnote. Die Performance degradiert in der Praxis Berichten zufolge jenseits von 128k Token. Für die meisten agentischen Coding-Workloads — Codebases, Tool-Outputs, Reasoning-Ketten — sind 128k völlig ausreichend. Wer auf ein ehrliches 1M-Fenster gebaut hat, sollte seine Annahmen prüfen.

Wo jedes neue Modell seinen Platz verdient

DeepSeek V4-Flash ist der richtige Ersatz für Routing- und Klassifikations-Calls. Wenn Sie Claude-Haiku-4.5-Tarife ($1 / $5) für Dokumentenklassifikation, Entity Extraction oder First-Pass-Summarization zahlen, ist V4-Flash zu $0.14 / $0.28 rund 17x günstiger im Output. Die Entscheidung ist selten automatisch — Haiku hat stärkeres Tool-use-Shaping — aber bei dieser Spanne rechnet sich selbst ein Qualitätsnachteil von 10-15 % hinter einem Verifier-Pass.

DeepSeek V4-Pro ist die schwerere Entscheidung. Die Benchmark-Parität liegt bei Opus 4.6 und GPT-5.4, nicht bei der aktuellen Generation, und der Eval-Abstand bei den härtesten Reasoning-Aufgaben ist real. Wo V4-Pro die richtige Wahl ist: lang laufende Plan-Generierung mit Verifikationsschritt, Code-Reviews und Refactoring-Vorschläge mit Mensch im Loop, Bulk-Codebase-Analysen (Security-Audits, Dependency-Mapping). Wo Opus 4.7 seinen Aufpreis weiterhin verdient: One-Shot-Agentik, die ohne Aufsicht gelingen muss, Mathematik auf Frontier-Schwierigkeit, produktionskritische Pfade, in denen sich eine 2-%-Fehlerrate aufschaukelt.

GLM-5.1 ist der SWE-Bench-Pro-Spitzenreiter. Wenn Ihr Workload speziell Software-Engineering ist — große Codebases lesen, Bugs fixen, Features end-to-end gegen Test-Suites implementieren — ist GLM-5.1 Stand April 2026 das Maß aller Dinge. Sein Score von 58,4 % liegt knapp vor GPT-5.4 (57,7) und Opus 4.6 (57,3) auf dem härtesten Verified-Task-Benchmark des Felds.

Kimi K2.6 ist für Long-Horizon-Agentik gebaut. Was es heraushebt: autonome Coding-Sessions über 12 Stunden, native Video-Eingabe und Orchestrierungsmuster, die auf 300 Sub-Agenten über 4.000 koordinierte Schritte skalieren. Wer Agenten-Schwärme für Batch-Refactors, großangelegte Analysen oder Recherche-Aufgaben über Stunden entwirft, findet in K2.6 das einzige Open-Weight-Modell, das für dieses Runtime-Profil entworfen wurde.

Qwen 3.6-27B ist die Dense-Modell-Story. Ein dichter Transformer mit 27 Milliarden Parametern, der 397B-MoE-Konkurrenten in agentischen Coding-Evals schlägt — und das unter Apache-2.0. Für Teams, die dichte Modelle wegen vorhersehbarer Inferenz-Latenz, Batch-Determinismus oder einfacherer Fine-Tuning-Pfade bevorzugen, ist das der sauberste Gewinn des Monats.

MiniMax M2.7 hat das stärkste Verhältnis von Kosten zu Fähigkeit zu $0.30 / $1.20, aber die Lizenz wechselte von MIT (M2 und M2.5) zu Non-commercial für M2.7. Lesen Sie die Lizenz, bevor Sie darum herum architektieren. Für Forschung, Prototyping und internes Tooling ist das in Ordnung; für umsatzgenerierende Produkte brauchen Sie eine Enterprise-Vereinbarung.

Die ehrlichen Grenzen

Drei Vorbehalte halten dies davon ab, ein sauberer Sieg auf ganzer Linie zu sein.

Zensur. DeepSeek und Kimi liefern beide schwere Guardrails zu China-bezogenen Themen aus. Reines Coding und Engineering lösen sie selten aus; Content-Workflows, die Geopolitik, Nachrichtenanalyse oder offene kulturelle Kommentare berühren, werden Refusals oder bereinigte Outputs sehen.

Harness-Lücke. GPT-5.5 und Opus 4.7 liefern erstklassige Tool-use-APIs — Anthropics Tool-use-Schema, OpenAIs Responses API, function calling, das einfach funktioniert. Die Open-Source-Modelle vom April 2026 brauchen alle mehr Glue Code: V4 will DSML-ähnliche XML-Prompts für zuverlässige strukturierte Outputs, Kimi K2.6 hat eigene Konventionen für den Agent Loop, GLM-5.1 hat eine partielle tool-use-API. OpenCode integriert V4 sauber. Die LangChain-Unterstützung ist quer durch das Feld nur partiell.

Effektiver Context. Die meisten dieser Modelle bewerben 1M Token, degradieren aber jenseits von 128k. Wenn Ihre Retrieval- und Ranking-Schicht schludrig ist, rettet Sie kein Context-Fenster der Welt. Auditieren Sie die Retrieval-Qualität, bevor Sie auf die Schlagzeilenzahl wetten.

Was das für Teams bedeutet, die im April 2026 Frontier-Tarife zahlen

Die einfache Lesart für Ende April 2026: der Preisboden im Open-Source-Bereich ist gerade unter die Decke des Closed-Source-Segments gefallen, und es gibt jetzt vier glaubwürdige Open-Source-Frontiers (V4, GLM-5.1, K2.6, Qwen 3.6) statt einer. Wenn Ihre monatliche Inferenz-Rechnung von Opus 4.7- oder GPT-5.5-Calls dominiert wird, ist der Pfad, diese Position um den Faktor 5 bis 10 zu kürzen, ohne Frontier-Fähigkeit aufzugeben, jetzt operativ glaubwürdig — vorausgesetzt, Sie investieren in eine Routing- und Evaluation-Schicht.

Die Migrations-Sequenz, die wir empfehlen:

  1. Auditieren Sie, welche Calls tatsächlich Frontier-Reasoning brauchen. In den meisten produktiven Agenten-Systemen sind 60-80 % der Calls Routing, Klassifikation oder einfache Synthese. Ziehen Sie die zuerst auf V4-Flash um.
  2. Wählen Sie ein Open-Source-Frontier-Modell pro Workload. SWE-bench-artiges Coding → GLM-5.1. Long-Horizon-Agent-Loops → Kimi K2.6. Mid-Tier-Reasoning zu geringstmöglichen Kosten → V4-Pro. Dense-Modell-Determinismus → Qwen 3.6-27B.
  3. Fahren Sie Dual-Path-Evals. Schicken Sie ein Sample des Produktions-Traffics sowohl an den Incumbent als auch an den Kandidaten. Messen Sie Qualität, Latenz und Failure-Modes mindestens zwei Wochen lang, bevor Sie umstellen.
  4. Bauen Sie den Router. Harte Aufgaben bleiben auf der geschlossenen Frontier (Opus 4.7 oder GPT-5.5). Mid-Tier-Aufgaben wandern auf die richtige Open-Source-Frontier hinter einem Verifier. Einfache Aufgaben wandern auf V4-Flash.
  5. Reinvestieren Sie die Einsparungen in Eval-Disziplin. Eine Kostensenkung um den Faktor 5 ist bedeutungslos, wenn Ihre Fehlerrate sich verdoppelt und Sie es nicht bemerken.

Für Enterprise-Teams, die über agentische KI-Roadmaps nachdenken, ist Ende April 2026 der Moment, in dem sich die Unit Economics dauerhaft verschoben haben. Die Teams, die das ignorieren und Frontier-Preise für Routine-Tasks weiterzahlen, sind diejenigen, deren Wettbewerber sie auf der Marge fressen.

In Zahlen

MetrikDeepSeek V4-ProDeepSeek V4-FlashGLM-5.1Kimi K2.6
Gesamtparameter1,6T284B754B1T
Aktive Parameter49B13BMoE32B
Context Window1M (128k effektiv)1M (128k effektiv)200k256k
LizenzMITMITMITOpen-Weight
Input-Preis (pro M Token)$0.145$0.14$1.00n/a
Output-Preis (pro M Token)$3.48$0.28$3.20n/a
Headline-BenchmarkLiveCodeBench Platz 1 (0,935)Günstigstes Small-ModellSWE-Bench Pro Platz 1 (58,4)SWE-Verified 80,2

FAQ

Ist DeepSeek V4 Stand April 2026 immer noch der bemerkenswerteste Launch? Beim Preis: ja — V4-Pro ist das günstigste Frontier-Class-Modell und V4-Flash das günstigste Small-Modell. Bei den Benchmarks führt GLM-5.1 SWE-Bench Pro an und Kimi K2.6 das Long-Horizon-Agentic-Coding. Die richtige Antwort hängt von Ihrem Workload ab, nicht von den Schlagzeilen.

Kann ich eines davon lokal betreiben? V4-Flash mit 160 GB quantisiert auf einen 128 GB Mac Studio oder ein M5 MacBook Pro. V4-Pro mit 865 GB braucht ernstzunehmende GPU-Infrastruktur. Qwen 3.6-27B ist die einfachste Local-Deployment-Story — ein dichtes 27B-Modell passt komfortabel auf eine einzelne 80 GB H100 oder quantisiert auf einen M5 Max. Kimi K2.6 braucht ernsthafte Orchestrierungs-Infrastruktur und ist über API praktischer.

Was ist mit MiniMax M2.7? Starkes Modell, scharfer Preis — aber die Lizenz wechselte zu Non-commercial. M2 und M2.5 waren MIT; M2.7 nicht. Wenn Sie Open-Source für kommerzielle Nutzung brauchen, ist es damit raus. Für Forschung und internes Tooling ist es in Ordnung.

Wie konkurrieren GPT-5.5 und Opus 4.7 noch? Sie führen bei Harness-Reife, Tool-use-Shaping und Zuverlässigkeit unter unbeaufsichtigten agentischen Loops. Für One-Shot-Tasks, die ohne Verifier gelingen müssen, verdient die geschlossene Frontier ihren Aufpreis. Für alles andere bedeutet die Open-Source-Welle, dass Sie Alternativen testen sollten.

Soll ich alles migrieren? Nein. Migrieren Sie zuerst hochfrequente Routine-Calls (V4-Flash für Klassifikation und Routing). Fügen Sie pro Workload-Typ ein Open-Source-Frontier-Modell hinter einem Verifier hinzu (GLM-5.1, K2.6, V4-Pro je nach Workload). Behalten Sie die geschlossene Frontier für die härtesten, fehlerempfindlichsten Tasks, bis Sie Eval-Daten haben, die zeigen, dass eine offene Alternative sie ersetzen kann. Die Teams, die diesen Übergang gewinnen, sind die, die intelligent routen, nicht die, die pauschal umstellen.

Quellen und Verifikation

  • DeepSeek-V4-Ankündigung (24. April 2026)
  • GLM-5.1-Release-Notes von Z.ai (7. April 2026)
  • Kimi-K2.6-GA-Blog von Moonshot (21. April 2026)
  • Qwen-3.6-27B-Release von Alibaba (22. April 2026)
  • Claude-Opus-4.7-Ankündigung von Anthropic (16. April 2026)
  • GPT-5.5-Ankündigung von OpenAI (23. April 2026)
  • LiveCodeBench, SWE-Bench Verified, SWE-Bench Pro: aktuelle Rankings
  • Hugging-Face-Model-Cards und OpenRouter-Verfügbarkeit bestätigt

Das Preisbeben ist real. Das Wettbewerbsbild ist breiter als jeder einzelne Launch. Für Teams, die für Tasks ohne Frontier-Bedarf weiterhin Frontier-Tarife zahlen, hat sich die Mathematik in 30 Tagen weiter bewegt als in den vorangegangenen 12 Monaten.

Sie wollen Unterstützung beim Architekturentwurf für eine Multi-Model-Routing-Schicht, die diese Einsparungen einfängt, ohne Zuverlässigkeit zu opfern? Genau diese Art Arbeit liefert Context Studios Woche für Woche für Kunden.

Artikel teilen

Share: