GLM-5 erreicht 50 im Intelligence Index — ein Novum für Open Source
Zhipu AI hat GLM-5 am 11. Februar 2026 veröffentlicht, und die Zahlen sprechen für sich: ein Score von 50 im Artificial Analysis Intelligence Index v4.0 — das erste Open-Weight-Modell, das diese Schwelle erreicht. Es belegt Platz 1 unter den offenen Modellen sowohl in der LMArena Text Arena als auch der Code Arena und liegt damit auf Augenhöhe mit Claude Opus 4.5 und GPT-5.2 (xhigh) bei agentischen, Reasoning- und Coding-Benchmarks.
Für Entwickler, die auf ein Open-Source-Modell gewartet haben, das echte Software-Engineering-Aufgaben bewältigen kann — nicht nur Benchmark-Puzzles — ist GLM-5 der bisher glaubwürdigste Kandidat.
Architektur: 744B Parameter, nur 40B aktiv
GLM-5 nutzt eine Mixture-of-Experts (MoE)-Architektur mit 744 Milliarden Gesamtparametern, von denen nur 40 Milliarden pro Token aktiv sind. Das ist ein erheblicher Effizienzgewinn: Man erhält Frontier-Level-Fähigkeiten bei etwa einem Fünftel der Rechenkosten eines vergleichbaren dichten Modells.
Die zentrale architektonische Innovation ist Dynamic Sparse Attention (DSA), die den Standard-MoE-Ansatz von GLM-4.5 ersetzt. DSA weist Aufmerksamkeitsressourcen dynamisch nach Token-Wichtigkeit zu und reduziert den Rechenaufwand, ohne das Langkontext-Verständnis zu beeinträchtigen. Das Modell unterstützt ein 200K-Kontextfenster mit 128K maximaler Ausgabe.
Training im großen Maßstab
- Pre-Training-Korpus: 28,5 Billionen Token (gegenüber 15T bei GLM-4.5)
- Architektur: MoE mit DSA, 744B gesamt / 40B aktive Parameter
- Kontext: 200K Eingabe, 128K Ausgabe
- Lizenz: MIT (vollständig offen)
- Mid-Training-Phase: Progressive Kontexterweiterung von 4K auf 200K mit Langkontext-Agentendaten
Die Geheimzutat: Asynchrones Agent Reinforcement Learning
GLM-5s Post-Training-Pipeline ist besonders interessant. Zhipu AI implementierte einen dreistufigen sequenziellen Reinforcement-Learning-Prozess:
- Reasoning RL — Schärfung logischer und mathematischer Fähigkeiten
- Agentic RL — Training für komplexe, mehrstufige Workflows
- General RL — Verbreiterung der Leistung über diverse Aufgaben
Der Durchbruch ist die asynchrone RL-Infrastruktur, die Generierung und Training entkoppelt. Traditionelles RL für LLMs erzwingt synchrone Verarbeitung und erzeugt einen Engpass. Zhipus Ansatz parallelisiert beides und verbessert den Post-Training-Durchsatz dramatisch.
Zusätzlich wurde On-Policy Cross-Stage Distillation eingeführt, um katastrophales Vergessen zu verhindern.
Benchmark-Ergebnisse: Wo GLM-5 steht
GLM-5 wurde auf 8 Schlüssel-Benchmarks neben DeepSeek-V3.2, Claude Opus 4.5, Gemini 3 Pro und GPT-5.2 evaluiert:
| Benchmark | Was es testet | GLM-5 Leistung |
|---|---|---|
| SWE-bench Verified | GitHub-Issue-Lösung | Konkurrenzfähig mit Claude Opus 4.5 |
| Terminal-Bench 2.0 | Terminal-basiertes Engineering | Top-Tier Open-Source |
| Humanity's Last Exam | Frontier-Wissen | State-of-the-Art offenes Modell |
| MCP-Atlas | MCP-Tool-Integration | Führendes offenes Modell |
| τ²-Bench | Agentisches Reasoning | Nahe Claude Opus 4.5 |
| Vending Bench 2 | Langzeit-Business-Simulation | #1 offenes Modell ($4.432 Endguthaben) |
Im Durchschnitt zeigt GLM-5 eine 20%ige Verbesserung gegenüber seinem Vorgänger GLM-4.7.
Praktische Builder-Bewertung: Kann man GLM-5 tatsächlich nutzen?
Was gut funktioniert
- Agentische Coding-Aufgaben: GLM-5 glänzt bei End-to-End-Software-Engineering.
- Langzeit-Aufgaben: Die Vending-Bench-2-Ergebnisse (#1 unter offenen Modellen) demonstrieren echte Langzeitplanung.
- Kosteneffizienz: Mit nur 40B aktiven Parametern sind die Inferenzkosten etwa 6x niedriger als proprietäre Alternativen.
- MIT-Lizenz: Keine Nutzungseinschränkungen, keine Umsatzobergrenzen.
Die Einschränkungen
- Hosting-Anforderungen: 744B Gesamtparameter erfordern erhebliche Infrastruktur und Multi-GPU-Setups.
- API-Zugang: Zhipu bietet API-Zugang über ihre Plattform, aber die Latenz außerhalb Chinas kann variieren.
- Ökosystem-Reife: Das Tooling-Ökosystem wächst, liegt aber noch hinter OpenAI und Anthropic.
- Benchmark vs. Realität: Unabhängige Verifizierung der Praxisleistung läuft noch.
Open-Source-Implikationen für die Branche
GLM-5s Score von 50 im Intelligence Index hat weitreichende Bedeutung:
- Der proprietäre Graben schrumpft: Wenn ein MIT-lizenziertes Modell GPT-5.2 bei Coding-Aufgaben erreicht, verschiebt sich das Wertversprechen geschlossener Modelle.
- Chinas KI-Wettbewerbsfähigkeit ist real: Trotz Exportkontrollen bei Chips drängt Zhipu AI weiter an die Frontier.
- Self-Hosting wird für ernsthafte Workloads machbar: Unternehmen mit Datenschutzanforderungen haben jetzt eine Frontier-Option.
- Agent-Frameworks profitieren am meisten: Open-Weight-Modelle senken die Einstiegshürde für autonome Coding-Agents.
GLM-5 vs. GPT-5.2 vs. Claude Opus 4.5: Der Vergleich
| Merkmal | GLM-5 | GPT-5.2 | Claude Opus 4.5 |
|---|---|---|---|
| Parameter | 744B (40B aktiv) | Nicht veröffentlicht | Nicht veröffentlicht |
| Kontextfenster | 200K | 400K | 200K |
| Max. Ausgabe | 128K | 32K | 64K |
| Lizenz | MIT (offen) | Proprietär | Proprietär |
| Intelligence Index | 50 | ~52 | ~51 |
| Kosten (ca.) | ~6x günstiger | $$$ | $$$ |
Wer steckt hinter GLM-5: Zhipu AI
Zhipu AI (Z.ai) ist ein in Peking ansässiges KI-Unternehmen, das aus der Knowledge Engineering Group der Tsinghua-Universität hervorgegangen ist. Gegründet 2019, haben sie über 400 Millionen Dollar eingesammelt und waren einer der ersten chinesischen Anbieter wettbewerbsfähiger Open-Source-LLMs mit der GLM-Serie.
FAQ
Ist GLM-5 wirklich Open Source?
Ja. GLM-5 wird unter der MIT-Lizenz veröffentlicht, die uneingeschränkte kommerzielle Nutzung, Modifikation und Verbreitung erlaubt. Modellgewichte, Code und Dokumentation sind auf GitHub verfügbar.
Wie vergleicht sich GLM-5 mit DeepSeek-V3.2?
GLM-5 übertrifft DeepSeek-V3.2 bei den meisten agentischen und Coding-Benchmarks. Die DSA-Architektur und das dreistufige RL-Training verschaffen ihm einen Vorteil bei Langzeit-Aufgaben.
Kann ich GLM-5 lokal betreiben?
Das volle 744B-Modell erfordert erhebliche Hardware — mehrere High-End-GPUs. Die 40B aktiven Parameter machen die Inferenz jedoch effizienter als ein dichtes Modell vergleichbarer Fähigkeit.
Was ist der Intelligence Index v4.0?
Der Artificial Analysis Intelligence Index v4.0 ist ein zusammengesetzter Benchmark mit 10 Evaluierungen. GLM-5s Score von 50 macht es zum bestbewerteten Open-Weight-Modell.
Ist GLM-5 für den Produktiveinsatz geeignet?
Für Coding- und agentische Aufgaben zeigt GLM-5 produktionsreife Leistung. Gründliche Tests für den eigenen Anwendungsfall werden empfohlen.