GLM-5: Chinas 744B Open-Source-Modell fordert GPT-5.2 heraus

GLM-5 erreicht 50 im Intelligence Index — ein Novum für Open Source

Zhipu AI hat GLM-5 am 11. Februar 2026 veröffentlicht, und die Zahlen sprechen für sich: ein Score von 50 im Artificial Analysis Intelligence Index v4.0 — das erste Open-Weight-Modell, das diese Schwelle erreicht. Es belegt Platz 1 unter den offenen Modellen sowohl in der LMArena Text Arena als auch der Code Arena und liegt damit auf Augenhöhe mit Claude Opus 4.5 und GPT-5.2 (xhigh) bei agentischen, Reasoning- und Coding-Benchmarks.

Für Entwickler, die auf ein Open-Source-Modell gewartet haben, das echte Software-Engineering-Aufgaben bewältigen kann — nicht nur Benchmark-Puzzles — ist GLM-5 der bisher glaubwürdigste Kandidat.

Architektur: 744B Parameter, nur 40B aktiv

GLM-5 nutzt eine Mixture-of-Experts (MoE)-Architektur mit 744 Milliarden Gesamtparametern, von denen nur 40 Milliarden pro Token aktiv sind. Das ist ein erheblicher Effizienzgewinn: Man erhält Frontier-Level-Fähigkeiten bei etwa einem Fünftel der Rechenkosten eines vergleichbaren dichten Modells.

Die zentrale architektonische Innovation ist Dynamic Sparse Attention (DSA), die den Standard-MoE-Ansatz von GLM-4.5 ersetzt. DSA weist Aufmerksamkeitsressourcen dynamisch nach Token-Wichtigkeit zu und reduziert den Rechenaufwand, ohne das Langkontext-Verständnis zu beeinträchtigen. Das Modell unterstützt ein 200K-Kontextfenster mit 128K maximaler Ausgabe.

Training im großen Maßstab

Pre-Training-Korpus: 28,5 Billionen Token (gegenüber 15T bei GLM-4.5)
Architektur: MoE mit DSA, 744B gesamt / 40B aktive Parameter
Kontext: 200K Eingabe, 128K Ausgabe
Lizenz: MIT (vollständig offen)
Mid-Training-Phase: Progressive Kontexterweiterung von 4K auf 200K mit Langkontext-Agentendaten

Die Geheimzutat: Asynchrones Agent Reinforcement Learning

GLM-5s Post-Training-Pipeline ist besonders interessant. Zhipu AI implementierte einen dreistufigen sequenziellen Reinforcement-Learning-Prozess:

Reasoning RL — Schärfung logischer und mathematischer Fähigkeiten
Agentic RL — Training für komplexe, mehrstufige Workflows
General RL — Verbreiterung der Leistung über diverse Aufgaben

Der Durchbruch ist die asynchrone RL-Infrastruktur, die Generierung und Training entkoppelt. Traditionelles RL für LLMs erzwingt synchrone Verarbeitung und erzeugt einen Engpass. Zhipus Ansatz parallelisiert beides und verbessert den Post-Training-Durchsatz dramatisch.

Zusätzlich wurde On-Policy Cross-Stage Distillation eingeführt, um katastrophales Vergessen zu verhindern.

Benchmark-Ergebnisse: Wo GLM-5 steht

GLM-5 wurde auf 8 Schlüssel-Benchmarks neben DeepSeek-V3.2, Claude Opus 4.5, Gemini 3 Pro und GPT-5.2 evaluiert:

Benchmark	Was es testet	GLM-5 Leistung
SWE-bench Verified	GitHub-Issue-Lösung	Konkurrenzfähig mit Claude Opus 4.5
Terminal-Bench 2.0	Terminal-basiertes Engineering	Top-Tier Open-Source
Humanity's Last Exam	Frontier-Wissen	State-of-the-Art offenes Modell
MCP-Atlas	MCP-Tool-Integration	Führendes offenes Modell
τ²-Bench	Agentisches Reasoning	Nahe Claude Opus 4.5
Vending Bench 2	Langzeit-Business-Simulation	#1 offenes Modell ($4.432 Endguthaben)

Im Durchschnitt zeigt GLM-5 eine 20%ige Verbesserung gegenüber seinem Vorgänger GLM-4.7.

Praktische Builder-Bewertung: Kann man GLM-5 tatsächlich nutzen?

Was gut funktioniert

Agentische Coding-Aufgaben: GLM-5 glänzt bei End-to-End-Software-Engineering.
Langzeit-Aufgaben: Die Vending-Bench-2-Ergebnisse (#1 unter offenen Modellen) demonstrieren echte Langzeitplanung.
Kosteneffizienz: Mit nur 40B aktiven Parametern sind die Inferenzkosten etwa 6x niedriger als proprietäre Alternativen.
MIT-Lizenz: Keine Nutzungseinschränkungen, keine Umsatzobergrenzen.

Die Einschränkungen

Hosting-Anforderungen: 744B Gesamtparameter erfordern erhebliche Infrastruktur und Multi-GPU-Setups.
API-Zugang: Zhipu bietet API-Zugang über ihre Plattform, aber die Latenz außerhalb Chinas kann variieren.
Ökosystem-Reife: Das Tooling-Ökosystem wächst, liegt aber noch hinter OpenAI und Anthropic.
Benchmark vs. Realität: Unabhängige Verifizierung der Praxisleistung läuft noch.

Open-Source-Implikationen für die Branche

GLM-5s Score von 50 im Intelligence Index hat weitreichende Bedeutung:

Der proprietäre Graben schrumpft: Wenn ein MIT-lizenziertes Modell GPT-5.2 bei Coding-Aufgaben erreicht, verschiebt sich das Wertversprechen geschlossener Modelle.
Chinas KI-Wettbewerbsfähigkeit ist real: Trotz Exportkontrollen bei Chips drängt Zhipu AI weiter an die Frontier.
Self-Hosting wird für ernsthafte Workloads machbar: Unternehmen mit Datenschutzanforderungen haben jetzt eine Frontier-Option.
Agent-Frameworks profitieren am meisten: Open-Weight-Modelle senken die Einstiegshürde für autonome Coding-Agents.

GLM-5 vs. GPT-5.2 vs. Claude Opus 4.5: Der Vergleich

Merkmal	GLM-5	GPT-5.2	Claude Opus 4.5
Parameter	744B (40B aktiv)	Nicht veröffentlicht	Nicht veröffentlicht
Kontextfenster	200K	400K	200K
Max. Ausgabe	128K	32K	64K
Lizenz	MIT (offen)	Proprietär	Proprietär
Intelligence Index	50	~52	~51
Kosten (ca.)	~6x günstiger	$$$	$$$

Wer steckt hinter GLM-5: Zhipu AI

Zhipu AI (Z.ai) ist ein in Peking ansässiges KI-Unternehmen, das aus der Knowledge Engineering Group der Tsinghua-Universität hervorgegangen ist. Gegründet 2019, haben sie über 400 Millionen Dollar eingesammelt und waren einer der ersten chinesischen Anbieter wettbewerbsfähiger Open-Source-LLMs mit der GLM-Serie.

FAQ

Ist GLM-5 wirklich Open Source?

Ja. GLM-5 wird unter der MIT-Lizenz veröffentlicht, die uneingeschränkte kommerzielle Nutzung, Modifikation und Verbreitung erlaubt. Modellgewichte, Code und Dokumentation sind auf GitHub verfügbar.

Wie vergleicht sich GLM-5 mit DeepSeek-V3.2?

GLM-5 übertrifft DeepSeek-V3.2 bei den meisten agentischen und Coding-Benchmarks. Die DSA-Architektur und das dreistufige RL-Training verschaffen ihm einen Vorteil bei Langzeit-Aufgaben.

Kann ich GLM-5 lokal betreiben?

Das volle 744B-Modell erfordert erhebliche Hardware — mehrere High-End-GPUs. Die 40B aktiven Parameter machen die Inferenz jedoch effizienter als ein dichtes Modell vergleichbarer Fähigkeit.

Was ist der Intelligence Index v4.0?

Der Artificial Analysis Intelligence Index v4.0 ist ein zusammengesetzter Benchmark mit 10 Evaluierungen. GLM-5s Score von 50 macht es zum bestbewerteten Open-Weight-Modell.

Ist GLM-5 für den Produktiveinsatz geeignet?

Für Coding- und agentische Aufgaben zeigt GLM-5 produktionsreife Leistung. Gründliche Tests für den eigenen Anwendungsfall werden empfohlen.