GPT-5.3-Codex-Spark: OpenAIs erstes Modell auf Cerebras-Chips liefert 1.000 Tokens pro Sekunde

OpenAI hat gerade das schnellste Coding-Modell in Produktion gebracht — und es läuft nicht auf Nvidia.

GPT-5.3-Codex-Spark: 1.000 Tokens/s auf Cerebras-Chips steht im Mittelpunkt dieses Guides. GPT-5.3-Codex-Spark wurde am 12. Februar 2026 als Research Preview für ChatGPT Pro-Nutzer veröffentlicht. Es ist eine kleinere, auf Geschwindigkeit optimierte Version von GPT-5.3-Codex und die erste Frucht der Partnerschaft zwischen OpenAI und Cerebras Systems. Die Schlagzeile: über 1.000 Tokens pro Sekunde für Echtzeit-Coding-Unterstützung.

Für Entwickler, die ihren Tag damit verbringen, auf KI-Vorschläge zu warten, verändert das das Interaktionsmodell grundlegend. Schauen wir uns an, was Codex-Spark ist, warum Cerebras wichtig ist und was das für KI-native Entwicklung bedeutet.

Was ist GPT-5.3-Codex-Spark? — GPT-5.3-Codex-Spark: 1.000 Tokens/s auf Cerebras-Chips

Codex-Spark ist eine leichtgewichtige Version von GPT-5.3-Codex, die speziell für interaktives Echtzeit-Coding entwickelt wurde. Während das vollständige GPT-5.3-Codex bei langwierigen autonomen Aufgaben glänzt — stundenlang oder tagelang ohne Eingriff arbeitet — ist Spark für das Gegenteil konzipiert: schnelle, iterative Zusammenarbeit, bei der der Entwickler das Steuer in der Hand hat.

Technische Eckdaten:

Geschwindigkeit: 1.000+ Tokens/Sekunde auf Cerebras-Hardware
Kontextfenster: 128K Tokens
Modalität: Nur Text (vorerst)
Verfügbarkeit: Research Preview für ChatGPT Pro-Nutzer
Plattformen: Codex-App, CLI und VS Code Extension
Rate Limits: Separate Limits während der Preview-Phase

Auf SWE-Bench Pro und Terminal-Bench 2.0 — zwei Benchmarks für agentische Software-Entwicklung — zeigt Codex-Spark starke Leistung bei einem Bruchteil der Zeit im Vergleich zu GPT-5.3-Codex. Es übertrifft außerdem GPT-5.1-Codex-mini in der Leistungsfähigkeit.

Was ist Cerebras und warum ist es wichtig?

Cerebras Systems baut die größten Chips der Welt. Ihre Wafer Scale Engine 3 (WSE-3) ist buchstäblich so groß wie ein Essteller, bestückt mit 4 Billionen Transistoren. Im Gegensatz zu herkömmlichen GPUs, die viele kleine Chips miteinander vernetzen, packt Cerebras alles auf einen einzigen massiven Wafer — und eliminiert damit die Kommunikationsengpässe, die Inferenz verlangsamen.

Das Unternehmen hat bei anderen Modellen bis zu 3.000 Tokens pro Sekunde demonstriert. Die „vergleichsweise bescheidenen" 1.000 tok/s bei Codex-Spark spiegeln eher die Komplexität des Modells als Hardware-Limitierungen wider.

Cerebras hat kürzlich 1 Milliarde Dollar bei einer Bewertung von 23 Milliarden Dollar eingesammelt und plant einen Börsengang. Die Partnerschaft mit OpenAI, angekündigt im Januar 2026, hat ein Volumen von über 10 Milliarden Dollar über mehrere Jahre.

Die vollständige Speed-Story: Nicht nur der Chip

Die 1.000 tok/s-Schlagzeile ist nur ein Teil des Bildes. OpenAI hat auch die gesamte Inferenz-Pipeline neu konzipiert:

80% Reduktion des Client/Server-Roundtrip-Overheads
50% schnellere Time-to-First-Token (TTFT)
30% Reduktion des Pro-Token-Overheads
Persistente WebSocket-Verbindungen ersetzen traditionelle Request-Response-Zyklen

Diese Infrastruktur-Verbesserungen werden auf alle Modelle ausgerollt, nicht nur auf Codex-Spark. Der WebSocket-Pfad ist standardmäßig für Spark aktiviert und wird bald zum Standard für die gesamte Flotte.

OpenAIs Hardware-Diversifizierungsstrategie

Codex-Spark signalisiert etwas Größeres als ein einzelnes Modell: OpenAI reduziert systematisch seine Abhängigkeit von Nvidia.

Die Timeline:

Oktober 2025: Mehrjähriger Chip-Deal mit AMD
November 2025: 38-Milliarden-Dollar Cloud-Computing-Vereinbarung mit Amazon
Januar 2026: 10-Milliarden-Dollar-Partnerschaft mit Cerebras angekündigt
Februar 2026: Codex-Spark erscheint als erstes Nicht-Nvidia-Produktionsmodell
Laufend: Eigenes KI-Chip-Design mit TSMC

OpenAI verabschiedet sich nicht von Nvidia — GPUs bleiben fundamental für Training und allgemeine Inferenz. Aber für latenzkritische Workloads wie Echtzeit-Coding bietet spezialisierte Hardware wie Cerebras klare Vorteile. Wie OpenAI es formulierte: „GPUs und Cerebras können für einzelne Workloads kombiniert werden, um die beste Performance zu erreichen."

Was das für Entwickler bedeutet

Echtzeit-Pair-Programming wird Realität

Bei 1.000 Tokens pro Sekunde fühlt sich die KI nicht mehr wie ein Werkzeug an, auf das man wartet, sondern wie ein Kollaborateur, mit dem man denkt. Man kann unterbrechen, umlenken und mit nahezu sofortigen Antworten iterieren. Das ist der Unterschied zwischen einer E-Mail schreiben und einem Gespräch führen.

Zwei Modi des KI-Codings

Codex unterstützt jetzt beide Paradigmen:

Langfristige Autonomie: GPT-5.3-Codex erledigt komplexe, mehrstündige Aufgaben
Echtzeit-Iteration: Codex-Spark für Rapid Prototyping und gezielte Edits

OpenAIs Vision: Diese Modi werden sich irgendwann verschmelzen — Codex hält den Entwickler in einer engen interaktiven Schleife, während längere Aufgaben an Sub-Agenten im Hintergrund delegiert werden.

Der Geschwindigkeitswettbewerb verschärft sich

Mit Anthropics Claude Opus 4.6 (Februar 2026), das Agent Teams und Multi-Agent-Coding vorantreibt, und Google, das seine KI-Investitionen verdoppelt, beschleunigt sich das Coding-KI-Rennen. Geschwindigkeit wird zum Differenzierungsmerkmal — ein Modell, das schneller codet, lässt Entwickler schneller iterieren.

Das Context Studios Fazit

Aus unserem Berliner Studio sehen wir Codex-Spark als Bestätigung einer These, auf der wir aufbauen: Die Zukunft der Entwicklung liegt nicht darin, dass KI Entwickler ersetzt — sondern darin, dass KI mit der Denkgeschwindigkeit der Entwickler mithalten kann.

Die besten KI-Coding-Tools verschwinden im Workflow. Wenn Inferenz Sekunden dauert, muss man den Kontext wechseln. Wenn sie Millisekunden dauert, bleibt man im Flow. Codex-Spark, kombiniert mit Tools wie Claude Code 2.1 und GitHub Agent HQ, deutet auf eine Entwicklungserfahrung hin, bei der der Engpass sich von „auf die KI warten" zu „wissen, was man fragen soll" verschiebt.

Für Teams, die KI-native Anwendungen bauen — und das sind zunehmend alle Teams — bedeutet das:

Schnellere Prototyping-Zyklen: Ideen in Sekunden testen, nicht Minuten
Niedrigere Experimentierkosten: Wenn Iteration billig ist, probiert man mehr aus
Neue Interaktionsmuster: Echtzeit-Steuerung ersetzt Batch-and-Wait

Verfügbarkeit und Preise

Codex-Spark ist derzeit als Research Preview für ChatGPT Pro-Nutzer (200$/Monat) verfügbar. Es funktioniert in:

Der Codex-App (neueste Version)
Der Codex-CLI
Der VS Code Extension

API-Zugang wird zunächst an eine kleine Gruppe von Design-Partnern ausgerollt, breiterer Zugang folgt in den kommenden Wochen. Während der Preview gelten separate Rate Limits, die je nach Nachfrage angepasst werden können.

Was kommt als Nächstes

Codex-Spark ist explizit das „erste einer Familie ultraschneller Modelle." OpenAI hat Pläne angekündigt für:

Größere Modelle auf Cerebras-Hardware
Längere Kontextfenster
Multimodale Eingabe-Unterstützung
Verschmelzung von autonomen und Echtzeit-Workflows

Wie Sean Lie, CTO und Mitgründer von Cerebras, sagte: „Was uns am meisten an GPT-5.3-Codex-Spark begeistert, ist die Partnerschaft mit OpenAI und der Entwickler-Community, um herauszufinden, was schnelle Inferenz möglich macht — neue Interaktionsmuster, neue Anwendungsfälle und eine fundamental andere Modell-Erfahrung."

Das Inferenz-Geschwindigkeitsrennen hat gerade erst begonnen. Und für Entwickler ist das eindeutig eine gute Nachricht.

Context Studios ist ein KI-Entwicklungsstudio in Berlin, das KI-native Anwendungen entwickelt und Einblicke in die Tools teilt, die moderne Softwareentwicklung formen.

GPT-5.3-Codex-Spark: 1.000 Tokens/s auf Cerebras-Chips