GPT-5.3-Codex-Spark: 1.000 token/s su chip Cerebras

OpenAI lancia GPT-5.3-Codex-Spark sul Wafer Scale Engine 3 di Cerebras — oltre 1.000 token al secondo, roundtrip 80% più veloci e il primo modello di produzione non-Nvidia. Cosa significa per gli sviluppatori.

GPT-5.3-Codex-Spark: 1.000 token/s su chip Cerebras

GPT-5.3-Codex-Spark: Il primo modello OpenAI su chip Cerebras offre 1.000 token al secondo

OpenAI ha appena lanciato il modello di coding più veloce in produzione — e non gira su Nvidia.

GPT-5.3-Codex-Spark è stato lanciato il 12 febbraio 2026 come research preview per gli utenti ChatGPT Pro. È una versione più compatta e ottimizzata per la velocità di GPT-5.3-Codex, e il primo frutto della partnership tra OpenAI e Cerebras Systems. Il numero chiave: oltre 1.000 token al secondo per l'assistenza al coding in tempo reale.

Per gli sviluppatori che passano le giornate in attesa dei suggerimenti dell'IA, questo cambia radicalmente il modello di interazione. Analizziamo cos'è Codex-Spark, perché Cerebras è importante e cosa significa tutto questo per lo sviluppo AI-native.

Cos'è GPT-5.3-Codex-Spark?

Codex-Spark è una versione leggera di GPT-5.3-Codex, progettata specificamente per il coding interattivo in tempo reale. Mentre il GPT-5.3-Codex completo eccelle nei compiti autonomi di lunga durata — lavorando per ore o giorni senza intervento — Spark è progettato per l'opposto: collaborazione rapida e iterativa dove lo sviluppatore mantiene il controllo.

Specifiche chiave:

  • Velocità: 1.000+ token/secondo su hardware Cerebras
  • Finestra di contesto: 128K token
  • Modalità: Solo testo (per ora)
  • Disponibilità: Research preview per utenti ChatGPT Pro
  • Piattaforme: App Codex, CLI ed estensione VS Code
  • Limiti di velocità: Limiti separati durante la fase preview

Su SWE-Bench Pro e Terminal-Bench 2.0 — due benchmark per l'ingegneria del software agentica — Codex-Spark mostra prestazioni solide completando le attività in una frazione del tempo rispetto a GPT-5.3-Codex. Supera inoltre GPT-5.1-Codex-mini in termini di capacità.

Cos'è Cerebras e perché è importante?

Cerebras Systems costruisce i chip più grandi al mondo. Il loro Wafer Scale Engine 3 (WSE-3) ha letteralmente le dimensioni di un piatto da portata, con 4 trilioni di transistor. A differenza delle GPU convenzionali che collegano in rete molti chip piccoli, Cerebras mette tutto su un singolo wafer massiccio — eliminando i colli di bottiglia nella comunicazione che rallentano l'inferenza.

L'azienda ha dimostrato fino a 3.000 token al secondo su altri modelli. I « relativamente modesti » 1.000 tok/s di Codex-Spark riflettono probabilmente la complessità del modello piuttosto che limitazioni hardware.

Cerebras ha recentemente raccolto 1 miliardo di dollari con una valutazione di 23 miliardi di dollari e sta pianificando un'IPO. La loro partnership con OpenAI, annunciata nel gennaio 2026, vale oltre 10 miliardi di dollari su più anni.

La storia completa della velocità: non solo il chip

Il dato di 1.000 tok/s è solo parte dell'equazione. OpenAI ha anche riprogettato l'intero pipeline di inferenza:

  • Riduzione dell'80% dell'overhead dei roundtrip client/server
  • 50% più veloce il time-to-first-token (TTFT)
  • Riduzione del 30% dell'overhead per token
  • Connessioni WebSocket persistenti che sostituiscono i cicli richiesta-risposta tradizionali

Questi miglioramenti infrastrutturali verranno estesi a tutti i modelli, non solo a Codex-Spark. Il percorso WebSocket è abilitato di default per Spark e diventerà lo standard per l'intera flotta.

La strategia di diversificazione hardware di OpenAI

Codex-Spark segnala qualcosa di più grande di un singolo modello: OpenAI sta sistematicamente riducendo la sua dipendenza da Nvidia.

La cronologia:

  • Ottobre 2025: Accordo pluriennale sui chip con AMD
  • Novembre 2025: Accordo di cloud computing da 38 miliardi di dollari con Amazon
  • Gennaio 2026: Partnership da 10+ miliardi con Cerebras annunciata
  • Febbraio 2026: Codex-Spark lanciato come primo modello di produzione non-Nvidia
  • In corso: Progettazione di chip IA proprietario con TSMC

OpenAI non sta abbandonando Nvidia — le GPU restano fondamentali per il training e l'inferenza generale. Ma per i workload critici in termini di latenza come il coding in tempo reale, hardware specializzato come Cerebras offre vantaggi evidenti. Come ha detto OpenAI: « GPU e Cerebras possono essere combinati per singoli workload per raggiungere le migliori prestazioni. »

Cosa significa per gli sviluppatori

Il pair programming in tempo reale diventa realtà

A 1.000 token al secondo, l'IA smette di sembrare uno strumento che si aspetta e inizia a sembrare un collaboratore con cui si pensa. Si può interrompere, reindirizzare e iterare con risposte quasi istantanee. È la differenza tra mandare un'email e avere una conversazione.

Due modalità di coding IA

Codex ora supporta entrambi i paradigmi:

  1. Autonomia a lungo termine: GPT-5.3-Codex gestisce compiti complessi di diverse ore
  2. Iterazione in tempo reale: Codex-Spark per il prototipaggio rapido e le modifiche mirate

La visione di OpenAI: queste modalità alla fine si fonderanno — Codex mantiene lo sviluppatore in un ciclo interattivo stretto mentre delega compiti più lunghi a sotto-agenti in background.

La competizione sulla velocità si intensifica

Con Claude Opus 4.6 di Anthropic (febbraio 2026) che spinge i team di agenti e il coding multi-agente, e Google che raddoppia gli investimenti in IA, la corsa alle IA per il coding accelera. La velocità sta diventando il fattore differenziante — un modello che programma più velocemente permette agli sviluppatori di iterare più velocemente.

L'analisi di Context Studios

Dal nostro studio di Berlino, vediamo Codex-Spark come la conferma di una tesi su cui stiamo costruendo: il futuro dello sviluppo non sta nell'IA che sostituisce gli sviluppatori — ma nell'IA che si adatta alla velocità di pensiero degli sviluppatori.

I migliori strumenti di coding IA scompaiono nel workflow. Quando l'inferenza richiede secondi, si è costretti a cambiare contesto. Quando richiede millisecondi, si resta nel flow. Codex-Spark, combinato con strumenti come Claude Code 2.1 e GitHub Agent HQ, punta verso un'esperienza di sviluppo dove il collo di bottiglia si sposta da « aspettare l'IA » a « sapere cosa chiedere ».

Per i team che costruiscono applicazioni AI-native — e sono sempre di più — questo significa:

  • Cicli di prototipaggio più rapidi: Testare idee in secondi, non minuti
  • Costi di sperimentazione più bassi: Quando l'iterazione è economica, si prova di più
  • Nuovi pattern di interazione: Il pilotaggio in tempo reale sostituisce il batch-and-wait

Disponibilità e prezzi

Codex-Spark è attualmente disponibile come research preview per gli utenti ChatGPT Pro (200$/mese). Funziona in:

  • L'app Codex (ultima versione)
  • La CLI Codex
  • L'estensione VS Code

L'accesso API viene inizialmente rilasciato a un piccolo gruppo di design partner, con accesso più ampio nelle settimane successive. Durante la preview, si applicano limiti di velocità separati che possono essere modificati in base alla domanda.

Cosa ci aspetta

Codex-Spark è esplicitamente il « primo di una famiglia di modelli ultra-veloci ». OpenAI ha annunciato piani per:

  • Modelli più grandi su hardware Cerebras
  • Finestre di contesto più lunghe
  • Supporto per input multimodali
  • Fusione di workflow autonomi e in tempo reale

Come ha detto Sean Lie, CTO e cofondatore di Cerebras: « Ciò che ci entusiasma di più di GPT-5.3-Codex-Spark è collaborare con OpenAI e la comunità degli sviluppatori per scoprire cosa rende possibile l'inferenza veloce — nuovi pattern di interazione, nuovi casi d'uso e un'esperienza del modello fondamentalmente diversa. »

La corsa alla velocità di inferenza è appena iniziata. E per gli sviluppatori, questa è una notizia inequivocabilmente positiva.


Context Studios è uno studio di sviluppo IA con sede a Berlino, che crea applicazioni AI-native e condivide approfondimenti sugli strumenti che plasmano lo sviluppo software moderno.

Condividi articolo

Share: