GPT-5.3-Codex-Spark : 1 000 tokens/s sur puces Cerebras

OpenAI lance GPT-5.3-Codex-Spark sur le Wafer Scale Engine 3 de Cerebras — plus de 1 000 tokens par seconde, des roundtrips 80% plus rapides et le premier modèle de production non-Nvidia. Ce que cela signifie pour les développeurs.

GPT-5.3-Codex-Spark : 1 000 tokens/s sur puces Cerebras

GPT-5.3-Codex-Spark : Le premier modèle d'OpenAI sur puces Cerebras délivre 1 000 tokens par seconde

OpenAI vient de lancer le modèle de coding le plus rapide en production — et il ne tourne pas sur Nvidia.

GPT-5.3-Codex-Spark a été lancé le 12 février 2026 en tant que research preview pour les utilisateurs ChatGPT Pro. C'est une version plus compacte et optimisée pour la vitesse de GPT-5.3-Codex, et le premier fruit du partenariat entre OpenAI et Cerebras Systems. Le chiffre clé : plus de 1 000 tokens par seconde pour l'assistance au coding en temps réel.

Pour les développeurs qui passent leurs journées à attendre les suggestions de l'IA, cela change fondamentalement le modèle d'interaction. Analysons ce qu'est Codex-Spark, pourquoi Cerebras compte, et ce que cela signifie pour le [développement](https://www.contextstudios.ai/fr/blog/application-openai-codex-guide-complet-de-la-nouvelle-application-[multi-agent](https://www.contextstudios.ai/fr/blog/github-agent-hq-lavenir-multi-agent-du-coding-est-arriv "GitHub Agent HQ : L'avenir multi-agent du coding est arrivé")-coding "Application OpenAI Codex : Guide complet de la nouvelle application Multi-Agent Coding") AI-native.

Qu'est-ce que GPT-5.3-Codex-Spark ?

Codex-Spark est une version légère de GPT-5.3-Codex, conçue spécifiquement pour le coding interactif en temps réel. Là où le GPT-5.3-Codex complet excelle dans les tâches autonomes de longue durée — travaillant pendant des heures ou des jours sans intervention — Spark est conçu pour l'inverse : une collaboration rapide et itérative où le développeur garde le contrôle.

Spécifications clés :

  • Vitesse : 1 000+ tokens/seconde sur matériel Cerebras
  • Fenêtre de contexte : 128K tokens
  • Modalité : Texte uniquement (pour l'instant)
  • Disponibilité : Research preview pour utilisateurs ChatGPT Pro
  • Plateformes : App Codex, CLI et extension VS Code
  • Limites de débit : Limites séparées pendant la phase preview

Sur SWE-Bench Pro et Terminal-Bench 2.0 — deux benchmarks pour l'ingénierie logicielle agentique — Codex-Spark affiche de solides performances tout en accomplissant les tâches en une fraction du temps par rapport à GPT-5.3-Codex. Il surpasse également GPT-5.1-Codex-mini en termes de capacité.

Qu'est-ce que Cerebras et pourquoi est-ce important ?

Cerebras Systems fabrique les plus grandes puces au monde. Leur Wafer Scale Engine 3 (WSE-3) a littéralement la taille d'une assiette, intégrant 4 billions de transistors. Contrairement aux GPU conventionnels qui connectent de nombreuses petites puces en réseau, Cerebras met tout sur un seul wafer massif — éliminant les goulots d'étranglement de communication qui ralentissent l'inférence.

L'entreprise a démontré jusqu'à 3 000 tokens par seconde sur d'autres modèles. Les « relativement modestes » 1 000 tok/s de Codex-Spark reflètent probablement la complexité du modèle plutôt que des limitations matérielles.

Cerebras a récemment levé 1 milliard de dollars pour une valorisation de 23 milliards de dollars et prévoit une introduction en bourse. Leur partenariat avec OpenAI, annoncé en janvier 2026, représente plus de 10 milliards de dollars sur plusieurs années.

L'histoire complète de la vitesse : pas seulement la puce

Le chiffre de 1 000 tok/s n'est qu'une partie de l'équation. OpenAI a également repensé l'ensemble de son pipeline d'inférence :

  • Réduction de 80% de l'overhead des allers-retours client/serveur
  • 50% plus rapide pour le time-to-first-token (TTFT)
  • Réduction de 30% de l'overhead par token
  • Connexions WebSocket persistantes remplaçant les cycles requête-réponse traditionnels

Ces améliorations d'infrastructure seront déployées pour tous les modèles, pas seulement Codex-Spark. Le chemin WebSocket est activé par défaut pour Spark et deviendra le standard pour l'ensemble de la flotte.

La stratégie de diversification matérielle d'OpenAI

Codex-Spark signale quelque chose de plus grand qu'un seul modèle : OpenAI réduit systématiquement sa dépendance envers Nvidia.

La chronologie :

  • Octobre 2025 : Accord multi-annuel sur les puces avec AMD
  • Novembre 2025 : Accord de cloud computing de 38 milliards de dollars avec Amazon
  • Janvier 2026 : Partenariat de 10 milliards+ avec Cerebras annoncé
  • Février 2026 : Codex-Spark lancé comme premier modèle de production non-Nvidia
  • En cours : Conception de puce IA propriétaire avec TSMC

OpenAI n'abandonne pas Nvidia — les GPU restent fondamentaux pour l'entraînement et l'inférence générale. Mais pour les charges de travail critiques en latence comme le coding en temps réel, le matériel spécialisé comme Cerebras offre des avantages évidents. Comme OpenAI l'a formulé : « Les GPU et Cerebras peuvent être combinés pour des charges de travail uniques afin d'atteindre la meilleure performance. »

Ce que cela signifie pour les développeurs

Le pair programming en temps réel devient réalité

À 1 000 tokens par seconde, l'IA cesse de ressembler à un outil qu'on attend et commence à ressembler à un collaborateur avec lequel on pense. On peut interrompre, rediriger et itérer avec des réponses quasi instantanées. C'est la différence entre envoyer un email et avoir une conversation.

Deux modes de coding IA

Codex supporte désormais les deux paradigmes :

  1. Autonomie longue durée : GPT-5.3-Codex gère les tâches complexes de plusieurs heures
  2. Itération en temps réel : Codex-Spark pour le prototypage rapide et les modifications ciblées

La vision d'OpenAI : ces modes finiront par fusionner — Codex maintient le développeur dans une boucle interactive serrée tout en déléguant les tâches plus longues à des sous-agents en arrière-plan.

La compétition de vitesse s'intensifie

Avec Claude Opus 4.6 d'Anthropic (février 2026) qui pousse les équipes d'agents et le coding multi-agents, et Google qui double ses investissements IA, la course aux IA de coding s'accélère. La vitesse devient le facteur différenciant — un modèle qui code plus vite permet aux développeurs d'itérer plus vite.

L'analyse Context Studios

Depuis notre studio berlinois, nous voyons Codex-Spark comme la validation d'une thèse que nous développons : l'avenir du développement ne réside pas dans le remplacement des développeurs par l'IA — mais dans une IA qui s'adapte à la vitesse de pensée des développeurs.

Les meilleurs outils de coding IA disparaissent dans le workflow. Quand l'inférence prend des secondes, on est forcé de changer de contexte. Quand elle prend des millisecondes, on reste dans le flow. Codex-Spark, combiné avec des outils comme Claude Code 2.1 et GitHub Agent HQ, pointe vers une expérience de développement où le goulot d'étranglement passe de « attendre l'IA » à « savoir quoi demander ».

Pour les équipes qui construisent des applications AI-native — et c'est de plus en plus le cas de toutes les équipes — cela signifie :

  • Des cycles de prototypage plus rapides : Tester des idées en secondes, pas en minutes
  • Un coût d'expérimentation plus bas : Quand l'itération est bon marché, on essaie plus de choses
  • De nouveaux patterns d'interaction : Le pilotage en temps réel remplace le batch-and-wait

Disponibilité et tarifs

Codex-Spark est actuellement disponible en research preview pour les utilisateurs ChatGPT Pro (200$/mois). Il fonctionne dans :

  • L'app Codex (dernière version)
  • La CLI Codex
  • L'extension VS Code

L'accès API est d'abord déployé auprès d'un petit groupe de partenaires design, avec un accès plus large dans les semaines à venir. Pendant la preview, des limites de débit séparées s'appliquent et peuvent être ajustées selon la demande.

Et ensuite ?

Codex-Spark est explicitement le « premier d'une famille de modèles ultra-rapides ». OpenAI a annoncé des plans pour :

  • Des modèles plus grands sur matériel Cerebras
  • Des fenêtres de contexte plus longues
  • Le support d'entrées multimodales
  • La fusion des workflows autonomes et temps réel

Comme l'a dit Sean Lie, CTO et cofondateur de Cerebras : « Ce qui nous enthousiasme le plus avec GPT-5.3-Codex-Spark, c'est de nous associer à OpenAI et à la communauté des développeurs pour découvrir ce que l'inférence rapide rend possible — de nouveaux patterns d'interaction, de nouveaux cas d'usage et une expérience de modèle fondamentalement différente. »

La course à la vitesse d'inférence ne fait que commencer. Et pour les développeurs, c'est une nouvelle sans ambiguïté positive.


Context Studios est un studio de développement IA basé à Berlin, qui crée des applications AI-native et partage des analyses sur les outils qui façonnent le développement logiciel moderne.

Partager l'article

Share: