Mythos à 92,1 % : l'IA qui a juste besoin de plus de temps

Claude Mythos Preview atteint 92,1 % sur Terminal-Bench 2.1 avec un timeout de 4 heures. Ce que ce score révèle sur l'évaluation de l'IA et ses implications pour les équipes enterprise.

Mythos à 92,1 % : l'IA qui a juste besoin de plus de temps

Mythos à 92,1 % : l'IA qui a juste besoin de plus de temps

Accordez quatre heures à un agent IA au lieu de trente minutes et son score benchmark bondit de dix points. C'est le titre de la mise à jour discrète d'Anthropic sur la page Project Glasswing le 13 avril 2026 — et cela recentre toute la conversation sur ce que Claude Mythos Preview peut réellement accomplir.

Lorsqu'Anthropic a annoncé Mythos Preview le 7 avril, le modèle obtenait 82 % sur Terminal-Bench 2.0. Impressionnant, mais pas dominant. Six jours plus tard, avec un timeout plus long et une version de benchmark révisée, ce chiffre est devenu 92,1 %. Le modèle n'est pas devenu plus intelligent. Il a obtenu plus de temps.

Cette distinction compte plus que la plupart des analyses ne le reconnaissent. Pour les équipes d'entreprise qui décident comment déployer des agents IA, la différence entre « ce modèle n'est pas assez capable » et « ce modèle a besoin d'un budget temps différent » est la différence entre abandonner un projet et le livrer.

Ce qui a réellement changé : de 82 % à 92,1 %

Le lancement initial de Mythos Preview le 7 avril 2026 rapportait un score de 82 % sur Terminal-Bench 2.0 et 77,8 % sur SWE-bench Verified. La mise à jour du 13 avril a modifié deux variables simultanément : le benchmark lui-même (2.0 vers 2.1, correction de la sensibilité à la latence) et le timeout (de trente minutes à quatre heures).

Le résultat : un bond de 82 % à 92,1 %. Une amélioration de 12,3 points de pourcentage en modifiant les conditions d'évaluation, pas le modèle.

Terminal-Bench 2.1 : pourquoi la mise à jour du benchmark compte

Terminal-Bench évalue les agents IA sur des tâches réelles en terminal — débogage, configuration d'infrastructure, navigation dans des bases de code complexes. La mise à jour de la version 2.0 vers 2.1 a corrigé un défaut spécifique : les tâches avec des timeouts fixes pénalisaient systématiquement les modèles avec une latence d'inférence plus élevée.

Un modèle qui prenait le temps de réfléchir avant d'agir était évalué de la même manière qu'un modèle qui échouait — les deux dépassaient le timeout. Les ingénieurs expérimentés prennent des durées variables pour les mêmes tâches. Contraindre les agents IA à trente minutes tout en accordant un temps illimité aux humains n'est pas une comparaison équitable — c'est une erreur de mesure.

Le changement de paradigme du temps de calcul

Le résultat de Mythos illustre le test-time compute scaling : au lieu de construire des modèles plus grands, on accorde aux modèles existants plus de temps pour réfléchir. Cela transforme la structure des coûts (dépenses opérationnelles plutôt que dépenses d'investissement), rend la qualité ajustable (30 minutes pour les tâches routinières, 4 heures pour les tâches critiques) et impose une mise à jour des cadres d'évaluation.

Chez Context Studios, nous observons régulièrement cette dynamique : un agent IA qui semble échouer sur une tâche complexe réussit souvent lorsqu'on lui accorde une fenêtre d'exécution plus longue. La capacité était toujours là — la contrainte était le temps, pas l'intelligence.

Ce que cela signifie pour les équipes IA d'entreprise

Le résultat de 92,1 % a des implications pratiques immédiates pour le déploiement d'agents IA :

Réévaluer les outils rejetés. Un modèle qui échouait à deux minutes peut réussir à vingt. Budgéter explicitement le temps de calcul. Les plateformes comme OpenClaw permettent des timeouts configurables par tâche. Adapter les budgets temps à la criticité. Les audits de sécurité et les revues de code méritent des fenêtres de calcul plus longues. Benchmarker vos propres workflows. Exécutez le même agent IA avec cinq valeurs de timeout différentes.

Les onze organisations ayant accès via Project Glasswing — y compris des agences gouvernementales — découvrent probablement déjà que leurs évaluations initiales sous-estimaient le modèle.

Pourquoi la plupart des équipes évaluent mal l'IA

Les agents IA ne sont pas des chatbots. Ce sont des travailleurs autonomes qui opèrent sur des échelles de temps de tâches. Évaluer un agent avec un plafond de trente minutes revient à évaluer un développeur junior uniquement sur ce qu'il produit pendant sa première demi-heure.

Trois pratiques doivent changer : utiliser des timeouts variables, séparer la capacité de la vitesse, et tester sur votre charge de travail réelle plutôt que de se fier uniquement aux benchmarks génériques.

Questions fréquentes

Quel est le score réel de Mythos Preview sur Terminal-Bench ?

Mythos Preview a obtenu 92,1 % sur Terminal-Bench 2.1 avec un timeout de quatre heures, contre 82 % sur Terminal-Bench 2.0 avec un timeout de trente minutes. Les deux chiffres sont corrects — ils reflètent des conditions d'évaluation différentes.

Anthropic a-t-il modifié le modèle entre 82 % et 92,1 % ?

Non. Le même modèle Mythos Preview a produit les deux résultats. La différence provient de la version mise à jour du benchmark et d'un timeout plus long.

Peut-on accéder à Claude Mythos Preview ?

En avril 2026, Mythos Preview est limité à onze organisations via Project Glasswing. Il n'y a pas d'accès API public.

Qu'est-ce que cela signifie pour les équipes utilisant Claude Opus ou Sonnet ?

Le pattern de test-time compute scaling s'applique de manière générale. Les équipes utilisant Claude Opus 4.6 ou Sonnet 4.6 pour des tâches d'agent devraient expérimenter avec des timeouts plus longs.

Comment les entreprises devraient-elles adapter leur processus d'évaluation IA ?

Testez à plusieurs valeurs de timeout, séparez les métriques de capacité des métriques de vitesse, et benchmarkez sur votre charge de travail de production réelle.

Conclusion

Le bond de 82 % à 92,1 % n'est pas l'histoire d'un modèle devenu meilleur. C'est l'histoire d'une industrie qui apprend à mesurer les capacités plus précisément. Le modèle a toujours été aussi capable. Nous ne lui donnions simplement pas assez de temps pour le montrer.

L'ère de l'évaluation des agents IA comme des chatbots touche à sa fin. Les équipes qui adapteront leurs cadres d'évaluation en premier découvriront des capacités que leurs concurrents considèrent encore comme impossibles.

Partager l'article

Share: