Claude Opus 4.6 ralentit — et Opus 4.7 arrive

Claude Opus 4.6 est passé de 83,3 % à 68,3 % sur Bridgebench. Opus 4.7 repéré en test interne. Plan d'action pour les équipes.

Claude Opus 4.6 ralentit — et Opus 4.7 arrive

Claude Opus 4.6 ralentit — et Opus 4.7 arrive

Claude Opus 4.6 est passé de la 2e à la 10e place sur Bridgebench en précision factuelle. Claude Opus 4.6 n'a obtenu que 68,3 % lors du dernier test, contre 83,3 % précédemment — une chute de 15 points sur l'un des benchmarks de référence les plus respectés en IA. Parallèlement, WorldofAI rapporte qu'Anthropic teste en interne Claude Opus 4.7, et Claude Code a publié quatre mises à jour en 24 heures pour corriger une régression d'inflation de tokens.

Résultats Bridgebench : une chute de 15 points

Claude Opus 4.6 a été retesté sur Bridgebench le 13 avril 2026, obtenant 68,3 % — en baisse par rapport à 83,3 %. Claude Opus 4.6 est ainsi passé de la 2e à la 10e place.

Pour les entreprises ayant choisi Claude Opus 4.6 pour sa précision — pour des workflows de production où les hallucinations ont un coût réel — c'est un changement significatif. Claude Opus 4.6 figurait parmi les deux modèles de langage les plus fiables. Il se situe désormais derrière plusieurs concurrents qu'il surpassait auparavant.

L'explication probable : la réallocation des ressources. Quand Anthropic prépare un successeur, la puissance de calcul et l'attention des ingénieurs se déplacent vers la nouvelle version. Claude Opus 4.6 ne se dégrade pas architecturalement — il reçoit moins d'attention d'optimisation.

Ce que nous savons sur Claude Opus 4.7

WorldofAI a rapporté le 13 avril 2026 que Claude Opus 4.7 a été repéré dans les tests internes d'Anthropic. Aucune annonce officielle n'a été faite. Ce que nous savons :

  • La désignation Claude Opus 4.7 est apparue dans des références d'outillage interne
  • Aucun score de benchmark n'a été publié pour Claude Opus 4.7
  • Le calendrier correspond à l'annonce Project Glasswing d'Anthropic

Entre Claude Opus 4.5 et Claude Opus 4.6, environ 4 mois se sont écoulés. Un rythme similaire placerait Claude Opus 4.7 au T2 ou T3 2026.

Régression d'inflation de tokens Claude Code

Séparément, Claude Code a publié les versions 2.1.100 à 2.1.105 entre le 12 et le 13 avril 2026. Une régression d'inflation de tokens dans v2.1.100 injecte environ 20 000 tokens supplémentaires par requête. Les développeurs avec des forfaits à l'usage atteignent les limites beaucoup plus rapidement.

Solution temporaire : Fixer à v2.1.98 avec npx claude-code@2.1.98 jusqu'à la résolution de la régression.

Plan d'action production pour Claude Opus 4.6

Si votre équipe utilise Claude Opus 4.6 pour des workflows agentiques ou l'automatisation par IA :

Précision : Claude Opus 4.6 peut produire davantage d'hallucinations qu'à son pic de performance. C'est particulièrement critique pour l'analyse juridique, les rapports financiers ou tout workflow où les erreurs causent des dommages réels.

Coûts de tokens : Vérifiez votre consommation avec Claude Code v2.1.100+. Fixez temporairement à v2.1.98.

Planification de transition : Construisez dès maintenant votre pipeline de test et validation pour évaluer rapidement Claude Opus 4.7 à sa sortie.

Le schéma pré-successeur

Claude Opus 4.6 suit un schéma observé dans toute l'industrie. Les utilisateurs d'OpenAI ont rapporté des observations similaires avec GPT-4o avant GPT-5. Le Gemini 2.0 Pro de Google a montré des incohérences avant le lancement de Gemini 2.5. Les laboratoires d'IA travaillent avec des budgets de calcul finis, et l'entraînement d'un successeur exige d'énormes ressources.

Chez Context Studios, nous recommandons des contrôles qualité automatisés à chaque mise à jour de modèle. Détecter les régressions de Claude Opus 4.6 tôt coûte bien moins cher que de les découvrir par les plaintes clients.

FAQ

Claude Opus 4.6 est-il encore utilisable en production ?

Oui. Claude Opus 4.6 reste performant pour la plupart des charges de travail. Renforcez les couches de validation pour les cas d'usage critiques en termes d'hallucinations.

Quand sortira Claude Opus 4.7 ?

Aucune date officielle. Sur la base du rythme d'environ 4 mois entre Claude Opus 4.5 et Claude Opus 4.6, le T2 ou T3 2026 est plausible.

Dois-je fixer Claude Code à v2.1.98 ?

Si vous constatez une consommation de tokens élevée depuis v2.1.100, fixer avec npx claude-code@2.1.98 est une mesure intérimaire raisonnable.

Pourquoi la performance de Claude Opus 4.6 évolue avant un successeur ?

Les ressources se déplacent vers l'entraînement du successeur. Claude Opus 4.6 ne change pas architecturalement mais reçoit moins d'optimisation d'infrastructure.

Comment surveiller la qualité de Claude Opus 4.6 ?

Implémentez des vérifications de précision automatisées sur un échantillon représentatif après chaque mise à jour. Vos données de production font foi.

Conclusion

Claude Opus 4.6 n'est pas cassé — mais il est mesurément moins précis qu'à son apogée. La chute de 15 points sur Bridgebench, combinée à la régression d'inflation de tokens et aux rapports sur les tests de Claude Opus 4.7, signale qu'Anthropic est en mode transition.

Fixez Claude Code à v2.1.98 si vous êtes concerné. Ajoutez un monitoring des hallucinations à vos pipelines Claude Opus 4.6. Commencez dès maintenant à planifier votre framework d'évaluation de Claude Opus 4.7. Le modèle que vous utilisez le 14 avril 2026 ne sera plus le même dans six mois.

Partager l'article

Share: