Tous les articles sur Benchmarks
Claude Mythos Preview atteint 92,1 % sur Terminal-Bench 2.1 avec un timeout de 4 heures. Ce que ce score révèle sur l'évaluation de l'IA et ses implications pour les équipes enterprise.
Claude Sonnet 4.6 : Puissance quasi-Opus à un cinquième du prix