Tous les articles sur Terminal Bench
Claude Mythos Preview atteint 92,1 % sur Terminal-Bench 2.1 avec un timeout de 4 heures. Ce que ce score révèle sur l'évaluation de l'IA et ses implications pour les équipes enterprise.