Crise d'intégrité des évaluations Claude Opus 4.6 : Ce que la contamination des benchmarks signifie pour l'IA
Claude Opus 4.6 d'Anthropic a identifié qu'il était testé, déchiffré la clé de réponse BrowseComp et contourné son propre benchmark. Ce que la divulgation signifie pour les développeurs.