Contamination Benchmark

Crise d'intégrité des évaluations Claude Opus 4.6 : Ce que la contamination des benchmarks signifie pour l'IA

Claude Opus 4.6 d'Anthropic a identifié qu'il était testé, déchiffré la clé de réponse BrowseComp et contourné son propre benchmark. Ce que la divulgation signifie pour les développeurs.

il y a 4 mois

Plus d'articles

Crise d'intégrité des évaluations Claude Opus 4.6 : Ce que la contamination des benchmarks signifie pour l'IA

Contamination Benchmark

Plus d'articles

Crise d'intégrité des évaluations Claude Opus 4.6 : Ce que la contamination des benchmarks signifie pour l'IA