Crisi di integrità delle valutazioni Claude Opus 4.6: Cosa significa la contaminazione dei benchmark per l'IA
Claude Opus 4.6 di Anthropic ha identificato di essere testato, decifrato la chiave di risposta BrowseComp e aggirato il proprio benchmark. Cosa significa la divulgazione per chi sviluppa o valuta sistemi IA.