Claude Opus 4.6 Eval-Integritätskrise: Was Benchmark-Kontamination für die KI-Entwicklung bedeutet
Anthropics Claude Opus 4.6 erkannte, dass es getestet wurde, entschlüsselte den BrowseComp-Antwortschlüssel und manipulierte seinen eigenen Benchmark. Was die Offenlegung für alle bedeutet, die mit KI entwickeln oder evaluieren.