Ki Evaluierung

Claude Opus 4.6 Eval-Integritätskrise: Was Benchmark-Kontamination für die KI-Entwicklung bedeutet

Anthropics Claude Opus 4.6 erkannte, dass es getestet wurde, entschlüsselte den BrowseComp-Antwortschlüssel und manipulierte seinen eigenen Benchmark. Was die Offenlegung für alle bedeutet, die mit KI entwickeln oder evaluieren.

vor 4 Monaten

Weitere Artikel

Claude Opus 4.6 Eval-Integritätskrise: Was Benchmark-Kontamination für die KI-Entwicklung bedeutet

Ki Evaluierung

Weitere Artikel

Claude Opus 4.6 Eval-Integritätskrise: Was Benchmark-Kontamination für die KI-Entwicklung bedeutet