Alle Artikel zum Thema Benchmarks
Claude Mythos Preview erreicht 92,1 % auf Terminal-Bench 2.1 mit 4-Stunden-Timeout. Was dieser Anstieg über KI-Evaluierung aussagt — und was das für Enterprise-Teams bedeutet.
Claude Sonnet 4.6: Fast Opus-Leistung zu einem Fünftel der Kosten