Alle Artikel zum Thema Terminal Bench
Claude Mythos Preview erreicht 92,1 % auf Terminal-Bench 2.1 mit 4-Stunden-Timeout. Was dieser Anstieg über KI-Evaluierung aussagt — und was das für Enterprise-Teams bedeutet.