Tutti gli articoli su Terminal Bench
Claude Mythos Preview raggiunge il 92,1% su Terminal-Bench 2.1 con timeout di 4 ore. Cosa rivela questo risultato sulla valutazione dell'IA e cosa significa per i team enterprise.