Mythos al 92,1%: l'IA che ha solo bisogno di più tempo

Claude Mythos Preview raggiunge il 92,1% su Terminal-Bench 2.1 con timeout di 4 ore. Cosa rivela questo risultato sulla valutazione dell'IA e cosa significa per i team enterprise.

Mythos al 92,1%: l'IA che ha solo bisogno di più tempo

Mythos al 92,1%: l'IA che ha solo bisogno di più tempo

Date a un agente IA quattro ore invece di trenta minuti e il suo punteggio benchmark salta di dieci punti. Questo è il titolo dell'aggiornamento discreto di Anthropic sulla pagina Project Glasswing del 13 aprile 2026 — e ridefinisce l'intera conversazione su ciò che Claude Mythos Preview può effettivamente fare.

Quando Anthropic ha annunciato Mythos Preview il 7 aprile, il modello ha ottenuto l'82% su Terminal-Bench 2.0. Impressionante, ma non dominante. Sei giorni dopo, con un timeout più lungo e una versione del benchmark rivista, quel numero è diventato 92,1%. Il modello non è diventato più intelligente. Ha ottenuto più tempo.

Questa distinzione conta più di quanto la maggior parte delle analisi riconosca. Per i team aziendali che decidono come implementare gli agenti IA, la differenza tra «questo modello non è abbastanza capace» e «questo modello ha bisogno di un budget di tempo diverso» è la differenza tra abbandonare un progetto e consegnarlo.

Cosa è realmente cambiato: dall'82% al 92,1%

Il lancio originale di Mythos Preview il 7 aprile 2026 riportava un punteggio dell'82% su Terminal-Bench 2.0 e del 77,8% su SWE-bench Verified. L'aggiornamento del 13 aprile ha modificato due variabili simultaneamente: il benchmark stesso (2.0 a 2.1, correzione della sensibilità alla latenza) e il timeout (da trenta minuti a quattro ore).

Il risultato: un salto dall'82% al 92,1%. Un miglioramento di 12,3 punti percentuali modificando le condizioni di valutazione, non il modello.

Terminal-Bench 2.1: perché l'aggiornamento del benchmark è importante

Terminal-Bench valuta gli agenti IA su compiti reali da terminale — debugging, configurazione dell'infrastruttura, navigazione in codebase complesse. L'aggiornamento dalla versione 2.0 alla 2.1 ha corretto un difetto specifico: i compiti con timeout fissi penalizzavano sistematicamente i modelli con latenza di inferenza più elevata.

Un modello che si prendeva il tempo di ragionare prima di agire veniva valutato allo stesso modo di uno che falliva — entrambi superavano il timeout. Gli ingegneri esperti impiegano tempi variabili per gli stessi compiti. Vincolare gli agenti IA a trenta minuti concedendo tempo illimitato agli umani non è un confronto equo — è un errore di misurazione.

Il cambio di paradigma del tempo di calcolo

Il risultato di Mythos illustra il test-time compute scaling: invece di costruire modelli più grandi, si concede ai modelli esistenti più tempo per ragionare. Questo trasforma la struttura dei costi (spese operative anziché spese in conto capitale), rende la qualità regolabile (30 minuti per compiti di routine, 4 ore per quelli critici) e impone un aggiornamento dei framework di valutazione.

In Context Studios, osserviamo regolarmente questa dinamica: un agente IA che sembra fallire su un compito complesso spesso riesce quando gli viene concessa una finestra di esecuzione più lunga. La capacità c'era sempre — il vincolo era il tempo, non l'intelligenza.

Cosa significa per i team IA aziendali

Il risultato del 92,1% ha implicazioni pratiche immediate per l'implementazione di agenti IA:

Rivalutare gli strumenti scartati. Un modello che falliva a due minuti può riuscire a venti. Pianificare esplicitamente il tempo di calcolo. Piattaforme come OpenClaw permettono timeout configurabili per compito. Adattare i budget di tempo alla criticità. Audit di sicurezza e code review meritano finestre di calcolo più lunghe. Benchmarcare i propri workflow. Eseguite lo stesso agente IA con cinque valori di timeout diversi.

Le undici organizzazioni con accesso tramite Project Glasswing — incluse agenzie governative — stanno probabilmente già scoprendo che le loro valutazioni iniziali sottostimavano il modello.

Perché la maggior parte dei team valuta male l'IA

Gli agenti IA non sono chatbot. Sono lavoratori autonomi che operano su scale temporali di compiti. Valutare un agente con un tetto di trenta minuti è come valutare uno sviluppatore junior solo in base a ciò che produce nella sua prima mezz'ora.

Tre pratiche devono cambiare: utilizzare timeout variabili, separare la capacità dalla velocità, e testare sul proprio carico di lavoro reale anziché affidarsi unicamente ai benchmark generici.

Domande frequenti

Qual è il punteggio reale di Mythos Preview su Terminal-Bench?

Mythos Preview ha ottenuto il 92,1% su Terminal-Bench 2.1 con un timeout di quattro ore, rispetto all'82% su Terminal-Bench 2.0 con un timeout di trenta minuti. Entrambi i numeri sono corretti — riflettono condizioni di valutazione diverse.

Anthropic ha modificato il modello tra l'82% e il 92,1%?

No. Lo stesso modello Mythos Preview ha prodotto entrambi i risultati. La differenza è dovuta alla versione aggiornata del benchmark e a un timeout più lungo.

Si può accedere a Claude Mythos Preview?

Ad aprile 2026, Mythos Preview è limitato a undici organizzazioni tramite Project Glasswing. Non esiste accesso API pubblico.

Cosa significa per i team che usano Claude Opus o Sonnet?

Il pattern di test-time compute scaling si applica in modo generale. I team che utilizzano Claude Opus 4.6 o Sonnet 4.6 per compiti di agent dovrebbero sperimentare con timeout più lunghi.

Come dovrebbero le aziende adattare il loro processo di valutazione IA?

Testate a più valori di timeout, separate le metriche di capacità da quelle di velocità, e benchmarkate sul vostro carico di lavoro di produzione reale.

Conclusione

Il salto dall'82% al 92,1% non è la storia di un modello diventato migliore. È la storia di un'industria che impara a misurare le capacità con maggiore precisione. Il modello è sempre stato così capace. Semplicemente non gli stavamo dando abbastanza tempo per dimostrarlo.

L'era della valutazione degli agenti IA come chatbot sta finendo. I team che adatteranno per primi i loro framework di valutazione scopriranno capacità che i loro concorrenti considerano ancora impossibili.

Condividi articolo

Share: