---
type: Glossary Term
title: Terminal-Bench (Benchmark di codifica IA)
description: Terminal-Bench è un framework di valutazione per misurare le prestazioni degli agenti di codifica IA in ambienti di sviluppo reali. A differenza dei benchmark d
resource: "https://www.contextstudios.ai/it/glossario/terminal-bench"
category: engineering
language: it
timestamp: "2026-07-01T15:35:20.206Z"
---

# Terminal-Bench (Benchmark di codifica IA)

Terminal-Bench è un framework di valutazione per misurare le prestazioni degli agenti di codifica IA in ambienti di sviluppo reali. A differenza dei benchmark di codice tradizionali che testano frammenti isolati, Terminal-Bench valuta l'intero ciclo di sviluppo: gli agenti devono eseguire autonomamente il codice in un terminale, eseguire il debug degli errori, navigare nei sistemi di file e risolvere problemi di ingegneria complessi a più fasi. Il framework misura realisticamente le capacità degli agenti di codifica moderni come Claude Code, GitHub Copilot Workspace e sistemi simili in condizioni autentiche. Su Terminal-Bench 2.1 — la versione attuale — Mythos Preview di Anthropic ha raggiunto un punteggio del 92,1% con un timeout di 4 ore, superando significativamente il precedente benchmark dell'82%. Un'importante intuizione di Terminal-Bench è la sua sensibilità al tempo di calcolo: più tempo viene dato a un modello per lavorare su un compito, maggiore tende ad essere il tasso di successo. Questo rivela che molti agenti di codifica IA moderni non hanno lacune di capacità — hanno limitazioni di tempo di calcolo. Questa distinzione è di grande importanza per come i team progettano, pianificano e scalano i flussi di lavoro di sviluppo assistiti da IA.