---
type: Glossary Term
title: Terminal-Bench (Benchmark de codage IA)
description: Terminal-Bench est un cadre d'évaluation pour mesurer la performance des agents de codage IA dans des environnements de développement réels. Contrairement aux b
resource: "https://www.contextstudios.ai/fr/glossaire/terminal-bench"
category: engineering
language: fr
timestamp: "2026-07-01T15:35:20.050Z"
---

# Terminal-Bench (Benchmark de codage IA)

Terminal-Bench est un cadre d'évaluation pour mesurer la performance des agents de codage IA dans des environnements de développement réels. Contrairement aux benchmarks de code traditionnels qui testent des extraits isolés, Terminal-Bench évalue le cycle de développement complet : les agents doivent exécuter du code de manière autonome dans un terminal, déboguer des erreurs, naviguer dans les systèmes de fichiers et résoudre des problèmes d'ingénierie complexes en plusieurs étapes. Le cadre mesure de manière réaliste les capacités des agents de codage modernes tels que Claude Code, GitHub Copilot Workspace et des systèmes similaires dans des conditions authentiques. Sur Terminal-Bench 2.1 — la version actuelle — Mythos Preview d'Anthropic a atteint un score de 92,1 % avec un délai de 4 heures, dépassant significativement le précédent benchmark de 82 %. Un enseignement clé de Terminal-Bench est sa sensibilité au temps de calcul : plus un modèle dispose de temps pour travailler sur une tâche, plus le taux de réussite a tendance à être élevé. Cela révèle que de nombreux agents de codage IA modernes n'ont pas de lacunes en termes de capacités — ils ont des limitations de temps de calcul. Cette distinction est cruciale pour la manière dont les équipes conçoivent, budgétisent et développent des flux de travail de développement assistés par IA.
