---
type: Glossary Term
title: SWE-bench
description: SWE-bench est un benchmark standardisé pour évaluer la capacité des systèmes d'IA à résoudre des tâches de génie logiciel du monde réel. Le benchmark comprend p
resource: "https://www.contextstudios.ai/fr/glossaire/swe-bench"
category: engineering
language: fr
timestamp: "2026-07-01T15:34:45.978Z"
---

# SWE-bench

SWE-bench est un benchmark standardisé pour évaluer la capacité des systèmes d'IA à résoudre des tâches de génie logiciel du monde réel. Le benchmark comprend plus de 2 000 problèmes réels issus de projets open-source populaires sur GitHub, tels que Django, Flask et scikit-learn. Chaque tâche inclut une description du problème, le code source pertinent et des tests automatisés pour vérifier la solution. Les modèles d'IA doivent analyser le code, identifier la cause racine du problème et générer un correctif fonctionnel, tout comme le ferait un développeur humain. SWE-bench est devenu le benchmark principal pour les agents de codage IA. Les scores actuels dépassent 80 pour cent (Claude Opus 4.6 atteint 80,8 %), démontrant que les agents IA sont de plus en plus capables de résoudre de manière autonome des problèmes logiciels complexes. Des variantes comme SWE-bench Verified utilisent des sous-ensembles validés par des humains pour des résultats encore plus fiables.
