---
type: Glossary Term
title: SWE-bench
description: SWE-bench è un benchmark standardizzato per valutare quanto bene i sistemi di IA possano risolvere compiti di ingegneria del software nel mondo reale. Il benchm
resource: "https://www.contextstudios.ai/it/glossario/swe-bench"
category: engineering
language: it
timestamp: "2026-07-01T15:34:46.151Z"
---

# SWE-bench

SWE-bench è un benchmark standardizzato per valutare quanto bene i sistemi di IA possano risolvere compiti di ingegneria del software nel mondo reale. Il benchmark è composto da oltre 2.000 problemi reali tratti da progetti open-source popolari su GitHub, come Django, Flask e scikit-learn. Ogni compito include una descrizione del problema, il codice sorgente pertinente e test automatizzati per verificare la soluzione. I modelli di IA devono analizzare il codice, identificare la causa principale del problema e generare una patch funzionante, proprio come farebbe uno sviluppatore umano. SWE-bench è diventato il benchmark principale per gli agenti di codifica IA. I punteggi attuali superano l'80 percento (Claude Opus 4.6 raggiunge l'80,8%), dimostrando che gli agenti IA sono sempre più capaci di risolvere autonomamente problemi software complessi. Varianti come SWE-bench Verified utilizzano sottoinsiemi convalidati da umani per risultati ancora più affidabili.
