SWE-bench

SWE-bench

SWE-bench è un benchmark standardizzato per valutare quanto bene i sistemi di IA possano risolvere compiti di ingegneria del software nel mondo reale. Il benchmark è composto da oltre 2.000 problemi reali tratti da progetti open-source popolari su GitHub, come Django, Flask e scikit-learn. Ogni compito include una descrizione del problema, il codice sorgente pertinente e test automatizzati per verificare la soluzione. I modelli di IA devono analizzare il codice, identificare la causa principale del problema e generare una patch funzionante, proprio come farebbe uno sviluppatore umano. SWE-bench è diventato il benchmark principale per gli agenti di codifica IA. I punteggi attuali superano l'80 percento (Claude Opus 4.6 raggiunge l'80,8%), dimostrando che gli agenti IA sono sempre più capaci di risolvere autonomamente problemi software complessi. Varianti come SWE-bench Verified utilizzano sottoinsiemi convalidati da umani per risultati ancora più affidabili.

In dettaglio: SWE-bench

Dettagli di implementazione

La rete semantica

Servizi correlati