---
type: Glossary Term
title: SWE-bench Verificato
description: Un benchmark che testa i modelli di IA nella risoluzione autonoma di problemi reali su GitHub. La variante Verificato utilizza compiti convalidati da esseri uma
resource: "https://www.contextstudios.ai/it/glossario/swe-bench-verified"
category: tech
language: it
timestamp: "2026-07-01T15:34:50.067Z"
---

# SWE-bench Verificato

Un benchmark che testa i modelli di IA nella risoluzione autonoma di problemi reali su GitHub. La variante Verificato utilizza compiti convalidati da esseri umani per un punteggio affidabile. Claude Sonnet 4.6 ottiene un punteggio del 79,6%.
