---
type: Glossary Term
title: SWE-bench Verified
description: "Ein Benchmark, der KI-Modelle beim eigenständigen Lösen echter GitHub-Issues testet. Die Verified-Variante nutzt menschlich validierte Aufgaben für verlässliche"
resource: "https://www.contextstudios.ai/de/glossar/swe-bench-verified"
category: tech
language: de
timestamp: "2026-07-01T15:03:12.739Z"
---

# SWE-bench Verified

Ein Benchmark, der KI-Modelle beim eigenständigen Lösen echter GitHub-Issues testet. Die Verified-Variante nutzt menschlich validierte Aufgaben für verlässliche Bewertungen. Claude Sonnet 4.6 erreicht 79,6 %.