---
type: Glossary Term
title: SWE-bench
description: "SWE-bench ist ein standardisierter Benchmark zur Bewertung der Fähigkeit von KI-Systemen, reale Software-Engineering-Aufgaben zu lösen. Der Benchmark besteht au"
resource: "https://www.contextstudios.ai/de/glossar/swe-bench"
category: engineering
language: de
timestamp: "2026-04-07T12:10:57.747Z"
---

# SWE-bench

SWE-bench ist ein standardisierter Benchmark zur Bewertung der Fähigkeit von KI-Systemen, reale Software-Engineering-Aufgaben zu lösen. Der Benchmark besteht aus über 2.000 echten GitHub-Issues aus populären Open-Source-Projekten wie Django, Flask und scikit-learn. Jede Aufgabe enthält eine Problembeschreibung, den zugehörigen Quellcode und automatisierte Tests zur Überprüfung der Lösung. KI-Modelle müssen den Code analysieren, die Ursache des Problems identifizieren und einen funktionierenden Patch generieren — genau wie ein menschlicher Entwickler. SWE-bench hat sich als der wichtigste Maßstab für KI-Coding-Agenten etabliert. Aktuelle Spitzenwerte liegen bei über 80 Prozent (Claude Opus 4.6 erreicht 80,8%), was zeigt, dass KI-Agenten zunehmend in der Lage sind, komplexe Softwareprobleme eigenständig zu lösen. Varianten wie SWE-bench Verified verwenden menschlich validierte Teilmengen für noch zuverlässigere Ergebnisse.
