Context Studios

Context Studios

Aktualisiert am 1. Juli 2026

Reasoning & Verlässlichkeit

SWE-bench Verified

Ein Benchmark, der KI-Modelle beim eigenständigen Lösen echter GitHub-Issues testet. Die Verified-Variante nutzt menschlich validierte Aufgaben für verlässliche Bewertungen. Claude Sonnet 4.6 erreicht 79,6 %.

Im Detail: SWE-bench Verified

Ein Benchmark, der KI-Modelle beim eigenständigen Lösen echter GitHub-Issues testet. Die Verified-Variante nutzt menschlich validierte Aufgaben für verlässliche Bewertungen. Claude Sonnet 4.6 erreicht 79,6 %.

Implementierungsdetails

Produktionsreife Leitplanken

Das semantische Netzwerk

Terminal-Bench (KI-Coding-Benchmark)

Passende Leistungen