Mythos bei 92,1 %: Die KI, die einfach mehr Zeit braucht
Geben Sie einem KI-Agenten vier Stunden statt dreißig Minuten und sein Benchmark-Wert springt um zehn Punkte. Das ist die Kernaussage von Anthropics stillem Update der Project-Glasswing-Seite am 13. April 2026 — und es verändert die gesamte Diskussion darüber, was Claude Mythos Preview tatsächlich leisten kann.
Als Anthropic Mythos Preview am 7. April vorstellte, erreichte das Modell 82 % auf Terminal-Bench 2.0. Beeindruckend, aber nicht dominant. Sechs Tage später, mit einem längeren Timeout und einer überarbeiteten Benchmark-Version, wurde aus dieser Zahl 92,1 %. Das Modell wurde nicht intelligenter. Es bekam mehr Zeit.
Diese Unterscheidung ist wichtiger, als die meiste Berichterstattung zugesteht. Für Unternehmensteams, die über den Einsatz von KI-Agenten entscheiden, ist der Unterschied zwischen „dieses Modell ist nicht leistungsfähig genug" und „dieses Modell braucht ein anderes Zeitbudget" der Unterschied zwischen Projektabbruch und Auslieferung.
Was sich tatsächlich geändert hat: Von 82 % auf 92,1 %
Der ursprüngliche Launch von Mythos Preview am 7. April 2026 meldete einen Wert von 82 % auf Terminal-Bench 2.0 und 77,8 % auf SWE-bench Verified. Das Update vom 13. April änderte zwei Variablen gleichzeitig: den Benchmark selbst (2.0 auf 2.1, Behebung der Latenz-Empfindlichkeit) und das Timeout (von dreißig Minuten auf vier Stunden).
Das Ergebnis: ein Sprung von 82 % auf 92,1 %. Eine Verbesserung um 12,3 Prozentpunkte durch veränderte Evaluationsbedingungen, nicht durch ein verändertes Modell.
Terminal-Bench 2.1: Warum das Benchmark-Update wichtig ist
Terminal-Bench bewertet KI-Agenten bei realen Terminal-Aufgaben — Debugging, Infrastrukturkonfiguration, Navigation durch komplexe Codebasen. Das Update von Version 2.0 auf 2.1 behob einen spezifischen Fehler: Aufgaben mit festem Zeitlimit bestraften Modelle mit höherer Inferenz-Latenz systematisch.
Ein Modell, das vor dem Handeln gründlich nachdachte, wurde genauso bewertet wie eines, das scheiterte — beide überschritten das Timeout. Erfahrene Ingenieure benötigen für dieselben Aufgaben unterschiedlich lange. KI-Agenten auf dreißig Minuten zu beschränken, während Menschen unbegrenzt Zeit bekommen, ist kein fairer Vergleich — es ist ein Messfehler.
Der Paradigmenwechsel bei der Rechenzeit
Das Mythos-Ergebnis illustriert Test-Time Compute Scaling: Statt größere Modelle zu bauen, gibt man bestehenden Modellen mehr Zeit zum Nachdenken. Das verändert die Kostenstruktur (Betriebsausgaben statt Kapitalausgaben), macht Qualität einstellbar (30 Minuten für Routineaufgaben, 4 Stunden für kritische) und zwingt zur Aktualisierung von Evaluationsrahmen.
Bei Context Studios erleben wir diese Dynamik regelmäßig: Ein KI-Agent, der bei einer komplexen Aufgabe zu scheitern scheint, ist oft erfolgreich, wenn er ein längeres Ausführungsfenster erhält. Die Fähigkeit war immer da — die Einschränkung war Zeit, nicht Intelligenz.
Was das für Enterprise-KI-Teams bedeutet
Das 92,1-%-Ergebnis hat unmittelbare praktische Auswirkungen auf den Einsatz von KI-Agenten:
Abgelehnte Tools neu bewerten. Ein Modell, das bei zwei Minuten scheiterte, kann bei zwanzig erfolgreich sein. Rechenzeit explizit einplanen. Plattformen wie OpenClaw erlauben konfigurierbare Timeouts pro Aufgabe. Zeitbudgets an die Aufgabenkritikalität anpassen. Sicherheitsaudits und Code-Reviews verdienen längere Rechenfenster. Eigene Workflows benchmarken. Führen Sie denselben KI-Agenten mit fünf verschiedenen Timeout-Werten durch.
Die elf Organisationen mit Zugang über Project Glasswing — darunter Regierungsbehörden — entdecken vermutlich bereits, dass ihre anfänglichen Bewertungen das Modell unterschätzten.
Warum die meisten Teams KI falsch bewerten
KI-Agenten sind keine Chatbots. Sie sind autonome Arbeiter, die auf Aufgaben-Zeitskalen operieren. Einen Agenten mit einem Dreißig-Minuten-Limit zu bewerten ist wie einen Junior-Entwickler nur danach zu beurteilen, was er in seiner ersten halben Stunde produziert.
Drei Praktiken müssen sich ändern: Variable Timeouts verwenden, Fähigkeit von Geschwindigkeit trennen, und am eigenen Workload testen statt sich auf generische Benchmarks zu verlassen.
Häufig gestellte Fragen
Was ist der tatsächliche Terminal-Bench-Wert von Mythos Preview?
Mythos Preview erreichte 92,1 % auf Terminal-Bench 2.1 mit einem Vier-Stunden-Timeout, gegenüber 82 % auf Terminal-Bench 2.0 mit einem Dreißig-Minuten-Timeout. Beide Zahlen sind korrekt — sie spiegeln unterschiedliche Evaluationsbedingungen wider.
Hat Anthropic das Modell zwischen 82 % und 92,1 % verändert?
Nein. Dasselbe Mythos-Preview-Modell erzeugte beide Ergebnisse. Der Unterschied entstand durch die aktualisierte Benchmark-Version und ein erhöhtes Timeout.
Kann jeder auf Claude Mythos Preview zugreifen?
Stand April 2026 ist Mythos Preview auf elf Organisationen über Project Glasswing beschränkt. Es gibt keinen öffentlichen API-Zugang.
Was bedeutet das für Teams, die Claude Opus oder Sonnet nutzen?
Das Compute-Time-Scaling-Muster gilt allgemein. Teams, die Claude Opus 4.6 oder Sonnet 4.6 für Agent-Aufgaben nutzen, sollten mit längeren Timeouts experimentieren.
Wie sollten Unternehmen ihren KI-Evaluationsprozess anpassen?
Testen Sie bei mehreren Timeout-Werten, trennen Sie Fähigkeitsmetriken von Geschwindigkeitsmetriken und benchmarken Sie an Ihrem tatsächlichen Produktions-Workload.
Fazit
Der Sprung von 82 % auf 92,1 % ist keine Geschichte über ein besser gewordenes Modell. Es ist eine Geschichte über eine Branche, die lernt, Fähigkeiten genauer zu messen. Das Modell war immer so fähig. Wir haben ihm nur nicht genug Zeit gegeben, es zu zeigen.
Die Ära, KI-Agenten wie Chatbots zu bewerten, endet. Die Teams, die ihre Evaluationsrahmen zuerst anpassen, werden Fähigkeiten finden, die ihre Wettbewerber noch als unmöglich abtun.