GPT-5.4 Computer Use: Was KI-Agenten jetzt können

What GPT-5.4 Computer Use Actually Does

GPT-5.4 bedient einen Computer in zwei Modi, und der Unterschied ist für das System-Design entscheidend.

Modus 1: Code-Generierung. GPT-5.4 schreibt Playwright-, Selenium- oder ähnliche Automatisierungsskripte auf Basis eines Ziels und eines Screenshots. Du übergibst einen Task ("Exportiere den Q1-Report aus diesem SaaS-Dashboard"), das Modell generiert ausführbaren Code, deine Infrastruktur führt ihn aus. Das Modell berührt das Live-System nie direkt — es ist der Autor des Skripts, nicht der Ausführende.

Modus 2: Direkte Interaktion. GPT-5.4 sendet Maus- und Tastaturevents auf Basis von Screenshots in einer Feedback-Schleife. Es sieht den Bildschirm, entscheidet über den nächsten Schritt, führt ihn aus, beobachtet das Ergebnis und macht weiter. Das ist näher an der Arbeitsweise einer menschlichen VA: Bildschirm beobachten, klicken wo nötig, tippen wo nötig, eskalieren wenn etwas unklar ist.

Beide Modi sind steuerbar. Entwickler können Anweisungen über Developer Messages injizieren — operator-level Instructions, die User-Intent überschreiben können. Außerdem lassen sich Custom Confirmation Policies definieren: "Vor dem Absenden eines Formulars immer bestätigen", "Ohne Second-Pass-Check niemals auf Löschen klicken." Das macht GPT-5.4s Computer Use auditierbar und kontrollierbar auf eine Weise, die frühere Ansätze nicht hatten — und genau das bringt es an Enterprise-Security-Reviews vorbei.

Das zugrundeliegende Vision-Modell hat sich ebenfalls deutlich verbessert. Auf MMMU-Pro (ein multimodaler Reasoning-Benchmark) erreicht GPT-5.4 81,2 % gegenüber 79,5 % für GPT-5.2. Auf OmniDocBench sank die Fehlerrate von 0,140 auf 0,109. Das ist wichtig, weil Computer Use mit der visuellen Genauigkeit steht und fällt — ein Modell, das ein UI-Element falsch liest oder einen Button falsch identifiziert, kann innerhalb von drei Schritten in eine Fehlerkaskade geraten. Bessere Vision bedeutet zuverlässigere Ausführung.

The Benchmark Reality Check

Benchmarks sind Karten, kein Gelände. Aber diese Karten lohnen sich, weil sie Szenarien abdecken, die bisher keine gute Messung hatten.

OSWorld-Verified: 75,0 % — Das ist die Headline-Zahl. OSWorld testet echte Desktop-Task-Completion auf Betriebssystemen. GPT-5.2 erreichte 47,3 % auf demselben Benchmark. Menschen liegen bei 72,4 %. GPT-5.4 übertrifft die menschliche Baseline bei Desktop-Automatisierung — eine Schwelle, auf die die Branche seit zwei Jahren gewartet hat.

WebArena-Verified: 67,3 % — Browser-basierte Task-Completion über realistische Web-Szenarien: Shopping, Formularübermittlung, Informationsabruf, Account-Management. 67,3 % bedeutet, dass etwa zwei Drittel der Browser-Tasks ohne menschliche Hilfe abgeschlossen werden. Das restliche Drittel braucht noch Aufmerksamkeit.

Online-Mind2Web: 92,8 % — Screenshot-basierte Web-Navigation. Das ist die höchste der Computer-Use-Zahlen und spiegelt GPT-5.4s stärksten Modus wider.

BrowseComp: 82,7 % — Research-Browsing mit komplexem, mehrstufigem Informationsabruf. GPT-5.2 lag hier bei 65,8 %. Ein Sprung von 17 Punkten bei der Recherche-Qualität ist für jeden Agenten relevant, der vor dem Handeln Informationen sammeln muss.

GDPval: 83,0 % — Diese Zahl bekommt weniger Aufmerksamkeit, verdient aber mehr. Über 44 Berufsfelder erreicht oder übertrifft GPT-5.4 professionelle menschliche Leistung in 83 % der Fälle. Spreadsheet-Modellierung speziell kommt auf 87,3 % (gegenüber 68,4 % für GPT-5.2). Für alle, die Agenten in Finance, Operations oder professionellen Dienstleistungen bauen, definieren diese Zahlen, was jetzt automatisierbar ist.

Der kritische Gegenpunkt: 75 % auf OSWorld bedeuten 25 % Fehlerrate. In einem Workflow, wo 10 Schritte hintereinandergeschaltet sind, potenzieren sich selbst moderate Fehlerraten schnell. Das richtige Bild ist nicht "GPT-5.4 kann meinen Computer automatisieren" — sondern "GPT-5.4 kann den Großteil der wiederholbaren, klar definierten Computer-Tasks übernehmen, und braucht für den Rest eine Supervision-Schicht." Unser Leitfaden zu KI-Agenten erklärt, wie man diese Schicht richtig designed.

Tool Search: Agents That Find Their Own Tools

Eines der am wenigsten diskutierten Upgrades von GPT-5.4 ist das, was OpenAI Tool Search nennt. Auf 250 Scale-MCP-Atlas-Tasks verwendet GPT-5.4 47 % weniger Tokens als GPT-5.2, um das richtige Tool für einen Job zu finden und aufzurufen.

Das ist wichtiger, als die reine Zahl vermuten lässt. Token-Effizienz bei der Tool-Auswahl ist nicht nur eine Kosten-Geschichte — es ist eine Latenz-Geschichte und eine Architektur-Geschichte. Wenn ein Agent entscheiden muss, welches Tool er aufruft, verlangsamt token-intensives Reasoning den Loop und verbraucht Context-Budget. Eine Reduktion um 47 % bedeutet schnellere Agenten-Zyklen, mehr Platz im Context Window für Task-Daten und signifikant niedrigere API-Kosten im Scale.

Für Entwickler, die MCP-verbundene Agenten bauen, verändert das die Kalkulation, wie viele Tools man dem Modell gleichzeitig exponieren kann. Bisher war es ein Trade-off: mehr Fähigkeiten, schlechtere Auswahleffizienz, höhere Kosten. GPT-5.4 verschiebt diese Kurve. Du kannst mehr Tools exponieren, ohne proportional mehr Aufmerksamkeits-Penalty zu zahlen.

In Kombination mit dem 1-M-Token-Context-Window beginnt GPT-5.4s Architektur so auszusehen, als wäre sie speziell für Long-Horizon-Agentic-Tasks konzipiert worden — Aufgaben, bei denen ein Agent ein großes Working Memory halten, viele Tools konsultieren und Dutzende von Schritten ausführen muss, ohne den Faden zu verlieren. Der Claude-Code-Loop-Ansatz ist ein Pattern dafür; GPT-5.4 bietet jetzt eine wettbewerbsfähige Alternative im OpenAI-Ökosystem.

What Changed in 6 Months

Fähigkeit	GPT-5.2 (Sep 2025)	GPT-5.4 (Mär 2026)	Delta
Desktop-Automatisierung (OSWorld)	47,3 %	75,0 %	+27,7 Pkt
Research-Browsing (BrowseComp)	65,8 %	82,7 %	+16,9 Pkt
Spreadsheet-Modellierung	68,4 %	87,3 %	+18,9 Pkt
Visuelles Reasoning (MMMU-Pro)	79,5 %	81,2 %	+1,7 Pkt
Dokument-OCR-Fehler (OmniDocBench)	0,140	0,109	−22 %
Falsche Behauptungen	Baseline	−33 %	signifikant
Fehler gesamt	Baseline	−18 %	signifikant
Context Window	~200K	bis zu 1M Tokens	5×
MCP Tool Search	Baseline	−47 % Tokens	signifikant
Browser-Tasks (WebArena)	—	67,3 %	neu
Screenshot-Navigation (Mind2Web)	—	92,8 %	neu

Der 27-Punkte-Sprung bei OSWorld ist das Ausrufezeichen. Zum Vergleich: Vor sechs Monaten bedeutete eine 47-%-Desktop-Automatisierungs-Score, dass Computer-Use-Agenten interessante Forschung waren. Bei 75 % sind sie produktionsrelevant für strukturierte, wiederholbare Workflows. Dieser Wandel geschah in einer einzigen Modell-Generation.

Auch die Zuverlässigkeit verbesserte sich erheblich: 33 % weniger Falschaussagen und 18 % weniger Fehler gegenüber GPT-5.2. Für Agenten, die Entscheidungen treffen — nicht nur Informationen abrufen — ist Zuverlässigkeit genauso wichtig wie reine Fähigkeit. Ein Agent, der 10 % leistungsfähiger, aber 15 % weniger zuverlässig ist, ist in der Praxis oft schlechter. GPT-5.4 verbessert beides gleichzeitig — was schwieriger ist, als es klingt.

Building Agents With GPT-5.4: What's Different Now

Drei Dinge haben sich in der Praxis für Teams verändert, die Agentensysteme bauen.

1. Computer Use ist ein First-Class-Primitive. Bei GPT-5.2 und früher erforderte Computer Use das Wrapping externer APIs, das Zusammensetzen separater Vision- und Action-Modelle und das Debuggen eines Systems, das nie als Einheit designed wurde. Mit GPT-5.4 ist die Fähigkeit nativ. Ein Modell, eine API, ein Context. Diese Vereinfachung reduziert allein schon die Angriffsfläche für Produktionsfehler erheblich.

2. Confirmation Policies machen Agenten deploybar. Die Möglichkeit, Custom Confirmation Policies zu definieren — "Vor jeder Schreiboperation pausieren", "Vor dem Verlassen der aktuellen Seite bestätigen" — bedeutet, dass du den Autonomie-/Sicherheits-Regler pro Workflow fein justieren kannst. Ein Finanz-Reporting-Agent, der nur Daten liest, kann vollautomatisch laufen. Einer, der Rechnungen einreicht, bekommt ein Human-in-the-Loop-Gate. Diese Granularität ist es, die aus Demos deploybare Systeme macht.

3. Das 1-M-Context-Window verändert das Design von Long-Horizon-Tasks. Agenten, die zuvor ihr Working Memory alle N Schritte zusammenfassen und komprimieren mussten, können jetzt längere Task-Historien, mehr Tool-Outputs und größere Dokumente gleichzeitig im Context halten. Für Workflows wie Karpathy-Style Autoresearch, wo der Agent einen Forschungsfaden über viele Quellen hinweg halten muss, ist das ein echter architektonischer Durchbruch.

Der praktische Einstiegspunkt für die meisten Teams ist Playwright-Mode-Computer-Use (Code-Generierung, keine direkte Interaktion). Leichter zu auditieren, leichter zu testen, leichter zu replizieren wenn etwas schiefgeht. Direkte Screenshot-basierte Interaktion eignet sich besser für Umgebungen ohne programmierbare API — Legacy-Enterprise-Software, Third-Party-SaaS-Dashboards oder überall dort, wo man sonst Screen-Scraping betreiben würde.

The Competitive Picture (Claude, Gemini, Copilot)

GPT-5.4 hat Computer-Use-KI nicht erfunden. Anthropic hat Computer Use seit Claude 3.5 Sonnet — inzwischen erweitert und verfeinert in Claude Opus 4.6. Googles Gemini 2.5 Pro hat zunehmend agentische Fähigkeiten. Microsoft Copilot ist tief in den Office-Stack eingewoben und verwischt die Grenze zwischen Assistent und Automatisierungsengine immer stärker.

Was verändert GPT-5.4 also wettbewerblich tatsächlich?

Der zentrale Differenziator ist die Kombination aus nativem Computer Use auf diesem Leistungsniveau plus einem Modell, das von Anfang an für tool-intensive agentische Workflows konzipiert wurde. Claudes Computer Use ist stark (Anthropic veröffentlicht keine äquivalenten OSWorld-Zahlen, was selbst aussagekräftig ist), aber die MCP-Tool-Search-Effizienz und das 1-M-Context-Window sind GPT-5.4s architektonische Vorteile für Multi-Tool-Agentensysteme.

Gemini 2.5 Pro ist bei multimodalen Tasks konkurrenzfähig, lebt aber primär im Google-Ökosystem. Für Teams, die nicht bereits tief in Google Cloud verankert sind, sind die Wechselkosten real. Microsoft Copilot ist stark für Office-Workflows speziell — der gleichzeitige Launch von ChatGPT für Excel ist eine direkte Antwort darauf. Aber Copilots allgemeine Computer-Use-Fähigkeiten hinken dem nativen Modell-Ansatz nach.

Die ehrliche Antwort: Wenn du Agenten baust, die im OpenAI-Ökosystem leben oder maximale Flexibilität über Applikationstypen hinweg brauchen, ist GPT-5.4 aktuell die beste Option. Wenn du primär auf Anthropics Tooling aufbaust — wo Agenturen bereits ihre eigenen GEO-Tools mit Claude Code vibe-coden — ist der Wechsel nicht offensichtlich lohnenswert. Die Lücke zwischen den Frontrunners ist bedeutsam, aber nicht unüberbrückbar. Architekturentscheidungen wiegen schwerer als Modellauswahl an der Marge.

What This Means If You're Building AI Products

Computer Use bei 75 % Desktop-Task-Completion verändert die Build-vs-Buy-Kalkulation für mehrere Produktkategorien.

Robotic Process Automation (RPA): Legacy-RPA-Tools wie UiPath und Automation Anywhere basieren auf fragilen selektor-basierten Automatisierungen. GPT-5.4 kann dieselben Workflows mit visueller Verständnis bewältigen — keine Selektoren, kein Wartungsaufwand wenn sich UIs ändern. Der Burggraben um traditionelle RPA-Anbieter ist gerade deutlich flacher geworden.

Browser-Automatisierungs-Services: Alles, was "KI-gestützte Browser-Automatisierung" als Feature verkauft, konkurriert jetzt mit einer Fähigkeit, die im Basismodell mitgeliefert wird. Differenzierung durch Reliability-Schichten, Human-Escalation-UX und domänenspezifisches Training — nicht durch die Core-Computer-Use-Fähigkeit selbst.

Professional-Services-KI: GDPval bei 83,0 % über 44 Berufsfelder bedeutet, dass die KI bei einem großen Teil strukturierter Tasks zuverlässiger ist als der durchschnittliche Fachmann. Das ist keine Ersatz-Geschichte — es ist eine Hebel-Geschichte. Ein Profi mit KI, der bei 83 % über das Task-Spektrum arbeitet, hat einen fundamental anderen Durchsatz als einer ohne. Bau Werkzeuge, die diesen Hebel verstärken.

Long-Horizon-Research-Agenten: Mit dem 1-M-Context-Window und der verbesserten BrowseComp-Leistung können Research-Agenten, die zuvor ständige menschliche Checkpoints brauchten, jetzt länger unbeaufsichtigt laufen. Das Kostenmodell für Deep-Research-Automatisierung sinkt erheblich.

Wenn du evaluierst, wo GPT-5.4 in deinen Stack passt, schaue dir unsere Services-Übersicht an — wir arbeiten genau diese Scoping-Entscheidungen mit Teams durch, die auf der aktuellen Modellgeneration aufbauen.

FAQ

Was ist GPT-5.4 und wann wurde es veröffentlicht? GPT-5.4 ist OpenAIs neuestes Modell, veröffentlicht am 5. März 2026. Es ist das erste General-Purpose-Modell mit nativem Computer Use — in der Lage, Browser, Desktop-Apps und Software über Screenshots und Anweisungen zu steuern.

Wie vergleicht sich GPT-5.4 Computer Use mit menschlicher Leistung? Auf OSWorld-Verified erreicht GPT-5.4 75,0 % gegenüber 72,4 % für Menschen bei Desktop-Automatisierungs-Tasks — knapp über der menschlichen Baseline. Auf Online-Mind2Web Screenshot-Navigation erreicht es 92,8 %. Menschen übertreffen es noch bei Tasks, die Urteilsvermögen, Kontext und Ausnahmebehandlung erfordern.

Kann GPT-5.4 RPA-Tools wie UiPath oder Automation Anywhere ersetzen? Für strukturierte, wiederholbare Workflows auf modernen UIs übernimmt GPT-5.4 einen erheblichen Teil dessen, was traditionelles RPA abdeckt — ohne fragile Selektoren und ohne Wartungsaufwand bei UI-Änderungen. Für komplexe Enterprise-Deployments mit Audit-Trails und Legacy-System-Integration bietet RPA-Tooling weiterhin Mehrwert. Beide werden 2–3 Jahre koexistieren; bei Greenfield-Implementierungen wird GPT-5.4s Ansatz mittelfristig dominieren.

Was ist der Unterschied zwischen GPT-5.4 Playwright-Modus und direktem Screenshot-Modus? Der Playwright-Modus generiert Automatisierungscode (Playwright, Selenium), den deine Infrastruktur ausführt — das Modell berührt das Live-System nie direkt. Der Screenshot-Modus sendet direkte Maus-/Tastaturevents in einer Feedback-Schleife. Playwright-Modus ist leichter zu auditieren und zu testen; Screenshot-Modus funktioniert auf jeder Oberfläche, auch Legacy-Apps ohne programmierbare API.

Wie vergleicht sich GPT-5.4 mit Claude Opus 4.6 für Computer Use? GPT-5.4 veröffentlicht einen OSWorld-Score von 75,0 %. Anthropic publiziert keine äquivalenten Zahlen für Claude Opus 4.6, was direkte Vergleiche erschwert. GPT-5.4s dokumentierte Vorteile umfassen 47 % bessere MCP-Tool-Search-Effizienz und ein 1-M-Token-Context-Window — beides bedeutsam für Multi-Tool-Agenten-Architekturen.

Ist GPT-5.4 für alle API-Nutzer verfügbar oder nur für Enterprise? GPT-5.4 ist in der Standard-OpenAI-API, in ChatGPT (als GPT-5.4 Thinking) und in Codex verfügbar. Ein GPT-5.4-Pro-Tier mit höheren Rate Limits und Enterprise-SLAs richtet sich an professionelle Nutzer und Unternehmen. Computer-Use-Fähigkeiten sind über alle Tiers verfügbar, wobei Rate Limits und Preise variieren.