GPT-5.4 et le Computer Use : ce que les agents IA font maintenant

What GPT-5.4 Computer Use Actually Does

GPT-5.4 opère un ordinateur selon deux modes distincts, et comprendre la différence est crucial pour la conception des systèmes.

Mode 1 : Génération de code. GPT-5.4 écrit des scripts d'automatisation Playwright, Selenium ou similaires à partir d'un objectif et d'une capture d'écran. Vous transmettez une tâche ("exporte le rapport T1 depuis ce tableau de bord SaaS"), le modèle génère du code exécutable, votre infrastructure l'exécute. Le modèle ne touche jamais directement le système en production — il est l'auteur du script, pas l'acteur qui le joue.

Mode 2 : Interaction directe. GPT-5.4 envoie des événements souris et clavier à partir de captures d'écran dans une boucle de rétroaction. Il observe l'écran, décide de l'action suivante, l'exécute, observe le résultat et continue. C'est plus proche du travail d'un assistant virtuel humain : regarder l'écran, cliquer là où c'est nécessaire, taper là où c'est nécessaire, escalader en cas de blocage.

Les deux modes sont pilotables. Les développeurs peuvent injecter des orientations via des messages développeur — des instructions au niveau opérateur qui peuvent supplanter l'intention de l'utilisateur. Vous pouvez également définir des politiques de confirmation personnalisées : "toujours confirmer avant de soumettre un formulaire", "ne jamais cliquer sur supprimer sans une vérification secondaire." Cela rend le computer use de GPT-5.4 auditable et contrôlable d'une manière que les approches précédentes ne permettaient pas — et c'est précisément ce qui le fait passer les revues de sécurité enterprise.

Le modèle de vision sous-jacent s'est également amélioré substantiellement. Sur MMMU-Pro (un benchmark de raisonnement multimodal), GPT-5.4 atteint 81,2 % contre 79,5 % pour GPT-5.2. Sur OmniDocBench, le taux d'erreur est passé de 0,140 à 0,109. C'est crucial car le computer use repose entièrement sur la compréhension visuelle — un modèle qui interprète mal un élément d'interface ou identifie incorrectement un bouton peut enchaîner des erreurs en seulement trois étapes. Une meilleure vision signifie une exécution plus fiable.

The Benchmark Reality Check

Les benchmarks sont des cartes, pas le terrain. Mais ces cartes-ci méritent d'être lues attentivement, car elles couvrent des scénarios qui n'avaient auparavant aucune mesure satisfaisante.

OSWorld-Verified : 75,0 % — C'est le chiffre phare. OSWorld teste la complétion réelle de tâches sur des systèmes d'exploitation. GPT-5.2 atteignait 47,3 % sur le même benchmark. Les performances humaines se situent à 72,4 %. GPT-5.4 dépasse la baseline humaine en automatisation de bureau — un seuil que l'industrie visait depuis deux ans.

WebArena-Verified : 67,3 % — Complétion de tâches sur navigateur dans des scénarios web réalistes. Shopping, soumission de formulaires, récupération d'informations, gestion de comptes. 67,3 % signifie qu'environ deux tiers des tâches navigateur se complètent sans intervention humaine. Le tiers restant nécessite encore une attention particulière.

Online-Mind2Web : 92,8 % — Navigation web basée sur des captures d'écran. C'est le chiffre le plus élevé parmi les indicateurs de computer use, et il reflète le mode le plus fort de GPT-5.4 : pointez-le sur une capture d'écran, donnez-lui une tâche, et il y arrive dans la grande majorité des cas.

BrowseComp : 82,7 % — Recherche complexe multi-étapes. GPT-5.2 était à 65,8 % ici. Un bond de 17 points dans la qualité de recherche compte pour tout agent qui doit rassembler des informations avant d'agir.

GDPval : 83,0 % — Ce chiffre reçoit moins d'attention qu'il ne le mérite. Sur 44 domaines professionnels, GPT-5.4 atteint ou dépasse la performance professionnelle humaine dans 83 % des cas. La modélisation de tableurs atteint spécifiquement 87,3 % (contre 68,4 % pour GPT-5.2). Pour ceux qui construisent des agents en finance, opérations ou services professionnels, ces chiffres définissent ce qui est désormais automatisable.

La perspective critique : 75 % sur OSWorld signifie 25 % d'échec. Dans un workflow où 10 étapes s'enchaînent, même des taux d'échec modérés par étape se composent rapidement. Le bon cadre mental n'est pas "GPT-5.4 peut automatiser mon ordinateur" — c'est "GPT-5.4 peut gérer la majorité des tâches informatiques répétables et bien définies, et a besoin d'une couche de supervision pour le reste." Notre guide sur les agents IA couvre comment concevoir cette couche correctement.

Tool Search: Agents That Find Their Own Tools

L'une des améliorations les moins discutées de GPT-5.4 est ce qu'OpenAI appelle la recherche d'outils. Sur 250 tâches Scale MCP Atlas, GPT-5.4 utilise 47 % moins de tokens que GPT-5.2 pour trouver et invoquer le bon outil.

Cela compte davantage que le chiffre brut ne le suggère. L'efficacité en tokens pour la sélection d'outils n'est pas seulement une histoire de coûts — c'est une histoire de latence et d'architecture. Quand un agent doit décider quel outil appeler, un raisonnement gourmand en tokens ralentit la boucle et consume le budget de contexte. Une réduction de 47 % signifie des cycles d'agents plus rapides, plus d'espace dans la fenêtre de contexte pour les données réelles de la tâche, et des coûts API significativement réduits à l'échelle.

Pour les développeurs qui construisent des agents connectés via MCP, cela change le calcul sur le nombre d'outils que vous pouvez exposer simultanément au modèle. Auparavant, donner à un agent accès à un grand registre d'outils était un compromis : plus de capacités, moins d'efficacité de sélection, coût plus élevé. GPT-5.4 déplace cette courbe. Vous pouvez exposer davantage d'outils sans payer une pénalité d'attention proportionnelle.

Combiné à la fenêtre de contexte de 1M tokens, l'architecture de GPT-5.4 commence à ressembler à quelque chose de conçu spécifiquement pour les tâches agentiques à long horizon — là où un agent doit maintenir une grande mémoire de travail, consulter de nombreux outils et exécuter des dizaines d'étapes sans perdre le fil. L'approche de la boucle Claude Code est un pattern pour gérer cela ; GPT-5.4 offre maintenant une alternative compétitive dans l'écosystème OpenAI.

What Changed in 6 Months

Capacité	GPT-5.2 (sept. 2025)	GPT-5.4 (mars 2026)	Delta
Automatisation bureau (OSWorld)	47,3 %	75,0 %	+27,7 pts
Recherche web (BrowseComp)	65,8 %	82,7 %	+16,9 pts
Modélisation tableurs	68,4 %	87,3 %	+18,9 pts
Raisonnement visuel (MMMU-Pro)	79,5 %	81,2 %	+1,7 pt
Erreur OCR document (OmniDocBench)	0,140	0,109	−22 %
Fausses affirmations	baseline	−33 %	significatif
Erreurs totales	baseline	−18 %	significatif
Fenêtre de contexte	~200K	jusqu'à 1M tokens	×5
Recherche d'outils MCP	baseline	−47 % tokens	significatif
Tâches navigateur (WebArena)	—	67,3 %	nouveau
Navigation par captures (Mind2Web)	—	92,8 %	nouveau

Le bond de 27 points sur OSWorld est le chiffre marquant. Pour le mettre en perspective : il y a six mois, un score de 47 % en automatisation de bureau signifiait que les agents de computer use étaient une recherche intéressante. À 75 %, ils sont pertinents pour la production sur des workflows structurés et répétables. Ce changement s'est produit en une seule génération de modèle.

La fiabilité s'est également améliorée significativement : 33 % de fausses affirmations en moins et 18 % d'erreurs en moins par rapport à GPT-5.2. Pour les agents qui prennent des décisions — pas seulement qui récupèrent des informations — la fiabilité est aussi importante que la capacité brute. Un agent 10 % plus capable mais 15 % moins fiable est souvent pire en pratique. GPT-5.4 améliore les deux simultanément, ce qui est plus difficile qu'il n'y paraît.

Building Agents With GPT-5.4: What's Different Now

Trois choses ont changé en pratique pour les équipes qui construisent des systèmes agentiques.

1. Le computer use est une primitive de premier ordre. Avec GPT-5.2 et avant, le computer use nécessitait d'encapsuler des API externes, d'assembler des modèles de vision et d'action séparés, et de déboguer un système qui n'était pas conçu comme un tout. Avec GPT-5.4, la capacité est native. Un modèle, une API, un contexte. Cette simplification réduit à elle seule la surface d'erreurs de production.

2. Les politiques de confirmation rendent les agents déployables. La possibilité de définir des politiques de confirmation personnalisées — "pause avant toute opération d'écriture", "confirmation avant de quitter la page actuelle" — signifie que vous pouvez ajuster précisément le curseur autonomie/sécurité par workflow. Un agent de reporting financier qui lit des données peut fonctionner entièrement en autonomie. Un agent qui soumet des factures reçoit un contrôle humain dans la boucle. Cette granularité est ce qui transforme les démos en systèmes déployables.

3. La fenêtre de contexte de 1M tokens change la conception des tâches à long horizon. Les agents qui devaient auparavant résumer et compresser leur mémoire de travail toutes les N étapes peuvent maintenant maintenir des historiques de tâches plus longs, plus de sorties d'outils et de plus grands documents en contexte simultanément. Pour des workflows comme la recherche automatique à la Karpathy, où l'agent doit maintenir un fil de recherche sur de nombreuses sources, c'est une vraie avancée architecturale.

Le point de départ pratique pour la plupart des équipes est le computer use en mode Playwright (génération de code, pas d'interaction directe). Plus facile à auditer, à tester et à rejouer en cas de problème. L'interaction directe par capture d'écran convient mieux aux environnements qui n'ont pas d'API programmable — logiciels enterprise hérités, tableaux de bord SaaS tiers, ou partout où vous auriez sinon recours au scraping.

The Competitive Picture (Claude, Gemini, Copilot)

GPT-5.4 n'a pas inventé l'IA de computer use. Anthropic propose le computer use depuis Claude 3.5 Sonnet — désormais étendu et affiné dans Claude Opus 4.6. Gemini 2.5 Pro de Google développe ses capacités agentiques. Microsoft Copilot est intégré dans la suite Office d'une façon qui brouille de plus en plus la ligne entre assistant et moteur d'automatisation.

Que change donc réellement GPT-5.4 sur le plan concurrentiel ?

Le différenciateur clé est la combinaison d'un computer use natif à ce niveau de performance plus un modèle conçu dès le départ pour les workflows agentiques riches en outils. Le computer use de Claude est solide (Anthropic ne publie pas les mêmes chiffres OSWorld, ce qui est en soi instructif), mais l'efficacité de recherche d'outils MCP et la fenêtre de contexte 1M sont les avantages architecturaux de GPT-5.4 pour les systèmes multi-outils.

Gemini 2.5 Pro est compétitif sur les tâches multimodales mais vit principalement dans l'écosystème Google. Pour les équipes qui ne sont pas déjà profondément ancrées dans Google Cloud, le coût de migration est réel. Microsoft Copilot est puissant spécifiquement pour les workflows Office — le lancement simultané de ChatGPT pour Excel est une réponse directe à cela. Mais les capacités générales de computer use de Copilot sont en retrait par rapport à l'approche modèle natif.

La réponse honnête : si vous construisez des agents qui vivent dans l'écosystème OpenAI ou qui nécessitent une flexibilité maximale sur les types d'applications, GPT-5.4 est la meilleure option actuelle. Si vous construisez principalement sur les outils d'Anthropic — où des agences vibe-codent déjà leurs propres outils GEO avec Claude Code — le passage n'est pas évident. L'écart entre les leaders est significatif mais pas insurmontable. Les décisions d'architecture comptent plus que la sélection du modèle en marge.

What This Means If You're Building AI Products

Le computer use à 75 % de complétion des tâches de bureau modifie le calcul build/buy pour plusieurs catégories de produits.

Automatisation robotique des processus (RPA) : Les outils RPA traditionnels comme UiPath et Automation Anywhere reposent sur une automatisation fragile basée sur des sélecteurs. GPT-5.4 peut gérer les mêmes workflows grâce à la compréhension visuelle — pas de sélecteurs, pas de maintenance quand les interfaces changent. Le fossé protégeant les fournisseurs RPA traditionnels vient de s'amenuiser considérablement.

Services d'automatisation de navigateur : Tout ce qui vend "l'automatisation de navigateur alimentée par l'IA" comme fonctionnalité est désormais en compétition avec une capacité intégrée dans le modèle de base. Différenciez-vous par des couches de fiabilité, une UX d'escalade humaine et une formation spécifique au domaine — pas par la capacité de computer use elle-même.

IA pour les services professionnels : GDPval à 83,0 % sur 44 domaines professionnels signifie que l'IA est maintenant plus fiable que le professionnel médian sur une grande partie des tâches structurées. Ce n'est pas une histoire de remplacement — c'est une histoire de levier. Un professionnel avec IA travaillant à 83 % sur le spectre des tâches opère avec un débit fondamentalement différent. Construisez des outils qui amplifient ce levier.

Agents de recherche à long horizon : Avec la fenêtre de contexte 1M et les performances améliorées sur BrowseComp, les agents de recherche qui nécessitaient auparavant des points de contrôle humains constants peuvent maintenant fonctionner plus longtemps sans surveillance. Le modèle de coût pour l'automatisation de la recherche approfondie baisse substantiellement.

Si vous évaluez où intégrer GPT-5.4 dans votre stack, commencez par notre aperçu des services — nous travaillons précisément ces décisions de cadrage avec des équipes qui construisent sur la génération actuelle de modèles.

FAQ

Qu'est-ce que GPT-5.4 et quand a-t-il été publié ? GPT-5.4 est le dernier modèle d'OpenAI, publié le 5 mars 2026. C'est le premier modèle généraliste avec un computer use natif — capable de contrôler des navigateurs, des applications bureau et des logiciels via des captures d'écran et des instructions.

Comment le computer use de GPT-5.4 se compare-t-il aux performances humaines ? Sur OSWorld-Verified, GPT-5.4 atteint 75,0 % contre 72,4 % pour les humains sur les tâches d'automatisation bureau — dépassant légèrement la baseline humaine. Sur la navigation par captures Online-Mind2Web, il atteint 92,8 %. Les humains le surpassent encore sur les tâches nécessitant jugement, contexte et gestion des exceptions.

GPT-5.4 peut-il remplacer des outils RPA comme UiPath ou Automation Anywhere ? Pour les workflows structurés et répétables sur des interfaces modernes, GPT-5.4 couvre une part significative de ce que couvre le RPA traditionnel — sans sélecteurs fragiles ni maintenance quand les interfaces changent. Pour les déploiements enterprise complexes avec pistes d'audit et intégration de systèmes hérités, les outils RPA gardent leur valeur. Les deux coexisteront 2-3 ans ; sur les implémentations greenfield, l'approche GPT-5.4 s'imposera à terme.

Quelle est la différence entre le mode Playwright de GPT-5.4 et le mode capture directe ? Le mode Playwright génère du code d'automatisation (Playwright, Selenium) que votre infrastructure exécute — le modèle ne touche jamais directement le système en production. Le mode capture envoie des événements souris/clavier directs dans une boucle de rétroaction. Le mode Playwright est plus facile à auditer et à tester ; le mode capture fonctionne sur n'importe quelle interface, y compris les applications héritées sans API programmable.

Comment GPT-5.4 se compare-t-il à Claude Opus 4.6 pour le computer use ? GPT-5.4 publie un score OSWorld de 75,0 %. Anthropic ne publie pas de chiffres équivalents pour Claude Opus 4.6, ce qui rend la comparaison directe difficile. Les avantages documentés de GPT-5.4 comprennent une efficacité de recherche d'outils MCP 47 % meilleure et une fenêtre de contexte de 1M tokens — tous deux significatifs pour les architectures d'agents multi-outils.

GPT-5.4 est-il disponible pour tous les utilisateurs API ou seulement pour l'enterprise ? GPT-5.4 est disponible dans l'API OpenAI standard, dans ChatGPT (en tant que GPT-5.4 Thinking) et dans Codex. Un niveau GPT-5.4 Pro avec des limites de débit plus élevées et des SLA enterprise cible les utilisateurs professionnels et les entreprises. Les capacités de computer use sont disponibles sur tous les niveaux, avec des limites de débit et des tarifs variables.

GPT-5.4 et le Computer Use : ce que les agents IA font maintenant

What GPT-5.4 Computer Use Actually Does

The Benchmark Reality Check

Tool Search: Agents That Find Their Own Tools

What Changed in 6 Months

Building Agents With GPT-5.4: What's Different Now

The Competitive Picture (Claude, Gemini, Copilot)

What This Means If You're Building AI Products

FAQ

Partager l'article

Lire plus

AI Release Intelligence Januar 2026: Claude Code 2.1, OpenAI Connectors, MCP 1.0 und Gemini 3 - Was Entwickler jetzt wissen muessen

AI-Ökosystem Update Woche 4/2026: ChatGPT testet Werbung, Claude Cowork im Praxistest und kritische MCP-Sicherheitslücken

AI-Ökosystem Update Woche 5/2026: GPT-5.2 revolutioniert Coding, MCP Apps bringen interaktive UIs und Google AI Studio wird eigenständig