GPT-5.4 e il Computer Use: cosa possono fare gli agenti IA ora

What GPT-5.4 Computer Use Actually Does

GPT-5.4 opera un computer in due modalità distinte, e capire la differenza è fondamentale per la progettazione del sistema.

Modalità 1: Generazione di codice. GPT-5.4 scrive script di automazione Playwright, Selenium o simili a partire da un obiettivo e uno screenshot. Passi un task ("esporta il report Q1 da questo dashboard SaaS"), il modello genera codice eseguibile, la tua infrastruttura lo esegue. Il modello non tocca mai direttamente il sistema live — è l'autore dello script, non l'attore che lo esegue.

Modalità 2: Interazione diretta. GPT-5.4 invia eventi mouse e tastiera a partire da screenshot in un ciclo di feedback. Vede lo schermo, decide l'azione successiva, la esegue, osserva il risultato e continua. È più vicino al funzionamento di un assistente virtuale umano: guardare lo schermo, cliccare dove necessario, digitare dove necessario, escalare quando bloccato.

Entrambe le modalità sono steerable. Gli sviluppatori possono iniettare istruzioni tramite developer message — istruzioni a livello operatore che possono sovrascrivere l'intento dell'utente. Puoi anche definire custom confirmation policy: "conferma sempre prima di inviare un modulo", "non cliccare mai su elimina senza un secondo controllo." Questo rende il computer use di GPT-5.4 auditabile e controllabile in modi che gli approcci precedenti non permettevano — ed è esattamente ciò che lo fa superare i security review enterprise.

Il modello di visione sottostante è migliorato sostanzialmente. Su MMMU-Pro (un benchmark di ragionamento multimodale), GPT-5.4 segna 81,2% contro 79,5% per GPT-5.2. Su OmniDocBench, il tasso di errore è sceso da 0,140 a 0,109. È importante perché il computer use dipende completamente dalla comprensione visiva — un modello che interpreta male un elemento UI o identifica erroneamente un pulsante può innescare errori a cascata in tre passaggi. Visione migliore significa esecuzione più affidabile.

The Benchmark Reality Check

I benchmark sono mappe, non territorio. Ma queste mappe in particolare vale la pena leggere attentamente perché coprono scenari che prima non avevano una buona misurazione.

OSWorld-Verified: 75,0% — Questo è il numero di punta. OSWorld testa il completamento reale di task desktop su sistemi operativi. GPT-5.2 segnava 47,3% sullo stesso benchmark. Le performance umane si attestano al 72,4%. GPT-5.4 supera la baseline umana nell'automazione desktop — una soglia che il settore guardava da due anni.

WebArena-Verified: 67,3% — Completamento di task su browser in scenari web realistici: shopping, invio moduli, recupero informazioni, gestione account. 67,3% significa che circa due terzi dei task browser si completano senza intervento umano. Il terzo restante necessita ancora di attenzione.

Online-Mind2Web: 92,8% — Navigazione web basata su screenshot. È il numero più alto tra i dati di computer use e riflette la modalità più forte di GPT-5.4: punta al suo screenshot, dagli un task, e nella stragrande maggioranza dei casi ci arriva.

BrowseComp: 82,7% — Ricerca web complessa multi-step. GPT-5.2 era al 65,8%. Un salto di 17 punti nella qualità della ricerca conta per qualsiasi agente che deve raccogliere informazioni prima di agire.

GDPval: 83,0% — Questo numero riceve meno attenzione ma ne merita di più. Su 44 domini occupazionali, GPT-5.4 raggiunge o supera le prestazioni professionali umane nell'83% dei casi. La modellazione di fogli di calcolo arriva specificamente all'87,3% (contro il 68,4% di GPT-5.2). Per chi costruisce agenti in finanza, operazioni o servizi professionali, questi numeri definiscono ciò che è ora automatizzabile.

La prospettiva critica: 75% su OSWorld significa 25% di fallimento. In un workflow con 10 passaggi concatenati, anche tassi di fallimento moderati per passaggio si moltiplicano rapidamente. Il frame mentale corretto non è "GPT-5.4 può automatizzare il mio computer" — è "GPT-5.4 può gestire la maggior parte dei task informatici ripetibili e ben definiti, e ha bisogno di uno strato di supervisione per il resto." La nostra guida agli agenti IA spiega come progettare correttamente questo strato.

Tool Search: Agents That Find Their Own Tools

Uno degli upgrade meno discussi di GPT-5.4 è quello che OpenAI chiama tool search. Su 250 task Scale MCP Atlas, GPT-5.4 usa il 47% in meno di token rispetto a GPT-5.2 per trovare e invocare lo strumento giusto.

Conta più di quanto il numero grezzo suggerisca. L'efficienza in token nella selezione degli strumenti non è solo una storia di costi — è una storia di latenza e di architettura. Quando un agente deve decidere quale strumento chiamare, il ragionamento token-intensivo rallenta il loop e brucia il budget di contesto. Una riduzione del 47% significa cicli agente più veloci, più spazio nella finestra di contesto per i dati reali del task, e costi API significativamente più bassi su scala.

Per gli sviluppatori che costruiscono agenti connessi via MCP, questo cambia il calcolo su quanti strumenti esporre al modello contemporaneamente. Prima, dare a un agente accesso a un ampio registro di strumenti era un compromesso: più capacità, peggiore efficienza di selezione, costo maggiore. GPT-5.4 sposta quella curva. Puoi esporre più strumenti senza pagare una penalità di attenzione proporzionale.

Combinato con la finestra di contesto da 1M token, l'architettura di GPT-5.4 inizia ad assomigliare a qualcosa progettato specificamente per task agentici a lungo orizzonte — dove un agente deve mantenere una grande working memory, consultare molti strumenti ed eseguire decine di passaggi senza perdere il filo. L'approccio del Claude Code loop è un pattern per gestire questo; GPT-5.4 offre ora un'alternativa competitiva nell'ecosistema OpenAI.

What Changed in 6 Months

Capacità	GPT-5.2 (set. 2025)	GPT-5.4 (mar. 2026)	Delta
Automazione desktop (OSWorld)	47,3%	75,0%	+27,7 pt
Ricerca web (BrowseComp)	65,8%	82,7%	+16,9 pt
Modellazione fogli di calcolo	68,4%	87,3%	+18,9 pt
Ragionamento visivo (MMMU-Pro)	79,5%	81,2%	+1,7 pt
Errore OCR documenti (OmniDocBench)	0,140	0,109	−22%
Affermazioni false	baseline	−33%	significativo
Errori totali	baseline	−18%	significativo
Finestra di contesto	~200K	fino a 1M token	5×
Ricerca strumenti MCP	baseline	−47% token	significativo
Task su browser (WebArena)	—	67,3%	nuovo
Navigazione screenshot (Mind2Web)	—	92,8%	nuovo

Il salto di 27 punti su OSWorld è il dato che spicca. Per contestualizzarlo: sei mesi fa, un punteggio del 47% nell'automazione desktop significava che gli agenti di computer use erano ricerca interessante. Al 75%, sono rilevanti per la produzione su workflow strutturati e ripetibili. Questo cambiamento è avvenuto in una singola generazione di modello.

Anche l'affidabilità è migliorata significativamente: 33% di affermazioni false in meno e 18% di errori in meno rispetto a GPT-5.2. Per gli agenti che prendono decisioni — non solo recuperano informazioni — l'affidabilità è importante quanto la capacità grezza. Un agente che è il 10% più capace ma il 15% meno affidabile è spesso peggiore in pratica. GPT-5.4 migliora entrambi simultaneamente, il che è più difficile di quanto sembri.

Building Agents With GPT-5.4: What's Different Now

Tre cose sono cambiate in pratica per i team che costruiscono sistemi agentici.

1. Il computer use è una primitiva di primo livello. Con GPT-5.2 e prima, il computer use richiedeva di wrappare API esterne, assemblare modelli di visione e azione separati, e debuggare un sistema che non era progettato come un tutt'uno. Con GPT-5.4, la capacità è nativa. Un modello, un'API, un contesto. Questa semplificazione da sola riduce la superficie d'errore in produzione.

2. Le confirmation policy rendono gli agenti deployabili. La possibilità di definire custom confirmation policy — "pausa prima di qualsiasi operazione di scrittura", "conferma prima di navigare lontano dalla pagina corrente" — significa che puoi regolare il cursore autonomia/sicurezza per workflow. Un agente di reporting finanziario che legge dati può girare completamente in autonomia. Uno che invia fatture riceve un gate human-in-the-loop. Questa granularità è ciò che trasforma le demo in sistemi deployabili.

3. La finestra di contesto da 1M token cambia il design dei task a lungo orizzonte. Gli agenti che prima dovevano riassumere e comprimere la loro working memory ogni N step possono ora mantenere storie di task più lunghe, più output di strumenti e documenti più grandi in contesto simultaneamente. Per workflow come la ricerca automatica in stile Karpathy, dove l'agente deve mantenere un filo di ricerca attraverso molte fonti, questo è un vero sblocco architetturale.

Il punto di partenza pratico per la maggior parte dei team è il computer use in modalità Playwright (generazione di codice, non interazione diretta). Più facile da auditare, testare e riprodurre quando qualcosa va storto. L'interazione diretta basata su screenshot è più adatta per applicazioni dove l'ambiente target non ha un'API programmabile — software enterprise legacy, dashboard SaaS di terze parti, o ovunque faresti altrimenti screen scraping.

The Competitive Picture (Claude, Gemini, Copilot)

GPT-5.4 non ha inventato l'IA di computer use. Anthropic ha il computer use da Claude 3.5 Sonnet — ora esteso e raffinato in Claude Opus 4.6. Gemini 2.5 Pro di Google ha capacità agentiche crescenti. Microsoft Copilot è intrecciato nel pacchetto Office in modi che sfumano sempre di più il confine tra assistente e motore di automazione.

Cosa cambia quindi GPT-5.4 concorrenzialmente?

Il differenziatore chiave è la combinazione di computer use nativo a questo livello di performance più un modello progettato dall'inizio per workflow agentici ricchi di strumenti. Il computer use di Claude è solido (Anthropic non pubblica gli stessi numeri OSWorld, il che è già informativo di per sé), ma l'efficienza di ricerca degli strumenti MCP e la finestra di contesto da 1M sono i vantaggi architetturali di GPT-5.4 per i sistemi agente multi-strumento.

Gemini 2.5 Pro è competitivo sui task multimodali ma vive principalmente nell'ecosistema Google. Per i team non già profondamente radicati in Google Cloud, il costo di migrazione è reale. Microsoft Copilot è potente specificamente per i workflow Office — il lancio simultaneo di ChatGPT per Excel è una risposta diretta a questo. Ma le capacità generali di computer use di Copilot sono in ritardo rispetto all'approccio modello nativo.

La risposta onesta: se costruisci agenti che vivono nell'ecosistema OpenAI o che necessitano della massima flessibilità tra tipi di applicazione, GPT-5.4 è l'opzione migliore attuale. Se costruisci principalmente sugli strumenti di Anthropic — dove le agenzie fanno già vibe-coding dei propri strumenti GEO con Claude Code — il passaggio non è ovviamente conveniente. Il divario tra i frontrunner è significativo ma non incolmabile. Le decisioni architetturali contano più della selezione del modello al margine.

What This Means If You're Building AI Products

Il computer use al 75% di completamento dei task desktop cambia il calcolo build/buy per diverse categorie di prodotto.

Robotic Process Automation (RPA): Gli strumenti RPA legacy come UiPath e Automation Anywhere si basano su automazione fragile basata su selettori. GPT-5.4 può gestire gli stessi workflow usando la comprensione visiva — nessun selettore, nessuna manutenzione quando le UI cambiano. Il fossato intorno ai vendor RPA tradizionali si è appena assottigliato notevolmente.

Servizi di automazione browser: Tutto ciò che vende "automazione browser basata su IA" come feature è ora in competizione con una capacità inclusa nel modello base. Differenziati tramite layer di affidabilità, UX di escalation umana e formazione specifica per dominio — non tramite la capacità di computer use in sé.

IA per servizi professionali: GDPval all'83,0% su 44 domini occupazionali significa che l'IA è ora più affidabile del professionista medio su gran parte dei task strutturati. Non è una storia di sostituzione — è una storia di leva. Un professionista con IA che lavora all'83% attraverso lo spettro dei task opera con un throughput fondamentalmente diverso. Costruisci strumenti che amplificano questa leva.

Agenti di ricerca a lungo orizzonte: Con la finestra di contesto da 1M e le performance migliorate su BrowseComp, gli agenti di ricerca che prima necessitavano di continui checkpoint umani possono ora girare più a lungo senza supervisione. Il modello di costo per l'automazione della ricerca approfondita scende sostanzialmente.

Se stai valutando dove integrare GPT-5.4 nel tuo stack, inizia dalla nostra panoramica dei servizi — lavoriamo esattamente queste decisioni di scoping con team che costruiscono sulla generazione attuale di modelli.

FAQ

Cos'è GPT-5.4 e quando è stato rilasciato? GPT-5.4 è l'ultimo modello di OpenAI, rilasciato il 5 marzo 2026. È il primo modello general-purpose con computer use nativo — in grado di controllare browser, app desktop e software tramite screenshot e istruzioni.

Come si confronta il computer use di GPT-5.4 con le performance umane? Su OSWorld-Verified, GPT-5.4 segna 75,0% contro 72,4% degli umani sui task di automazione desktop — superando leggermente la baseline umana. Su Online-Mind2Web per la navigazione screenshot, raggiunge il 92,8%. Gli umani lo superano ancora sui task che richiedono giudizio, contesto e gestione delle eccezioni.

GPT-5.4 può sostituire strumenti RPA come UiPath o Automation Anywhere? Per workflow strutturati e ripetibili su interfacce moderne, GPT-5.4 gestisce una porzione significativa di ciò che copre l'RPA tradizionale — senza selettori fragili né manutenzione quando le UI cambiano. Per deployment enterprise complessi con audit trail e integrazione di sistemi legacy, gli strumenti RPA mantengono il loro valore. I due coesisteranno 2-3 anni; nelle implementazioni greenfield, l'approccio GPT-5.4 prevarrà.

Qual è la differenza tra la modalità Playwright di GPT-5.4 e la modalità screenshot diretta? La modalità Playwright genera codice di automazione (Playwright, Selenium) che la tua infrastruttura esegue — il modello non tocca mai direttamente il sistema live. La modalità screenshot invia eventi mouse/tastiera diretti in un ciclo di feedback. La modalità Playwright è più facile da auditare e testare; la modalità screenshot funziona su qualsiasi interfaccia, incluse le app legacy senza API programmabile.

Come si confronta GPT-5.4 con Claude Opus 4.6 per il computer use? GPT-5.4 pubblica un punteggio OSWorld del 75,0%. Anthropic non pubblica numeri equivalenti per Claude Opus 4.6, rendendo difficile il confronto diretto. I vantaggi documentati di GPT-5.4 includono il 47% di efficienza in più nella ricerca degli strumenti MCP e una finestra di contesto da 1M token — entrambi significativi per architetture di agenti multi-strumento.

GPT-5.4 è disponibile per tutti gli utenti API o solo per l'enterprise? GPT-5.4 è disponibile nell'API OpenAI standard, in ChatGPT (come GPT-5.4 Thinking) e in Codex. Un livello GPT-5.4 Pro con rate limit più elevati e SLA enterprise si rivolge agli utenti professionali e aziendali. Le capacità di computer use sono disponibili su tutti i livelli, con rate limit e prezzi diversi.