Quando David Ondrej ha pubblicato il 25 aprile un clip di "Gemini 3.1 Pro" che ripeteva dieci messaggi di fila in OpenClaw — citando se stesso, rifiutando di fermarsi, finendo per bloccarsi — ha portato in superficie la domanda che ogni team che usa OpenClaw finisce per farsi: quale modello funziona davvero in questo harness, e quali invece cedono in silenzio? I benchmark di marketing non lo dicono. Le leaderboard nemmeno. Solo il deployment reale lo dice.
Operiamo OpenClaw per i clienti da diversi mesi, sostituendo i modelli man mano che ne arrivano di nuovi. Questa è la guida pratica che avremmo voluto avere all'inizio: di quali modelli ci fidiamo oggi in OpenClaw, quali abbiamo smesso di usare, e come decidere per il proprio carico di lavoro.
Cosa significa "il migliore" dentro OpenClaw
OpenClaw non è una chatbox. È un harness agentico: uso di tool, modifica di file, loop di task lunghi, contesto persistente, hook e una CLI che esegue automazione tipo cron. Un modello che fa 90 nei benchmark di coding può comunque essere la scelta sbagliata se non segue le convenzioni di hook di OpenClaw, ignora i contratti di chiamata tool, o brucia la finestra di contesto rileggendo lo stesso file quattro volte di seguito.
Tre tratti contano più dei numeri di benchmark:
- Disciplina nelle chiamate tool — chiama il tool giusto con lo schema giusto al primo tentativo?
- Disciplina di stop — sa quando il task è finito, o entra in loop?
- Economia di contesto — rilegge ciò che è già nel contesto, o si fida?
Quasi tutto il resto deriva da questi tre. Valutiamo ogni modello nelle nostre note di deployment su questi assi. Ecco dove si posizionano le principali opzioni frontier a fine aprile 2026.
Sonnet 4.6 — il default che si guadagna il posto
Anthropic Claude Sonnet 4.6 è il modello che impostiamo come default in quasi ogni deployment OpenClaw — e si è guadagnato quel posto, non gli è stato regalato. Disciplina nelle chiamate tool: eccellente. Disciplina di stop: la migliore della categoria — quando un task Sonnet 4.6 è finito, finisce davvero. Rilegge raramente file appena mostrati. Il rapporto costo-per-task per i workflow agent tipici si colloca grosso modo dove stava Haiku prima dell'aggiustamento di prezzo.
Dove cede: i refactor multi-step profondi su codebase sconosciute richiedono a volte una lama più affilata. Per code review, decisioni di architettura o tracce di debug che devono tenere a mente una lunga catena causa-effetto, Sonnet 4.6 a volte si arrende troppo presto. Esattamente quando passiamo a Opus.
Per un'analisi più approfondita di perché il lavoro agentico si sia spostato verso questo modello, vedi il nostro pezzo sul modello agentico che OpenAI ha spedito per sfidare il mythos Claude.
Opus 4.7 — quando la profondità di reasoning paga davvero
Opus 4.7 è il pesomassimo. Non lo eseguiamo come default perché il costo per task si accumula in fretta — ma è il nostro percorso di escalation per tre classi di lavoro:
- Debug complesso in cui la catena causa-effetto attraversa più file e i sintomi sono fuorvianti
- Decisioni architetturali in cui il modello deve pesare i trade-off onestamente invece di prendere la prima risposta plausibile
- Task one-shot ad alto rischio come script di migrazione, modifiche di schema o qualunque cosa tocchi dati di produzione
Opus 4.7 è anche il modello di cui ci fidiamo di più quando il pensiero adattivo conta — far spendere al modello token di reasoning prima di committare a una chiamata tool. Il costo è reale, ma il tasso di successo sui task difficili lo giustifica. Regola pratica: se un'esecuzione Sonnet fallisce due volte con errori simili, fai escalation a Opus invece di riprovare.
GPT-5.5 in OpenClaw — buon coder, strumento sbagliato per ora
GPT-5.5 in OpenClaw è insieme interessante e frustrante. Come puro coder è solido, e la conferma di OpenAI che GPT-5.5 = Codex (Romain Huet, 25 aprile) significa che non c'è più la separazione "Codex per il codice, GPT-5.5 per il generale". Un modello, due harness.
Ma OpenClaw non è il suo harness. Vediamo due modi di fallimento ricorrenti quando colleghiamo GPT-5.5 a OpenClaw:
- Drift dello schema delle chiamate tool — a volte inventa campi tool che non esistono, soprattutto in contesti lunghi
- Disciplina di stop più lasca — produce più spesso di Sonnet 4.6 riempitivi tipo "Continuo a lavorare su questo"
Per OpenClaw nello specifico, oggi consigliamo: lascia GPT-5.5 nella CLI Codex dove le sue convenzioni corrispondono al suo training, e tieni i modelli Anthropic dentro OpenClaw. Questo può cambiare man mano che l'harness matura attorno ad altri provider. Testiamo a ogni release minore.
DeepSeek V4 — disruption di costo che ha bisogno di test veri
DeepSeek V4 (1,6 mila miliardi di parametri, licenza MIT, drasticamente più economico di Opus su task equivalenti) è appena uscito. Abbiamo coperto le implicazioni di prezzo in dettaglio nel nostro post sul terremoto dei prezzi DeepSeek V4.
Dentro OpenClaw, i nostri primi test mostrano che DeepSeek V4 Flash gestisce il 70-80% dei carichi tipici di tier-Haiku a una frazione del costo. V4 Pro è seriamente competitivo con Opus su task di reasoning isolati, anche se la disciplina di stop è indietro rispetto ai modelli Anthropic. Non siamo ancora pronti a raccomandarlo come default in deployment cliente — è troppo presto per sapere come si comporta in loop agent lunghi, e la versione open-weights richiede un'infrastruttura di self-hosting che la maggior parte dei team non ha.
Se siete sensibili al costo e disposti a investire in valutazione: iniziate a testare V4 Flash su cron job OpenClaw a basso rischio (intel scan, riassunti, controlli di qualità contenuti) e misurate disciplina di stop e accuratezza delle chiamate tool. Non distribuitelo su job che toccano la produzione finché non avete una storia di stabilità di più settimane.
Modelli che abbiamo testato e non raccomandiamo
Alcuni segnali dagli ultimi sei mesi di lavoro di deployment:
- Gemini 2.5 Pro e varianti 3.x: Inconsistenti in OpenClaw. Il rapporto Ondrej corrisponde ai nostri test. Il modello è solido nel suo harness (Vertex, AI Studio) ma non rispetta in modo affidabile le convenzioni tool di OpenClaw. Abbiamo smesso di usarlo.
- Nemotron e Qwen mid-tier: Buoni come fallback nella nostra cascade di costo, ma i tassi di timeout salgono in contesti lunghi. Solo per burst brevi.
- Versioni Claude più vecchie (3.5, 4.0, 4.5): Superate. Nessun motivo per usarle se non costretti dal costo.
Per un contesto provider più ampio, vedi la nostra analisi sul pricing della compute agentica.
Come scegliere: una matrice di decisione
Ecco lo schema che usiamo quando un cliente chiede "che modello dovremmo eseguire?"
| Carico di lavoro | Default | Escalation a | Perché |
|---|---|---|---|
| Cron job quotidiani (audit, scan, riassunti) | Sonnet 4.6 | Opus 4.7 se accuratezza critica | La disciplina di stop di Sonnet tiene il costo prevedibile |
| Generazione e revisione di codice | Sonnet 4.6 | Opus 4.7 per i bug duri | Saltare GPT-5.5 in OpenClaw; usarlo in Codex CLI |
| Task one-shot ad alto rischio (migrazioni, fix prod) | Opus 4.7 | — | Costo giustificato dal costo di un singolo fallimento |
| Lavoro di volume sensibile al costo | DeepSeek V4 Flash (test) | Sonnet 4.6 | Validare la disciplina di stop prima di scalare |
| Task multimodali (visione, audio) | Sonnet 4.6 con vision | Opus 4.7 | Comportamento più consistente in OpenClaw |
La leva che tiriamo più spesso: escalation da Sonnet a Opus al retry, mai il contrario. Se Sonnet fallisce due volte, Opus di solito risolve al primo tentativo. Se Opus fallisce, riprovare con Opus aiuta raramente — il task probabilmente ha bisogno di un altro framing.
FAQ
Q: Posso cambiare modello a metà di un task in OpenClaw? Sì — OpenClaw supporta il cambio di modello via flag CLI o config per job. Lo usiamo nella nostra cascade di fallback cron: se Sonnet va in timeout due volte, l'esecuzione successiva prova automaticamente un altro provider. Impostalo prima di averne bisogno.
Q: "Gemini 3.1 Pro" è davvero un modello pubblicato? Al 26 aprile 2026 non troviamo un annuncio ufficiale Google per "Gemini 3.1 Pro". Il video di David Ondrej potrebbe riferirsi a un nome interno o a un rollout silenzioso. Trattate ogni affermazione "Gemini 3.x" come non confermata finché il blog Google non la valida.
Q: Dovrei sempre usare il modello più potente "per stare sicuro"? No. Opus 4.7 su un job che Sonnet 4.6 gestisce bene costa cinque-dieci volte di più per lo stesso risultato, e i loop di reasoning più lunghi possono introdurre nuovi modi di fallimento. Adattate il modello al carico — escalation al retry, non per default.
Q: Quanto spesso dovrei ritestare quale modello funziona meglio? Mensilmente al minimo, settimanalmente se gestite deployment OpenClaw in produzione. Il comportamento dei modelli si sposta a ogni release minore, e la compatibilità con l'harness cambia più velocemente di quanto i punteggi di benchmark suggerirebbero.
In sintesi
Per la maggior parte dei team che operano OpenClaw nel 2026, il default giusto è Sonnet 4.6 con Opus 4.7 come percorso di escalation. GPT-5.5 appartiene a Codex CLI, non a OpenClaw. DeepSeek V4 vale la valutazione per carichi sensibili al costo ma non è ancora pronto per la produzione in questo harness. Le varianti Gemini restano inconsistenti.
I punteggi di benchmark continueranno a muoversi. Ciò che conta in OpenClaw è la disciplina nelle chiamate tool, la disciplina di stop e l'economia di contesto — e su questi tre assi i modelli Anthropic mantengono il vantaggio.
Se volete aiuto per impostare la cascade di modelli giusta per il vostro deployment OpenClaw — default, fallback, regole di escalation — prenotate una call di scoperta con Context Studios. L'abbiamo fatto per abbastanza clienti da risparmiarvi la fase di tentativi ed errori.