Gemini 3.5 Pro: governance del routing per giugno
Gemini 3.5 Pro è il primo punto di pressione confermato dell'ondata di modelli IA di giugno. Google dice che Gemini 3.5 Pro è già usato internamente e dovrebbe arrivare il mese successivo. È un segnale sufficiente per prepararsi, ma non per sostituire route di produzione senza controllo. Il vero test è la governance del routing dei modelli IA.
Una nuova ondata di modelli si sta formando attorno a giugno 2026. I fatti pubblici non hanno tutti lo stesso peso. Google ha detto ufficialmente che Gemini 3.5 Pro è già usato internamente e dovrebbe arrivare il mese successivo. OpenAI ha già portato GPT-5.5 sul mercato, mentre il rumore pre-release parla già di GPT-5.6. Per Anthropic, gli elenchi pubblici di Claude su Google Cloud sono la base più prudente; i segnali su Claude 4.8 restano non confermati finché Anthropic o un partner cloud non li pubblicano.
Per le aziende, questa distinzione conta. Il vincitore dell'ondata di giugno non sarà il vendor con la demo più rumorosa. Sarà l'organizzazione con regole di routing, valutazioni, limiti di budget, log di audit e percorsi di rollback pronti prima della prossima release note.
Cosa è confermato, cosa no, e perché conta
La parte confermata è già sufficiente per agire. Google ha introdotto Gemini 3.5 Flash a I/O 2026 e lo ha descritto come il primo modello di una famiglia pensata per "frontier intelligence with action". Il riepilogo ufficiale di Google cita 76,2% su Terminal-Bench 2.1, 1656 Elo su GDPval-AA e 83,6% su MCP Atlas. Lo stesso post dice che Gemini 3.5 Pro gira già internamente ed è previsto per il mese successivo.
Questo solo movimento confermato crea pressione. Se Flash è il motore agentico veloce e Pro arriva con ragionamento più profondo, i team dovranno decidere quali workflow migrano, quali restano e quali richiedono uno schema a due modelli. Un bot di supporto, un agente di code review e un workflow finance non dovrebbero essere instradati tutti con la logica "vince il modello più nuovo".
La parte meno confermata è utile solo se trattata con onestà. GPT-5.6 e Claude 4.8 sono segnali da monitorare, non basi per la produzione. La baseline pubblica di OpenAI è GPT-5.5, posizionato per coding agentico, computer use, ricerca, analisi, documenti ed esecuzione multi-step. Per Anthropic, gli elenchi cloud pubblici restano il riferimento responsabile.
È la stessa disciplina di Anthropic: Opus 4.8, Sonnet 4.8 e Mythos: i segnali non confermati possono aiutare a prepararsi, ma non devono diventare promesse. La governance del routing dei modelli IA rende operativa questa separazione.
La governance del routing batte la caccia ai benchmark
I benchmark servono per formulare ipotesi. Sono pessimi come politica di produzione. Una release di giugno può vincere un benchmark di coding e peggiorare il vostro parser di fatture perché cambia la disciplina JSON. Un modello può costare meno per token e di più per attività accettata perché richiede più retry.
La governance del routing dei modelli IA parte da una domanda semplice: quale decisione prende il router, e quali prove possono influenzarla? La risposta deve essere esplicita. Instradate per classe di task, budget di latenza, livello privacy, accesso agli strumenti, formato di output, punteggio eval e tetto di costo. Non per hype, preferenza vendor o ultimo video della keynote.
Una policy pratica può dire: i riassunti legali ad alto rischio restano sul modello con la migliore valutazione interna e logging; la generazione UI può usare un modello frontier più veloce se la QA visiva intercetta regressioni; gli agenti di lunga durata richiedono checkpoint e fallback; la classificazione va al modello meno costoso che passa gli obiettivi di precisione.
Qui L'Ingegneria Agentica non è Vibe Coding diventa concreta. L'ingegneria agentica tratta la scelta del modello come infrastruttura. Il modello è una componente in un sistema con test, retry, permessi, osservabilità ed escalation. La governance del routing mantiene stabile il sistema quando arrivano nuovi annunci.
La telemetria dei costi è il control plane di giugno
L'ondata dei modelli è anche un'ondata di costi. Google posiziona Gemini 3.5 Flash come motore agentico veloce. OpenAI descrive GPT-5.5 come capacità autonoma più ampia attraverso strumenti. Anthropic resta associata a workflow premium di ragionamento e coding. I concorrenti low-cost continuano a spingere il pavimento verso il basso. Questo mix diventa un problema di routing che la finance noterà presto.
Il prezzo per token non è il numero centrale. Il numero utile è il costo per risultato accettato. Per un agente di coding significa costo per modifica mergiata che passa review. Per un workflow di ricerca significa costo per briefing con fonti che supera il fact-checking. Per il supporto clienti significa costo per caso risolto senza escalation.
Per questo la lezione di Alibaba Qwen 3.7 Max fa sembrare Opus costoso vale oltre Qwen. Non significa scegliere sempre il modello più economico. Significa strumentare il router in modo che ogni modello debba giustificare il suo posto.
La telemetria minima include nome e versione del modello, motivo del routing, classe di task, token, tool call, latenza, retry, esito della review, accettazione finale e costo stimato. La telemetria migliore aggiunge alert di drift: se il tasso di risultati accettati cala del 10% dopo un update vendor, il router deve segnalarlo prima della fattura.
Costruire la matrice di policy prima delle uscite
Una matrice di policy è un artefatto piccolo con grande impatto. Collega workload, modelli consentiti, fallback, controlli di rischio e obiettivi di misura. Deve essere leggibile da engineering, finance, legal e operations. Se solo il team AI capisce la policy, non è ancora governance.
Partite da quattro colonne: workload, route primaria, route di fallback e condizioni bloccanti. Un agente che modifica codice può usare un modello frontier di coding come primaria, un modello più economico per i riassunti e un modello premium per review quando i file toccano auth, pagamenti o cancellazione dati. Un agente di ricerca può usare un modello veloce per raggruppare fonti, poi un modello più forte per sintesi, poi un checker deterministico delle citazioni.
Il controllo dei cambi vendor deve stare nella stessa matrice. Una release di giugno non deve diventare automaticamente default di produzione. Deve entrare in una lane di prova, passare task rappresentativi, produrre un report comparativo ed essere promossa solo se batte la route attuale sulla metrica giusta: tasso di accettazione, latenza, costo per risposta accettata, meno escalation, rischio di allucinazione o affidabilità degli strumenti.
Lo stesso principio appare in Cursor Composer 2.5: la risposta sui costi. Modelli di coding più veloci ed economici cambiano le ipotesi, ma non eliminano la disciplina di routing. La aumentano, perché ogni nuova opzione crea anche nuovi modi per sbagliare in silenzio.
Un drill di migrazione in 10 giorni per giugno
La mossa migliore prima di giugno non è prevedere il vincitore. È provare la sostituzione di un modello.
Giorno 1: elencate i workflow dove un nuovo modello può contare davvero: agenti di coding, sintesi di ricerca, triage supporto, automazione documenti, estrazione dati e copiloti interni. Se un workflow non ha owner o metrica, non è pronto.
Giorni 2-3: definite il set di valutazione. Usate task reali, non prompt giocattolo. Includete edge case, contesto lungo, input pessimi, confini di dati sensibili ed esempi dove la route attuale fallisce.
Giorni 4-5: eseguite shadow routing. Lo stesso task va alla route di produzione attuale e alla route candidata. Confrontate qualità, latenza, costo, retry e carico di review. Il candidato non deve scrivere nei sistemi di produzione.
Giorni 6-7: testate i fallback. Fate fallire una tool call. Forzate un timeout. Cambiate uno schema. Rimuovete una fonte. Un modello eccellente nel percorso felice ma incapace di recuperare in sicurezza non è pronto per produzione agentica.
Giorno 8: fate la review finance. Traducete i token in costo per risultato accettato. Includete tempo umano di review, tentativi falliti e pulizia a valle. Se il modello è più economico solo prima dei retry, non è più economico.
Giorno 9: scrivete la regola di promozione. Esempio: "Promuovere Gemini 3.5 Pro alla sintesi di ricerca solo se l'accuratezza delle fonti accettate migliora dell'8% con costo per briefing accettato non oltre il 15% sopra la route attuale." Questa è una regola, non una sensazione.
Giorno 10: preparate il rollback. Tenete disponibile la vecchia route, versionate i prompt, rendete ripetibili gli eval, mantenete i log ricercabili. Se il vendor cambia comportamento, il ritorno deve richiedere minuti.
È il tipo di sistema operativo che i buyer dovrebbero aspettarsi da un partner IA. Come in Consulenza IA: Anthropic contro OpenAI, il mercato si sta spostando dalle demo ai modelli operativi responsabili. La governance del routing è uno di questi.
Cosa Context Studios metterebbe in piedi per primo
Per un cliente che si prepara all'ondata di giugno, non inizierei con un foglio di benchmark. Inizierei con un routing ledger.
Il routing ledger registra ogni decisione IA rilevante: task, modello, versione, motivo, costo, stato dell'output, stato review e percorso di fallback. Quando esiste, un team può sperimentare perché ogni esperimento lascia evidenza. Senza ledger, l'adozione dei modelli diventa folklore.
Il secondo artefatto è un catalogo modelli per livelli di rischio. I modelli Tier 1 possono toccare workflow sensibili. I Tier 2 servono produttività interna e sintesi a basso rischio. I Tier 3 gestiscono estrazione economica, brainstorming e bozze. I modelli sperimentali girano solo in shadow mode. Il catalogo include vendor, versione, use case consentiti, use case vietati, limiti di contesto, note dati, punti forti, failure mode e owner.
Il terzo artefatto è una promotion board. Ogni nuovo modello parte come candidato. Ha bisogno di workload target, eval set, ipotesi di costo, review del rischio e rollback. Se vince, ottiene una route stretta. Se continua a vincere, la route si allarga. Se regredisce, la board spiega il rollback.
Questo collega anche i workflow stile Codex alla governance più ampia. In Codex 0.132: ripresa strutturata per agenti, l'idea chiave era continuità: gli agenti hanno bisogno di stato, checkpoint e recupero. Il routing dei modelli ha bisogno della stessa cosa. Non si governa ciò che non si può ricostruire.
L'ondata di giugno può portare Gemini 3.5 Pro, altro movimento OpenAI, altro movimento Anthropic e ulteriore pressione sui prezzi. Una parte è pubblica. Una parte resta rumor. La regola enterprise non cambia: la velocità di rilascio non deve superare la disciplina operativa.
FAQ
Che cos'è la governance del routing dei modelli IA?
È l'insieme di regole, log, valutazioni e responsabilità che decide quale modello IA gestisce ogni task. Trasforma la scelta del modello in una decisione auditabile.
Le aziende dovrebbero passare subito a Gemini 3.5 Pro?
No. Dovrebbero provarlo prima in shadow mode o in una lane di test, poi promuoverlo solo dove migliora qualità, costo, latenza e controlli di rischio.
GPT-5.6 e Claude 4.8 sono release confermate?
Non dalle fonti pubbliche verificate per questo articolo. GPT-5.6 e Claude 4.8 vanno trattati come segnali da monitorare; GPT-5.5 e gli annunci Gemini 3.5 sono baseline pubbliche più solide.
Quale metrica conta di più nel routing?
Il costo per risultato accettato conta più del prezzo per token. Un modello è più economico solo se riduce retry, tempo di review e rischio.
Cosa dovrebbero costruire i team prima dell'ondata di giugno?
Un routing ledger, un catalogo modelli per rischio, valutazioni ripetibili, fallback e regole di promozione. Questi controlli permettono di adottare nuovi modelli velocemente senza trasformare la produzione in un esperimento.