Gemini 3.5 Pro : gouvernance du routage pour juin
Gemini 3.5 Pro est le premier point de pression confirmé de la vague de modèles IA de juin. Google indique que Gemini 3.5 Pro est déjà utilisé en interne et devrait être déployé le mois suivant. C'est assez de signal pour se préparer, mais pas assez pour remplacer les routes de production sans contrôle. Le vrai test est la gouvernance du routage des modèles IA.
Une nouvelle vague de modèles se prépare autour de juin 2026. Les faits publics n'ont pas tous le même niveau de certitude. Google a annoncé officiellement que Gemini 3.5 Pro est déjà utilisé en interne et devrait être déployé le mois suivant. OpenAI a déjà lancé GPT-5.5, tandis que les signaux de pré-lancement parlent déjà de GPT-5.6. Pour Anthropic, les listes publiques de Claude sur Google Cloud restent la base prudente; les signaux Claude 4.8 doivent rester non confirmés tant qu'Anthropic ou un partenaire cloud ne les publie pas.
Pour les entreprises, cette distinction change tout. Le gagnant de la vague de juin ne sera pas le fournisseur avec la meilleure démo. Ce sera l'organisation qui dispose déjà de règles de routage, d'évaluations, de plafonds budgétaires, de journaux d'audit et de chemins de rollback.
Ce qui est confirmé, ce qui ne l'est pas, et pourquoi c'est important
La partie confirmée suffit pour agir. Google a présenté Gemini 3.5 Flash à I/O 2026 comme le premier modèle d'une famille conçue pour l'action agentique. Le récapitulatif officiel de Google cite 76,2 % sur Terminal-Bench 2.1, 1656 Elo sur GDPval-AA et 83,6 % sur MCP Atlas. Le même billet indique que Gemini 3.5 Pro fonctionne déjà en interne et est prévu pour le mois suivant.
Ce seul mouvement confirmé crée déjà de la pression. Si Flash devient le moteur agentique rapide et que Pro apporte un raisonnement plus profond, les équipes devront décider quels workflows migrent, lesquels restent en place et lesquels nécessitent un schéma à deux modèles. Un bot support, un agent de revue de code et un workflow financier ne doivent pas tous suivre la logique « le plus récent gagne ».
La partie moins confirmée reste utile si elle est traitée honnêtement. GPT-5.6 et Claude 4.8 sont des signaux à surveiller, pas des faits de production. La base publique d'OpenAI est GPT-5.5, présenté pour le codage agentique, l'utilisation de l'ordinateur, la recherche, l'analyse, les documents et l'exécution multi-étapes. Pour Anthropic, les listings cloud publics restent la référence responsable.
C'est la même discipline que dans Anthropic : Opus 4.8, Sonnet 4.8 et Mythos : les signaux non confirmés peuvent aider à se préparer, mais ils ne doivent pas devenir des promesses. La gouvernance du routage des modèles IA rend cette séparation opérationnelle.
La gouvernance du routage bat la chasse aux benchmarks
Les benchmarks sont utiles pour formuler des hypothèses. Ils sont dangereux comme politique de production. Une version de juin peut gagner un benchmark de codage et dégrader votre extracteur de factures parce que la discipline JSON a changé. Un modèle peut coûter moins cher par token et davantage par tâche acceptée s'il nécessite plus de reprises.
La gouvernance du routage des modèles IA commence par une question simple : quelle décision prend le routeur, et quelles preuves peuvent l'influencer ? La réponse doit être explicite. Routez par type de tâche, budget de latence, niveau de confidentialité, accès aux outils, format de sortie, score d'évaluation et plafond de coût. Pas par enthousiasme, préférence fournisseur ou souvenir de keynote.
Une politique pratique peut dire : les synthèses juridiques à risque restent sur le modèle le mieux évalué avec logging; la génération d'interface peut utiliser un modèle plus rapide si la QA visuelle attrape les régressions; les agents longs nécessitent checkpoints et secours; les tâches de classification vont au modèle le moins cher qui atteint les objectifs de précision.
C'est ici que L'Ingénierie Agentique n'est pas du Vibe Coding devient concret. L'ingénierie agentique traite le choix du modèle comme une infrastructure. Le modèle n'est qu'un composant dans un système avec tests, reprises, permissions, observabilité et escalade. La gouvernance garde ce système stable malgré les annonces fournisseurs.
La télémétrie des coûts devient le poste de contrôle de juin
La vague de modèles est aussi une vague de coûts. Google positionne Gemini 3.5 Flash comme moteur agentique rapide. OpenAI décrit GPT-5.5 comme une capacité autonome plus large sur plusieurs outils. Anthropic reste associé aux workflows de raisonnement et de codage premium. Les concurrents à bas coût continuent de baisser le plancher. Ce mélange crée un problème de routage que la finance remarquera vite.
Le prix par token n'est pas le chiffre central. Le vrai chiffre est le coût par résultat accepté. Pour un agent de codage, cela signifie coût par changement mergé après revue. Pour un workflow de recherche, coût par note sourcée qui résiste au fact-checking. Pour le support client, coût par cas résolu sans escalade.
C'est pourquoi l'analyse économique de Alibaba Qwen 3.7 Max rend Opus coûteux dépasse Qwen. La leçon n'est pas « choisissez toujours le modèle le moins cher ». La leçon est : instrumentez le routeur pour que chaque modèle justifie sa place.
La télémétrie minimale inclut le nom et la version du modèle, la raison de routage, la classe de tâche, les tokens, les appels d'outils, la latence, les reprises, le résultat de revue, l'acceptation finale et le coût estimé. Une meilleure télémétrie ajoute des alertes de dérive : si le taux de résultats acceptés chute de 10 % après une mise à jour fournisseur, le routeur doit le signaler avant la facture.
Construire la matrice de politique avant les sorties
Une matrice de politique est un petit document qui évite beaucoup de chaos. Elle relie les workflows aux modèles autorisés, aux secours, aux contrôles de risque et aux objectifs de mesure. Elle doit être lisible par l'ingénierie, la finance, le juridique et les opérations.
Commencez avec quatre colonnes : workload, route primaire, route de secours et conditions bloquantes. Un agent de modification de code peut utiliser un modèle de codage frontier en primaire, un modèle moins cher pour les résumés et un modèle premium pour la revue si les fichiers touchent l'authentification, les paiements ou la suppression de données. Un agent de recherche peut utiliser un modèle rapide pour regrouper les sources, puis un modèle plus fort pour la synthèse, puis un vérificateur déterministe de citations.
Le contrôle des changements fournisseur doit vivre dans cette matrice. Une sortie de juin ne doit pas devenir automatiquement le défaut de production. Elle doit entrer dans une voie d'essai, passer des tâches représentatives, produire un rapport de comparaison et n'être promue que si elle bat la route actuelle sur la métrique qui compte : taux d'acceptation, latence, coût par réponse acceptée, escalades, risque d'hallucination ou fiabilité des outils.
Le même principe apparaît dans Cursor Composer 2.5 : la riposte des coûts. Des modèles plus rapides et moins chers changent les hypothèses, mais n'enlèvent pas la discipline de routage. Ils l'augmentent, car chaque option viable ajoute une manière de faire une erreur silencieuse.
Un drill de migration en 10 jours pour la vague de juin
La meilleure décision avant juin n'est pas de prédire le gagnant exact. C'est de répéter le remplacement d'un modèle.
Jour 1 : listez les workflows où un nouveau modèle peut vraiment compter : agents de codage, synthèse de recherche, triage support, automatisation documentaire, extraction de données et copilotes internes. Sans propriétaire ni métrique, le workflow n'est pas prêt.
Jours 2 à 3 : définissez le jeu d'évaluation. Utilisez de vraies tâches, pas des prompts jouets. Ajoutez des cas limites, du long contexte, de mauvaises entrées, des limites de données sensibles et des exemples où la route actuelle échoue.
Jours 4 à 5 : exécutez le shadow routing. La même tâche part vers la route actuelle et vers la route candidate. Comparez qualité, latence, coût, reprises et charge de revue. Le candidat ne doit pas écrire en production.
Jours 6 à 7 : testez les secours. Faites échouer un appel d'outil. Forcez un timeout. Changez un schéma. Retirez une source. Un modèle excellent sur le chemin heureux mais incapable de récupérer proprement n'est pas prêt pour la production agentique.
Jour 8 : faites la revue finance. Traduisez les tokens en coût par résultat accepté. Ajoutez temps de revue, échecs et nettoyage. Si le modèle n'est moins cher qu'avant les reprises, il n'est pas moins cher.
Jour 9 : écrivez la règle de promotion. Exemple : « Promouvoir Gemini 3.5 Pro à la synthèse de recherche seulement si la précision des sources acceptées augmente de 8 % avec un coût par note acceptée au plus 15 % supérieur à la route actuelle. » C'est une règle, pas une intuition.
Jour 10 : préparez le rollback. Gardez l'ancienne route disponible, versionnez les prompts, rendez les évaluations répétables et les logs consultables. Si le fournisseur change le comportement, le retour doit prendre des minutes.
C'est le type de système opérationnel que les acheteurs devraient attendre d'un partenaire IA. Comme dans Conseil IA : Anthropic face à OpenAI, le marché passe des démos aux modèles opérationnels responsables. La gouvernance du routage en fait partie.
Ce que Context Studios mettrait en place d'abord
Pour un client qui se prépare à la vague de juin, je ne commencerais pas par un tableau de benchmarks. Je commencerais par un registre de routage.
Ce registre consigne chaque décision IA significative : tâche, modèle, version, raison, coût, statut de sortie, statut de revue et chemin de secours. Dès qu'il existe, une équipe peut expérimenter sans perdre la preuve. Sans lui, l'adoption des modèles devient du folklore.
Le deuxième artefact est un catalogue de modèles par niveau de risque. Les modèles Tier 1 peuvent toucher les workflows sensibles. Les modèles Tier 2 servent la productivité interne et les synthèses peu risquées. Les modèles Tier 3 gèrent extraction, brainstorming et brouillons. Les modèles expérimentaux restent en shadow mode. Le catalogue doit inclure fournisseur, version, usages autorisés, usages interdits, limites de contexte, notes de données, forces, modes d'échec et propriétaire.
Le troisième artefact est un tableau de promotion. Tout nouveau modèle commence comme candidat. Il lui faut un workload cible, un jeu d'évaluation, une hypothèse de coût, une revue de risque et un rollback. S'il gagne, il obtient une route étroite. S'il gagne encore, cette route s'élargit. S'il régresse, le tableau explique le retour arrière.
Cela relie aussi les workflows type Codex à la gouvernance. Dans Codex 0.132 : reprise structurée pour agents, l'idée centrale était la continuité : les agents ont besoin d'état, de checkpoints et de récupération. Le routage de modèles a besoin de la même chose. On ne gouverne pas ce qu'on ne peut pas reconstruire.
La vague de juin peut apporter Gemini 3.5 Pro, davantage de mouvement OpenAI, davantage de mouvement Anthropic et une pression prix accrue. Une partie est publique. Une partie reste rumeur. La règle enterprise ne change pas : la vitesse de sortie ne doit pas dépasser la discipline opérationnelle.
FAQ
Qu'est-ce que la gouvernance du routage des modèles IA ?
C'est l'ensemble des règles, journaux, évaluations et responsabilités qui décide quel modèle IA traite chaque tâche. Elle rend le choix du modèle auditable.
Les entreprises doivent-elles passer à Gemini 3.5 Pro dès son lancement ?
Non. Elles doivent d'abord le tester en shadow mode ou en voie d'essai, puis le promouvoir seulement pour les workloads où qualité, coût, latence et risque s'améliorent.
GPT-5.6 et Claude 4.8 sont-ils confirmés ?
Pas par les sources publiques vérifiées pour cet article. GPT-5.6 et Claude 4.8 doivent rester des signaux à surveiller; GPT-5.5 et les annonces Gemini 3.5 sont des bases publiques plus solides.
Quelle métrique compte le plus dans le routage ?
Le coût par résultat accepté compte davantage que le prix par token. Un modèle est moins cher seulement s'il réduit reprises, temps de revue et risque.
Que construire avant la vague de juin ?
Un registre de routage, un catalogue de modèles par risque, des évaluations répétables, des routes de secours et des règles de promotion. Ces contrôles accélèrent l'adoption sans transformer la production en expérience.