Lorsque David Ondrej a publié le 25 avril un clip de "Gemini 3.1 Pro" tournant en boucle dix messages d'affilée dans OpenClaw — se répétant, refusant de s'arrêter, finissant par caler — il a fait remonter la question que toute équipe utilisant OpenClaw finit par se poser : quel modèle fonctionne réellement dans ce harnais, et lesquels lâchent en silence ? Les benchmarks marketing ne le disent pas. Les leaderboards non plus. Seul le déploiement réel le dit.
Nous opérons OpenClaw chez nos clients depuis plusieurs mois, en changeant de modèle à chaque sortie. Voici le guide pratique que nous aurions voulu avoir au démarrage : quels modèles nous utilisons aujourd'hui dans OpenClaw, lesquels nous avons abandonnés, et comment décider pour votre propre charge de travail.
Ce que "le meilleur" signifie dans OpenClaw
OpenClaw n'est pas un chatbox. C'est un harnais agentique : utilisation d'outils, édition de fichiers, boucles de tâches longues, contexte persistant, hooks, et une CLI qui exécute de l'automatisation type cron. Un modèle qui obtient 90 sur les benchmarks de code peut quand même être le mauvais choix s'il ne suit pas les conventions de hooks d'OpenClaw, ignore les contrats d'appel d'outils, ou brûle son contexte en relisant le même fichier quatre fois de suite.
Trois caractéristiques comptent plus que les chiffres de benchmark :
- Discipline d'appel d'outils — appelle-t-il le bon outil avec le bon schéma, du premier coup ?
- Discipline d'arrêt — sait-il quand la tâche est terminée, ou tourne-t-il en boucle ?
- Économie de contexte — relit-il ce qui est déjà dans le contexte, ou s'y fie-t-il ?
Presque tout le reste découle de ces trois traits. Nous notons chaque modèle dans nos notes de déploiement selon ces critères. Voici où se positionnent les principaux modèles frontier fin avril 2026.
Sonnet 4.6 — le défaut qui mérite sa place
Anthropic Claude Sonnet 4.6 est le modèle que nous mettons par défaut dans presque tous les déploiements OpenClaw — et il a gagné cette place plutôt qu'on la lui ait offerte. Discipline d'appel d'outils : excellente. Discipline d'arrêt : la meilleure de sa catégorie — quand une tâche Sonnet 4.6 est finie, elle se termine. Il relit rarement les fichiers qu'on vient de lui montrer. Le ratio coût-par-tâche pour les workflows agent typiques tombe à peu près là où Haiku se trouvait avant l'ajustement de prix.
Là où il faiblit : les refactorings multi-étapes profonds dans des codebases inconnues demandent parfois une lame plus tranchante. Pour les revues de code, les décisions d'architecture ou les pistes de débogage qui doivent retenir une longue chaîne de causalité, Sonnet 4.6 abandonne parfois trop tôt. C'est exactement à ce moment qu'on passe à Opus.
Pour une analyse plus approfondie de la raison pour laquelle le travail agentique s'est déplacé vers ce modèle, voir notre article sur le modèle de travail agentique qu'OpenAI a livré pour défier le mythos Claude.
Opus 4.7 — quand la profondeur de raisonnement paie vraiment
Opus 4.7 est le poids lourd. On ne le met pas par défaut parce que le coût par tâche s'accumule vite — mais c'est notre voie d'escalade pour trois classes de jobs :
- Débogage complexe où la chaîne de causalité traverse plusieurs fichiers et où les symptômes induisent en erreur
- Décisions architecturales où le modèle doit peser des compromis honnêtement plutôt que de prendre la première réponse plausible
- Tâches one-shot à fort enjeu comme les scripts de migration, changements de schéma, ou tout ce qui touche aux données de production
Opus 4.7 est aussi le modèle auquel on fait le plus confiance quand le raisonnement adaptatif compte — laisser le modèle dépenser des tokens de réflexion avant de s'engager sur un appel d'outil. Le coût est réel, mais le taux de réussite sur les tâches difficiles le justifie. Règle empirique : si une exécution Sonnet échoue deux fois avec des erreurs similaires, escaladez vers Opus plutôt que de réessayer.
GPT-5.5 dans OpenClaw — bon codeur, mauvais outil pour l'instant
GPT-5.5 dans OpenClaw est à la fois intéressant et frustrant. En tant que pur codeur il est solide, et la confirmation par OpenAI que GPT-5.5 = Codex (Romain Huet, 25 avril) signifie qu'il n'y a plus de séparation "Codex pour le code, GPT-5.5 pour le général". Un modèle, deux harnais.
Mais OpenClaw n'est pas son harnais. Nous voyons deux modes d'échec récurrents quand on branche GPT-5.5 dans OpenClaw :
- Dérive de schéma d'appel d'outils — il invente parfois des champs d'outils qui n'existent pas, surtout dans les contextes longs
- Discipline d'arrêt plus relâchée — il produit plus souvent que Sonnet 4.6 du remplissage type "Je continue à travailler là-dessus"
Pour OpenClaw spécifiquement, notre recommandation aujourd'hui : laissez GPT-5.5 dans la CLI Codex où ses conventions correspondent à son entraînement, et gardez les modèles Anthropic dans OpenClaw. Cela peut évoluer à mesure que le harnais mûrit autour d'autres providers. Nous testons à chaque release mineure.
DeepSeek V4 — disruption tarifaire qui a besoin de vrais tests
DeepSeek V4 (1,6 billion de paramètres, licence MIT, drastiquement moins cher qu'Opus sur des tâches équivalentes) vient de sortir. Nous avons couvert les implications tarifaires en détail dans notre article sur le tremblement de prix DeepSeek V4.
Dans OpenClaw, nos premiers tests montrent que DeepSeek V4 Flash gère 70 à 80 % des charges typiques tier-Haiku à une fraction du coût. V4 Pro est sérieusement compétitif avec Opus sur les tâches de raisonnement isolées, bien que la discipline d'arrêt traîne derrière les modèles Anthropic. On n'est pas encore prêts à le recommander en défaut chez les clients — trop tôt pour savoir comment il se comporte sur des boucles agent longues, et la version open-weights demande une infra de self-hosting que la plupart des équipes n'ont pas.
Si vous êtes sensibles au coût et prêts à investir dans l'évaluation : commencez à tester V4 Flash sur des cron jobs OpenClaw à faible enjeu (intel scans, résumés, vérifications de qualité de contenu) et mesurez la discipline d'arrêt et la précision d'appel d'outils. Ne déployez pas en production tant que vous n'avez pas un historique de stabilité de plusieurs semaines.
Modèles que nous avons testés et que nous ne recommandons pas
Quelques signaux issus des six derniers mois de déploiement :
- Gemini 2.5 Pro et variantes 3.x : Inconsistants dans OpenClaw. Le rapport Ondrej correspond à nos propres tests. Le modèle est solide dans son propre harnais (Vertex, AI Studio) mais ne respecte pas les conventions d'outils OpenClaw de manière fiable. Nous y avons renoncé.
- Nemotron et Qwen mid-tier : Bons en fallback dans notre cascade de coût, mais les taux de timeout grimpent dans les contextes longs. À utiliser pour les bursts courts uniquement.
- Anciennes versions Claude (3.5, 4.0, 4.5) : Dépassées. Aucune raison de les utiliser sauf contrainte de coût.
Pour un contexte plus large sur les providers, voir notre analyse du pricing de la compute agentique.
Comment choisir : une matrice de décision
Voici le cadre que nous utilisons quand un client demande "quel modèle devrait-on faire tourner ?"
| Charge de travail | Défaut | Escalader vers | Pourquoi |
|---|---|---|---|
| Cron jobs quotidiens (audit, scan, summarize) | Sonnet 4.6 | Opus 4.7 si précision critique | La discipline d'arrêt de Sonnet garde le coût prévisible |
| Génération et revue de code | Sonnet 4.6 | Opus 4.7 pour les bugs durs | Sauter GPT-5.5 dans OpenClaw ; l'utiliser dans Codex CLI |
| Tâches one-shot à fort enjeu (migrations, fix prod) | Opus 4.7 | — | Coût justifié par le coût d'un seul échec |
| Travail de masse sensible au coût | DeepSeek V4 Flash (test) | Sonnet 4.6 | Valider la discipline d'arrêt avant de scaler |
| Tâches multimodales (vision, audio) | Sonnet 4.6 avec vision | Opus 4.7 | Comportement le plus consistant dans OpenClaw |
Le levier qu'on tire le plus souvent : escalader de Sonnet à Opus au retry, jamais l'inverse. Si Sonnet échoue deux fois, Opus passe généralement au premier essai. Si Opus échoue, réessayer avec Opus aide rarement — la tâche a probablement besoin d'un autre cadrage.
FAQ
Q : Puis-je changer de modèle au milieu d'une tâche dans OpenClaw ? Oui — OpenClaw supporte le changement de modèle via flag CLI ou config par job. Nous l'utilisons dans notre cascade de fallback cron : si Sonnet expire deux fois, le run suivant essaie automatiquement un autre provider. Mettez ça en place avant d'en avoir besoin.
Q : "Gemini 3.1 Pro" est-il vraiment un modèle publié ? Au 26 avril 2026, nous ne trouvons pas d'annonce officielle Google pour "Gemini 3.1 Pro". La vidéo de David Ondrej fait peut-être référence à un nom interne ou à un rollout silencieux. Traitez toute revendication "Gemini 3.x" comme non confirmée tant que le blog Google ne l'a pas validée.
Q : Devrais-je toujours utiliser le modèle le plus puissant "pour être sûr" ? Non. Opus 4.7 sur un job que Sonnet 4.6 gère bien coûte cinq à dix fois plus cher pour le même résultat, et les boucles de raisonnement plus longues peuvent introduire leurs propres modes d'échec. Adaptez le modèle à la charge de travail — escaladez au retry, pas par défaut.
Q : À quelle fréquence devrais-je retester quel modèle fonctionne le mieux ? Mensuellement au minimum, hebdomadairement si vous opérez des déploiements OpenClaw en production. Le comportement des modèles bouge à chaque release mineure, et la compatibilité harnais change plus vite que les scores de benchmark le laissent croire.
Conclusion
Pour la plupart des équipes qui opèrent OpenClaw en 2026, le bon défaut est Sonnet 4.6 avec Opus 4.7 comme voie d'escalade. GPT-5.5 appartient à Codex CLI, pas à OpenClaw. DeepSeek V4 vaut l'évaluation pour les charges sensibles au coût mais n'est pas encore prêt pour la production dans ce harnais. Les variantes Gemini restent inconsistantes.
Les scores de benchmark continueront à bouger. Ce qui compte dans OpenClaw, c'est la discipline d'appel d'outils, la discipline d'arrêt, et l'économie de contexte — et sur ces trois axes, les modèles Anthropic gardent l'avance.
Si vous voulez de l'aide pour mettre en place la bonne cascade de modèles pour votre déploiement OpenClaw — défauts, fallbacks, règles d'escalade — prenez un appel de découverte avec Context Studios. Nous l'avons fait pour assez de clients pour vous épargner la phase de tâtonnement.