AI Knowledge Base 2026

Glossaire IA 2026

Définitions claires pour l'ère de l'IA agentique et de l'intelligence spatiale.

Raisonnement & Fiabilité

Modèle Open-Weight

Un modèle open-weight est un modèle d'IA dont les paramètres entraînés — les milliards de poids numériques qui encodent les connaissances du modèle — sont mis à la disposition du public en téléchargement, sans nécessairement divulguer le code d'entraînement complet, les données ou la méthodologie. Les modèles open-weight occupent une position intermédiaire entre les modèles entièrement propriétaires, comme GPT-4o d'OpenAI ou Claude d'Anthropic, accessibles uniquement via API, et l'IA véritablement open source, où chaque composant de l'entraînement est transparent et reproductible. Parmi les modèles open-weight les plus connus figurent la série Llama de Meta, Mixtral de Mistral AI, Gemma de Google et GLM-5 de Zhipu AI. La disponibilité publique des poids permet aux développeurs et aux entreprises de télécharger, d'auto-héberger et d'affiner les modèles pour des domaines spécifiques, sans envoyer de données à des API externes. Cet avantage est déterminant pour les secteurs soumis à des réglementations strictes en matière de protection des données, tels que le droit, la médecine et la finance. Les modèles open-weight ont démocratisé les capacités de l'IA : les organisations peuvent désormais faire fonctionner des modèles de langage proches de la frontière technologique sur leurs propres clusters GPU, réduisant considérablement le coût par token et éliminant la dépendance aux fournisseurs. Le terme se distingue de l'IA open source : un modèle peut publier ses poids sans divulguer les données d'entraînement ni le code. Les licences varient considérablement, de la licence communautaire de Llama 3 à l'Apache 2.0 utilisée par Mistral. Chez Context Studios, nous évaluons régulièrement des modèles open-weight pour nos clients européens où la conformité RGPD rend l'inférence on-premise préférable aux appels API cloud.

Explore Concept
Infrastructure Agentique

Mixture-of-Experts (MoE)

Mixture-of-Experts (MoE) est une architecture de réseau de neurones dans laquelle un modèle est composé de plusieurs sous-réseaux spécialisés appelés experts, associés à un mécanisme de gating appris qui achemine dynamiquement chaque token d'entrée vers le sous-ensemble d'experts le plus pertinent. Plutôt que d'activer tous les paramètres pour chaque token, un modèle MoE ne sélectionne qu'un petit nombre d'experts par passe directe — généralement deux à huit parmi des dizaines — réduisant considérablement le calcul actif tout en préservant la capacité globale du modèle. Google Brain a popularisé cette conception avec le Switch Transformer, et Mistral AI l'a introduite dans la communauté open source avec Mixtral 8x7B et 8x22B. Aujourd'hui, GPT-4, Gemini 1.5 Pro, DeepSeek V3 et GLM-5 reposent tous sur des architectures MoE. MoE permet de faire passer le nombre total de paramètres à des centaines de milliards sans augmentation proportionnelle des coûts d'inférence : un modèle MoE de 700 milliards de paramètres peut n'activer que 40 à 70 milliards de paramètres par token, correspondant aux coûts opérationnels d'un modèle dense beaucoup plus petit. Le compromis principal est la mémoire : tous les poids des experts doivent résider en VRAM pendant l'inférence, même si seule une fraction est utilisée. Chez Context Studios, la compréhension du MoE est essentielle pour conseiller les clients sur l'infrastructure GPU nécessaire aux déploiements auto-hébergés de grands modèles de langage.

Explore Concept