AI Knowledge Base 2026

Glossaire IA 2026

Définitions claires pour l'ère de l'IA agentique et de l'intelligence spatiale.

UX Agentique

Time-to-First-Token (TTFT)

Le Time-to-First-Token (TTFT) est une métrique de performance clé pour les grands modèles de langage qui mesure le délai entre l'envoi d'une requête et la réception du premier token généré. Le TTFT est crucial pour la réactivité perçue des applications IA – des valeurs plus basses signifient des premières réponses plus rapides. Les valeurs TTFT typiques vont de moins de 100ms pour les modèles edge optimisés à plusieurs secondes pour les grands modèles de raisonnement. Des facteurs tels que la taille du modèle, le matériel (GPU vs WSE), la longueur du prompt et les stratégies de cache KV influencent significativement le TTFT. En 2026, le TTFT est un différenciateur clé entre les fournisseurs, le WSE de Cerebras et les modèles optimisés comme GPT-5.3-Codex-Spark atteignant des valeurs particulièrement basses.

Explore Concept
Raisonnement & Fiabilité

Texte vers Vidéo

Le texte vers vidéo (text-to-video) est une catégorie de technologie d'IA générative dans laquelle des modèles produisent des séquences vidéo directement à partir de descriptions en langage naturel, sans tournage traditionnel, animation ou montage manuel. Les modèles text-to-video analysent un prompt textuel et synthétisent des images vidéo temporellement cohérentes correspondant aux scènes décrites, aux mouvements de caméra, aux conditions d'éclairage et aux sujets. Le domaine a connu une progression rapide depuis qu'OpenAI Sora a captivé le monde avec ses clips cinématographiques d'une minute physiquement plausibles début 2024. Les principaux systèmes text-to-video comprennent Veo 3 de Google, Seedance 2.0 de ByteDance, Gen-3 Alpha de Runway ML, Stable Video Diffusion de Stability AI et Kling AI de Kuaishou. La plupart des modèles de pointe combinent des architectures de diffusion vidéo à grande échelle avec des encodeurs de langage dérivés de modèles comme CLIP ou T5. Les dimensions clés de performance incluent la durée vidéo, la résolution, le réalisme du mouvement, la fidélité au prompt, la cohérence des personnages et les commandes de contrôle de caméra. Le text-to-video transforme le marketing, le divertissement, l'éducation et le e-commerce en permettant la création de contenu vidéo natif IA à une fraction des coûts de production traditionnels. Chez Context Studios, nous intégrons la génération text-to-video dans les pipelines de contenu de nos clients, utilisant des modèles comme Veo 3, Seedance 2.0 et Sora pour la production de contenu social, la visualisation de produits et les workflows de production vidéo automatisés.

Explore Concept
Infrastructure Agentique

Tokens par Seconde (TPS)

Les Tokens par Seconde (TPS) constituent la principale métrique de débit pour évaluer les performances d'inférence des modèles de langage IA. Elle mesure combien de tokens un modèle génère par seconde après le début du processus de génération. Le TPS et le TTFT déterminent conjointement la qualité globale de l'expérience utilisateur. Un token correspond approximativement à 0,75 mots en anglais ou 0,5–0,6 mots dans d'autres langues. Benchmarks TPS typiques : le LPU de Groq atteint 500–800 TPS pour les modèles 7B ; l'API Claude d'Anthropic délivre 30–100 TPS selon le niveau de modèle ; les modèles open-source sur H100 atteignent 50–200 TPS. Le TPS influence l'UX de deux manières distinctes. Pour les courtes réponses, le TTFT domine la réactivité perçue. Pour les longues sorties — documents, code, analyses — le TPS devient déterminant. À 30 TPS, générer un document de 3 000 mots prend ~80 secondes ; à 200 TPS, ~12 secondes. Pour l'IA vocale, un TPS minimum de 100 est nécessaire pour la synthèse vocale sans lacunes. Facteurs affectant le TPS : taille du modèle, niveau de quantisation, taille du batch, matériel et patterns d'utilisation du cache KV.

Explore Concept