Tokens par Seconde (TPS)

Les Tokens par Seconde (TPS) constituent la principale métrique de débit pour évaluer les performances d'inférence des modèles de langage IA. Elle mesure combien de tokens un modèle génère par seconde après le début du processus de génération. Le TPS et le TTFT déterminent conjointement la qualité globale de l'expérience utilisateur. Un token correspond approximativement à 0,75 mots en anglais ou 0,5–0,6 mots dans d'autres langues. Benchmarks TPS typiques : le LPU de Groq atteint 500–800 TPS pour les modèles 7B ; l'API Claude d'Anthropic délivre 30–100 TPS selon le niveau de modèle ; les modèles open-source sur H100 atteignent 50–200 TPS. Le TPS influence l'UX de deux manières distinctes. Pour les courtes réponses, le TTFT domine la réactivité perçue. Pour les longues sorties — documents, code, analyses — le TPS devient déterminant. À 30 TPS, générer un document de 3 000 mots prend ~80 secondes ; à 200 TPS, ~12 secondes. Pour l'IA vocale, un TPS minimum de 100 est nécessaire pour la synthèse vocale sans lacunes. Facteurs affectant le TPS : taille du modèle, niveau de quantisation, taille du batch, matériel et patterns d'utilisation du cache KV.

Deep Dive: Tokens par Seconde (TPS)

Business Value & ROI

Why it matters for 2026

TPS bestimmt direkt die maximale Ausgabegröße einer KI-Lösung. Workflows, die lange Dokumente generieren, sind ohne ausreichende TPS nicht praktikabel.

Context Take

“Wir wählen Modell-Tiers bei Context Studios basierend auf TPS-Anforderungen: Voice-Pipelines brauchen >100 TPS; Analyse-Agents arbeiten problemlos mit 30–50 TPS.”

Implementation Details

Related Comparisons
batch inference vs real time inference
Production-Ready Guardrails