Context Studios

Context Studios

Aktualisiert am 18. März 2026

Agentic Infrastructure

Tokens per Second (TPS)

Tokens per Second (TPS) ist die primäre Durchsatz-Metrik für KI-Sprachmodell-Inferenz. Sie misst, wie viele Tokens pro Sekunde ein Modell generiert, nachdem der Generierungsprozess begonnen hat. TPS und Time-to-First-Token (TTFT) bestimmen gemeinsam die User Experience. Ein Token entspricht grob 0,75 Wörtern in Englisch oder 0,5–0,6 Wörtern in anderen Sprachen. Typische TPS-Werte: Groqs LPU erreicht 500–800 TPS für 7B-Modelle; Anthropics Claude-API liefert je nach Modell 30–100 TPS; Open-Source-Modelle auf einem H100 erreichen 50–200 TPS je nach Größe. TPS beeinflusst UX auf zwei Weisen: Für kurze Anfragen (bis ~500 Tokens) dominiert TTFT die gefühlte Responsivität; für lange Outputs (Dokumente, Code, Analysen) wird TPS entscheidend. Bei 30 TPS benötigt ein 3.000-Wörter-Dokument ~80 Sekunden; bei 200 TPS nur ~12 Sekunden. Für Voice-KI ist mindestens 100 TPS notwendig für Sprachsynthese ohne wahrnehmbare Lücken. Einflussfaktoren: Modellgröße (größer = langsamere TPS), Quantisierungsniveau (FP4 vs FP8 vs BF16), Batch-Größe (höheres Batching erhöht Gesamt-TPS, senkt individuelles TPS), Hardware und KV-Cache-Auslastung.

Deep Dive: Tokens per Second (TPS)

Tokens per Second (TPS) ist die primäre Durchsatz-Metrik für KI-Sprachmodell-Inferenz. Sie misst, wie viele Tokens pro Sekunde ein Modell generiert, nachdem der Generierungsprozess begonnen hat. TPS und Time-to-First-Token (TTFT) bestimmen gemeinsam die User Experience. Ein Token entspricht grob 0,75 Wörtern in Englisch oder 0,5–0,6 Wörtern in anderen Sprachen. Typische TPS-Werte: Groqs LPU erreicht 500–800 TPS für 7B-Modelle; Anthropics Claude-API liefert je nach Modell 30–100 TPS; Open-Source-Modelle auf einem H100 erreichen 50–200 TPS je nach Größe. TPS beeinflusst UX auf zwei Weisen: Für kurze Anfragen (bis ~500 Tokens) dominiert TTFT die gefühlte Responsivität; für lange Outputs (Dokumente, Code, Analysen) wird TPS entscheidend. Bei 30 TPS benötigt ein 3.000-Wörter-Dokument ~80 Sekunden; bei 200 TPS nur ~12 Sekunden. Für Voice-KI ist mindestens 100 TPS notwendig für Sprachsynthese ohne wahrnehmbare Lücken. Einflussfaktoren: Modellgröße (größer = langsamere TPS), Quantisierungsniveau (FP4 vs FP8 vs BF16), Batch-Größe (höheres Batching erhöht Gesamt-TPS, senkt individuelles TPS), Hardware und KV-Cache-Auslastung.

Business Value & ROI

Why it matters for 2026

TPS bestimmt direkt die maximale Ausgabegröße einer KI-Lösung. Workflows, die lange Dokumente generieren, sind ohne ausreichende TPS nicht praktikabel.

Context Take

“Wir wählen Modell-Tiers bei Context Studios basierend auf TPS-Anforderungen: Voice-Pipelines brauchen >100 TPS; Analyse-Agents arbeiten problemlos mit 30–50 TPS.”

Implementation Details

Related Comparisons
batch inference vs real time inference
Production-Ready Guardrails

The Semantic Network

Related Services