KI Wissensdatenbank 2026

KI Glossar 2026

Präzise Definitionen für die Ära von Agentic AI und Spatial Intelligence.

Inference & Engineering

Terminal-Bench (KI-Coding-Benchmark)

Terminal-Bench ist ein Bewertungs-Framework für die Leistungsmessung von KI-Coding-Agenten in realen Entwicklungsumgebungen. Im Gegensatz zu klassischen Code-Benchmarks, die nur isolierte Code-Snippets testen, evaluiert Terminal-Bench den gesamten Entwicklungszyklus: Agenten müssen selbstständig Code in einem Terminal ausführen, Fehler debuggen, Dateisysteme navigieren und komplexe Multi-Step-Probleme lösen. Das Framework misst die Fähigkeiten moderner Coding-Agenten wie Claude Code, GitHub Copilot Workspace und ähnlicher Systeme unter realistischen Bedingungen. Mit Terminal-Bench 2.1 – der aktuellen Version – erzielte Anthropics Mythos Preview ein Ergebnis von 92,1 % bei einem 4-Stunden-Timeout, was die bisherige Bestmarke von 82 % deutlich übertrifft. Ein zentrales Merkmal ist die Sensitivität gegenüber Rechenzeit: Je mehr Zeit ein Modell für eine Aufgabe erhält, desto höher ist typischerweise die Lösungsrate. Das zeigt, dass moderne KI-Coding-Agenten häufig keine Fähigkeitslücken haben – sondern Rechenzeit-Limitierungen. Dieser Unterschied ist fundamental für die Praxis: Er beeinflusst, wie Teams KI-gestützte Entwicklungsworkflows planen, budgetieren und skalieren.

Konzept entdecken
Inference & Engineering

Test-Time Compute Scaling

Test-Time Compute Scaling (auch: Inference-Time Compute Scaling) bezeichnet die Strategie, einem KI-Modell beim Beantworten einer Anfrage mehr Rechenleistung zur Verfügung zu stellen – statt nur beim Training mehr zu investieren. Klassische Sprachmodelle führen für jede Eingabe einen einzigen Vorwärtsdurchlauf durch und liefern direkt eine Ausgabe. Test-Time Compute Scaling bricht mit diesem Prinzip: Das Modell darf mehr Zeit und Ressourcen nutzen, um verschiedene Lösungswege zu erkunden, Zwischenergebnisse zu prüfen oder sich selbst zu korrigieren, bevor es eine finale Antwort produziert. In der Praxis bedeutet das: Bei einfachen Aufgaben reicht ein kurzer Durchlauf; bei komplexen Problemen – etwa mehrstufigem Code-Debugging oder strategischer Analyse – kann das Modell mit längerer Rechenzeit deutlich bessere Ergebnisse erzielen. Eindrücklich belegt wurde dies durch Claude Mythos Preview, das auf Terminal-Bench 2.1 mit einem 4-Stunden-Timeout einen Score von 92,1 % erreichte, während kürzere Timeouts erheblich schlechtere Werte ergaben. Test-Time Compute Scaling ist eng verwandt mit Chain-of-Thought-Reasoning und modernen KI-Agenten-Architekturen: Beide nutzen iteratives Denken zur Qualitätsverbesserung. Für Unternehmen bedeutet dieser Ansatz, dass die 'Intelligenz' eines Modells nicht nur eine feste Eigenschaft ist, sondern durch Ressourceneinsatz gezielt steuerbar wird.

Konzept entdecken
Agentic Infrastructure

Third-party Harness (Drittanbieter-Harness)

Ein Third-party Harness (Drittanbieter-Harness) ist eine Softwarearchitektur, die es externen Entwicklern ermöglicht, KI-Modelle über offizielle APIs oder autorisierte Schnittstellen hinaus zu nutzen und zu erweitern. Der Begriff bezeichnet Frameworks, die als Vermittler zwischen KI-Modellen (wie Claude, GPT oder Gemini) und Endanwendern agieren und dabei zusätzliche Funktionen wie Multi-Modell-Orchestrierung, erweiterte Tool-Integration oder benutzerdefinierte Workflows bereitstellen. Ein bekanntes Beispiel ist OpenClaw, ein Open-Source-Harness, der Anthropics Claude-Modell mit erweiterten Funktionen ausstattet, darunter Hintergrundprozesse, Cron-Jobs und Integration mit externen Tools. Harnesses unterscheiden sich von offiziellen APIs dadurch, dass sie oft Abonnement-basierten Zugang (nicht API-basiert) nutzen und damit kostengünstigere Alternativen für Entwickler bieten, die experimentelle oder produktionsreife KI-Anwendungen bauen möchten. Die Nutzung von Third-party Harnesses wirft wichtige Fragen zur langfristigen Stabilität auf: Anbieter wie Anthropic können den Zugang zu Abonnements jederzeit einschränken, was zu plötzlichen Betriebsunterbrechungen führt. Unternehmen sollten daher Harnesses nur für nicht-kritische Workflows einsetzen oder auf offizielle API-Verträge mit SLA-Garantien migrieren, sobald sie Produktionsreife erreichen.

Konzept entdecken
Agentic Infrastructure

Token Telemetry (Token-Telemetrie)

Token Telemetry bezeichnet das systematische Erfassen, Auswerten und Sichtbarmachen des Token-Verbrauchs in KI-Systemen. Gemessen wird nicht nur, wie viele Tokens ein Prompt oder eine Antwort kostet, sondern auch welcher Agent, welches Werkzeug, welcher Kunde, welche Aufgabe oder welcher Workflow diese Kosten verursacht. In agentischen Anwendungen wird Token Telemetry zur Betriebsmetrik: Sie zeigt, wann Context Windows überlaufen, wann Prompts zu groß werden, welche Schritte unnötige Modellaufrufe auslösen und wo Caching, Modell-Routing oder kürzere Tool-Ergebnisse sparen können. Gute Token Telemetry verbindet Kosten, Latenz, Qualität und Fehlerraten, statt Tokenzahlen isoliert zu betrachten. Teams bekommen dadurch eine belastbare Grundlage für Budgets, Alerts und Review-Gates. Besonders wichtig wird sie bei Multi-Agenten-Setups, weil parallele Agenten ansonsten unbemerkt hohe Inferenzkosten erzeugen können. In der Praxis gehört Token Telemetry in Dashboards, Logs und Deployment-Gates, damit KI-Workflows nicht nur funktionieren, sondern wirtschaftlich, nachvollziehbar und steuerbar bleiben. Für Governance ist die Metrik außerdem ein Frühwarnsignal: plötzliche Token-Spitzen deuten oft auf Prompt-Schleifen, schlechte Retrieval-Treffer oder fehlende Stop-Kriterien hin.

Konzept entdecken
Agentic Business

Tool Calling (Werkzeugaufruf)

Tool Calling bezeichnet die Fähigkeit von KI-Sprachmodellen, externe Funktionen, APIs oder Dienste gezielt aufzurufen, um Aufgaben zu erfüllen, die über reine Textgenerierung hinausgehen. Statt nur auf trainierten Wissen zu antworten, kann ein Modell mit Tool Calling aktiv auf Echtzeitdaten zugreifen, Code ausführen, Berechnungen durchführen oder externe Systeme steuern. Der Mechanismus funktioniert so: Das Modell empfängt eine Liste verfügbarer Tools mit Beschreibung und Parameter-Schema. Bei Bedarf gibt es einen strukturierten Aufruf zurück, den das Host-System ausführt und dessen Ergebnis an das Modell zurücksendet. Das Modell verarbeitet die Antwort und kann weitere Tools aufrufen oder die finale Antwort generieren. Tool Calling ist eine Grundvoraussetzung für echte KI-Agenten: Erst durch diese Fähigkeit können Modelle mit der Außenwelt interagieren, Workflows automatisieren und komplexe Multi-Step-Aufgaben eigenständig lösen. Moderne Frameworks wie Model Context Protocol (MCP) standardisieren, wie Tools registriert und aufgerufen werden, und machen es einfacher, KI-Systeme mit bestehender Unternehmensinfrastruktur zu verbinden.

Konzept entdecken
Agentic UX

Time-to-First-Token (TTFT)

Time-to-First-Token (TTFT) ist eine zentrale Leistungsmetrik für große Sprachmodelle, die die Zeitspanne zwischen dem Absenden einer Anfrage und dem Empfang des ersten generierten Tokens misst. TTFT ist entscheidend für die wahrgenommene Reaktionsfähigkeit von KI-Anwendungen – niedrigere Werte bedeuten schnellere erste Antworten. Typische TTFT-Werte reichen von unter 100ms bei optimierten Edge-Modellen bis zu mehreren Sekunden bei großen Reasoning-Modellen. Faktoren wie Modellgröße, Hardware (GPU vs. WSE), Prompt-Länge und KV-Cache-Strategien beeinflussen TTFT maßgeblich. Im Jahr 2026 ist TTFT ein Schlüsseldifferenzierer zwischen Anbietern, wobei Cerebras WSE und optimierte Modelle wie GPT-5.3-Codex-Spark besonders niedrige Werte erreichen.

Konzept entdecken
Reasoning & Verlässlichkeit

Text-to-Video

Text-to-Video bezeichnet eine Kategorie generativer KI-Technologie, bei der Modelle Videosequenzen direkt aus natürlichsprachlichen Beschreibungen erzeugen – ohne traditionelles Filmen, Animation oder manuelles Editing. Text-to-Video-Modelle analysieren einen Textprompt und synthetisieren temporal konsistente Videoframes, die die beschriebenen Szenen, Kamerabewegungen, Lichtverhältnisse und Objekte abbilden. Das Feld hat sich seit OpenAIs Sora, das Anfang 2024 mit physikalisch plausiblen, minutenlangen kinematischen Clips Aufsehen erregte, rasant entwickelt. Führende Text-to-Video-Systeme sind heute Googles Veo 3, ByteDances Seedance 2.0, Runway MLs Gen-3 Alpha, Stability AIs Stable Video Diffusion und Kling AI von Kuaishou. Die meisten modernen Modelle kombinieren großangelegte Video-Diffusionsarchitekturen mit Sprachencodern wie CLIP oder T5 für reichhaltige semantische Verankerung. Wichtige Leistungsdimensionen umfassen Videodauer, Auflösung, Bewegungsrealismus, Prompt-Treue, Charakterkonsistenz und Kamerasteuerung (Schwenk, Zoom, Dolly). Text-to-Video transformiert Marketing, Unterhaltung, Bildung und E-Commerce, indem es KI-native Videoinhalte zu einem Bruchteil herkömmlicher Produktionskosten ermöglicht. Marken können Produktdemonstrationen, Erklärvideos und Social-Media-Inhalte programmatisch in großem Maßstab generieren. Context Studios integriert Text-to-Video-Generierung in Client-Content-Pipelines und nutzt Modelle wie Veo 3, Seedance 2.0 und Sora für Social Content, Produktvisualisierungen und automatisierte Videoproduktions-Workflows.

Konzept entdecken
Agentic Infrastructure

Tokens per Second (TPS)

Tokens per Second (TPS) ist die primäre Durchsatz-Metrik für KI-Sprachmodell-Inferenz. Sie misst, wie viele Tokens pro Sekunde ein Modell generiert, nachdem der Generierungsprozess begonnen hat. TPS und Time-to-First-Token (TTFT) bestimmen gemeinsam die User Experience. Ein Token entspricht grob 0,75 Wörtern in Englisch oder 0,5–0,6 Wörtern in anderen Sprachen. Typische TPS-Werte: Groqs LPU erreicht 500–800 TPS für 7B-Modelle; Anthropics Claude-API liefert je nach Modell 30–100 TPS; Open-Source-Modelle auf einem H100 erreichen 50–200 TPS je nach Größe. TPS beeinflusst UX auf zwei Weisen: Für kurze Anfragen (bis ~500 Tokens) dominiert TTFT die gefühlte Responsivität; für lange Outputs (Dokumente, Code, Analysen) wird TPS entscheidend. Bei 30 TPS benötigt ein 3.000-Wörter-Dokument ~80 Sekunden; bei 200 TPS nur ~12 Sekunden. Für Voice-KI ist mindestens 100 TPS notwendig für Sprachsynthese ohne wahrnehmbare Lücken. Einflussfaktoren: Modellgröße (größer = langsamere TPS), Quantisierungsniveau (FP4 vs FP8 vs BF16), Batch-Größe (höheres Batching erhöht Gesamt-TPS, senkt individuelles TPS), Hardware und KV-Cache-Auslastung.

Konzept entdecken