Context Studios

Context Studios

KI Wissensdatenbank 2026

KI Glossar 2026

Präzise Definitionen für die Ära von Agentic AI und Spatial Intelligence.

Inference & Engineering

Terminal-Bench (KI-Coding-Benchmark)

Terminal-Bench ist ein Bewertungs-Framework für die Leistungsmessung von KI-Coding-Agenten in realen Entwicklungsumgebungen. Im Gegensatz zu klassischen Code-Benchmarks, die nur isolierte Code-Snippets testen, evaluiert Terminal-Bench den gesamten Entwicklungszyklus: Agenten müssen selbstständig Code in einem Terminal ausführen, Fehler debuggen, Dateisysteme navigieren und komplexe Multi-Step-Probleme lösen. Das Framework misst die Fähigkeiten moderner Coding-Agenten wie Claude Code, GitHub Copilot Workspace und ähnlicher Systeme unter realistischen Bedingungen. Mit Terminal-Bench 2.1 – der aktuellen Version – erzielte Anthropics Mythos Preview ein Ergebnis von 92,1 % bei einem 4-Stunden-Timeout, was die bisherige Bestmarke von 82 % deutlich übertrifft. Ein zentrales Merkmal ist die Sensitivität gegenüber Rechenzeit: Je mehr Zeit ein Modell für eine Aufgabe erhält, desto höher ist typischerweise die Lösungsrate. Das zeigt, dass moderne KI-Coding-Agenten häufig keine Fähigkeitslücken haben – sondern Rechenzeit-Limitierungen. Dieser Unterschied ist fundamental für die Praxis: Er beeinflusst, wie Teams KI-gestützte Entwicklungsworkflows planen, budgetieren und skalieren.

Konzept entdecken

Agentic Infrastructure

Test KI-Inferenz

Dies ist eine Testdefinition für KI-Inferenz. KI-Inferenz bezeichnet den Prozess, bei dem ein trainiertes KI-Modell neue Eingabedaten verarbeitet und Vorhersagen oder Ausgaben generiert. Dies ist eine ausreichend lange Definition mit mehreren Sätzen, die den Begriff klar erklärt. Wir beschreiben hier die Grundlagen der KI-Inferenz und ihre Bedeutung für den laufenden Betrieb.

Konzept entdecken

Inference & Engineering

Test-Time Compute Scaling

Test-Time Compute Scaling (auch: Inference-Time Compute Scaling) bezeichnet die Strategie, einem KI-Modell beim Beantworten einer Anfrage mehr Rechenleistung zur Verfügung zu stellen – statt nur beim Training mehr zu investieren. Klassische Sprachmodelle führen für jede Eingabe einen einzigen Vorwärtsdurchlauf durch und liefern direkt eine Ausgabe. Test-Time Compute Scaling bricht mit diesem Prinzip: Das Modell darf mehr Zeit und Ressourcen nutzen, um verschiedene Lösungswege zu erkunden, Zwischenergebnisse zu prüfen oder sich selbst zu korrigieren, bevor es eine finale Antwort produziert. In der Praxis bedeutet das: Bei einfachen Aufgaben reicht ein kurzer Durchlauf; bei komplexen Problemen – etwa mehrstufigem Code-Debugging oder strategischer Analyse – kann das Modell mit längerer Rechenzeit deutlich bessere Ergebnisse erzielen. Eindrücklich belegt wurde dies durch Claude Mythos Preview, das auf Terminal-Bench 2.1 mit einem 4-Stunden-Timeout einen Score von 92,1 % erreichte, während kürzere Timeouts erheblich schlechtere Werte ergaben. Test-Time Compute Scaling ist eng verwandt mit Chain-of-Thought-Reasoning und modernen KI-Agenten-Architekturen: Beide nutzen iteratives Denken zur Qualitätsverbesserung. Für Unternehmen bedeutet dieser Ansatz, dass die 'Intelligenz' eines Modells nicht nur eine feste Eigenschaft ist, sondern durch Ressourceneinsatz gezielt steuerbar wird.

Konzept entdecken

Agentic Infrastructure

Third-party Harness (Drittanbieter-Harness)

Ein Third-party Harness (Drittanbieter-Harness) ist eine Softwarearchitektur, die es externen Entwicklern ermöglicht, KI-Modelle über offizielle APIs oder autorisierte Schnittstellen hinaus zu nutzen und zu erweitern. Der Begriff bezeichnet Frameworks, die als Vermittler zwischen KI-Modellen (wie Claude, GPT oder Gemini) und Endanwendern agieren und dabei zusätzliche Funktionen wie Multi-Modell-Orchestrierung, erweiterte Tool-Integration oder benutzerdefinierte Workflows bereitstellen. Ein bekanntes Beispiel ist OpenClaw, ein Open-Source-Harness, der Anthropics Claude-Modell mit erweiterten Funktionen ausstattet, darunter Hintergrundprozesse, Cron-Jobs und Integration mit externen Tools. Harnesses unterscheiden sich von offiziellen APIs dadurch, dass sie oft Abonnement-basierten Zugang (nicht API-basiert) nutzen und damit kostengünstigere Alternativen für Entwickler bieten, die experimentelle oder produktionsreife KI-Anwendungen bauen möchten. Die Nutzung von Third-party Harnesses wirft wichtige Fragen zur langfristigen Stabilität auf: Anbieter wie Anthropic können den Zugang zu Abonnements jederzeit einschränken, was zu plötzlichen Betriebsunterbrechungen führt. Unternehmen sollten daher Harnesses nur für nicht-kritische Workflows einsetzen oder auf offizielle API-Verträge mit SLA-Garantien migrieren, sobald sie Produktionsreife erreichen.

Konzept entdecken

Agentic Infrastructure

Token Telemetry (Token-Telemetrie)

Token Telemetry bezeichnet das systematische Erfassen, Auswerten und Sichtbarmachen des Token-Verbrauchs in KI-Systemen. Gemessen wird nicht nur, wie viele Tokens ein Prompt oder eine Antwort kostet, sondern auch welcher Agent, welches Werkzeug, welcher Kunde, welche Aufgabe oder welcher Workflow diese Kosten verursacht. In agentischen Anwendungen wird Token Telemetry zur Betriebsmetrik: Sie zeigt, wann Context Windows überlaufen, wann Prompts zu groß werden, welche Schritte unnötige Modellaufrufe auslösen und wo Caching, Modell-Routing oder kürzere Tool-Ergebnisse sparen können. Gute Token Telemetry verbindet Kosten, Latenz, Qualität und Fehlerraten, statt Tokenzahlen isoliert zu betrachten. Teams bekommen dadurch eine belastbare Grundlage für Budgets, Alerts und Review-Gates. Besonders wichtig wird sie bei Multi-Agenten-Setups, weil parallele Agenten ansonsten unbemerkt hohe Inferenzkosten erzeugen können. In der Praxis gehört Token Telemetry in Dashboards, Logs und Deployment-Gates, damit KI-Workflows nicht nur funktionieren, sondern wirtschaftlich, nachvollziehbar und steuerbar bleiben. Für Governance ist die Metrik außerdem ein Frühwarnsignal: plötzliche Token-Spitzen deuten oft auf Prompt-Schleifen, schlechte Retrieval-Treffer oder fehlende Stop-Kriterien hin.

Konzept entdecken

Inference & Engineering

Token Window Management

Die Kunst, den begrenzten Kontext eines LLMs optimal zu nutzen. Umfasst: Token-Budget-Allokation (wie viel für System-Prompt, Tools, Konversation?), Kontext-Kompression, selektives Retrieval und Sliding-Window-Strategien. Bei 200K-Token-Modellen oft wichtiger als bei 8K – mehr Platz führt zu "Context Rot" ohne Management.

Konzept entdecken

Ökonomie & Skalierung

Token-Economics

Das strategische Management von KI-Rechenkosten (Tokens), um skalierbare und kosteneffiziente Leistung in hochvolumigen Anwendungen sicherzustellen.

Konzept entdecken

Agentic Business

Tool Calling (Werkzeugaufruf)

Tool Calling bezeichnet die Fähigkeit von KI-Sprachmodellen, externe Funktionen, APIs oder Dienste gezielt aufzurufen, um Aufgaben zu erfüllen, die über reine Textgenerierung hinausgehen. Statt nur auf trainierten Wissen zu antworten, kann ein Modell mit Tool Calling aktiv auf Echtzeitdaten zugreifen, Code ausführen, Berechnungen durchführen oder externe Systeme steuern. Der Mechanismus funktioniert so: Das Modell empfängt eine Liste verfügbarer Tools mit Beschreibung und Parameter-Schema. Bei Bedarf gibt es einen strukturierten Aufruf zurück, den das Host-System ausführt und dessen Ergebnis an das Modell zurücksendet. Das Modell verarbeitet die Antwort und kann weitere Tools aufrufen oder die finale Antwort generieren. Tool Calling ist eine Grundvoraussetzung für echte KI-Agenten: Erst durch diese Fähigkeit können Modelle mit der Außenwelt interagieren, Workflows automatisieren und komplexe Multi-Step-Aufgaben eigenständig lösen. Moderne Frameworks wie Model Context Protocol (MCP) standardisieren, wie Tools registriert und aufgerufen werden, und machen es einfacher, KI-Systeme mit bestehender Unternehmensinfrastruktur zu verbinden.

Konzept entdecken

Reasoning & Verlässlichkeit

Tool Use

Tool Use im Kontext von AI-Agenten ist die Fähigkeit eines Agenten, externe Werkzeuge und APIs zu nutzen, um Aufgaben zu erfüllen, die über seine inhärenten Fähigkeiten hinausgehen. Dies ermöglicht es AI-Agenten, mit realen Systemen zu interagieren, auf externes Wissen zuzugreifen und komplexe Operationen durchzuführen.

Konzept entdecken

Agentic Business

Tool-Nutzung (KI)

Die Faehigkeit eines KI-Agenten, externe Tools, APIs und Dienste aufzurufen, um Aufgaben ueber die Textgenerierung hinaus zu erledigen. Ein wichtiger Unterschied zwischen einfachen Chatbots und leistungsfaehigen KI-Agenten.

Konzept entdecken

Inference & Engineering

Tech Stack

Die vollstaendige Sammlung von Technologien zum Erstellen und Betreiben einer Softwareanwendung. Im KI-Bereich beeinflussen Tech-Stack-Entscheidungen Modellleistung, Skalierbarkeit und Wartungskosten erheblich.

Konzept entdecken

Reasoning & Verlässlichkeit

Technical Debt Tsunami

Eine Metapher, die die überwältigende Ansammlung von technischem Schulden beschreibt, die aus hastigen oder schlecht geplanten Entwicklungspraktiken resultiert, insbesondere bei der Verwendung von KI-generiertem Code ohne angemessene Aufsicht.

Konzept entdecken

Reasoning & Verlässlichkeit

Terminal Workflow

Der Satz von Aufgaben, Befehlen und Prozessen, die ein Entwickler oder Benutzer innerhalb einer Befehlszeilenschnittstelle (Terminal) für Softwareentwicklung, Systemadministration oder andere technische Zwecke ausführt.

Konzept entdecken

Agentic Infrastructure

Test-Time Compute

Test-Time Compute bezieht sich auf die Rechenressourcen, die erforderlich sind, um Inferenz durchzuführen oder Vorhersagen mit einem trainierten KI-Modell zu treffen. Effiziente Test-Time-Compute ist entscheidend für die Bereitstellung von KI-Modellen in realen Anwendungen mit niedriger Latenz und hoher Durchsatz.

Konzept entdecken

Inference & Engineering

Test-Time Scaling

Die Praxis, zum Zeitpunkt der Antwortgenerierung (Inferenz) mehr Rechenleistung einzusetzen als nur während des Trainings, damit das Modell für bessere Ergebnisse 'länger nachdenken' kann.

Konzept entdecken

Time-to-First-Token (TTFT)

Time-to-First-Token (TTFT) ist eine zentrale Leistungsmetrik für große Sprachmodelle, die die Zeitspanne zwischen dem Absenden einer Anfrage und dem Empfang des ersten generierten Tokens misst. TTFT ist entscheidend für die wahrgenommene Reaktionsfähigkeit von KI-Anwendungen – niedrigere Werte bedeuten schnellere erste Antworten. Typische TTFT-Werte reichen von unter 100ms bei optimierten Edge-Modellen bis zu mehreren Sekunden bei großen Reasoning-Modellen. Faktoren wie Modellgröße, Hardware (GPU vs. WSE), Prompt-Länge und KV-Cache-Strategien beeinflussen TTFT maßgeblich. Im Jahr 2026 ist TTFT ein Schlüsseldifferenzierer zwischen Anbietern, wobei Cerebras WSE und optimierte Modelle wie GPT-5.3-Codex-Spark besonders niedrige Werte erreichen.

Konzept entdecken

Agentic Infrastructure

Token Budget

Die begrenzte Anzahl von Tokens (Texteinheiten), die aufgrund von Kosten, Leistung oder Modellbeschränkungen im Eingabekontext eines Sprachmodells enthalten sein können. Dieses Budget schränkt die Menge an Informationen ein, die dem Modell bereitgestellt werden können.

Konzept entdecken

Reasoning & Verlässlichkeit

Token Input Context

Die maximale Anzahl von Tokens (Texteinheiten), die ein KI-Modell in einer einzigen Anfrage als Eingabe verarbeiten kann.

Konzept entdecken

Ökonomie & Skalierung

Token Yield Optimization

Token Yield Optimization ist ein AI economics-Konzept in modernen KI-Systemen, das das Kosten-Nutzen-Verhältnis der KI-Einführung und des Betriebs optimiert. Es spielt eine Schlüsselrolle in Enterprise-KI-Deployments, wo der Nachweis eines klaren ROI für fortlaufende KI-Investitionen entscheidend ist.

Konzept entdecken

Reasoning & Verlässlichkeit

Tokens (in LLMs)

Die grundlegenden Textelemente, die LLMs verarbeiten, typischerweise Wörter oder Teile von Wörtern. Der Tokenverbrauch bezieht sich auf die Anzahl der Tokens, die sowohl für Eingaben als auch für Ausgaben verwendet werden, was Kosten und Leistung beeinflusst.

Konzept entdecken

Agentic Infrastructure

Tool Use / Function Calling

Tool Use / Function Calling ist ein AI infrastructure-Konzept in modernen KI-Systemen, das grundlegende Fähigkeiten für KI-System-Deployment und -Betrieb bereitstellt. Es spielt eine Schlüsselrolle in Enterprise-KI-Deployments, wo Zuverlässigkeit und Skalierbarkeit für Produktions-Workloads entscheidend sind.

Konzept entdecken

Agentic Business

Tool Use in KI

Die Faehigkeit von KI-Modellen mit externen Software-Tools APIs und Diensten waehrend der Inferenz zu interagieren.

Konzept entdecken

Agentic Infrastructure

Tools (MCP)

Ausführbare Aktionen, die ein KI-Assistent über das Model Context Protocol (MCP) auslösen kann, wie das Schreiben einer Datei oder das Aufrufen einer API.

Konzept entdecken

Agentic Infrastructure

Turbopack

Ein leistungsstarkes Build-Tool für JavaScript und TypeScript, das als Nachfolger von Webpack konzipiert wurde. Bemerkenswert schnellere Build-Zeiten durch Caching.

Konzept entdecken

Reasoning & Verlässlichkeit

Turbopack

Ein hochperformanter inkrementeller Bundler fuer JavaScript und TypeScript, als Webpack-Nachfolger mit deutlich schnelleren Build-Zeiten.

Konzept entdecken

Inference & Engineering

Typicality Bias

Die systematische menschliche Präferenz für ‚typische' Texte gegenüber ungewöhnlichen – ein gut dokumentiertes Phänomen der kognitiven Psychologie. In LLM-Alignment-Daten mit α = 0.57±0.07 gemessen. Hauptursache für Mode Collapse, da RLHF/DPO diesen Bias verstärken.

Konzept entdecken

Agentic Infrastructure

Test Felder

Dies ist eine Testdefinition die alle Felder testet. KI-Inferenz bezeichnet den Prozess, bei dem ein trainiertes KI-Modell neue Eingabedaten verarbeitet und Vorhersagen oder Ausgaben generiert. Dies ist eine ausreichend lange Definition mit mehreren Sätzen, die den Begriff klar erklärt. Wir beschreiben hier die Grundlagen der KI-Inferenz und ihre Bedeutung für den laufenden Betrieb. In der Praxis sind Inferenzkosten der dominierende Kostenfaktor.

Konzept entdecken

Reasoning & Verlässlichkeit

Text-to-Video

Text-to-Video bezeichnet eine Kategorie generativer KI-Technologie, bei der Modelle Videosequenzen direkt aus natürlichsprachlichen Beschreibungen erzeugen – ohne traditionelles Filmen, Animation oder manuelles Editing. Text-to-Video-Modelle analysieren einen Textprompt und synthetisieren temporal konsistente Videoframes, die die beschriebenen Szenen, Kamerabewegungen, Lichtverhältnisse und Objekte abbilden. Das Feld hat sich seit OpenAIs Sora, das Anfang 2024 mit physikalisch plausiblen, minutenlangen kinematischen Clips Aufsehen erregte, rasant entwickelt. Führende Text-to-Video-Systeme sind heute Googles Veo 3, ByteDances Seedance 2.0, Runway MLs Gen-3 Alpha, Stability AIs Stable Video Diffusion und Kling AI von Kuaishou. Die meisten modernen Modelle kombinieren großangelegte Video-Diffusionsarchitekturen mit Sprachencodern wie CLIP oder T5 für reichhaltige semantische Verankerung. Wichtige Leistungsdimensionen umfassen Videodauer, Auflösung, Bewegungsrealismus, Prompt-Treue, Charakterkonsistenz und Kamerasteuerung (Schwenk, Zoom, Dolly). Text-to-Video transformiert Marketing, Unterhaltung, Bildung und E-Commerce, indem es KI-native Videoinhalte zu einem Bruchteil herkömmlicher Produktionskosten ermöglicht. Marken können Produktdemonstrationen, Erklärvideos und Social-Media-Inhalte programmatisch in großem Maßstab generieren. Context Studios integriert Text-to-Video-Generierung in Client-Content-Pipelines und nutzt Modelle wie Veo 3, Seedance 2.0 und Sora für Social Content, Produktvisualisierungen und automatisierte Videoproduktions-Workflows.

Konzept entdecken

Agentic Infrastructure

Tokens per Second (TPS)

Tokens per Second (TPS) ist die primäre Durchsatz-Metrik für KI-Sprachmodell-Inferenz. Sie misst, wie viele Tokens pro Sekunde ein Modell generiert, nachdem der Generierungsprozess begonnen hat. TPS und Time-to-First-Token (TTFT) bestimmen gemeinsam die User Experience. Ein Token entspricht grob 0,75 Wörtern in Englisch oder 0,5–0,6 Wörtern in anderen Sprachen. Typische TPS-Werte: Groqs LPU erreicht 500–800 TPS für 7B-Modelle; Anthropics Claude-API liefert je nach Modell 30–100 TPS; Open-Source-Modelle auf einem H100 erreichen 50–200 TPS je nach Größe. TPS beeinflusst UX auf zwei Weisen: Für kurze Anfragen (bis ~500 Tokens) dominiert TTFT die gefühlte Responsivität; für lange Outputs (Dokumente, Code, Analysen) wird TPS entscheidend. Bei 30 TPS benötigt ein 3.000-Wörter-Dokument ~80 Sekunden; bei 200 TPS nur ~12 Sekunden. Für Voice-KI ist mindestens 100 TPS notwendig für Sprachsynthese ohne wahrnehmbare Lücken. Einflussfaktoren: Modellgröße (größer = langsamere TPS), Quantisierungsniveau (FP4 vs FP8 vs BF16), Batch-Größe (höheres Batching erhöht Gesamt-TPS, senkt individuelles TPS), Hardware und KV-Cache-Auslastung.

Konzept entdecken