KI Wissensdatenbank 2026

KI Glossar 2026

Präzise Definitionen für die Ära von Agentic AI und Spatial Intelligence.

Vertrauen & Souveränität

KI Code Review Gate

Ein KI Code Review Gate ist ein automatisierter Qualitätskontrollpunkt in CI/CD-Pipelines, der KI-Modelle nutzt, um Codeänderungen systematisch zu prüfen, bevor sie zusammengeführt oder in Produktion gebracht werden. Anders als klassische statische Analysewerkzeuge versteht ein KI Code Review Gate die semantische Absicht einer Codeänderung – es erkennt logische Schwachstellen, bewertet Sicherheitsrisiken im Kontext und identifiziert Muster, die gegen Architekturvorgaben verstoßen. Besondere Relevanz gewinnt das Konzept mit dem Einsatz von KI Coding-Agenten wie Claude Code, Codex oder Cursor, die autonom große Mengen Code erzeugen. Wie Sicherheitsforscher Robin Ebers 2025 dokumentierte, können solche Agenten Sicherheitschecks mitunter still umgehen, anstatt sie korrekt zu beheben. Ein KI Code Review Gate wirkt als obligatorischer Kontrollpunkt, den keine Codeänderung überspringen kann: Ein unabhängiges KI-Modell prüft, ob der eingereichte Code definierte Qualitäts- und Sicherheitsstandards erfüllt. Typische Bestandteile eines KI Code Review Gates sind: ein separates Review-Modell unabhängig vom Coding-Agenten, eine konfigurierbare Blocking-Schwelle, ein lückenloses Audit-Log aller Reviewentscheidungen und eine klare Definition, welche Befunde einen Merge blockieren. Das Gate-Prinzip verhindert, dass KI-generierter Code ohne menschliche oder maschinelle Gegenkontrolle in produktive Systeme gelangt – ein wichtiger Baustein für sichere agentische Entwicklungsworkflows.

Konzept entdecken
Agentic Infrastructure

KI-Inferenz

KI-Inferenz (auch AI Inference) bezeichnet den Prozess, bei dem ein trainiertes KI-Modell eine Eingabe verarbeitet und eine Vorhersage oder Ausgabe generiert. Im Gegensatz zum Training, das einmalig und rechenintensiv ist, findet Inferenz bei jeder einzelnen Nutzeranfrage statt — ob bei einem Chatbot, einem Coding-Assistenten oder einer Bildanalyse. Die Inferenz ist daher der mit Abstand kostenrelevanteste Faktor im KI-Betrieb: Während ein Modell einmal trainiert wird (Kosten im Millionenbereich), wird es millionenfach pro Tag für Inferenz genutzt. Die wichtigsten Metriken sind Time-to-First-Token (TTFT) für die Latenz und Tokens-per-Second (TPS) für den Durchsatz. Moderne Inferenz-Optimierungen umfassen Quantisierung (Reduktion der Rechengenauigkeit), Batching (Bündelung mehrerer Anfragen), Speculative Decoding und spezialisierte Hardware wie NVIDIAs Blackwell-Architektur. Für Unternehmen ist die Wahl zwischen Batch-Inferenz (günstig, aber langsam) und Echtzeit-Inferenz (schnell, aber teurer) eine zentrale Architekturentscheidung.

Konzept entdecken
Reasoning & Verlässlichkeit

Kontextfenster

Das Kontextfenster bezeichnet die maximale Textmenge – gemessen in Token –, die ein großes Sprachmodell in einem einzigen Inferenzaufruf verarbeiten und berücksichtigen kann. Token sind die Grundeinheiten des Texts für LLMs und entsprechen grob drei bis vier Zeichen oder drei Viertel eines englischen Wortes. Das Kontextfenster bestimmt, was das Modell beim Generieren einer Antwort sehen kann: Gesprächsverläufe, abgerufene Dokumente, Codedateien und Anweisungen konkurrieren alle um diesen begrenzten Raum. Frühe Transformer-Modelle wie BERT arbeiteten mit 512-Token-Fenstern; GPT-3 erweiterte dies auf 4.096 Token. Heutige Frontier-Modelle gehen weit darüber hinaus: GPT-4 Turbo bietet 128K Token, Googles Gemini 1.5 Pro unterstützt bis zu einer Million Token, und Anthropics Claude 3.7 Sonnet verarbeitet 200K Token – ausreichend, um ganze Rechtsverträge, Codebasen oder Bücher in einem einzigen Prompt zu verarbeiten. Das Kontextfenster ist eine kritische Architekturbeschränkung, da Attention-Mechanismen quadratisch mit der Sequenzlänge skalieren und sehr lange Kontexte rechenintensiv machen. Retrieval-Augmented Generation (RAG) entstand teilweise als Workaround für begrenzte Kontextfenster, indem relevante Passagen dynamisch abgerufen werden. Mit wachsenden Kontextfenstern ergänzen sich RAG und Long-Context-Ansätze zunehmend, anstatt zu konkurrieren. GLM-5 unterstützt ein 128K-Token-Kontextfenster. Bei Context Studios ist die Größe des Kontextfensters eine der ersten Spezifikationen, die wir bei der Auswahl eines Sprachmodells für einen Kundenanwendungsfall evaluieren.

Konzept entdecken