Context Studios

Context Studios

KI Wissensdatenbank 2026

KI Glossar 2026

Präzise Definitionen für die Ära von Agentic AI und Spatial Intelligence.

Inference & Engineering

In-Context Learning (ICL)

In-Context Learning (ICL) bezeichnet die Fähigkeit großer Sprachmodelle, neue Aufgaben direkt aus wenigen Beispielen im Eingabe-Prompt zu lösen – ohne Anpassung der Modellgewichte und ohne klassisches Training. Das Modell erkennt Muster aus den mitgelieferten Beispielen und überträgt diese Logik auf die eigentliche Aufgabe. Das Prinzip funktioniert durch die Struktur des Prompts: Werden dem Modell Eingabe-Ausgabe-Paare (sogenannte Shots) vorangestellt, lernt es implizit das Aufgabenformat und die erwartete Antwortlogik. Bei Zero-Shot ICL kommt das Modell ohne Beispiele aus, bei Few-Shot ICL werden typischerweise zwei bis acht Beispiele geliefert. ICL ist ein zentrales Merkmal moderner Foundation Models: Es ermöglicht die flexible Anpassung an neue Aufgaben ohne kostspieliges Fine-Tuning. Für Unternehmen bedeutet das, dass viele Anwendungsfälle – von Klassifizierung über Extraktion bis zur Übersetzung – allein durch sorgfältig gestaltete Prompts lösbar sind. Die Qualität der Beispiele im Prompt bestimmt dabei maßgeblich die Genauigkeit des Ergebnisses.

Konzept entdecken

Reasoning & Verlässlichkeit

Imagen 3

Googles DeepMind Text-zu-Bild KI-Modell der dritten Generation, das Google Whisk antreibt und für hohen Fotorealismus und kreative Genauigkeit bei der Bildgenerierung bekannt ist.

Konzept entdecken

Reasoning & Verlässlichkeit

Imagen 3

Googles DeepMind Text-zu-Bild KI-Modell der dritten Generation das Google Whisk antreibt und fuer hohen Fotorealismus und kreative Genauigkeit bekannt ist.

Konzept entdecken

Agentic Infrastructure

Inference Scaling

Inference Scaling ist der Prozess der Optimierung der Bereitstellung von KI-Modellen, um eine wachsende Anzahl von Inferenzanfragen oder steigenden Datenvolumina zu bewältigen. Dies umfasst Techniken wie Modellparallelismus, verteiltes Rechnen und Hardwarebeschleunigung, um die Leistung aufrechtzuerhalten und die Latenz zu minimieren.

Konzept entdecken

Inference & Engineering

Inference-Time Compute

Inference-Time Compute ist ein AI engineering-Konzept in modernen KI-Systemen, das die Entwicklung und Wartung KI-gestützter Systeme verbessert. Es spielt eine Schlüsselrolle in Enterprise-KI-Deployments, wo Software-Qualität und Entwicklungsgeschwindigkeit direkt Geschäftsergebnisse beeinflussen.

Konzept entdecken

Agentic Infrastructure

Inferenz-Optimierung

Inferenz-Optimierung umfasst alle Techniken und Strategien, die eingesetzt werden, um die Performance (Latenz, Durchsatz) und/oder die Kosteneffizienz von KI-Inferenz-Systemen zu verbessern, ohne die Qualitaet der generierten Ausgaben signifikant zu beeintraechtigten. Die wichtigsten Optimierungsebenen sind: (1) Modell-Ebene: Quantisierung (Reduzierung der numerischen Praezision von FP16 auf INT8 oder FP4), Pruning (Entfernung wenig wichtiger Modell-Gewichte), Destillation (Training kleinerer Modelle auf Outputs groesserer); (2) Serving-Ebene: Continuous Batching (dynamisches Zusammenfassen von Anfragen), KV-Cache-Optimierung, Page-Attention (effiziente Speicherverwaltung fuer Kontext); (3) Hardware-Ebene: Tensorparallelismus, Flash-Attention, Kernel-Fusion; (4) System-Ebene: Speculative Decoding, Model Routing, Caching. Speculative Decoding ist besonders bemerkenswert: Ein kleines "Draft-Modell" generiert mehrere Token-Kandidaten, die ein groesseres "Verifier-Modell" dann in einem einzigen Pass validiert oder verwirft. Bei gutem Draft-Modell kann dies die effektive Generation-Geschwindigkeit um 2-4x erhoehen. Frameworks wie vLLM, TensorRT-LLM, und DeepSpeed-Inference haben sich als Standard fuer optimiertes Serving etabliert. Sie implementieren viele dieser Techniken automatisch und koennen gegenueber nativem HuggingFace-Serving 10-20x besseren Durchsatz erzielen.

Konzept entdecken

Ökonomie & Skalierung

Inferenzkosten

Inferenzkosten bezeichnen die finanziellen Aufwendungen beim Betrieb eines KI-Modells — Kosten für die Verarbeitung jeder einzelnen Nutzeranfrage. Im Gegensatz zu Trainingskosten (einmalig, sehr hoch) fallen Inferenzkosten kontinuierlich an und stellen im laufenden Betrieb den größten KI-Kostenfaktor dar. Inferenzkosten werden typischerweise in Preis pro Token berechnet. Stand 2026: GPT-4o ca. $2–5/M Input-Tokens und $8–15/M Output-Tokens; Claude Sonnet $3/M Input, $15/M Output; günstigere Modelle wie Claude Haiku oder Gemini Flash $0,25–1/M Tokens. Output-Tokens sind teurer als Input-Tokens (wegen des Generierungsaufwands), weshalb kosteneffiziente Systeme Output-Längen aktiv optimieren. Kostentreiber: Modellgröße (mehr Parameter = höhere Kosten), Kontextlänge (längere Kontexte erhöhen Input-Token-Kosten überproportional), Output-Länge, Hardware des Anbieters, Peak-vs-Off-Peak-Nutzung und Lizenzmodell (API vs. self-hosted). Seit 2023 sind Inferenzkosten um über 100× gesunken — GPT-4-äquivalente Leistung kostet heute ~1% des 2023-Preises. Dieser Trend hält mit Blackwell und Vera Rubin an. Kostenoptimierung: Model-Routing (günstige Modelle für einfache Tasks), Batch-Inferenz (50–75% Rabatt), Prompt-Optimierung (kürzere Outputs anfordern), Caching häufiger Anfragen.

Konzept entdecken

Vertrauen & Souveränität

Injection Breakthroughs

Fälle, in denen bösartiger oder unbeabsichtigter externer Inhalt, der in eine Eingabeaufforderung eingefügt wird, es schafft, Sicherheitsmechanismen zu umgehen und das Verhalten des LLM auf unerwünschte Weise zu beeinflussen.

Konzept entdecken

Vertrauen & Souveränität

Instruction/Data Separation

Trennung von vertrauenswürdigen Anweisungen und nicht vertrauenswürdigen Daten.

Konzept entdecken

Ökonomie & Skalierung

Intelligent LLM Routing

Intelligent LLM Routing ist ein AI economics-Konzept in modernen KI-Systemen, das das Kosten-Nutzen-Verhältnis der KI-Einführung und des Betriebs optimiert. Es spielt eine Schlüsselrolle in Enterprise-KI-Deployments, wo der Nachweis eines klaren ROI für fortlaufende KI-Investitionen entscheidend ist.

Konzept entdecken

Intent-Based Navigation

Intent-Based Navigation ist ein AI user experience-Konzept in modernen KI-Systemen, das die Nutzerinteraktion mit KI-Features gestaltet und deren Nutzen maximiert. Es spielt eine Schlüsselrolle in Enterprise-KI-Deployments, wo Nutzerakzeptanz und Zufriedenheit von durchdachtem Interface- und Interaktionsdesign abhängen.

Konzept entdecken

Reasoning & Verlässlichkeit

Interactive UI Components

Funktionale Benutzeroberflächenelemente (z. B. Schaltflächen, Schieberegler, Formulare, Dashboards), die es Benutzern ermöglichen, direkt mit Daten zu interagieren und diese zu manipulieren oder Aktionen innerhalb einer Anwendung oder KI-Konversation auszulösen.

Konzept entdecken

Reasoning & Verlässlichkeit

iOS

Apples mobiles Betriebssystem, das hauptsächlich auf iPhones und iPads verwendet wird.

Konzept entdecken

Agentic Infrastructure

Inferenz-Chip

Ein Inferenz-Chip ist ein spezialisierter Halbleiter-Prozessor, optimiert für die effiziente Ausführung von KI-Modellen bei der Inferenz. Im Gegensatz zu General-Purpose-CPUs oder Training-GPUs priorisieren Inferenz-Chips Durchsatz (TPS), Energieeffizienz und niedrige Latenz für bereits trainierte Modelle. Die drei dominanten Kategorien: GPUs wie NVIDIAs H100 und B200 Blackwell, die durch massive parallele Rechenarchitektur und Tensor-Kerne glänzen; TPUs (Tensor Processing Units) von Google, speziell für Matrix-Multiplikationen in neuronalen Netzen entwickelt; sowie ASICs (Application-Specific Integrated Circuits) für eine spezifische Aufgabe — etwa Groqs LPU (Language Processing Unit) mit 500+ TPS, Cerebrases CS-3 oder Amazons Inferentia-Chips. NVIDIAs Blackwell-Generation (GB200, B200) hat die Inferenz-Landschaft revolutioniert: Natives FP4 ermöglicht 4× mehr Operationen pro Watt vs. H100; 192 GB HBM3e-Speicher hält selbst die größten Frontier-Modelle vollständig im VRAM. Der GB200 NVL72 Rack (72 B200 GPUs, 1,4 TB Gesamt-VRAM) erreicht 30× höheren Durchsatz als H100-Systeme. Die Wahl des richtigen Inferenz-Chips beeinflusst Kosten, Latenz und maximale Modellgröße: Kleinere Modelle laufen effizient auf einzelnen H100s; Frontier-Modelle benötigen Multi-GPU-Cluster.

Konzept entdecken

Vertrauen & Souveränität

Injection Attack (LLM)

Bösartige Anweisungen in der Eingabe zur Manipulation des Verhaltens von LLM.

Konzept entdecken