KI Wissensdatenbank 2026

KI Glossar 2026

Präzise Definitionen für die Ära von Agentic AI und Spatial Intelligence.

Inference & Engineering

In-Context Learning (ICL)

In-Context Learning (ICL) bezeichnet die Fähigkeit großer Sprachmodelle, neue Aufgaben direkt aus wenigen Beispielen im Eingabe-Prompt zu lösen – ohne Anpassung der Modellgewichte und ohne klassisches Training. Das Modell erkennt Muster aus den mitgelieferten Beispielen und überträgt diese Logik auf die eigentliche Aufgabe. Das Prinzip funktioniert durch die Struktur des Prompts: Werden dem Modell Eingabe-Ausgabe-Paare (sogenannte Shots) vorangestellt, lernt es implizit das Aufgabenformat und die erwartete Antwortlogik. Bei Zero-Shot ICL kommt das Modell ohne Beispiele aus, bei Few-Shot ICL werden typischerweise zwei bis acht Beispiele geliefert. ICL ist ein zentrales Merkmal moderner Foundation Models: Es ermöglicht die flexible Anpassung an neue Aufgaben ohne kostspieliges Fine-Tuning. Für Unternehmen bedeutet das, dass viele Anwendungsfälle – von Klassifizierung über Extraktion bis zur Übersetzung – allein durch sorgfältig gestaltete Prompts lösbar sind. Die Qualität der Beispiele im Prompt bestimmt dabei maßgeblich die Genauigkeit des Ergebnisses.

Konzept entdecken
Agentic Infrastructure

Inferenz-Optimierung

Inferenz-Optimierung umfasst alle Techniken und Strategien, die eingesetzt werden, um die Performance (Latenz, Durchsatz) und/oder die Kosteneffizienz von KI-Inferenz-Systemen zu verbessern, ohne die Qualitaet der generierten Ausgaben signifikant zu beeintraechtigten. Die wichtigsten Optimierungsebenen sind: (1) Modell-Ebene: Quantisierung (Reduzierung der numerischen Praezision von FP16 auf INT8 oder FP4), Pruning (Entfernung wenig wichtiger Modell-Gewichte), Destillation (Training kleinerer Modelle auf Outputs groesserer); (2) Serving-Ebene: Continuous Batching (dynamisches Zusammenfassen von Anfragen), KV-Cache-Optimierung, Page-Attention (effiziente Speicherverwaltung fuer Kontext); (3) Hardware-Ebene: Tensorparallelismus, Flash-Attention, Kernel-Fusion; (4) System-Ebene: Speculative Decoding, Model Routing, Caching. Speculative Decoding ist besonders bemerkenswert: Ein kleines "Draft-Modell" generiert mehrere Token-Kandidaten, die ein groesseres "Verifier-Modell" dann in einem einzigen Pass validiert oder verwirft. Bei gutem Draft-Modell kann dies die effektive Generation-Geschwindigkeit um 2-4x erhoehen. Frameworks wie vLLM, TensorRT-LLM, und DeepSpeed-Inference haben sich als Standard fuer optimiertes Serving etabliert. Sie implementieren viele dieser Techniken automatisch und koennen gegenueber nativem HuggingFace-Serving 10-20x besseren Durchsatz erzielen.

Konzept entdecken
Ökonomie & Skalierung

Inferenzkosten

Inferenzkosten bezeichnen die finanziellen Aufwendungen beim Betrieb eines KI-Modells — Kosten für die Verarbeitung jeder einzelnen Nutzeranfrage. Im Gegensatz zu Trainingskosten (einmalig, sehr hoch) fallen Inferenzkosten kontinuierlich an und stellen im laufenden Betrieb den größten KI-Kostenfaktor dar. Inferenzkosten werden typischerweise in Preis pro Token berechnet. Stand 2026: GPT-4o ca. $2–5/M Input-Tokens und $8–15/M Output-Tokens; Claude Sonnet $3/M Input, $15/M Output; günstigere Modelle wie Claude Haiku oder Gemini Flash $0,25–1/M Tokens. Output-Tokens sind teurer als Input-Tokens (wegen des Generierungsaufwands), weshalb kosteneffiziente Systeme Output-Längen aktiv optimieren. Kostentreiber: Modellgröße (mehr Parameter = höhere Kosten), Kontextlänge (längere Kontexte erhöhen Input-Token-Kosten überproportional), Output-Länge, Hardware des Anbieters, Peak-vs-Off-Peak-Nutzung und Lizenzmodell (API vs. self-hosted). Seit 2023 sind Inferenzkosten um über 100× gesunken — GPT-4-äquivalente Leistung kostet heute ~1% des 2023-Preises. Dieser Trend hält mit Blackwell und Vera Rubin an. Kostenoptimierung: Model-Routing (günstige Modelle für einfache Tasks), Batch-Inferenz (50–75% Rabatt), Prompt-Optimierung (kürzere Outputs anfordern), Caching häufiger Anfragen.

Konzept entdecken
Agentic Infrastructure

Inferenz-Chip

Ein Inferenz-Chip ist ein spezialisierter Halbleiter-Prozessor, optimiert für die effiziente Ausführung von KI-Modellen bei der Inferenz. Im Gegensatz zu General-Purpose-CPUs oder Training-GPUs priorisieren Inferenz-Chips Durchsatz (TPS), Energieeffizienz und niedrige Latenz für bereits trainierte Modelle. Die drei dominanten Kategorien: GPUs wie NVIDIAs H100 und B200 Blackwell, die durch massive parallele Rechenarchitektur und Tensor-Kerne glänzen; TPUs (Tensor Processing Units) von Google, speziell für Matrix-Multiplikationen in neuronalen Netzen entwickelt; sowie ASICs (Application-Specific Integrated Circuits) für eine spezifische Aufgabe — etwa Groqs LPU (Language Processing Unit) mit 500+ TPS, Cerebrases CS-3 oder Amazons Inferentia-Chips. NVIDIAs Blackwell-Generation (GB200, B200) hat die Inferenz-Landschaft revolutioniert: Natives FP4 ermöglicht 4× mehr Operationen pro Watt vs. H100; 192 GB HBM3e-Speicher hält selbst die größten Frontier-Modelle vollständig im VRAM. Der GB200 NVL72 Rack (72 B200 GPUs, 1,4 TB Gesamt-VRAM) erreicht 30× höheren Durchsatz als H100-Systeme. Die Wahl des richtigen Inferenz-Chips beeinflusst Kosten, Latenz und maximale Modellgröße: Kleinere Modelle laufen effizient auf einzelnen H100s; Frontier-Modelle benötigen Multi-GPU-Cluster.

Konzept entdecken