Kontextfenster
Das Kontextfenster bezeichnet die maximale Textmenge – gemessen in Token –, die ein großes Sprachmodell in einem einzigen Inferenzaufruf verarbeiten und berücksichtigen kann. Token sind die Grundeinheiten des Texts für LLMs und entsprechen grob drei bis vier Zeichen oder drei Viertel eines englischen Wortes. Das Kontextfenster bestimmt, was das Modell beim Generieren einer Antwort sehen kann: Gesprächsverläufe, abgerufene Dokumente, Codedateien und Anweisungen konkurrieren alle um diesen begrenzten Raum. Frühe Transformer-Modelle wie BERT arbeiteten mit 512-Token-Fenstern; GPT-3 erweiterte dies auf 4.096 Token. Heutige Frontier-Modelle gehen weit darüber hinaus: GPT-4 Turbo bietet 128K Token, Googles Gemini 1.5 Pro unterstützt bis zu einer Million Token, und Anthropics Claude 3.7 Sonnet verarbeitet 200K Token – ausreichend, um ganze Rechtsverträge, Codebasen oder Bücher in einem einzigen Prompt zu verarbeiten. Das Kontextfenster ist eine kritische Architekturbeschränkung, da Attention-Mechanismen quadratisch mit der Sequenzlänge skalieren und sehr lange Kontexte rechenintensiv machen. Retrieval-Augmented Generation (RAG) entstand teilweise als Workaround für begrenzte Kontextfenster, indem relevante Passagen dynamisch abgerufen werden. Mit wachsenden Kontextfenstern ergänzen sich RAG und Long-Context-Ansätze zunehmend, anstatt zu konkurrieren. GLM-5 unterstützt ein 128K-Token-Kontextfenster. Bei Context Studios ist die Größe des Kontextfensters eine der ersten Spezifikationen, die wir bei der Auswahl eines Sprachmodells für einen Kundenanwendungsfall evaluieren.
Deep Dive: Kontextfenster
Das Kontextfenster bezeichnet die maximale Textmenge – gemessen in Token –, die ein großes Sprachmodell in einem einzigen Inferenzaufruf verarbeiten und berücksichtigen kann. Token sind die Grundeinheiten des Texts für LLMs und entsprechen grob drei bis vier Zeichen oder drei Viertel eines englischen Wortes. Das Kontextfenster bestimmt, was das Modell beim Generieren einer Antwort sehen kann: Gesprächsverläufe, abgerufene Dokumente, Codedateien und Anweisungen konkurrieren alle um diesen begrenzten Raum. Frühe Transformer-Modelle wie BERT arbeiteten mit 512-Token-Fenstern; GPT-3 erweiterte dies auf 4.096 Token. Heutige Frontier-Modelle gehen weit darüber hinaus: GPT-4 Turbo bietet 128K Token, Googles Gemini 1.5 Pro unterstützt bis zu einer Million Token, und Anthropics Claude 3.7 Sonnet verarbeitet 200K Token – ausreichend, um ganze Rechtsverträge, Codebasen oder Bücher in einem einzigen Prompt zu verarbeiten. Das Kontextfenster ist eine kritische Architekturbeschränkung, da Attention-Mechanismen quadratisch mit der Sequenzlänge skalieren und sehr lange Kontexte rechenintensiv machen. Retrieval-Augmented Generation (RAG) entstand teilweise als Workaround für begrenzte Kontextfenster, indem relevante Passagen dynamisch abgerufen werden. Mit wachsenden Kontextfenstern ergänzen sich RAG und Long-Context-Ansätze zunehmend, anstatt zu konkurrieren. GLM-5 unterstützt ein 128K-Token-Kontextfenster. Bei Context Studios ist die Größe des Kontextfensters eine der ersten Spezifikationen, die wir bei der Auswahl eines Sprachmodells für einen Kundenanwendungsfall evaluieren.
Business Value & ROI
Why it matters for 2026
Die Größe des Kontextfensters bestimmt direkt, welche Aufgaben ein LLM ohne Chunking bewältigen kann: Lange Verträge, vollständige Codebasen oder Multi-Dokument-Recherchen erfordern große Fenster. Unternehmen sollten die Kontextfensterkapazität vor der Modellauswahl mit ihren Dokumentgrößen abgleichen.
Context Take
“Context Studios betrachtet die Kontextfenstergröße als primäres Auswahlkriterium bei LLM-Empfehlungen — für deutsche Rechtsdokumente und vollständige Code-Reviews ist 128K+ oft die Mindestanforderung.”
Implementation Details
- Production-Ready Guardrails