Ragionamento & Affidabilità
Finestra di Contesto
La finestra di contesto indica la quantità massima di testo — misurata in token — che un grande modello linguistico può elaborare e considerare in una singola chiamata di inferenza. I token sono le unità di base del testo per gli LLM, corrispondenti approssimativamente a tre o quattro caratteri o a tre quarti di una parola in inglese. La finestra di contesto definisce ciò che il modello può vedere durante la generazione di una risposta: conversazioni multi-turno, documenti recuperati, file di codice e istruzioni competono tutti per questo spazio limitato. I primi modelli transformer come BERT operavano con finestre di 512 token; GPT-3 ha esteso questo a 4.096 token. I modelli di frontiera odierni vanno ben oltre: GPT-4 Turbo offre 128.000 token, Gemini 1.5 Pro di Google supporta fino a un milione di token, e Claude 3.7 Sonnet di Anthropic gestisce 200.000 token — sufficienti per elaborare interi contratti legali, codebase o libri in un unico prompt. La finestra di contesto è un vincolo architetturale critico poiché i meccanismi di attenzione scalano quadraticamente con la lunghezza della sequenza, rendendo i contesti molto lunghi computazionalmente costosi. La Retrieval-Augmented Generation (RAG) è emersa in parte per aggirare le finestre di contesto limitate. GLM-5 supporta una finestra di contesto di 128.000 token. In Context Studios, la dimensione della finestra di contesto è una delle prime specifiche che valutiamo quando abbiniamo un modello linguistico al caso d'uso di un cliente.