AI Knowledge Base 2026

Glossario IA 2026

Definizioni chiare per l'era dell'IA Agentica e dell'Intelligenza Spaziale.

UX Agentica

Time-to-First-Token (TTFT)

Il Time-to-First-Token (TTFT) è una metrica di prestazione chiave per i grandi modelli linguistici che misura il tempo tra l'invio di una richiesta e la ricezione del primo token generato. Il TTFT è cruciale per la reattività percepita delle applicazioni IA – valori più bassi significano prime risposte più rapide. I valori TTFT tipici vanno da meno di 100ms per i modelli edge ottimizzati a diversi secondi per i grandi modelli di ragionamento. Fattori come la dimensione del modello, l'hardware (GPU vs WSE), la lunghezza del prompt e le strategie di cache KV influenzano significativamente il TTFT. Nel 2026, il TTFT è un differenziatore chiave tra i fornitori, con il WSE di Cerebras e modelli ottimizzati come GPT-5.3-Codex-Spark che raggiungono valori particolarmente bassi.

Explore Concept
Infrastruttura Agentica

Token al Secondo (TPS)

I Token al Secondo (TPS) sono la principale metrica di throughput per valutare le prestazioni di inferenza dei modelli linguistici AI. Misura quanti token un modello genera al secondo dopo l'inizio del processo di generazione. TPS e TTFT determinano congiuntamente la qualità complessiva dell'esperienza utente. Un token corrisponde approssimativamente a 0,75 parole in inglese o 0,5–0,6 parole in altre lingue. Benchmark TPS tipici: l'LPU di Groq raggiunge 500–800 TPS per modelli da 7B parametri; l'API Claude di Anthropic fornisce 30–100 TPS a seconda del livello del modello; i modelli open-source su H100 raggiungono 50–200 TPS. Il TPS influenza l'UX in due modi distinti. Per risposte brevi, il TTFT domina la reattività percepita. Per output lunghi — documenti, codice, analisi — il TPS diventa determinante. A 30 TPS, generare un documento di 3.000 parole richiede ~80 secondi; a 200 TPS, ~12 secondi. Per i sistemi AI vocali, un TPS minimo di 100 è necessario per la sintesi vocale senza lacune percettibili. Fattori che influenzano il TPS: dimensione del modello, livello di quantizzazione, dimensione del batch, hardware e pattern di utilizzo della cache KV.

Explore Concept