AI Knowledge Base 2026

Glossario IA 2026

Definizioni chiare per l'era dell'IA Agentica e dell'Intelligenza Spaziale.

Infrastruttura Agentica

Ottimizzazione dell'Inferenza

L'ottimizzazione dell'inferenza comprende tutte le tecniche e strategie impiegate per migliorare le performance (latenza, throughput) e/o l'efficienza dei costi dei sistemi di inferenza AI senza degradare significativamente la qualità degli output generati. I principali livelli di ottimizzazione sono: (1) Livello modello: quantizzazione (riduzione della precisione numerica da FP16 a INT8 o FP4), pruning, distillazione; (2) Livello serving: continuous batching, ottimizzazione della KV-cache, PagedAttention; (3) Livello hardware: tensor parallelism, Flash Attention, kernel fusion; (4) Livello sistema: speculative decoding, model routing, caching delle risposte. Il speculative decoding merita una menzione speciale: un piccolo "draft model" genera diversi candidati token che un grande "verifier model" valida o rifiuta in un singolo passaggio. Con un buon draft model, questo può aumentare la velocità di generazione effettiva di 2-4x. Framework come vLLM, TensorRT-LLM e DeepSpeed-Inference sono diventati lo standard per il serving ottimizzato. Implementano automaticamente molte di queste tecniche e possono ottenere un throughput 10-20x migliore rispetto al serving HuggingFace nativo.

Explore Concept
Business Agentico

Orchestrazione degli Agenti

L'orchestrazione degli agenti si riferisce al coordinamento di più agenti AI da parte di un agente orchestratore centrale o di un sistema di orchestrazione per risolvere compiti complessi che i singoli agenti non possono gestire efficacemente da soli. Il livello di orchestrazione determina quali agenti vengono chiamati quando, come i risultati vengono uniti e come vengono gestiti gli errori. Un tipico pattern di orchestrazione funziona come segue: un orchestratore riceve un compito complesso, lo scompone in sotto-task, li distribuisce ad agenti specializzati (es: agente di ricerca, agente di scrittura, agente SEO), raccoglie i risultati, risolve i conflitti e consegna l'output finale. Le strategie di orchestrazione includono: orchestrazione sequenziale, orchestrazione parallela, orchestrazione gerarchica, e orchestrazione dinamica. Le sfide chiave includono: propagazione degli errori, gestione dello stato, controllo dei costi e osservabilità. Framework come LangGraph, CrewAI, AutoGen e OpenAI Swarm supportano l'orchestrazione degli agenti con diversi compromessi tra flessibilità e affidabilità in produzione.

Explore Concept