AI Knowledge Base 2026

Glossario IA 2026

Definizioni chiare per l'era dell'IA Agentica e dell'Intelligenza Spaziale.

Business Agentico

Continuità di Sessione

La continuità di sessione si riferisce alla capacità di un agente AI o di un sistema di mantenere lo stato, il contesto e il progresso di un compito in corso attraverso interruzioni, riavvii o cambi di sessione. Poiché i LLM sono intrinsecamente privi di stato (nessuna memoria a lungo termine incorporata), la continuità deve essere implementata esplicitamente tramite meccanismi esterni. La sfida fondamentale: ogni nuova conversazione LLM inizia senza conoscenza delle interazioni precedenti. Per i task di agenti di lunga durata — come un progetto di ricerca multi-giorno o un processo di contenuto in esecuzione continua — questo è problematico. La soluzione risiede in archivi di stato esterni e handoff di contesto strutturati. Le strategie di implementazione per la continuità di sessione includono: file di memoria (lo stato è salvato in file di testo su disco, caricati alla ripresa), database vettoriali, oggetti di stato strutturati (documenti JSON che rappresentano lo stato completo dell'agente), e log di eventi. L'architettura di continuità di sessione tipicamente coinvolge più livelli: una hot cache per il contesto recente, un archivio di memoria semantica per la conoscenza a lungo termine, e un log di eventi per la riproducibilità completa.

Explore Concept
Economia & Scalabilità

Costo di Inferenza

Il costo di inferenza si riferisce alle spese finanziarie sostenute nell'operare un modello linguistico AI. A differenza dei costi di addestramento (una tantum, molto elevati), i costi di inferenza si accumulano continuamente e rappresentano il principale fattore di costo AI nelle operazioni continuative. I costi di inferenza sono addebitati a prezzo per token. Nel 2026: GPT-4o circa $2–5/M token di input; Claude Sonnet a $3/M input, $15/M output; modelli più accessibili come Haiku o Gemini Flash $0,25–1/M token. I token di output costano più dei token di input, quindi i sistemi efficienti ottimizzano attivamente la lunghezza dell'output. I costi di inferenza sono calati di oltre 100× dal 2023. Le strategie di ottimizzazione chiave: routing dei modelli (modelli economici per compiti semplici), inferenza batch (sconto 50–75%), ottimizzazione dei prompt (richiedere output più brevi), caching delle richieste frequenti.

Explore Concept
Infrastruttura Agentica

Chip di Inferenza

Un chip di inferenza è un processore a semiconduttori specializzato ottimizzato per eseguire efficientemente modelli AI durante l'inferenza. A differenza delle CPU general-purpose o delle GPU ottimizzate per l'addestramento, i chip di inferenza privilegiano throughput (TPS), efficienza energetica e bassa latenza per modelli già addestrati. Le tre categorie dominanti: GPU come le H100 e B200 Blackwell di NVIDIA, che eccellono attraverso architettura di calcolo massicciamente parallela e Tensor Core specializzati; TPU di Google, costruiti appositamente per le moltiplicazioni matriciali nelle reti neurali; e ASIC come l'LPU di Groq che raggiunge 500+ token/secondo, il CS-3 di Cerebras e i chip Inferentia di Amazon. La generazione Blackwell di NVIDIA (GB200, B200) ha ridisegnato il panorama: FP4 nativo consente 4× più operazioni per watt vs H100; 192 GB HBM3e contiene interamente anche i più grandi modelli frontier nella VRAM. Il rack GB200 NVL72 raggiunge 30× più throughput rispetto ai sistemi H100. La scelta del giusto chip di inferenza influenza profondamente costo, latenza e dimensione massima del modello.

Explore Concept
Business Agentico

Coding Agentivo

Il coding agentivo (agentic coding) si riferisce a workflow di sviluppo software in cui agenti AI scrivono, testano, debuggano, rifattorizzano e iterano codice in modo autonomo con minima supervisione umana, operando su più passaggi per completare task di programmazione complessi. A differenza dei tradizionali assistenti di codice AI come GitHub Copilot — che suggeriscono completamenti o snippet in risposta ai prompt degli sviluppatori — i sistemi di coding agentivo ricevono istruzioni di alto livello ed eseguono piani multi-step: leggere codebase esistenti, scrivere nuove funzioni, eseguire test, interpretare messaggi di errore e correggere bug in un ciclo finché il task non è completato. Le principali piattaforme di coding agentivo includono Claude Code di Anthropic, Codex CLI di OpenAI, Cursor, Devin di Cognition AI e l'integrazione AI avanzata di Xcode di Apple. Questi sistemi sfruttano grandi modelli linguistici con capacità di uso degli strumenti, fornendo agli agenti accesso a file system, terminali, ambienti browser e API esterne. Il coding agentivo accelera lo sviluppo software delegando task implementativi ripetitivi, generazione di boilerplate, scrittura di test e refactoring ad agenti AI, liberando gli sviluppatori per concentrarsi su architettura e decisioni di prodotto. Le sfide chiave includono il mantenimento della correttezza del codice in sessioni agentive lunghe, l'evitare il context drift e garantire sandbox sicuri. In Context Studios utilizziamo strumenti di coding agentivo — in particolare Claude Code e Cursor — come componenti fondamentali del nostro workflow di sviluppo interno, consentendo iterazioni prototipali più rapide e generazione automatizzata di test per applicazioni AI dei clienti.

Explore Concept
Business Agentico

Computer Use AI

Il computer use AI si riferisce alla capacità degli agenti AI di operare direttamente un computer — spostare il mouse, fare clic, digitare testo, leggere il contenuto dello schermo e accedere alle applicazioni — esattamente come farebbe un utente umano. Questa capacità è stata introdotta nel 2024 da Anthropic con Claude come prima implementazione ampiamente disponibile. A differenza della tradizionale automazione del browser (che si basa su API strutturate, selettori CSS e script predefiniti), un agente di computer use lavora a livello di pixel: vede uno screenshot dello schermo, decide dove fare clic o cosa digitare, esegue l'azione e osserva il risultato. Questo approccio è universale — funziona con qualsiasi applicazione e qualsiasi sito web senza ingegneria specializzata. Le capacità pratiche includono: navigare qualsiasi sito web senza accesso API, interagire con applicazioni desktop, compilare moduli, estrarre dati da interfacce visive, ed eseguire workflow multi-step privi di interfacce programmatiche. Il computer use AI presenta anche limitazioni note: è più lento delle chiamate API dirette (poiché ogni passaggio richiede uno screenshot), più soggetto a errori in caso di modifiche UI inattese, e più costoso in consumo di token. Tuttavia, rimane l'unica opzione pratica per molte attività di automazione senza API.

Explore Concept
Business Agentico

Comunicazione Multi-Agente

La comunicazione multi-agente comprende i protocolli, i meccanismi e i pattern attraverso cui più agenti AI interagiscono, scambiano informazioni e coordinano compiti. Nei sistemi AI complessi, agenti specializzati collaborano frequentemente: un orchestratore coordina sotto-agenti per ricerca, scrittura, controllo qualità e pubblicazione. Modelli di comunicazione dominanti: orchestrazione diretta (un agente padre invoca sotto-agenti e integra gli output), MCP (Model Context Protocol) di Anthropic come protocollo standardizzato di chiamata strumenti, A2A (Agent-to-Agent Protocol) di Google come standard aperto per la comunicazione peer-to-peer, e sistemi basati su code di messaggi per la comunicazione asincrona. Decisioni di progettazione critiche: sincrono vs. asincrono; push vs. pull; gestione degli errori (cosa succede quando un sotto-agente fallisce?); gestione dello stato (come il contesto condiviso viene mantenuto coerente?). Ogni interfaccia agente-ad-agente deve essere esplicitamente specificata, versionata e testata indipendentemente. Esempio reale: un sistema multi-agente di creazione contenuti comprende un Agente di Ricerca, un Agente di Scrittura, un Agente Qualità e un Agente di Pubblicazione. Senza chiari contratti di comunicazione, i sistemi multi-agente diventano fragili.

Explore Concept
Sicurezza IA & Guardrail

Contaminazione dei Benchmark

La contaminazione dei benchmark si riferisce al problema in cui i dati di valutazione di un benchmark appaiono nei dati di addestramento di un modello, accidentalmente o intenzionalmente. Di conseguenza, il modello sembra performare meglio su quel benchmark di quanto effettivamente generalizzi a dati non visti — ha 'memorizzato' le risposte piuttosto che acquisire le capacità sottostanti. La contaminazione è una sfida sistemica: i moderni modelli linguistici si addestrano su vasti dati web; i benchmark popolari (MMLU, HumanEval, GSM8K, MATH) sono liberamente disponibili online, rendendo l'inclusione accidentale probabile. Incentivi economici creano anche condizioni per la contaminazione intenzionale. I sintomi includono: punteggi benchmark notevolmente migliori rispetto alle prestazioni su compiti reali; l'effetto 'MMLU shuffle' dove il riordino casuale delle scelte di risposta altera significativamente i punteggi — un segnale di contaminazione ben documentato. Le contromisure: benchmark privati tenuti segreti prima del rilascio; benchmark dinamici con domande generate giornalmente; rilevamento della contaminazione tramite analisi di sovrapposizione n-gram; affidarsi a valutazioni esterne indipendenti. Organizzazioni come METR, HELM e ARC Evals sviluppano metodologie sempre più resistenti alla contaminazione.

Explore Concept