AI Knowledge Base 2026

Glossario IA 2026

Definizioni chiare per l'era dell'IA Agentica e dell'Intelligenza Spaziale.

IA Agentica

Sistemi IA capaci di azione autonoma verso obiettivi complessi, usando strumenti, prendendo decisioni e adattandosi ai cambiamenti ambientali senza intervento umano costante.

Explore Concept

Economia & Scalabilità

IA nelle PMI (KI im Mittelstand)

KI im Mittelstand indica l'adozione dell'IA nelle PMI tedesche (50-1.000 dipendenti). Nel 2026: 26% delle aziende tedesche usa l'IA (Destatis), 53% delle PMI attive in R&D (KfW). 43% non ha una strategia IA (BIDT/DMB). L'uso più comune: IA generativa come ChatGPT (73%), ma il miglior ROI viene dalla manutenzione predittiva (18-25%), dal controllo qualità IA (40% meno difetti), dall'elaborazione intelligente documenti (70% risparmio tempo) e dal servizio clienti IA (35% più veloce).

Explore Concept

Infrastruttura Agentica

IA self-hosted

Software IA che funziona sull'hardware dell'utente o su server privati, offrendo il pieno controllo su dati, personalizzazione e disponibilità. Esempi includono Clawdbot e implementazioni LLM locali.

Explore Concept

Sicurezza IA & Guardrail

IA Costituzionale

Un metodo di training dei modelli IA per seguire un set specifico di regole o 'costituzione', garantendo che rimangano utili, innocui e onesti senza supervisione manuale.

Explore Concept

Economia & Scalabilità

IA-nativo

Un azienda o organizzazione che ha fondamentalmente ristrutturato le sue operazioni intorno all'IA. Diventare IA-nativo significa più che usare strumenti IA — rappresenta un cambiamento strategico fondamentale in cui l'IA plasma le decisioni di assunzione, lo sviluppo di prodotti e la pianificazione degli organici.

Explore Concept

Ragionamento & Affidabilità

Imagen 3

Il modello IA text-to-image di terza generazione di Google DeepMind che alimenta Google Whisk, noto per l'elevato fotorealismo e la fedeltà creativa nella generazione di immagini.

Explore Concept

Ragionamento & Affidabilità

Imagen 3

Il modello IA text-to-image di terza generazione di Google DeepMind che alimenta Google Whisk noto per elevato fotorealismo e fedelta creativa.

Explore Concept

Infrastruttura Agentica

Inference Scaling

L'Inference Scaling è il processo di ottimizzazione del deployment dei modelli AI per gestire un numero crescente di richieste di inferenza o volumi di dati in aumento. Ciò comporta tecniche come il parallelismo dei modelli, il calcolo distribuito e l'accelerazione hardware per mantenere le prestazioni e ridurre la latenza.

Explore Concept

Inferenza & Ingegneria

Inference-Time Compute

Inference-Time Compute è un concetto AI engineering nei moderni sistemi IA che migliora lo sviluppo e la manutenzione dei sistemi basati su IA. Svolge un ruolo chiave nei deployment IA enterprise dove qualità del software e velocità di sviluppo impattano direttamente i risultati aziendali.

Explore Concept

Fiducia & Sovranità

Injection Breakthroughs

Situazioni in cui contenuti esterni malevoli o non intenzionati iniettati in un prompt riescono a eludere i meccanismi di sicurezza e influenzare il comportamento del LLM in modo indesiderato.

Explore Concept

Fiducia & Sovranità

Instruction/Data Separation

Pattern di sicurezza che separa istruzioni e dati non fidati.

Explore Concept

Sicurezza IA & Guardrail

Integrità della Valutazione

L'integrità della valutazione (eval integrity) si riferisce al principio e alla pratica di garantire che le valutazioni di modelli e sistemi AI siano eque, imparziali, riproducibili e significative. È una risposta ai crescenti problemi di contaminazione dei benchmark, manipolazione delle metriche e confronti di performance fuorvianti. Gli elementi fondamentali dell'integrità della valutazione includono: isolamento dei dati (i test set sono rigorosamente separati dai dati di training), riproducibilità (le valutazioni possono essere replicate in modo indipendente), rilevanza dei task (i benchmark misurano capacità rilevanti per casi d'uso reali), e trasparenza. Le misure pratiche includono: utilizzo di test set privati o generati dinamicamente, valutazione cieca, test avversariali, valutazione A/B nei sistemi live con utenti reali, e rotazione regolare dei benchmark di valutazione. L'integrità della valutazione è particolarmente importante nei contesti aziendali, dove la selezione del modello guida decisioni di investimento significative. Le organizzazioni non dovrebbero fare affidamento ciecamente sui ranking di benchmark pubblicati, ma condurre le proprie valutazioni specifiche per task su dati di produzione rappresentativi.

Explore Concept

Economia & Scalabilità

Intelligent LLM Routing

Intelligent LLM Routing è un concetto AI economics nei moderni sistemi IA che ottimizza l'equazione costi-benefici dell'adozione e gestione dell'IA. Svolge un ruolo chiave nei deployment IA enterprise dove dimostrare un ROI chiaro è essenziale per garantire investimenti IA continuativi.

Explore Concept

Business Agentico

Intelligenza personale

Sistemi IA profondamente integrati nella vita degli utenti, che apprendono le preferenze e assistono proattivamente nelle attività e decisioni quotidiane. Una visione articolata da Sam Altman di OpenAI.

Explore Concept

Innovazione

Intelligenza Spaziale

La capacità dell'IA di percepire, ragionare e interagire con spazi 3D, colmando il gap tra intelligenza digitale e realtà fisica.

Explore Concept

UX Agentica

Intent-Based Navigation

Intent-Based Navigation è un concetto AI user experience nei moderni sistemi IA che modella il modo in cui gli utenti interagiscono con le funzionalità basate su IA. Svolge un ruolo chiave nei deployment IA enterprise dove adozione e soddisfazione degli utenti dipendono da un design di interfaccia e interazione attento.

Explore Concept

Ragionamento & Affidabilità

Interactive UI Components

Elementi funzionali dell'interfaccia utente (ad es. pulsanti, cursori, moduli, dashboard) che consentono agli utenti di interagire direttamente con i dati o di attivare azioni all'interno di un'applicazione o di una conversazione AI.

Explore Concept

Ragionamento & Affidabilità

iOS

Il sistema operativo mobile di Apple, utilizzato principalmente su iPhone e iPad.

Explore Concept

Infrastruttura Agentica

Iframe Sandboxata

Un iframe sandboxato è un contenitore HTML ristretto che isola il contenuto incorporato dalla pagina padre per sicurezza. Nel contesto delle MCP Apps, gli iframe sandboxati consentono agli assistenti IA di rendere in modo sicuro applicazioni interattive di terze parti nelle conversazioni.

Explore Concept

Infrastruttura Agentica

Inferenza AI

L'inferenza AI è il processo mediante il quale un modello di machine learning già addestrato elabora nuovi dati di input per generare previsioni, testo, immagini o altri output. A differenza dell'addestramento — in cui il modello impara da dataset e aggiusta i parametri — l'inferenza utilizza un modello completamente addestrato per eseguire compiti concreti in tempo reale o in modalità batch. La distinzione economica è fondamentale: addestrare un LLM frontier costa $1M–$100M+ come spesa una tantum. L'inferenza, al contrario, avviene ad ogni richiesta dell'utente — da migliaia a miliardi di volte al giorno. Poiché milioni di utenti interagiscono quotidianamente con i servizi AI, i costi cumulativi di inferenza superano di gran lunga i costi di addestramento nel corso della vita del modello distribuito. Le metriche chiave includono il Time-to-First-Token (TTFT) che misura la latenza prima del primo token, e i Token per Secondo (TPS) che misurano il throughput. Le scelte infrastrutturali si dividono tra inferenza batch per l'elaborazione massiva e inferenza in tempo reale che richiede risposta sub-secondo per applicazioni interattive come chatbot e assistenti di programmazione. Le tecniche di ottimizzazione coprono quantizzazione (FP32 → INT8/FP4), pruning del modello, decoding speculativo e ottimizzazione della cache KV. I chip di inferenza specializzati — NVIDIA H100/B200, TPU Google, LPU Groq — offrono miglioramenti notevoli in throughput ed efficienza energetica.

Explore Concept

Infrastruttura Agentica

Inferenza Batch

L'inferenza batch è il processo di raccolta di più richieste AI e di elaborazione di esse in gruppo, anziché gestire ogni richiesta individualmente e immediatamente. Invece di inviare un prompt alla volta e attendere risposte sincrone, l'inferenza batch mette in coda gli input, li raggruppa e li elabora collettivamente — in contrasto diretto con l'inferenza in tempo reale dove ogni richiesta riceve risposta immediata. I vantaggi economici sono sostanziali: fornitori AI come Anthropic e OpenAI offrono API batch del 50–75% più economiche rispetto alle controparti sincrone. La riduzione dei costi deriva da un migliore utilizzo delle GPU — il batching permette di sfruttare pienamente la capacità di calcolo disponibile. L'architettura Blackwell di NVIDIA è specificamente progettata per carichi di lavoro batch ad alto throughput. I casi d'uso tipici dell'inferenza batch includono: traduzione massiva di documenti, analisi SEO automatizzata di grandi librerie di contenuti, riassunti giornalieri di feed di notizie, classificazione di cataloghi prodotti, analisi del sentiment di feedback clienti ed elaborazione notturna di dati analitici. I parametri tecnici chiave includono la dimensione del batch, la latenza massima accettabile, le strategie di gestione degli errori e il batching adattivo che regola dinamicamente la dimensione del batch in base al carico e al conteggio dei token per richiesta.

Explore Concept

Infrastruttura Agentica

Inferenza in Tempo Reale

L'inferenza in tempo reale è l'elaborazione immediata delle richieste AI con latenza minima, tipicamente nell'intervallo da millisecondi a pochi secondi. A differenza dell'inferenza batch dove le richieste vengono raccolte ed elaborate in gruppi, l'inferenza in tempo reale risponde a ogni input immediatamente — fondamentale per le applicazioni interattive dove gli utenti si aspettano feedback istantaneo. La metrica più importante è il Time-to-First-Token (TTFT): tempo trascorso tra l'invio di una richiesta e la ricezione del primo token di risposta. Per i chatbot conversazionali, un TTFT sotto 500ms è generalmente accettabile. L'output in streaming migliora notevolmente la latenza percepita. I casi d'uso tipici includono: chatbot conversazionali come ChatGPT o Claude.ai, assistenti di programmazione AI come GitHub Copilot o Cursor, servizi di traduzione in tempo reale, assistenti vocali che combinano riconoscimento e sintesi vocale, analisi interattiva di documenti e agenti AI autonomi che devono reagire ai cambiamenti entro finestre temporali ristrette. I requisiti tecnici sono significativamente più esigenti rispetto all'inferenza batch: bassa latenza richiede server geograficamente vicini, ottimizzazioni specializzate o modelli più piccoli e veloci. Provider come Groq raggiungono 500+ TPS progettati appositamente per applicazioni in tempo reale.

Explore Concept

Fiducia & Sovranità

Injection Attack (LLM)

Attacco con istruzioni malevole nell'input per manipolare un LLM.

Explore Concept