AI Knowledge Base 2026

Glossario IA 2026

Definizioni chiare per l'era dell'IA Agentica e dell'Intelligenza Spaziale.

Ragionamento & Affidabilità

Modello Open-Weight

Un modello open-weight è un modello di IA i cui parametri addestrati — i miliardi di pesi numerici che codificano la conoscenza del modello — sono resi pubblicamente disponibili per il download e l'utilizzo, senza necessariamente divulgare il codice di addestramento completo, i dati o la metodologia. I modelli open-weight occupano una posizione intermedia tra i modelli interamente proprietari, come GPT-4o di OpenAI o Claude di Anthropic, accessibili solo via API, e l'IA veramente open source, dove ogni componente dell'addestramento è trasparente e riproducibile. Tra i modelli open-weight più noti figurano la serie Llama di Meta, Mixtral di Mistral AI, Gemma di Google e GLM-5 di Zhipu AI. La disponibilità pubblica dei pesi consente a sviluppatori e aziende di scaricare, self-hostare e affinare i modelli per domini specifici senza inviare dati ad API esterne — un vantaggio cruciale per settori con rigide normative sulla privacy come il diritto, la medicina e la finanza. I modelli open-weight hanno democratizzato le capacità dell'IA: le organizzazioni possono ora eseguire modelli linguistici di livello frontier sui propri cluster GPU, riducendo drasticamente il costo per token ed eliminando il vendor lock-in. Il termine si distingue dall'IA open source: un modello può rilasciare i propri pesi senza divulgare i dati di addestramento o il codice, limitando la riproducibilità. Le licenze variano ampiamente — la community license di Llama 3 limita l'uso commerciale oltre 700 milioni di utenti attivi mensili, mentre i modelli di Mistral usano Apache 2.0. In Context Studios valutiamo regolarmente modelli open-weight per clienti europei dove il GDPR rende l'inferenza on-premise preferibile alle chiamate API cloud.

Explore Concept
Infrastruttura Agentica

Mixture-of-Experts (MoE)

Mixture-of-Experts (MoE) è un'architettura di rete neurale in cui un modello è composto da molteplici sotto-reti specializzate chiamate esperti, abbinate a un meccanismo di gating appreso che instrada dinamicamente ogni token di input verso il sottoinsieme di esperti più rilevante. Invece di attivare tutti i parametri per ogni token, un modello MoE seleziona solo un piccolo numero di esperti per ogni forward pass — tipicamente da due a otto su decine — riducendo drasticamente il calcolo attivo pur preservando la capacità complessiva del modello. Google Brain ha reso popolare questo design con lo Switch Transformer, e Mistral AI lo ha portato alla comunità open source con Mixtral 8x7B e 8x22B. Oggi GPT-4, Gemini 1.5 Pro, DeepSeek V3 e GLM-5 si basano tutti su architetture MoE. MoE consente di scalare il numero totale di parametri a centinaia di miliardi senza un aumento proporzionale dei costi di inferenza: un modello MoE da 700 miliardi di parametri può attivare solo 40-70 miliardi di parametri per token, corrispondendo ai costi operativi di un modello denso molto più piccolo. Il compromesso principale riguarda la memoria: tutti i pesi degli esperti devono risiedere nella VRAM durante l'inferenza, anche se solo una frazione viene utilizzata, richiedendo un'attenta ingegneria del bilanciamento del carico. In Context Studios, la comprensione di MoE è essenziale per consigliare i clienti sull'infrastruttura GPU necessaria per i deployment self-hosted di grandi modelli linguistici.

Explore Concept