---
type: Glossary Term
title: Transformer
description: "Un Transformer è un'architettura di rete neurale, presentata da Vaswani et al. nell'articolo « Attention Is All You Need » (2017), che elabora le sequenze trami"
resource: "https://www.contextstudios.ai/it/glossario/transformer"
category: tech
language: it
timestamp: "2026-07-01T13:51:56.745Z"
---

# Transformer

Un Transformer è un'architettura di rete neurale, presentata da Vaswani et al. nell'articolo « Attention Is All You Need » (2017), che elabora le sequenze tramite un meccanismo chiamato self-attention anziché con l'elaborazione sequenziale dei modelli precedenti. È il fondamento di praticamente ogni grande modello linguistico (LLM) oggi in produzione.

L'innovazione centrale è la self-attention: per ogni token, il modello calcola quanto siano rilevanti tutti gli altri token e li pondera di conseguenza. Così la rete coglie relazioni molto distanti — per esempio tra un pronome e un sostantivo 500 parole prima — in un'unica operazione parallelizzabile. Il progetto originale comprendeva un encoder (legge e rappresenta l'input) e un decoder (genera l'output token per token). Gli LLM generativi attuali sono per lo più decoder-only; l'encoder resta utile per traduzione ed embedding.

Il Transformer ha soppiantato RNN e LSTM, che elaboravano i token uno alla volta — addestramento lento e « dimenticanza » sulle sequenze lunghe. Poiché la self-attention elabora tutti i token simultaneamente, è diventato possibile addestrare su migliaia di miliardi di token con GPU su larga scala.

Tutti i modelli di punta del 2026 sono Transformer: GPT-5.5 (OpenAI), Claude Opus 4.8 / Sonnet 4.6 (Anthropic) e Gemini 3 (Google). La « T » di GPT sta per Transformer. La stessa architettura alimenta anche i sistemi multimodali (immagini, audio, video) convertendo tali input in sequenze di token.

Avvertenza pratica: il costo della self-attention cresce in modo quadratico con la lunghezza della sequenza, rendendo costosi i contesti molto lunghi. Da qui l'ascesa nel 2026 delle architetture ibride — come Jamba, Nemotron-H o Zamba2 — che combinano livelli di attention con modelli a spazio di stati (SSM) come Mamba/Mamba-2. Gli SSM scalano in modo quasi lineare e sono molto più veloci sugli input lunghi, ma restano indietro nel ragionamento a contesto breve. Il consenso del 2026: il Transformer resta lo standard; gli ibridi sono la risposta pragmatica per contesti lunghi e latenza, non un sostituto.