---
type: Glossary Term
title: Transformer
description: "Un Transformer est une architecture de réseau de neurones, présentée par Vaswani et al. dans l'article « Attention Is All You Need » (2017), qui traite les séqu"
resource: "https://www.contextstudios.ai/fr/glossaire/transformer"
category: tech
language: fr
timestamp: "2026-07-01T13:51:56.582Z"
---

# Transformer

Un Transformer est une architecture de réseau de neurones, présentée par Vaswani et al. dans l'article « Attention Is All You Need » (2017), qui traite les séquences grâce à un mécanisme appelé self-attention plutôt que par le traitement séquentiel des modèles antérieurs. Elle constitue le fondement de pratiquement tous les grands modèles de langage (LLM) en production aujourd'hui.

L'innovation centrale est la self-attention : pour chaque token, le modèle calcule la pertinence de tous les autres tokens et les pondère en conséquence. Le réseau capte ainsi des relations très éloignées — par exemple entre un pronom et un nom situé 500 mots plus haut — en une seule opération parallélisable. La conception d'origine comprenait un encodeur (lit et représente l'entrée) et un décodeur (génère la sortie token par token). Les LLM génératifs actuels sont le plus souvent decoder-only ; l'encodeur reste utile pour la traduction et les embeddings.

Le Transformer a supplanté les RNN et LSTM, qui traitaient les tokens un par un — entraînement lent et « oubli » sur les longues séquences. Comme la self-attention traite tous les tokens simultanément, l'entraînement sur des milliers de milliards de tokens avec des GPU à grande échelle est devenu possible.

Tous les modèles de pointe de 2026 sont des Transformers : GPT-5.5 (OpenAI), Claude Opus 4.8 / Sonnet 4.6 (Anthropic) et Gemini 3 (Google). Le « T » de GPT signifie Transformer. La même architecture alimente aussi les systèmes multimodaux (image, audio, vidéo) en convertissant ces entrées en séquences de tokens.

Réserve pratique : le coût de la self-attention croît de façon quadratique avec la longueur de séquence, ce qui rend les très longs contextes onéreux. D'où l'essor en 2026 des architectures hybrides — comme Jamba, Nemotron-H ou Zamba2 — qui combinent des couches d'attention avec des modèles à espace d'états (SSM) tels que Mamba/Mamba-2. Les SSM passent à l'échelle de façon quasi linéaire et sont bien plus rapides sur les entrées longues, mais restent en retrait sur le raisonnement à contexte court. Le consensus de 2026 : le Transformer reste la norme ; les hybrides sont la réponse pragmatique pour le long contexte et la latence, pas un remplacement.