---
type: Glossary Term
title: Transformer
description: "Ein Transformer ist eine neuronale Netzwerkarchitektur, die 2017 von Vaswani et al. im Paper „Attention Is All You Need\" vorgestellt wurde und Sequenzen über ei"
resource: "https://www.contextstudios.ai/de/glossar/transformer"
category: tech
language: de
timestamp: "2026-07-01T13:51:56.233Z"
---

# Transformer

Ein Transformer ist eine neuronale Netzwerkarchitektur, die 2017 von Vaswani et al. im Paper „Attention Is All You Need" vorgestellt wurde und Sequenzen über einen Mechanismus namens Self-Attention verarbeitet – statt der schrittweisen Verarbeitung älterer Modelle. Sie bildet das Fundament praktisch jedes großen Sprachmodells (LLM), das heute im Einsatz ist.

Die zentrale Neuerung ist die Self-Attention (Selbstaufmerksamkeit): Für jeden Token berechnet das Modell, wie relevant alle anderen Token sind, und gewichtet sie entsprechend. So erfasst das Netz auch weit auseinanderliegende Bezüge – etwa zwischen einem Pronomen und einem Substantiv 500 Wörter zuvor – in einem einzigen, parallelisierbaren Rechenschritt. Das Originaldesign bestand aus einem Encoder (liest und repräsentiert die Eingabe) und einem Decoder (erzeugt die Ausgabe Token für Token). Heutige generative LLMs sind meist Decoder-only; für Übersetzung und Embeddings bleibt der Encoder relevant.

Der Transformer verdrängte RNNs und LSTMs, die Token einzeln nacheinander verarbeiteten – langsames Training und „Vergessen" über lange Sequenzen. Da Self-Attention alle Token gleichzeitig verarbeitet, wurde das Training auf Billionen von Token mit GPUs im großen Maßstab praktikabel.

Alle führenden Modelle des Jahres 2026 sind Transformer: GPT-5.5 (OpenAI), Claude Opus 4.8 / Sonnet 4.6 (Anthropic) und Gemini 3 (Google). Das „T" in GPT steht für Transformer. Dieselbe Architektur treibt auch multimodale Systeme (Bild, Audio, Video) an, indem diese Eingaben in Token-Sequenzen umgewandelt werden.

Praktischer Vorbehalt: Der Rechenaufwand der Self-Attention wächst quadratisch mit der Sequenzlänge, was sehr lange Kontexte teuer macht. Das befeuerte 2026 den Aufstieg hybrider Architekturen – Modelle wie Jamba, Nemotron-H oder Zamba2, die Attention-Schichten mit State-Space-Modellen (SSM) wie Mamba/Mamba-2 kombinieren. SSMs skalieren nahezu linear und sind bei langen Eingaben deutlich schneller, bleiben bei kurzen Reasoning-Aufgaben aber zurück. Der Konsens 2026: Der Transformer bleibt der Standard; Hybride sind die pragmatische Antwort für Long-Context- und latenzkritische Anwendungen – kein Ersatz.