---
type: Glossary Term
title: Mechanistische Interpretierbarkeit (Mechanistic Interpretability)
description: "Mechanistische Interpretierbarkeit ist ein Forschungsfeld der KI-Sicherheit, das die internen Berechnungen neuronaler Netze gezielt zurückverfolgt. Anders als k"
resource: "https://www.contextstudios.ai/de/glossar/mechanistic-interpretability"
category: safety
language: de
timestamp: "2026-06-18T12:03:24.852Z"
---

# Mechanistische Interpretierbarkeit (Mechanistic Interpretability)

Mechanistische Interpretierbarkeit ist ein Forschungsfeld der KI-Sicherheit, das die internen Berechnungen neuronaler Netze gezielt zurückverfolgt. Anders als klassische Erklärbarkeit, die nur Eingaben und Ausgaben eines Modells in Beziehung setzt, zerlegt die mechanistische Interpretierbarkeit das Modell selbst: Sie identifiziert einzelne Schaltkreise, Merkmale und Aktivierungsmuster und rekonstruiert daraus, wie ein Sprachmodell zu einer konkreten Antwort gelangt. Forscher lesen also nicht nur ab, was ein Modell ausgibt, sondern verstehen, welche internen Mechanismen diese Ausgabe erzeugen. Sie unterscheidet sich damit klar von rein nachträglichen Erklärmodellen, die das Innenleben des Netzes als Blackbox belassen. Methodisch stützt sich das Feld auf Verfahren wie die Analyse von Aktivierungen, das Aufspüren interpretierbarer Merkmale über sogenannte Sparse Autoencoder und das gezielte Eingreifen in einzelne Komponenten, um deren Funktion zu prüfen. Ziel ist ein kausales, nicht bloß korrelatives Verständnis des Modellverhaltens. Praktische Bedeutung gewinnt die Disziplin überall dort, wo Vertrauen, Sicherheit und Nachvollziehbarkeit zählen: Sie hilft, verborgene Fehlanreize, Täuschungsverhalten oder unerwartete Fähigkeiten frühzeitig zu erkennen, bevor ein Modell in produktiven Systemen zum Einsatz kommt. Damit wird sie zu einem zentralen Baustein verantwortungsvoller KI-Entwicklung.
