---
type: Glossary Term
title: Natural Language Autoencoder (NLA)
description: "Ein Natural Language Autoencoder (NLA) ist eine Interpretierbarkeits-Technik aus der KI-Sicherheitsforschung, die interne Aktivierungen eines Sprachmodells in e"
resource: "https://www.contextstudios.ai/de/glossar/natural-language-autoencoders"
category: safety
language: de
timestamp: "2026-06-20T12:05:00.141Z"
---

# Natural Language Autoencoder (NLA)

Ein Natural Language Autoencoder (NLA) ist eine Interpretierbarkeits-Technik aus der KI-Sicherheitsforschung, die interne Aktivierungen eines Sprachmodells in eine natürlichsprachliche Beschreibung übersetzt – und aus dieser Beschreibung die ursprüngliche Aktivierung wieder rekonstruiert. Anders als ein klassischer Autoencoder, der Daten in einen numerischen Latentraum komprimiert, ist der Engpass hier bewusst menschenlesbarer Text. Dadurch lässt sich ablesen, welche Konzepte ein Modell in einem bestimmten Moment tatsächlich verarbeitet, statt nur Zahlenvektoren zu betrachten.

Anthropic hat den Ansatz im Rahmen seiner Interpretierbarkeitsforschung eingesetzt, um nachzuvollziehen, wie ein Modell intern Situationen einordnet – etwa ob es erkennt, dass es gerade getestet wird. Der NLA bildet damit eine Brücke zwischen der mechanistischen Interpretierbarkeit (dem Reverse Engineering interner Schaltkreise) und einer für Menschen direkt verständlichen Erklärung. Statt einzelne Neuronen mühsam zu entschlüsseln, liefert die Methode eine kompakte sprachliche Zusammenfassung der aktiven Repräsentationen.

Für die KI-Sicherheit ist das relevant, weil sich so Verhaltensweisen wie Evaluation Awareness oder Sandbagging nicht nur am Output, sondern an der internen Verarbeitung überprüfen lassen. Die natürlichsprachliche Rekonstruktion macht überprüfbar, ob eine Erklärung das Modellverhalten kausal erfasst oder nur plausibel klingt – ein wichtiger Schritt hin zu belastbaren, auditierbaren KI-Systemen.