Karpathy Autoresearch: Ein Prompt ersetzt das Paper

Andrej Karpathy hat am 7. März 2026 Karpathy Autoresearch veröffentlicht — ein minimales GitHub-Repository, das zeigt, was passiert, wenn KI-Agenten nachts unbeaufsichtigt LLM-Experimente durchführen. Karpathys Nachricht an die Welt, während die Agenten liefen: "brb sauna." Das Ergebnis: über 110 Commits in 12 Stunden auf 8 NVIDIA H100 GPUs, mit einer Reduktion des Validierungsverlusts von 0,862 auf 0,858 — ohne dass ein Mensch in der Nacht arbeitete.

Karpathy Autoresearch ist kein Produkt und keine Plattform. Es ist ein Proof of Concept mit drei Dateien — und ein Signal, das die Frage aufwirft: Wenn ein Prompt eine vollständige Forschungsnacht ersetzen kann, was bedeutet das für die Art, wie wir KI entwickeln?

Was ist Karpathy Autoresearch?

Karpathy Autoresearch ist ein experimentelles Framework, bei dem KI-Agenten autonom LLM-Training-Experimente durchführen. Der Mensch schreibt ein Ziel in Markdown. Der Agent liest die Datei, modifiziert den Trainingscode, startet einen 5-minütigen Trainingslauf, bewertet die Ergebnisse und iteriert — ohne menschliche Genehmigung zwischen den Schritten.

Das Repository besteht aus genau drei Dateien:

prepare.py — Datenvorbereitung, fest einprogrammiert, wird nicht vom Agenten verändert
train.py — der eigentliche Trainingscode; der Agent darf ihn modifizieren
program.md — die Steuerdatei; hier schreibt der Mensch seine Forschungsziele

Die Metrik ist schlicht: val_bpb (validation bits per byte) — je niedriger, desto besser. In Karpathys Demo sank val_bpb von 0,862 auf 0,858. Kein komplexes Evaluierungsframework, keine menschliche Beurteilung in Echtzeit. Der Agent optimiert, was er messen kann.

Technisch baut Karpathy Autoresearch auf nanochat auf, Karpathys vereinfachter Single-GPU-LLM-Trainingsimplementierung. Die Agents — in diesem Experiment 8 Stück (4 Claude, 4 Codex) in verschiedenen Organisationsstrukturen — bekommen ein Budget von 5 Minuten pro Experiment. Das ergibt rund 12 Experimente pro Stunde, über 100 in einer Nacht.

Drei Dateien, Eine Nacht, 110 Experimente

Was in dieser Nacht passiert ist, lässt sich in Zahlen fassen: 110+ Git-Commits, 12 Stunden, 8 GPUs, Validierungsverlust 0,862 → 0,858. Karpathy selbst formuliert es so in der README:

"One day, frontier AI research used to be done by meat computers in between eating, sleeping... Research is now entirely the domain of autonomous swarms of AI agents running across compute cluster megastructures in the skies."

Das ist keine Übertreibung zur Dramaturgie. Es ist eine Bestandsaufnahme.

Die Multi-Agenten-Struktur war bewusst gewählt: verschiedene Org-Strukturen wurden getestet — manche Agenten arbeiteten parallel, manche in Hierarchien. Das Parallelisierungspotenzial ist enorm. Statt einen Forscher 12 Stunden zu beschäftigen, laufen 8 Agenten gleichzeitig, tauschen Ergebnisse aus, iterieren weiter.

Was Karpathy Autoresearch dabei nicht beansprucht: Durchbrüche zu liefern. Die Agenten optimieren innerhalb eines eng definierten Suchraums. Sie finden lokale Verbesserungen — aber sie erfinden den Suchraum nicht.

Was die Agenten Können — und Wo Sie Scheitern

Glen Rhodes hat Karpathy Autoresearch detailliert analysiert und eine präzise Beobachtung formuliert: Die Agenten sind "sehr gut darin, jede gut umgrenzte Idee umzusetzen, aber sie generieren sie nicht kreativ."

Das ist der Kernbefund. Karpathy Autoresearch bestätigt zwei Dinge gleichzeitig:

Was funktioniert: Parallelisierung. Wenn der Mensch den richtigen Suchraum definiert, können Agenten diesen mit einer Geschwindigkeit und Ausdauer durchsuchen, die kein menschliches Team erreicht. 12 Experimente pro Stunde, nachts, ohne Kaffee.

Was nicht funktioniert: Wissenschaftliches Urteilsvermögen. Einer der Agenten "entdeckte", dass größere Netzwerke niedrigere Verluste produzieren — ein trivial konfundiertes Ergebnis, das Karpathy korrigieren musste. Der Agent hatte technisch Recht, aber intellektuell nichts gelernt. Er hatte keine Ahnung, warum das Ergebnis wertlos war.

Der Engpass liegt upstream: Welche Experimente sind es wert, durchgeführt zu werden? Diese Frage bleibt menschlich. Karpathy Autoresearch macht das explizit: Die Datei program.md ist der Ort, wo menschliche Intelligenz eingesetzt wird. Alles andere können die Agenten.

Karpathy fasst das treffend zusammen: "You're programming an organization. The source code is the collection of prompts, skills, tools, and processes."

Unser Alltag bei Context Studios: Dasselbe Paradigma, Andere Domäne

Karpathy Autoresearch hat bei uns direkt ein Déjà-vu ausgelöst — weil wir exakt dieselbe Struktur täglich betreiben, nur in einem anderen Kontext.

Wir betreiben täglich über 16 autonome Cron-Jobs. Jeder davon ist im Grunde eine program.md: Mike hat einmal beschrieben, was der Agent tun soll — welche Ziele er verfolgt, welche Qualitätsstandards gelten, welche Plattformen er nutzt. Der Agent führt die Aufgabe aus, iteriert, protokolliert. Nacht für Nacht.

Konkrete Beispiele aus unserem Betrieb:

Content-Pipeline: Ein Agent recherchiert täglich relevante KI-Themen, schreibt Entwürfe in vier Sprachen (DE, EN, FR, IT), generiert Hero-Images, veröffentlicht Blog-Posts und postet auf LinkedIn, X und Facebook — alles ohne menschliche Intervention im Prozess.
SEO-Healer: Ein Agent scannt alle veröffentlichten Posts auf fehlende Meta-Descriptions, leere Keywords-Arrays und nicht verlinkte Übersetzungen. Er repariert, was er kann, eskaliert, was er nicht kann.
Social-Engagement: Ein Agent kommentiert täglich auf relevanten LinkedIn-Posts in unserem Bereich — nicht als Spam, sondern als kuratorierte Perspektive mit unserer Positionierung.

Was Karpathy mit val_bpb misst, messen wir mit Traffic, Engagement-Rate und Publish-Qualitätsscore. Was er in program.md schreibt, schreiben wir in Cron-Task-Prompts. Die Architektur ist dieselbe.

Und Karpathys Kernbefund gilt auch für uns: Die Agenten führen brillant aus. Aber die Entscheidung, was es wert ist, ausgeführt zu werden — welche Themen relevant sind, welche Zielgruppen wir priorisieren, welche Qualitätsstandards wir setzen — das bleibt menschlich. Jeden Tag. Ohne Ausnahme.

Das ist kein Versagen der Agenten. Es ist die richtige Arbeitsteilung. Wer KI-Agenten-Systeme entwickeln möchte, findet im Karpathy-Autoresearch-Muster ein exzellentes mentales Modell für diese Arbeitsteilung.

Die Eigentliche Verschiebung: Was Bedeutet "Programmieren" Noch?

Karpathy Autoresearch ist auch ein Kommentar darauf, wie sich der Begriff "Programmieren" gerade verschiebt. Traditionell bedeutet Programmieren: Code schreiben, der einen Computer anweist, was er tun soll. In der Karpathy-Autoresearch-Welt bedeutet Programmieren: Prompts schreiben, die eine Organisation anweisen, wie sie forschen soll.

Das ist nicht metaphorisch gemeint. Die "Codebasis" von Karpathy Autoresearch ist program.md. Das ist eine fundamentale Verschiebung in der Abstraktion.

Für Entwickler und Agenturen bedeutet das konkret: Wer heute KI-Agenten entwickelt, muss verstehen, wie man Organisations-Prompts schreibt — nicht nur wie man Agenten baut. Die Fähigkeit, einen guten program.md zu schreiben, ist genauso wichtig wie die technische Implementierung der Agenten selbst.

Wir haben das bei Context Studios früh erkannt. Unser Ansatz für Prompt Engineering beginnt deshalb mit der Frage: Was soll dieser Agent wissen? Was soll er können? Und vor allem: Was soll er nicht entscheiden? Diese dritte Frage ist das, was nützliche Automatisierung von teurem Lärm unterscheidet.

Was Karpathy Autoresearch für die KI-Entwicklung Bedeutet

Karpathy Autoresearch zeigt drei Dinge, die für jeden relevant sind, der mit KI-Systemen arbeitet:

1. Das Skalierungs-Argument für Agenten ist real. 8 Agenten, 12 Stunden, 110 Experimente — das ist kein Hype. Das ist gelebte Parallelisierung. Was früher einen Forscher eine Woche kostete, dauert jetzt eine Nacht. H100-Instanzen kosten 2–4 $/Stunde pro GPU; ein 12-Stunden-Lauf auf 8 GPUs liegt bei 200–400 $. Das ist die Ökonomie beschleunigter Forschung.

2. Die Qualität des Prompts ist die Qualität des Outputs. Schlechte program.md-Dateien produzieren konfundierte Ergebnisse. Gute Prompts produzieren verwertbare Erkenntnisse. Prompt Engineering ist keine weiche Disziplin mehr — es ist das Handwerk des 21. Jahrhunderts.

3. Die Grenze zwischen Forscher und Ingenieur verschwimmt. Karpathy Autoresearch ist gleichzeitig ein Forschungsframework und ein Produktionssystem. Wer es betreibt, ist gleichzeitig Wissenschaftler, Ingenieur und Organisationsdesigner. Diese Konvergenz ist irreversibel.

Für Unternehmen, die KI-Agenten in ihre Entwicklungspipelines integrieren wollen, ist Karpathy Autoresearch ein hervorragendes mentales Modell. Nicht als Blaupause zum Kopieren, sondern als Referenzpunkt: So sieht die Zukunft der Mensch-Maschine-Kollaboration in der Wissensarbeit aus. Unser Guide zu autonomen KI-Agenten erläutert, wie diese Systeme aufgebaut und sicher betrieben werden.

FAQ

Was ist Karpathy Autoresearch genau?

Karpathy Autoresearch ist ein Open-Source-Framework von Andrej Karpathy, bei dem KI-Agenten autonom LLM-Trainingsexperimente durchführen. Der Mensch definiert Ziele in einer Markdown-Datei (program.md), der Agent modifiziert Trainingscode, startet 5-minütige Experimente und iteriert. In einem Test liefen über 110 Experimente in 12 Stunden auf 8 H100-GPUs.

Wie viele Experimente kann Karpathy Autoresearch pro Stunde durchführen?

Mit einem fixen 5-Minuten-Budget pro Experiment erreicht Karpathy Autoresearch rund 12 Experimente pro Stunde. Über Nacht (ca. 8-12 Stunden) sind das 100+ autonome Trainingsläufe — deutlich mehr als jedes menschliche Forschungsteam in derselben Zeit.

Welche KI-Modelle wurden in Karpathy Autoresearch getestet?

In dem veröffentlichten Experiment setzte Karpathy 8 Agenten ein: 4 Claude-Instanzen (Anthropic) und 4 Codex-Instanzen (OpenAI), in verschiedenen Organisationsstrukturen — teils parallel, teils hierarchisch.

Können KI-Agenten wirklich eigenständig forschen?

Karpathy Autoresearch zeigt: Agenten sind exzellente Ausführer klar definierter Suchräume, aber keine eigenständigen Wissenschaftler. Ein Agent "entdeckte", dass größere Netzwerke besser abschneiden — ein konfundiertes Ergebnis, das Karpathy manuell korrigieren musste. Die Frage, welche Experimente es wert sind, bleibt menschlich.

Was ist val_bpb und warum wird es gemessen?

val_bpb steht für "validation bits per byte" — ein Maß für die Kompressionseffizienz des Sprachmodells auf dem Validierungs-Dataset. Je niedriger, desto besser. In Karpathys Demo sank val_bpb von 0,862 auf 0,858. Karpathy Autoresearch nutzt diese Metrik, weil sie automatisch berechenbar ist und keine menschliche Beurteilung erfordert.

Wie unterscheidet sich Karpathy Autoresearch von normalen AutoML-Systemen?

Karpathy Autoresearch ist kein klassisches AutoML. Statt vordefinierter Hyperparameter-Suchräume können die Agenten den Trainingscode selbst modifizieren — neue Architekturen ausprobieren, Datenverarbeitungslogik ändern, gänzlich neue Ansätze testen. Das ist ein qualitativ anderes Maß an Freiheit.

Quellen: Karpathy Autoresearch GitHub | Glen Rhodes Analyse

Karpathy Autoresearch: Ein Prompt ersetzt das Paper

Karpathy Autoresearch: Ein Prompt ersetzt das Paper

Was ist Karpathy Autoresearch?

Drei Dateien, Eine Nacht, 110 Experimente

Was die Agenten Können — und Wo Sie Scheitern

Unser Alltag bei Context Studios: Dasselbe Paradigma, Andere Domäne

Die Eigentliche Verschiebung: Was Bedeutet "Programmieren" Noch?

Was Karpathy Autoresearch für die KI-Entwicklung Bedeutet

FAQ

Was ist Karpathy Autoresearch genau?

Wie viele Experimente kann Karpathy Autoresearch pro Stunde durchführen?

Welche KI-Modelle wurden in Karpathy Autoresearch getestet?

Können KI-Agenten wirklich eigenständig forschen?

Was ist val_bpb und warum wird es gemessen?

Wie unterscheidet sich Karpathy Autoresearch von normalen AutoML-Systemen?

Artikel teilen

Mehr lesen

AI Agent SDK Landscape Dezember 2025: Der ultimative Vergleich

Die große Konvergenz: Wie der Dezember 2025 die AI-Agent-Landschaft veränderte

Context Engineering: Wie man zuverlässige LLM-Systeme durch Context-Design baut