So baust du ein selbstlernendes KI-Agenten-System (Unsere echte Architektur)

Die meisten KI-Agenten sind statisch. Du schreibst Prompts, deployst sie und hoffst, dass sie funktionieren. Wenn nicht — wenn ein Social-Media-Post den falschen Ton trifft, ein Blog-Bild generisch aussieht oder eine Engagement-Antwort roboterhaft klingt — korrigierst du manuell. Jedes. Einzelne. Mal.

Das wurde uns zu blöd. Also haben wir ein System gebaut, bei dem unser KI-Agent aus jeder Korrektur lernt und denselben Fehler nie zweimal macht.

Das ist keine Theorie. Das ist die echte Architektur, die unsere Content-Pipeline bei Context Studios antreibt — dasselbe System, das täglich Blog-Posts in vier Sprachen veröffentlicht, Social-Media-Engagement auf X, LinkedIn, Facebook und Instagram verwaltet und für jeden Artikel Hero-Images generiert. Hier ist genau, wie es funktioniert, mit Code, den du für dein eigenes Setup adaptieren kannst.

Das Problem: KI-Agenten haben Amnesie

Jede KI-Agenten-Session startet bei null. Claude, GPT, Gemini — sie alle wachen ohne Erinnerung an gestern auf. Dein sorgfältig formulierter Prompt ist das Einzige, was sie leitet, und Prompts sind statische Momentaufnahmen deines Wissens zum Zeitpunkt des Schreibens.

Das erzeugt einen schmerzhaften Kreislauf:

Agent macht einen Fehler (postet ein generisches Hero-Image)
Du bemerkst es und korrigierst ("Keine generischen Pipes und Pfeile!")
Agent entschuldigt sich und fixet es diesmal
Nächste Session: Agent macht genau denselben Fehler

Die Korrektur geht zwischen Sessions verloren. Dein Agent lernt nicht — er folgt nur Anweisungen, die nicht aktualisiert wurden.

Die Architektur: Drei Ebenen des Gedächtnisses

Unser selbstlernendes System hat drei Ebenen, jede mit einem anderen Zweck:

Ebene 1: Tägliche Logs (Kurzzeit-Gedächtnis)

memory/
  2026-02-13.md
  2026-02-14.md
  2026-02-15.md

Das sind Append-only-Dateien, die festhalten, was jeden Tag passiert ist. Roh, unstrukturiert, mit Zeitstempel. Der Agent lädt beim Session-Start die Logs von heute und gestern für sofortigen Kontext.

Was kommt hier rein: Getroffene Entscheidungen, erledigte Aufgaben, aufgetretene Fehler, zusammengefasste Gespräche. Denk an ein Arbeits-Tagebuch.

Aufbewahrung: 30 Tage, dann archiviert. Der Agent muss sich nicht erinnern, was er vor drei Wochen zum Frühstück hatte.

Ebene 2: Kuratiertes Langzeitgedächtnis (MEMORY.md)

Das ist das destillierte Wissen des Agenten — gelernte Lektionen, entdeckte Präferenzen, verfeinerte Workflows. Anders als tägliche Logs wird diese Datei aktiv gepflegt. Der Agent überprüft regelmäßig aktuelle Tages-Logs und befördert wichtige Erkenntnisse hierher.

# MEMORY.md

## Wichtige Content-Regeln
1. Hero-Images MÜSSEN spezifisch zum Artikelthema sein
2. ALLE Social-Posts MÜSSEN Hero-Image enthalten
3. LinkedIn: KEINE Hashtags (tot seit 2024)
4. X/Twitter: STRIKT 280 Zeichen Limit
...

Was kommt hier rein: Regeln, Präferenzen, Personen, Projektkontext, Lehren aus Vorfällen. Das ist das Langzeitgedächtnis des Agenten — kuratiert, nicht abgeladen.

Pflege: Der Agent überprüft und aktualisiert dies in ruhigen Phasen (Heartbeats). Alte Regeln werden aussortiert, neue Muster hinzugefügt.

Ebene 3: Selbstverbessernde Anweisungen (Das Geheimrezept)

Hier wird es interessant. Wir haben eine dedizierte Datei — content-rules-learned.md — die jedes Feedback erfasst und in eine permanente Regel verwandelt:

# Content Rules — Gelernt aus Feedback

## Bilder & Visuelles
- [2026-02-09] Hero-Images MÜSSEN spezifisch zum Artikelthema sein.
  Keine generischen Pipes/Pfeile/abstrakten Formen.
- [2026-02-06] ALLE Social-Posts MÜSSEN Hero-Image enthalten.
- [2026-02-13] CS-Logo muss IMMER korrekt sein in Infografiken —
  base64 PNG eingebettet, kein CDN, keine relativen Pfade.

## Social Media
- [2026-02-13] NUR auf Tweets < 1 Stunde alt antworten
- [2026-02-13] Ziel-Accounts ROTIEREN — nicht immer dieselben ansprechen

Jede Regel hat ein Datum und eine Kategorie. Das System ist simpel: ein Bash-Skript, das Regeln an die Datei anhängt.

#!/bin/bash
# update-content-rules.sh
RULE="$1"
CATEGORY="$2"
DATE=$(date +%Y-%m-%d)
FILE="$HOME/agent/memory/content-rules-learned.md"

echo "- [$DATE] $RULE" >> "$FILE"
echo "Regel hinzugefügt zu $CATEGORY: $RULE"

Die Feedback-Schleife in Aktion

So läuft es ab, wenn Mike Feedback gibt:

Mike sagt: "Das Hero-Image ist zu generisch — es sollte echte UI-Komponenten zeigen, keine abstrakten Formen"
Agent erfasst die Regel: Führt update-content-rules.sh "Hero-Images MÜSSEN spezifisch zum Artikelthema sein. Keine generischen Pipes/Pfeile/abstrakten Formen." images aus
Regel wird persistiert: Zur content-rules-learned.md hinzugefügt mit heutigem Datum
Nächster Pipeline-Lauf: Der Cron-Job liest content-rules-learned.md bevor irgendein Content generiert wird
Regel wird angewendet: Alle zukünftigen Hero-Images sind themenspezifisch

Der Feedback → Regel → Anwendung Zyklus ist vollständig automatisiert. Mike korrigiert einmal, und das System merkt es sich für immer.

Cron Jobs: Die autonome Ausführungsebene

Selbstlernen bedeutet nichts, wenn der Agent nur läuft, wenn du mit ihm sprichst. Unser System nutzt geplante Cron-Jobs, die autonom ausgeführt werden:

{
  "name": "blog-topic-proposals",
  "schedule": { "kind": "cron", "expr": "0 6 * * *", "tz": "Europe/Berlin" },
  "sessionTarget": "isolated",
  "payload": {
    "kind": "agentTurn",
    "message": "Lies content-rules-learned.md. Befolge ALLE Regeln. Führe die volle Blog-Pipeline aus..."
  }
}

Zentrale Design-Entscheidungen:

Isolierte Sessions: Jeder Cron-Job läuft in seiner eigenen Session, um Fehler von der Haupt-Konversation fernzuhalten
Regeln werden am Start geladen: Jeder Pipeline-Lauf beginnt mit dem Lesen der gelernten Regeldatei
Modellauswahl: Wir verwenden Claude Sonnet für Routineaufgaben und Opus für komplexes Reasoning — nie standardmäßig das teuerste Modell
Keine Sub-Agent-Erzeugung aus Cron: Sub-Agenten verlieren Kontext und erzeugen Duplikate. Alles bleibt in der Session.

Das Daily-Intel-System

Unser Agent wartet nicht nur auf Anweisungen. Jeden Morgen um 6:00 Uhr führt er eine Multi-Source-Intelligence-Pipeline durch:

GitHub Release Tracker — prüft 20+ Repos auf neue Releases
X/Twitter Pulse — scannt trending AI-Themen von Key-Accounts
Web-Suche — neueste KI-News aus mehreren Quellen
Interne Gap-Analyse — was haben wir bereits abgedeckt?

Alle Erkenntnisse werden in daily-intel.md geschrieben:

# Daily Intel — 2026-02-15
*Generiert: 06:00 CET*
*Qualität: FULL/DEGRADED/WEB-ONLY*

## Breaking / Hot (letzte 24h)
- [Anthropic](https://www.contextstudios.ai/de/blog/claude-sonnet-5-fennec-alles-was-wir-ber-anthropics-neues-modell-wissen "[Claude Sonnet 5](/blog/claude-sonnet-5-fennec-everything-we-know-about-anthropics-next-model) "Fennec": Alles was wir über Anthropics neues Modell wissen") schließt $30B Series G bei $380B Bewertung ab 🔥🔥🔥🔥🔥

## Trending Topics
- KI-Sicherheitsexodus aus beiden großen Labs

## Gesprächsstarter
- "Die echte Story ist nicht die $30B — sondern dass der Safety-Team-Lead in derselben Woche gekündigt hat"

Diese Datei speist jeden nachgelagerten Job — Blog-Vorschläge, Social-Engagement-Runden, LinkedIn-Kommentare. Ein Intelligence-Durchlauf, viele Konsumenten.

Anti-fragile Fehlerbehandlung

Systeme scheitern. APIs laufen in Timeouts. Rate-Limits greifen. Unsere Architektur behandelt das durch mehrere Mechanismen:

Dedup-Protokoll: Vor jedem Posting überprüft der Agent posting-log.md. Wenn Content für dieses Thema + Plattform + Datum bereits existiert: überspringen. Niemals Duplikate.

# Vor jedem Social-Post
grep -i "topic-keyword" ~/agent/memory/posting-log.md | tail -5

State-Tracking: engagement-state.json trackt tägliche Aktionszähler pro Plattform, nach Datum sortiert. Keine Reset-Logik nötig — alte Daten werden einfach ignoriert.

{
  "2026-02-14": {
    "replies_contextstudios": 5,
    "replies_contextmike": 3,
    "linkedin_comments": 4
  }
}

Graceful Degradation: Wenn X/Twitter-Pulse ausfällt, wechselt das System auf "DEGRADED" Scoring-Gewichte — reduziert die X-Velocity-Gewichtung von 30% auf 15% und kompensiert mit Aktualität. Die Pipeline läuft weiter, nur mit angepasstem Vertrauen.

Echte Ergebnisse

Dieses System läuft seit Ende Januar 2026 in Produktion. Einige Zahlen:

200+ Blog-Posts veröffentlicht in 4 Sprachen
500.000+ Wörter insgesamt generiert und veröffentlicht
Tägliche Publishing-Kadenz aufrechterhalten ohne manuellen Eingriff
Content-Regeln wachsen organisch — 25+ gelernte Regeln und es werden mehr
Null doppelte Posts seit Implementierung des Dedup-Protokolls
LinkedIn Impressions wachsen stetig Woche für Woche

Der selbstlernende Aspekt ist der Differenzierer. Jedes Feedback macht das System permanent besser. Der Agent, der heute läuft, ist messbar schlauer als der vor zwei Wochen — nicht weil wir das Modell aktualisiert haben, sondern weil er aus seinen Fehlern gelernt hat.

So baust du dein eigenes System

Du brauchst nicht unseren exakten Stack. Die Prinzipien sind übertragbar:

1. Wähle deine Memory-Dateien

Mindestens brauchst du:

Tägliche Logs — was heute passiert ist (kurzlebig)
Langzeitgedächtnis — kuratierte Regeln und Kontext (persistent)
Gelernte Regeln — kategorisiertes Feedback (append-only)

2. Baue das Feedback-Capture-Skript

#!/bin/bash
# Einfach aber effektiv
RULE="$1"
CATEGORY="${2:-general}"
DATE=$(date +%Y-%m-%d)
FILE="./memory/content-rules-learned.md"

# Unter dem richtigen Kategorie-Header einfügen
if grep -q "## $CATEGORY" "$FILE"; then
  sed -i '' "/## $CATEGORY/a\\
- [$DATE] $RULE" "$FILE"
else
  echo -e "\n## $CATEGORY\n- [$DATE] $RULE" >> "$FILE"
fi

3. Verdrahte es in deine Prompts

Jede Agent-Session und jeder Cron-Job sollte starten mit:

Lies memory/content-rules-learned.md — befolge ALLE Regeln.
Lies MEMORY.md — wende allen Kontext an.

4. Plane autonome Läufe

Nutze Cron-Jobs (oder OpenClaws eingebauten Scheduler), um deinen Agenten nach Zeitplan laufen zu lassen. Jeder Lauf liest die neuesten Regeln, führt Aufgaben aus und protokolliert Ergebnisse.

5. Füge Dedup und State-Tracking hinzu

Vor jeder externen Aktion (Posten, Senden, Veröffentlichen):

Prüfe die Log-Datei auf vorhandene Einträge
Falls gefunden: überspringen
Falls nicht: ausführen und sofort protokollieren

6. Überprüfe und bereinige

Regelmäßig (wir machen es während Heartbeat-Polls):

Tägliche Logs auf beförderungswürdige Erkenntnisse prüfen
Langzeitgedächtnis mit neuen Mustern aktualisieren
Veraltete Regeln entfernen, die nicht mehr gelten
Auf widersprüchliche Regeln prüfen

Was kommt als Nächstes

Wir arbeiten an mehreren Verbesserungen:

Automatisiertes A/B-Testing — der Agent testet verschiedene Engagement-Stile und trackt, welche mehr Resonanz bekommen
Cross-Pipeline-Lernen — Regeln aus Blog-Feedback werden auf Social Media angewendet und umgekehrt
Quantifizierte Feedback-Schleifen — Tracking nicht nur "welche Regel wurde hinzugefügt" sondern "welchen Impact hatte sie"

Das Ziel ist kein perfekter Agent. Es ist ein Agent, der jeden Tag messbar besser wird, ohne dass du Prompts umschreiben musst. Baue die Feedback-Schleife, und das System erledigt den Rest.

Wir nutzen diese Architektur bei Context Studios, um unseren gesamten Content-Betrieb zu führen. Wenn du etwas Ähnliches baust, würden wir gerne von deinem Ansatz hören — kontaktiere uns auf X oder LinkedIn.

Selbstlernendes KI-Agenten-System: Unsere Architektur