So baust du ein selbstlernendes KI-Agenten-System (Unsere echte Architektur)
Die meisten KI-Agenten sind statisch. Du schreibst Prompts, deployst sie und hoffst, dass sie funktionieren. Wenn nicht — wenn ein Social-Media-Post den falschen Ton trifft, ein Blog-Bild generisch aussieht oder eine Engagement-Antwort roboterhaft klingt — korrigierst du manuell. Jedes. Einzelne. Mal.
Das wurde uns zu blöd. Also haben wir ein System gebaut, bei dem unser KI-Agent aus jeder Korrektur lernt und denselben Fehler nie zweimal macht.
Das ist keine Theorie. Das ist die echte Architektur, die unsere Content-Pipeline bei Context Studios antreibt — dasselbe System, das täglich Blog-Posts in vier Sprachen veröffentlicht, Social-Media-Engagement auf X, LinkedIn, Facebook und Instagram verwaltet und für jeden Artikel Hero-Images generiert. Hier ist genau, wie es funktioniert, mit Code, den du für dein eigenes Setup adaptieren kannst.
Das Problem: KI-Agenten haben Amnesie
Jede KI-Agenten-Session startet bei null. Claude, GPT, Gemini — sie alle wachen ohne Erinnerung an gestern auf. Dein sorgfältig formulierter Prompt ist das Einzige, was sie leitet, und Prompts sind statische Momentaufnahmen deines Wissens zum Zeitpunkt des Schreibens.
Das erzeugt einen schmerzhaften Kreislauf:
- Agent macht einen Fehler (postet ein generisches Hero-Image)
- Du bemerkst es und korrigierst ("Keine generischen Pipes und Pfeile!")
- Agent entschuldigt sich und fixet es diesmal
- Nächste Session: Agent macht genau denselben Fehler
Die Korrektur geht zwischen Sessions verloren. Dein Agent lernt nicht — er folgt nur Anweisungen, die nicht aktualisiert wurden.
Die Architektur: Drei Ebenen des Gedächtnisses
Unser selbstlernendes System hat drei Ebenen, jede mit einem anderen Zweck:
Ebene 1: Tägliche Logs (Kurzzeit-Gedächtnis)
memory/
2026-02-13.md
2026-02-14.md
2026-02-15.md
Das sind Append-only-Dateien, die festhalten, was jeden Tag passiert ist. Roh, unstrukturiert, mit Zeitstempel. Der Agent lädt beim Session-Start die Logs von heute und gestern für sofortigen Kontext.
Was kommt hier rein: Getroffene Entscheidungen, erledigte Aufgaben, aufgetretene Fehler, zusammengefasste Gespräche. Denk an ein Arbeits-Tagebuch.
Aufbewahrung: 30 Tage, dann archiviert. Der Agent muss sich nicht erinnern, was er vor drei Wochen zum Frühstück hatte.
Ebene 2: Kuratiertes Langzeitgedächtnis (MEMORY.md)
Das ist das destillierte Wissen des Agenten — gelernte Lektionen, entdeckte Präferenzen, verfeinerte Workflows. Anders als tägliche Logs wird diese Datei aktiv gepflegt. Der Agent überprüft regelmäßig aktuelle Tages-Logs und befördert wichtige Erkenntnisse hierher.
# MEMORY.md
## Wichtige Content-Regeln
1. Hero-Images MÜSSEN spezifisch zum Artikelthema sein
2. ALLE Social-Posts MÜSSEN Hero-Image enthalten
3. LinkedIn: KEINE Hashtags (tot seit 2024)
4. X/Twitter: STRIKT 280 Zeichen Limit
...
Was kommt hier rein: Regeln, Präferenzen, Personen, Projektkontext, Lehren aus Vorfällen. Das ist das Langzeitgedächtnis des Agenten — kuratiert, nicht abgeladen.
Pflege: Der Agent überprüft und aktualisiert dies in ruhigen Phasen (Heartbeats). Alte Regeln werden aussortiert, neue Muster hinzugefügt.
Ebene 3: Selbstverbessernde Anweisungen (Das Geheimrezept)
Hier wird es interessant. Wir haben eine dedizierte Datei — content-rules-learned.md — die jedes Feedback erfasst und in eine permanente Regel verwandelt:
# Content Rules — Gelernt aus Feedback
## Bilder & Visuelles
- [2026-02-09] Hero-Images MÜSSEN spezifisch zum Artikelthema sein.
Keine generischen Pipes/Pfeile/abstrakten Formen.
- [2026-02-06] ALLE Social-Posts MÜSSEN Hero-Image enthalten.
- [2026-02-13] CS-Logo muss IMMER korrekt sein in Infografiken —
base64 PNG eingebettet, kein CDN, keine relativen Pfade.
## Social Media
- [2026-02-13] NUR auf Tweets < 1 Stunde alt antworten
- [2026-02-13] Ziel-Accounts ROTIEREN — nicht immer dieselben ansprechen
Jede Regel hat ein Datum und eine Kategorie. Das System ist simpel: ein Bash-Skript, das Regeln an die Datei anhängt.
#!/bin/bash
# update-content-rules.sh
RULE="$1"
CATEGORY="$2"
DATE=$(date +%Y-%m-%d)
FILE="$HOME/agent/memory/content-rules-learned.md"
echo "- [$DATE] $RULE" >> "$FILE"
echo "Regel hinzugefügt zu $CATEGORY: $RULE"
Die Feedback-Schleife in Aktion
So läuft es ab, wenn Mike Feedback gibt:
- Mike sagt: "Das Hero-Image ist zu generisch — es sollte echte UI-Komponenten zeigen, keine abstrakten Formen"
- Agent erfasst die Regel: Führt
update-content-rules.sh "Hero-Images MÜSSEN spezifisch zum Artikelthema sein. Keine generischen Pipes/Pfeile/abstrakten Formen." imagesaus - Regel wird persistiert: Zur
content-rules-learned.mdhinzugefügt mit heutigem Datum - Nächster Pipeline-Lauf: Der Cron-Job liest
content-rules-learned.mdbevor irgendein Content generiert wird - Regel wird angewendet: Alle zukünftigen Hero-Images sind themenspezifisch
Der Feedback → Regel → Anwendung Zyklus ist vollständig automatisiert. Mike korrigiert einmal, und das System merkt es sich für immer.
Cron Jobs: Die autonome Ausführungsebene
Selbstlernen bedeutet nichts, wenn der Agent nur läuft, wenn du mit ihm sprichst. Unser System nutzt geplante [Cron-Jobs](https://www.contextstudios.ai/de/blog/eigene-ki-workflows-bauen-skills-cron-jobs-custom-mcp-tools-in-[openclaw](https://www.contextstudios.ai/de/blog/der-komplette-openclaw-guide-wie-wir-einen-ki-agenten-im-produktivbetrieb-einsetzen-2026 "Der komplette OpenClaw-Guide: Wie wir einen KI-Agenten im Produktivbetrieb einsetzen (2026)") "KI-Workflows: Skills, Cron-Jobs & MCP-Tools in OpenClaw"), die autonom ausgeführt werden:
{
"name": "blog-topic-proposals",
"schedule": { "kind": "cron", "expr": "0 6 * * *", "tz": "Europe/Berlin" },
"sessionTarget": "isolated",
"payload": {
"kind": "agentTurn",
"message": "Lies content-rules-learned.md. Befolge ALLE Regeln. Führe die volle Blog-Pipeline aus..."
}
}
Zentrale Design-Entscheidungen:
- Isolierte Sessions: Jeder Cron-Job läuft in seiner eigenen Session, um Fehler von der Haupt-Konversation fernzuhalten
- Regeln werden am Start geladen: Jeder Pipeline-Lauf beginnt mit dem Lesen der gelernten Regeldatei
- Modellauswahl: Wir verwenden Claude Sonnet für Routineaufgaben und Opus für komplexes Reasoning — nie standardmäßig das teuerste Modell
- Keine Sub-Agent-Erzeugung aus Cron: Sub-Agenten verlieren Kontext und erzeugen Duplikate. Alles bleibt in der Session.
Das Daily-Intel-System
Unser Agent wartet nicht nur auf Anweisungen. Jeden Morgen um 6:00 Uhr führt er eine Multi-Source-Intelligence-Pipeline durch:
- GitHub Release Tracker — prüft 20+ Repos auf neue Releases
- X/Twitter Pulse — scannt trending AI-Themen von Key-Accounts
- Web-Suche — neueste KI-News aus mehreren Quellen
- Interne Gap-Analyse — was haben wir bereits abgedeckt?
Alle Erkenntnisse werden in daily-intel.md geschrieben:
# Daily Intel — 2026-02-15
*Generiert: 06:00 CET*
*Qualität: FULL/DEGRADED/WEB-ONLY*
## Breaking / Hot (letzte 24h)
- [Anthropic](https://www.contextstudios.ai/de/blog/claude-sonnet-5-fennec-alles-was-wir-ber-anthropics-neues-modell-wissen "[Claude Sonnet 5](/blog/claude-sonnet-5-fennec-everything-we-know-about-anthropics-next-model) "Fennec": Alles was wir über Anthropics neues Modell wissen") schließt $30B Series G bei $380B Bewertung ab 🔥🔥🔥🔥🔥
## Trending Topics
- KI-Sicherheitsexodus aus beiden großen Labs
## Gesprächsstarter
- "Die echte Story ist nicht die $30B — sondern dass der Safety-Team-Lead in derselben Woche gekündigt hat"
Diese Datei speist jeden nachgelagerten Job — Blog-Vorschläge, Social-Engagement-Runden, LinkedIn-Kommentare. Ein Intelligence-Durchlauf, viele Konsumenten.
Anti-fragile Fehlerbehandlung
Systeme scheitern. APIs laufen in Timeouts. Rate-Limits greifen. Unsere Architektur behandelt das durch mehrere Mechanismen:
Dedup-Protokoll: Vor jedem Posting überprüft der Agent posting-log.md. Wenn Content für dieses Thema + Plattform + Datum bereits existiert: überspringen. Niemals Duplikate.
# Vor jedem Social-Post
grep -i "topic-keyword" ~/agent/memory/posting-log.md | tail -5
State-Tracking: engagement-state.json trackt tägliche Aktionszähler pro Plattform, nach Datum sortiert. Keine Reset-Logik nötig — alte Daten werden einfach ignoriert.
{
"2026-02-14": {
"replies_contextstudios": 5,
"replies_contextmike": 3,
"linkedin_comments": 4
}
}
Graceful Degradation: Wenn X/Twitter-Pulse ausfällt, wechselt das System auf "DEGRADED" Scoring-Gewichte — reduziert die X-Velocity-Gewichtung von 30% auf 15% und kompensiert mit Aktualität. Die Pipeline läuft weiter, nur mit angepasstem Vertrauen.
Echte Ergebnisse
Dieses System läuft seit Ende Januar 2026 in Produktion. Einige Zahlen:
- 151 Blog-Posts veröffentlicht in 4 Sprachen
- 392.560 Wörter insgesamt generiert und veröffentlicht
- Tägliche Publishing-Kadenz aufrechterhalten ohne manuellen Eingriff
- Content-Regeln wachsen organisch — 25+ gelernte Regeln und es werden mehr
- Null doppelte Posts seit Implementierung des Dedup-Protokolls
- LinkedIn Impressions wuchsen von 0 auf 5.107 in 3 Wochen
Der selbstlernende Aspekt ist der Differenzierer. Jedes Feedback macht das System permanent besser. Der Agent, der heute läuft, ist messbar schlauer als der vor zwei Wochen — nicht weil wir das Modell aktualisiert haben, sondern weil er aus seinen Fehlern gelernt hat.
So baust du dein eigenes System
Du brauchst nicht unseren exakten Stack. Die Prinzipien sind übertragbar:
1. Wähle deine Memory-Dateien
Mindestens brauchst du:
- Tägliche Logs — was heute passiert ist (kurzlebig)
- Langzeitgedächtnis — kuratierte Regeln und Kontext (persistent)
- Gelernte Regeln — kategorisiertes Feedback (append-only)
2. Baue das Feedback-Capture-Skript
#!/bin/bash
# Einfach aber effektiv
RULE="$1"
CATEGORY="${2:-general}"
DATE=$(date +%Y-%m-%d)
FILE="./memory/content-rules-learned.md"
# Unter dem richtigen Kategorie-Header einfügen
if grep -q "## $CATEGORY" "$FILE"; then
sed -i '' "/## $CATEGORY/a\\
- [$DATE] $RULE" "$FILE"
else
echo -e "\n## $CATEGORY\n- [$DATE] $RULE" >> "$FILE"
fi
3. Verdrahte es in deine Prompts
Jede Agent-Session und jeder Cron-Job sollte starten mit:
Lies memory/content-rules-learned.md — befolge ALLE Regeln.
Lies MEMORY.md — wende allen Kontext an.
4. Plane autonome Läufe
Nutze Cron-Jobs (oder OpenClaws eingebauten Scheduler), um deinen Agenten nach Zeitplan laufen zu lassen. Jeder Lauf liest die neuesten Regeln, führt Aufgaben aus und protokolliert Ergebnisse.
5. Füge Dedup und State-Tracking hinzu
Vor jeder externen Aktion (Posten, Senden, Veröffentlichen):
- Prüfe die Log-Datei auf vorhandene Einträge
- Falls gefunden: überspringen
- Falls nicht: ausführen und sofort protokollieren
6. Überprüfe und bereinige
Regelmäßig (wir machen es während Heartbeat-Polls):
- Tägliche Logs auf beförderungswürdige Erkenntnisse prüfen
- Langzeitgedächtnis mit neuen Mustern aktualisieren
- Veraltete Regeln entfernen, die nicht mehr gelten
- Auf widersprüchliche Regeln prüfen
Was kommt als Nächstes
Wir arbeiten an mehreren Verbesserungen:
- Automatisiertes A/B-Testing — der Agent testet verschiedene Engagement-Stile und trackt, welche mehr Resonanz bekommen
- Cross-Pipeline-Lernen — Regeln aus Blog-Feedback werden auf Social Media angewendet und umgekehrt
- Quantifizierte Feedback-Schleifen — Tracking nicht nur "welche Regel wurde hinzugefügt" sondern "welchen Impact hatte sie"
Das Ziel ist kein perfekter Agent. Es ist ein Agent, der jeden Tag messbar besser wird, ohne dass du Prompts umschreiben musst. Baue die Feedback-Schleife, und das System erledigt den Rest.
Wir nutzen diese Architektur bei Context Studios, um unseren gesamten Content-Betrieb zu führen. Wenn du etwas Ähnliches baust, würden wir gerne von deinem Ansatz hören — kontaktiere uns auf X oder LinkedIn.