Sistema di agenti IA auto-apprendenti: la nostra architettura

Come costruire un sistema di agenti IA auto-apprendenti (La nostra architettura reale)

La maggior parte degli agenti IA è statica. Scrivi prompt, li deploy e speri che funzionino. Quando non lo fanno — quando un post sui social media ha il tono sbagliato, quando un'immagine del blog è generica, quando una risposta di engagement suona robotica — correggi manualmente. Ogni. Singola. Volta.

Ci siamo stancati. Quindi abbiamo costruito un sistema in cui il nostro agente IA impara da ogni correzione e non commette mai lo stesso errore due volte.

Questa non è teoria. Questa è l'architettura reale che alimenta la nostra pipeline di contenuti presso Context Studios — lo stesso sistema che pubblica articoli di blog quotidiani in quattro lingue, gestisce l'engagement sui social media su X, LinkedIn, Facebook e Instagram, e genera immagini di copertina per ogni articolo. Ecco esattamente come funziona, con codice che puoi adattare al tuo setup.

Il problema: Gli agenti IA hanno l'amnesia

Ogni sessione di un agente IA ricomincia da zero. Claude, GPT, Gemini — si svegliano tutti senza alcun ricordo di cosa è successo ieri. Il tuo prompt accuratamente formulato è l'unica cosa che li guida, e i prompt sono istantanee statiche della tua conoscenza al momento in cui li hai scritti.

Questo crea un ciclo doloroso:

L'agente fa un errore (pubblica un'immagine di copertina generica)
Lo noti e correggi ("Niente tubi e frecce generiche!")
L'agente si scusa e corregge questa volta
Sessione successiva: l'agente fa esattamente lo stesso errore

La correzione si perde tra le sessioni. Il tuo agente non sta imparando — sta solo seguendo istruzioni che non sono state aggiornate.

L'architettura: Tre livelli di memoria

Il nostro sistema auto-apprendente ha tre livelli, ciascuno con uno scopo diverso:

Livello 1: Log giornalieri (Memoria effimera)

memory/
  2026-02-13.md
  2026-02-14.md
  2026-02-15.md

Sono file in sola aggiunta che catturano cosa è successo ogni giorno. Grezzi, non strutturati, con timestamp. L'agente carica i log di oggi e di ieri all'inizio della sessione per contesto immediato.

Cosa ci va: Decisioni prese, task completati, errori riscontrati, conversazioni riassunte. Pensalo come un diario di lavoro.

Conservazione: 30 giorni, poi archiviato. L'agente non ha bisogno di ricordare cosa ha mangiato a colazione tre settimane fa.

Livello 2: Memoria a lungo termine curata (MEMORY.md)

Questa è la conoscenza distillata dell'agente — lezioni apprese, preferenze scoperte, workflow raffinati. A differenza dei log giornalieri, questo file è attivamente mantenuto. L'agente rivede periodicamente i log giornalieri recenti e promuove le intuizioni importanti qui.

# MEMORY.md

## Regole di contenuto chiave
1. Le immagini di copertina DEVONO essere specifiche all'argomento dell'articolo
2. TUTTI i post social DEVONO includere l'immagine di copertina
3. LinkedIn: NIENTE hashtag (morti dal 2024)
4. X/Twitter: STRETTAMENTE 280 caratteri massimo
...

Cosa ci va: Regole, preferenze, persone, contesto del progetto, lezioni da incidenti. Questa è la memoria a lungo termine dell'agente — curata, non scaricata.

Manutenzione: L'agente la rivede e aggiorna durante i periodi tranquilli (heartbeat). Le vecchie regole vengono potate, i nuovi pattern vengono aggiunti.

Livello 3: Istruzioni auto-miglioranti (L'ingrediente segreto)

Qui diventa interessante. Abbiamo un file dedicato — content-rules-learned.md — che cattura ogni feedback e lo trasforma in una regola permanente:

# Regole di contenuto — Apprese dal feedback

## Immagini & Visuale
- [2026-02-09] Le immagini di copertina DEVONO essere specifiche all'argomento.
  Niente tubi/frecce/forme astratte generiche.
- [2026-02-06] TUTTI i post social DEVONO includere l'immagine di copertina.
- [2026-02-13] Il logo CS deve SEMPRE essere corretto nelle infografiche —
  PNG base64 incorporato, niente CDN, niente percorsi relativi.

## Social Media
- [2026-02-13] Rispondere SOLO a tweet < 1 ora
- [2026-02-13] RUOTARE gli account target — non continuare a colpire gli stessi

Ogni regola ha una data e una categoria. Il sistema è semplicissimo: uno script bash che aggiunge regole al file.

#!/bin/bash
# update-content-rules.sh
RULE="$1"
CATEGORY="$2"
DATE=$(date +%Y-%m-%d)
FILE="$HOME/agent/memory/content-rules-learned.md"

echo "- [$DATE] $RULE" >> "$FILE"
echo "Regola aggiunta a $CATEGORY: $RULE"

Il loop di feedback in azione

Ecco cosa succede quando Mike dà un feedback:

Mike dice: "L'immagine di copertina è troppo generica — dovrebbe mostrare componenti UI reali, non forme astratte"
L'agente cattura la regola: Esegue update-content-rules.sh "Le immagini di copertina DEVONO essere specifiche all'argomento dell'articolo. Niente tubi/frecce/forme astratte generiche." images
La regola è persistita: Aggiunta a content-rules-learned.md con la data di oggi
Prossimo run del pipeline: Il cron job legge content-rules-learned.md prima di generare qualsiasi contenuto
La regola è applicata: Tutte le future immagini di copertina sono specifiche al tema

Il ciclo feedback → regola → applicazione è completamente automatizzato. Mike corregge una volta, e il sistema se lo ricorda per sempre.

I Cron Job: Il livello di esecuzione autonoma

L'auto-apprendimento non significa nulla se l'agente gira solo quando gli parli. Il nostro sistema usa cron job pianificati che si eseguono autonomamente:

{
  "name": "blog-topic-proposals",
  "schedule": { "kind": "cron", "expr": "0 6 * * *", "tz": "Europe/Berlin" },
  "sessionTarget": "isolated",
  "payload": {
    "kind": "agentTurn",
    "message": "Leggi content-rules-learned.md. Segui TUTTE le regole. Esegui il pipeline blog completo..."
  }
}

Decisioni di design chiave:

Sessioni isolate: Ogni cron job gira nella propria sessione, impedendo agli errori di corrompere la conversazione principale
Regole caricate all'avvio: Ogni run del pipeline inizia leggendo il file delle regole apprese
Selezione del modello: Usiamo Claude Sonnet per i task di routine e Opus per il ragionamento complesso — mai il modello più costoso di default
Niente sotto-agenti dai cron: I sotto-agenti perdono contesto e creano duplicati. Tutto resta nella sessione.

Il sistema Daily Intel

Il nostro agente non aspetta semplicemente istruzioni. Ogni mattina alle 6:00, lancia un pipeline di raccolta intelligence multi-sorgente:

GitHub Release Tracker — controlla 20+ repository per nuove release
X/Twitter Pulse — scansiona i topic IA di tendenza dagli account chiave
Ricerca web — ultime notizie IA da fonti multiple
Analisi gap interna — cosa abbiamo già coperto?

Tutte le scoperte vengono scritte in daily-intel.md:

# Daily Intel — 2026-02-15
*Generato: 06:00 CET*
*Qualità: FULL/DEGRADED/WEB-ONLY*

## Breaking / Hot (ultime 24h)
- [Anthropic](https://www.contextstudios.ai/it/blog/claude-sonnet-5-fennec-tutto-quello-che-sappiamo-sul-prossimo-modello-di-anthropic "[Claude Sonnet 5](https://www.contextstudios.ai/it/blog/claude-sonnet-5-fennec-tutto-quello-che-sappiamo-sul-prossimo-modello-di-anthropic) Fennec: Tutto quello che sappiamo sul prossimo modello di Anthropic") chiude Series G da $30B a valutazione di $380B 🔥🔥🔥🔥🔥

## Topic di tendenza
- Esodo della sicurezza IA da entrambi i grandi laboratori

## Spunti di conversazione
- "La vera storia non sono i $30B — è che il capo del team sicurezza si è dimesso nella stessa settimana"

Questo file alimenta ogni job a valle — proposte blog, round di engagement social, commenti LinkedIn. Un passaggio di intelligence, molti consumatori.

Gestione errori anti-fragile

I sistemi falliscono. Le API vanno in timeout. I rate limit scattano. La nostra architettura gestisce questo attraverso diversi meccanismi:

Protocollo di deduplicazione: Prima di postare ovunque, l'agente controlla posting-log.md. Se il contenuto esiste già per questo argomento + piattaforma + data: saltare. Mai duplicati.

# Prima di ogni post social
grep -i "topic-keyword" ~/agent/memory/posting-log.md | tail -5

Tracking dello stato: engagement-state.json traccia i conteggi delle azioni giornaliere per piattaforma, indicizzati per data. Nessuna logica di reset necessaria — le vecchie date vengono semplicemente ignorate.

{
  "2026-02-14": {
    "replies_contextstudios": 5,
    "replies_contextmike": 3,
    "linkedin_comments": 4
  }
}

Degradazione graziosa: Quando il pulse X/Twitter fallisce, il sistema passa ai pesi di scoring "DEGRADED" — riducendo il peso della velocità X dal 30% al 15% e compensando con la recenza. Il pipeline continua, solo con confidenza aggiustata.

Risultati reali

Questo sistema è in produzione dalla fine di gennaio 2026. Alcuni numeri:

200+ articoli di blog pubblicati in 4 lingue
500.000+ parole totali generate e pubblicate
Cadenza di pubblicazione giornaliera mantenuta senza intervento manuale
Le regole di contenuto crescono organicamente — 25+ regole apprese e continuano ad aumentare
Zero post duplicati dall'implementazione del protocollo di deduplicazione
Le impressioni LinkedIn crescono costantemente settimana dopo settimana

L'aspetto auto-apprendente è il differenziatore. Ogni feedback rende il sistema permanentemente migliore. L'agente che gira oggi è misurabilmente più intelligente di quello di due settimane fa — non perché abbiamo aggiornato il modello, ma perché ha imparato dai suoi errori.

Come costruire il tuo

Non hai bisogno del nostro stack esatto. I principi sono trasferibili:

1. Scegli i tuoi file di memoria

Come minimo, ti servono:

Log giornalieri — cosa è successo oggi (effimeri)
Memoria a lungo termine — regole e contesto curati (persistenti)
Regole apprese — feedback categorizzato (solo aggiunta)

2. Costruisci lo script di cattura del feedback

#!/bin/bash
# Semplice ma efficace
RULE="$1"
CATEGORY="${2:-general}"
DATE=$(date +%Y-%m-%d)
FILE="./memory/content-rules-learned.md"

# Aggiungere sotto l'header della categoria giusta
if grep -q "## $CATEGORY" "$FILE"; then
  sed -i '' "/## $CATEGORY/a\\
- [$DATE] $RULE" "$FILE"
else
  echo -e "\n## $CATEGORY\n- [$DATE] $RULE" >> "$FILE"
fi

3. Collegalo ai tuoi prompt

Ogni sessione dell'agente e cron job dovrebbe iniziare con:

Leggi memory/content-rules-learned.md — segui TUTTE le regole.
Leggi MEMORY.md — applica tutto il contesto.

4. Pianifica esecuzioni autonome

Usa cron job (o lo scheduler integrato di OpenClaw) per far girare il tuo agente secondo un programma. Ogni esecuzione legge le ultime regole, esegue i task e registra i risultati.

5. Aggiungi deduplicazione e tracking dello stato

Prima di qualsiasi azione esterna (postare, inviare, pubblicare):

Controlla il file di log per voci esistenti
Se trovato: saltare
Se non trovato: eseguire e registrare immediatamente

6. Rivedi e pota

Periodicamente (noi lo facciamo durante i heartbeat poll):

Rivedere i log giornalieri per insight promuovibili
Aggiornare la memoria a lungo termine con nuovi pattern
Rimuovere regole obsolete che non si applicano più
Controllare regole contradditorie

Cosa viene dopo

Stiamo lavorando su diversi miglioramenti:

Test A/B automatizzati — l'agente testa diversi stili di engagement e traccia quali ottengono più risposte
Apprendimento cross-pipeline — regole apprese dal feedback blog applicate ai social media e viceversa
Loop di feedback quantificati — tracciare non solo "quale regola è stata aggiunta" ma "quale impatto ha avuto"

L'obiettivo non è un agente perfetto. È un agente che migliora misurabilmente ogni giorno senza che tu debba riscrivere i prompt. Costruisci il loop di feedback, e il sistema si occupa del resto.

Usiamo questa architettura presso Context Studios per gestire l'intera operazione di contenuti. Se stai costruendo qualcosa di simile, ci piacerebbe sentire il tuo approccio — contattaci su X o LinkedIn.