Hermes Agent vs OpenClaw: La corsa all'IA auto-migliorante

Il progetto GitHub più veloce della storia a raggiungere 100.000 stelle lo ha fatto in sette settimane. Hermes Agent, il framework IA open source costruito attorno a GEPA — Genetic Evolution of Prompt Architectures — costringe ogni team di infrastruttura agenti a rispondere alla stessa domanda: il vostro sistema IA deve riscrivere le proprie competenze?

L'analisi virale di David Ondrej, pubblicata il 20 aprile 2026, ha definito Hermes Agent "vicino al livello AGI". È iperbole di marketing. Ma l'architettura sottostante non lo è. Hermes Agent introduce un ciclo di auto-miglioramento in cui l'agente valuta le proprie prestazioni di chiamata strumenti ogni 15 invocazioni e muta le proprie strategie di prompt in base a risultati misurabili. Il risultato: un agente che migliora misurabilmente nelle attività ripetitive senza intervento umano.

OpenClaw, con oltre 345.000 stelle e framework dominante per l'orchestrazione agenti open source, scommette sull'architettura opposta. Invece di agenti auto-modificanti, OpenClaw investe in orchestrazione deterministica, integrazioni MCP native e controlli di policy enterprise. Entrambi gli approcci funzionano. La domanda è quali compromessi corrispondono al vostro caso d'uso.

Presso Context Studios, abbiamo implementato entrambe le architetture in ambienti clienti in produzione. Ecco cosa abbiamo imparato su quando ogni approccio vince — e dove fallisce.

Cosa rende Hermes Agent diverso

L'innovazione centrale di Hermes Agent è GEPA, presentata come paper Oral all'ICLR 2026. Il meccanismo funziona così: ogni 15 chiamate strumenti, l'agente valuta le sue prestazioni recenti rispetto a una funzione di fitness (tasso di completamento attività, efficienza token, frequenza errori). Genera poi mutazioni di prompt — piccole variazioni nelle istruzioni di sistema, euristiche di selezione strumenti e template chain-of-thought — e le testa su un set di riserva di replay di attività in cache.

Le mutazioni che migliorano le prestazioni sopravvivono. Quelle che le degradano vengono scartate. Nel corso di centinaia di cicli, la strategia di prompting dell'agente evolve verso la distribuzione specifica di attività che incontra in produzione.

I numeri sono reali. I benchmark di Hermes mostrano un'accelerazione del 40% su attività complesse multi-step dopo 500 cicli GEPA, guidata principalmente da una tecnica chiamata TokenMix che riduce i token ridondanti di chain-of-thought. Riproduzioni indipendenti da ricercatori dell'ETH Zurich hanno confermato un miglioramento del 33-38% sul subset SWE-bench Verified, notando però una varianza significativa a seconda del tipo di attività.

Hermes viene fornito con 118 competenze integrate e un community skill store che ha raggiunto oltre 2.400 voci nei primi due mesi. La licenza MIT consente il deployment commerciale immediato. La versione 0.10.0, rilasciata il 18 aprile, ha aggiunto il coordinamento multi-agente e un Browser Harness per le attività di interazione web.

Le metriche di crescita sono impressionanti: 741 pull request unite in 20 giorni, cinque rilasci major e una base di contributor che raddoppiava settimanalmente nel marzo 2026.

La frattura architetturale: Gateway-First vs. Agent-First

OpenClaw e Hermes Agent rappresentano due filosofie fondamentalmente diverse per costruire l'infrastruttura agenti.

OpenClaw è gateway-first. Il framework tratta il modello IA come un esecutore stateless dietro uno strato di orchestrazione. Il gateway gestisce routing, registrazione strumenti (via MCP), applicazione policy, rate limiting e gestione stato. Il modello fa ciò che gli viene detto, entro i confini definiti dal gateway. Questa architettura privilegia prevedibilità, auditabilità e controllo.

Hermes Agent è agent-first. Il framework tratta il modello IA come un sistema autonomo che dovrebbe ottimizzare il proprio comportamento nel tempo. Lo strato di orchestrazione esiste per servire il ciclo di auto-miglioramento dell'agente, non per vincolarlo. GEPA non è una funzionalità aggiunta a un agente standard — è la fondazione architetturale.

Questa frattura ha conseguenze pratiche:

Debug: L'orchestrazione deterministica di OpenClaw produce trace riproducibili. I prompt evoluti di Hermes possono derivare in modi difficili da auditare.
Compliance: Il motore di policy di OpenClaw consente controlli di accesso granulari per strumento, modello, utente. L'auto-modifica di Hermes può produrre pattern di selezione strumenti mai esplicitamente approvati.
Prestazioni su attività ripetitive: Hermes vince qui. Se il vostro agente esegue la stessa categoria di attività migliaia di volte, il ciclo di ottimizzazione GEPA troverà efficienze che i prompt statici non raggiungeranno mai.
Prestazioni su attività nuove: OpenClaw vince. Il suo strato di orchestrazione può comporre catene di strumenti arbitrarie senza dipendere da euristiche evolute che potrebbero non generalizzare.

L'analogia che usiamo con i clienti: OpenClaw è un reparto di produzione ben gestito. Hermes Agent è un laboratorio di ricerca che occasionalmente produce scoperte rivoluzionarie.

I numeri dietro l'hype

Separiamo le affermazioni verificate dal marketing:

Metrica	Hermes Agent	OpenClaw
Stelle GitHub	100K (7 settimane)	345K+ (totale)
Licenza	MIT	Apache 2.0
Accelerazione GEPA (verificata)	33-38% su SWE-bench	N/A
Competenze integrate	118	67 (core) + 900+ community
Supporto MCP	Parziale (v0.10.0)	Nativo, specifica completa
Motore policy enterprise	No	Sì
Supporto multi-modello	4 provider	12+ provider
CVE attivi	0 noti	CVE-2026-25253 (corretto)

Il confronto sulla velocità delle stelle è fuorviante senza contesto. Hermes è stato lanciato in un mercato preparato da due anni di hype sugli agenti. Le 345K stelle di OpenClaw sono state accumulate in 18 mesi di adozione enterprise costante.

La situazione CVE merita attenzione. OpenClaw ha divulgato CVE-2026-25253 (escalation di privilegi nella sandbox plugin) nel marzo 2026 e l'ha corretto entro 72 ore. Più preoccupante: ClawHub ha segnalato 341 voci malevole dal lancio — pacchetti che tentavano esfiltrazione dati o furto di credenziali.

Hermes non ha CVE note, ma è in produzione solo da sette settimane. Il ciclo di auto-modifica GEPA introduce una superficie d'attacco inedita: input di attività adversariali potrebbero teoricamente orientare l'evoluzione dei prompt verso comportamenti dannosi.

Dove l'auto-miglioramento funziona davvero (e dove no)

Dalla nostra esperienza di deployment presso Context Studios:

Funziona bene:

Attività di classificazione ad alto volume. Un agente che elabora 10.000+ ticket di supporto al giorno troverà pattern token-efficienti che riducono i costi del 20-30% nella prima settimana.
Estrazione dati da fonti semi-strutturate. GEPA apprende euristiche di parsing specifiche per documento più velocemente dell'ingegneria di prompt manuale.
Generazione di codice ripetitiva. La generazione di boilerplate per API, test e file di configurazione migliora misurabilmente ad ogni ciclo GEPA.

Non funziona bene:

Attività che richiedono compliance rigorosa. I prompt auto-modificanti sono incompatibili con i requisiti di audit nei settori regolamentati.
Decisioni a basso volume e alta posta in gioco. GEPA necessita di centinaia di ripetizioni. Con 10 attività al giorno, il ciclo non converge mai.
Workflow multi-stakeholder. Quando utenti diversi si aspettano comportamenti diversi dallo stesso agente, GEPA ottimizza per la media e delude tutti.

La dimensione sicurezza

La sfida di OpenClaw è la sicurezza della supply chain. Le 341 voci malevole di ClawHub rappresentano un rischio reale. La risposta di OpenClaw — scanning automatizzato, verifica firme, programma publisher fidati — rispecchia il playbook npm/PyPI.

La sfida di Hermes è la sicurezza comportamentale. Un agente auto-modificante è un agente il cui comportamento domani sarà diverso da oggi. Un attaccante che influenza anche solo il 5% degli input potrebbe orientare sottilmente il comportamento evoluto dell'agente.

Per gli impegni di consulenza IA enterprise, raccomandiamo un'euristica semplice: se il vostro modello di sicurezza richiede di spiegare esattamente cosa farà l'agente prima che lo faccia, usate OpenClaw. Se tollera una deriva comportamentale entro limiti di risultato definiti, Hermes è praticabile.

Cosa significa per l'infrastruttura agenti nel 2026

La frattura Hermes vs. OpenClaw riflette una tensione più profonda: controllo vs. autonomia.

Le aziende con cui lavoriamo scelgono sempre più un approccio ibrido:

OpenClaw per l'orchestrazione. Lo strato gateway gestisce routing, autenticazione, applicazione policy e registrazione strumenti.
Ottimizzazione tipo Hermes per sotto-attività ripetitive. Attività specifiche ad alto volume possono usare cicli GEPA, isolati dal sistema più ampio.
Human-in-the-loop per la revisione dei prompt evoluti. Le mutazioni GEPA vengono messe in coda per revisione umana prima del deployment in produzione.

Questo modello ibrido cattura il 70-80% dei guadagni di efficienza GEPA mantenendo le proprietà di compliance e controllo richieste dai deployment enterprise. Non è elegante, ma funziona.

La corsa all'IA auto-migliorante è reale. Ma il vincitore non sarà il framework che migliora più velocemente — sarà quello che migliora più sicuramente.

Letture correlate:

Domande frequenti

Hermes Agent è migliore di OpenClaw?

Nessuno è universalmente migliore. Hermes Agent eccelle nelle attività ripetitive ad alto volume. OpenClaw eccelle nell'orchestrazione enterprise con comportamento deterministico e controlli di policy. L'approccio migliore è un ibrido: OpenClaw per l'orchestrazione, ottimizzazione tipo Hermes per sotto-attività specifiche.

Cos'è GEPA in Hermes Agent?

GEPA sta per Genetic Evolution of Prompt Architectures. È un meccanismo di auto-miglioramento valutato ogni 15 chiamate strumenti, verificato indipendentemente per produrre accelerazioni del 33-38% sui benchmark di codifica.

Hermes Agent è sicuro per l'uso enterprise?

La licenza MIT consente l'uso commerciale, ma il ciclo di auto-modifica introduce una deriva comportamentale potenzialmente incompatibile con i requisiti normativi. Raccomandiamo di sandboxare l'ottimizzazione GEPA e aggiungere revisione umana delle mutazioni di prompt evolute.

Posso usare Hermes Agent e OpenClaw insieme?

Sì, e raccomandiamo questo approccio. Usate OpenClaw come strato di orchestrazione e controllo e implementate l'ottimizzazione GEPA per sotto-attività specifiche ad alto volume all'interno di quel framework.

Hermes Agent vs OpenClaw: La corsa all'IA auto-migliorante