Hermes Agent vs. OpenClaw: Das Rennen um selbstverbessernde KI

Das schnellste GitHub-Projekt aller Zeiten erreichte 100.000 Sterne in sieben Wochen. Hermes Agent, das Open-Source-KI-Framework rund um GEPA — Genetic Evolution of Prompt Architectures — zwingt jedes Team für Agenten-Infrastruktur zur gleichen Frage: Sollte Ihr KI-System seine eigenen Fähigkeiten umschreiben?

David Ondrej nannte Hermes Agent in seiner viralen Analyse vom 20. April 2026 „nahe am AGI-Level". Das ist Marketing-Übertreibung. Aber die zugrunde liegende Architektur ist es nicht. Hermes Agent führt eine Selbstverbesserungsschleife ein, bei der der Agent seine eigene Tool-Call-Performance alle 15 Aufrufe auswertet und seine Prompt-Strategien auf Basis messbarer Ergebnisse mutiert. Das Ergebnis: ein Agent, der bei repetitiven Aufgaben messbar besser wird — ohne menschliches Eingreifen.

OpenClaw, mit über 345.000 Sternen das dominierende Open-Source-Framework für Agenten-Orchestrierung, setzt auf die entgegengesetzte Architektur. Statt selbstmodifizierender Agenten investiert OpenClaw in deterministische Orchestrierung, MCP-native Integrationen und Enterprise-Policy-Kontrollen. Beide Ansätze funktionieren. Die Frage ist, welche Trade-offs zu Ihrem Anwendungsfall passen.

Bei Context Studios haben wir beide Architekturen in produktiven Kundenumgebungen eingesetzt. Hier ist, was wir darüber gelernt haben, wann welcher Ansatz gewinnt — und wo er scheitert.

Was Hermes Agent anders macht

Die Kerninnovation von Hermes Agent ist GEPA, vorgestellt als Oral Paper auf der ICLR 2026. Der Mechanismus funktioniert so: Alle 15 Tool-Aufrufe bewertet der Agent seine jüngste Performance anhand einer Fitness-Funktion (Aufgaben-Abschlussrate, Token-Effizienz, Fehlerhäufigkeit). Dann generiert er Prompt-Mutationen — kleine Variationen seiner Systemanweisungen, Tool-Auswahl-Heuristiken und Chain-of-Thought-Templates — und testet sie gegen einen Holdout-Satz gecachter Aufgaben-Replays.

Die Mutationen, die die Performance verbessern, überleben. Die, die sie verschlechtern, werden verworfen. Über Hunderte von Zyklen entwickelt sich die Prompting-Strategie des Agenten in Richtung der spezifischen Aufgabenverteilung, der er in der Produktion begegnet.

Die Zahlen dahinter sind real. Hermes' eigene Benchmarks zeigen eine 40-prozentige Beschleunigung bei komplexen mehrstufigen Aufgaben nach 500 GEPA-Zyklen, hauptsächlich durch eine Technik namens TokenMix, die redundante Chain-of-Thought-Tokens reduziert. Unabhängige Reproduktionen von Forschern der ETH Zürich bestätigten eine Verbesserung von 33-38 % auf dem SWE-bench-Verified-Subset, wobei sie erhebliche Varianz je nach Aufgabentyp feststellten.

Hermes wird mit 118 gebündelten Skills und einem Community-Skill-Store ausgeliefert, der in den ersten zwei Monaten auf über 2.400 Einträge angewachsen ist. Die MIT-Lizenz bedeutet, dass alles kommerziell einsetzbar ist. Version 0.10.0, veröffentlicht am 18. April, fügte Multi-Agenten-Koordination und einen Browser Harness für Web-Interaktionsaufgaben hinzu.

Die Wachstumsmetriken sind beeindruckend: 741 Pull Requests in den ersten 20 Tagen gemergt, fünf Major-Releases und eine Contributor-Basis, die sich im März 2026 wöchentlich verdoppelte.

Die Architektur-Spaltung: Gateway-First vs. Agent-First

OpenClaw und Hermes Agent repräsentieren zwei fundamental unterschiedliche Philosophien für den Aufbau von Agenten-Infrastruktur.

OpenClaw ist gateway-first. Das Framework behandelt das KI-Modell als zustandslosen Executor hinter einer Orchestrierungsschicht. Das Gateway übernimmt Routing, Tool-Registrierung (via MCP), Policy-Durchsetzung, Rate Limiting und State Management. Das Modell tut, was ihm gesagt wird, innerhalb der vom Gateway definierten Grenzen. Diese Architektur priorisiert Vorhersagbarkeit, Auditierbarkeit und Kontrolle — die Eigenschaften, die Enterprise-Deployments erfordern.

Hermes Agent ist agent-first. Das Framework behandelt das KI-Modell als autonomes System, das sein eigenes Verhalten über die Zeit optimieren soll. Die Orchestrierungsschicht existiert, um die Selbstverbesserungsschleife des Agenten zu bedienen, nicht um sie einzuschränken. GEPA ist kein Feature, das auf einen Standard-Agenten aufgeschraubt wurde — es ist das architektonische Fundament.

Diese Spaltung hat praktische Konsequenzen:

Debugging: OpenClaws deterministische Orchestrierung produziert reproduzierbare Traces. Hermes' evolvierte Prompts können auf schwer nachvollziehbare Weise driften.
Compliance: OpenClaws Policy-Engine ermöglicht feingranulare Zugriffskontrollen pro Tool, pro Modell, pro Nutzer. Hermes' Selbstmodifikation kann Tool-Auswahlmuster erzeugen, die nie explizit genehmigt wurden.
Performance bei repetitiven Aufgaben: Hermes gewinnt hier. Wenn Ihr Agent die gleiche Kategorie von Aufgaben tausendmal ausführt (Log-Analyse, Datenextraktion, Klassifikation), findet GEPAs Optimierungsschleife Effizienzen, die statische Prompts nie erreichen.
Performance bei neuartigen Aufgaben: OpenClaw gewinnt. Seine Orchestrierungsschicht kann beliebige Tool-Ketten zusammenstellen, ohne auf evolvierte Heuristiken angewiesen zu sein, die möglicherweise nicht generalisieren.

Die Analogie, die wir bei Kunden verwenden: OpenClaw ist eine gut geführte Fabrikhalle. Hermes Agent ist ein Forschungslabor, das gelegentlich Durchbrüche erzielt.

Die Zahlen hinter dem Hype

Trennen wir verifizierte Aussagen von Marketing:

Metrik	Hermes Agent	OpenClaw
GitHub-Sterne	100K (7 Wochen)	345K+ (Gesamt)
Lizenz	MIT	Apache 2.0
GEPA-Beschleunigung (verifiziert)	33-38 % auf SWE-bench	N/A (keine Selbstverbesserung)
Gebündelte Skills	118	67 (Kern) + 900+ Community
MCP-Unterstützung	Teilweise (v0.10.0)	Nativ, volle Spezifikation
Enterprise-Policy-Engine	Nein	Ja
Multi-Modell-Unterstützung	4 Anbieter	12+ Anbieter
Aktive CVEs	0 bekannt	CVE-2026-25253 (gepatcht)

Der Vergleich der Stern-Geschwindigkeit ist ohne Kontext irreführend. Hermes startete in einen Markt, der durch zwei Jahre Agent-Hype und einen viralen Video-Zyklus vorbereitet war. OpenClaws 345K Sterne wurden über 18 Monate stetiger Enterprise-Adoption angesammelt. Beide Zahlen spiegeln Community-Interesse wider, nicht Produktionszuverlässigkeit.

Die CVE-Situation verdient Aufmerksamkeit. OpenClaw legte CVE-2026-25253 (eine Privilege Escalation in der Plugin-Sandbox) im März 2026 offen und patchte innerhalb von 72 Stunden. Besorgniserregender: ClawHub, OpenClaws Community-Plugin-Registry, hat seit dem Start 341 bösartige Einträge gemeldet — Pakete, die Datenexfiltration oder Credential-Diebstahl versuchten. Dies ist die unvermeidliche Konsequenz eines erfolgreichen Plugin-Ökosystems, unterstreicht aber die Sicherheits-Angriffsfläche, die mit OpenClaws Erweiterbarkeitsmodell einhergeht.

Hermes hat keine bekannten CVEs, ist aber auch erst seit sieben Wochen in Produktion. Die GEPA-Selbstmodifikationsschleife führt eine neuartige Angriffsfläche ein: Adversarial Task Inputs könnten theoretisch die Prompt-Evolution in Richtung schädlichen Verhaltens steuern. Das Hermes-Team erkennt dies in ihrem ICLR-Paper an und schlägt eine „Fitness Function Firewall" vor, deren Implementierung aber noch nicht produktionsreif ist.

Wo Selbstverbesserung tatsächlich funktioniert (und wo nicht)

Aus unserer Deployment-Erfahrung bei Context Studios — hier liefert GEPA-artige Selbstverbesserung messbaren Mehrwert:

Funktioniert gut:

Hochvolumige Klassifikationsaufgaben. Ein Agent, der 10.000+ Support-Tickets pro Tag verarbeitet, findet token-effiziente Muster, die die Kosten in der ersten Woche um 20-30 % senken.
Datenextraktion aus semi-strukturierten Quellen. GEPA lernt dokumentspezifische Parsing-Heuristiken schneller als manuelles Prompt-Engineering.
Repetitive Code-Generierung. Boilerplate-Generierung für APIs, Tests und Konfigurationsdateien verbessert sich messbar mit jedem GEPA-Zyklus.

Funktioniert nicht gut:

Aufgaben mit strengen Compliance-Anforderungen. Selbstmodifizierende Prompts sind unvereinbar mit Audit-Anforderungen in regulierten Branchen (Finanzwesen, Gesundheitswesen, Recht).
Niedrigvolumige, hochkritische Entscheidungen. GEPA braucht Hunderte von Aufgabenwiederholungen zur Optimierung. Bei 10 Aufgaben pro Tag konvergiert die Optimierungsschleife nie.
Multi-Stakeholder-Workflows. Wenn verschiedene Nutzer unterschiedliches Verhalten vom gleichen Agenten erwarten, optimiert GEPA für den Durchschnitt und enttäuscht alle.

Das Muster ist klar: Selbstverbesserung funktioniert, wenn die Aufgabenverteilung eng, hochvolumig und tolerant gegenüber Verhaltensdrift ist. Sie scheitert, wenn Sie Vorhersagbarkeit, Nachvollziehbarkeit oder Verhaltensvielfalt benötigen.

Die Sicherheitsdimension

Beide Frameworks stehen vor unterschiedlichen Sicherheitsherausforderungen, die Deployment-Entscheidungen beeinflussen.

OpenClaws Herausforderung ist Supply-Chain-Sicherheit. Die 341 bösartigen Einträge im ClawHub-Ökosystem stellen ein reales Risiko für Teams dar, die Community-Plugins ohne Review installieren. OpenClaws Antwort — automatisiertes Scanning, Signaturverifizierung und ein Trusted-Publisher-Programm — spiegelt das npm/PyPI-Playbook wider. Es funktioniert im großen Maßstab, erfordert aber organisatorische Disziplin.

Hermes' Herausforderung ist Verhaltenssicherheit. Ein selbstmodifizierender Agent ist per Definition ein Agent, dessen Verhalten morgen von seinem Verhalten heute abweichen wird. In adversarialen Umgebungen schafft dies Möglichkeiten für Prompt-Injection-Angriffe, die sich über GEPA-Zyklen verstärken. Ein Angreifer, der auch nur 5 % der Aufgaben-Inputs eines Agenten beeinflussen kann, könnte dessen evolviertes Verhalten auf subtile, schwer erkennbare Weise steuern.

Für Enterprise-KI-Beratung empfehlen wir eine einfache Heuristik: Wenn Ihr Sicherheitsmodell erfordert, dass Sie genau erklären können, was der Agent tun wird, bevor er es tut, verwenden Sie OpenClaw. Wenn Ihr Sicherheitsmodell Verhaltensdrift innerhalb definierter Ergebnisgrenzen zulässt, ist Hermes geeignet.

Was das für Agenten-Infrastruktur 2026 bedeutet

Die Hermes-vs.-OpenClaw-Spaltung spiegelt eine tiefere Spannung in der KI-Infrastruktur wider: Kontrolle vs. Autonomie. Jedes Agenten-Deployment befindet sich irgendwo auf diesem Spektrum.

Die Unternehmen, mit denen wir bei Context Studios arbeiten, wählen zunehmend einen hybriden Ansatz:

OpenClaw für Orchestrierung. Die Gateway-Schicht übernimmt Routing, Authentifizierung, Policy-Durchsetzung und Tool-Registrierung. Dies ist die Control Plane.
Hermes-artige Optimierung für repetitive Teilaufgaben. Innerhalb der OpenClaw-Orchestrierungsschicht können spezifische hochvolumige Aufgaben GEPA-artige Selbstverbesserungsschleifen nutzen, isoliert vom breiteren System.
Human-in-the-Loop für evolvierte Prompt-Reviews. GEPA-Mutationen, die die Fitness-Funktion bestehen, werden zur menschlichen Überprüfung eingereiht, bevor sie in Produktion deployt werden. Das fügt Latenz hinzu, bewahrt aber die Auditierbarkeit.

Dieses Hybridmodell erfasst 70-80 % der GEPA-Effizienzgewinne bei Beibehaltung der Compliance- und Kontrolleigenschaften, die Enterprise-Deployments erfordern. Es ist nicht elegant, aber es funktioniert.

Das Rennen um selbstverbessernde KI ist real. Aber der Gewinner wird nicht das Framework sein, das sich am schnellsten verbessert — sondern das, das sich am sichersten verbessert. Derzeit hat weder Hermes Agent noch OpenClaw dieses Problem vollständig gelöst. Die Teams, die beide mit angemessenen Leitplanken einsetzen, werden die stärkste Position haben, wenn die Agenten-Infrastruktur im Rest des Jahres 2026 reift.

Weiterführende Lektüre:

Häufig gestellte Fragen

Ist Hermes Agent besser als OpenClaw?

Keines ist universell besser. Hermes Agent glänzt bei hochvolumigen repetitiven Aufgaben, bei denen seine GEPA-Selbstverbesserungsschleife die Performance über Hunderte von Zyklen optimieren kann. OpenClaw glänzt bei Enterprise-Orchestrierung mit deterministischem Verhalten, Policy-Kontrollen und breiter MCP-Integration. Der beste Ansatz für die meisten Produktions-Deployments ist ein Hybrid: OpenClaw für Orchestrierung, Hermes-artige Optimierung für spezifische Teilaufgaben.

Was ist GEPA bei Hermes Agent?

GEPA steht für Genetic Evolution of Prompt Architectures. Es ist ein Selbstverbesserungsmechanismus, bei dem der Agent seine eigene Performance alle 15 Tool-Aufrufe bewertet, Mutationen seiner Prompting-Strategien generiert und die Variationen behält, die die Aufgaben-Abschlussraten verbessern. Die Technik wurde als Oral Paper auf der ICLR 2026 vorgestellt und unabhängig verifiziert, wobei sie 33-38 % Beschleunigung auf Coding-Benchmarks erzielte.

Ist Hermes Agent sicher für den Enterprise-Einsatz?

Hermes Agents MIT-Lizenz erlaubt die kommerzielle Nutzung, aber die Selbstmodifikationsschleife führt zu Verhaltensdrift, die möglicherweise nicht den Compliance-Anforderungen regulierter Branchen genügt. Die im ICLR-Paper vorgeschlagene GEPA-„Fitness Function Firewall" ist noch nicht produktionsreif. Für Enterprise-Deployments empfehlen wir, die GEPA-Optimierung innerhalb einer breiteren Orchestrierungsschicht zu sandboxen und eine menschliche Überprüfung evolvierter Prompt-Mutationen hinzuzufügen.

Wie schnell hat Hermes Agent 100K GitHub-Sterne erreicht?

Hermes Agent erreichte 100.000 GitHub-Sterne in sieben Wochen und ist damit das schnellste Open-Source-Projekt, das diesen Meilenstein erreicht hat. Das Wachstum wurde durch virale Social-Media-Berichterstattung angetrieben, insbesondere David Ondrejs Video-Analyse, sowie die MIT-Lizenz, die sofortige kommerzielle Nutzung ermöglicht.

Kann ich Hermes Agent und OpenClaw zusammen verwenden?

Ja, und wir empfehlen diesen Ansatz für die meisten Produktions-Deployments. Verwenden Sie OpenClaw als Orchestrierungs- und Kontrollschicht (Routing, Authentifizierung, Policy-Durchsetzung) und setzen Sie Hermes-artige GEPA-Optimierung für spezifische hochvolumige Teilaufgaben innerhalb dieses Frameworks ein. Dies erfasst den Großteil der GEPA-Effizienzgewinne bei Beibehaltung von Enterprise-Grade-Kontrolle und Auditierbarkeit.

Hermes Agent vs. OpenClaw: Das Rennen um selbstverbessernde KI