Karpathy Autoresearch : Un Prompt Remplace le Paper
Le 7 mars 2026, Andrej Karpathy a publié Karpathy Autoresearch — un dépôt GitHub minimal qui démontre ce qui se passe quand des agents IA mènent des expériences d'entraînement LLM sans supervision pendant la nuit. Le résultat : plus de 110 commits en 12 heures sur 8 GPU NVIDIA H100. Aucun chercheur n'a travaillé la nuit. Les agents, si.
Karpathy Autoresearch n'est pas un produit. Ce n'est pas une plateforme aboutie. C'est trois fichiers et une preuve de concept — et un signal qui soulève une question inconfortable : si un prompt Markdown peut remplacer une nuit de recherche, qu'est-ce que cela implique pour la manière dont nous construisons l'IA ?
Qu'est-ce que Karpathy Autoresearch ?
Karpathy Autoresearch est un framework expérimental dans lequel des agents IA conduisent de façon autonome des expériences d'entraînement LLM. L'humain écrit un objectif en Markdown. L'agent lit le fichier, modifie le code d'entraînement, lance un run de 5 minutes, évalue les résultats et itère.
Le dépôt contient exactement trois fichiers :
- prepare.py — préparation des données, fixe, non modifiable par l'agent
- train.py — le code d'entraînement proprement dit ; l'agent peut le modifier librement
- program.md — le fichier de pilotage ; l'humain y inscrit ses objectifs de recherche
La métrique d'optimisation est délibérément simple : val_bpb (validation bits per byte) — plus bas, c'est mieux. Pas de framework d'évaluation complexe. Aucun jugement humain en temps réel dans la boucle. L'agent optimise ce qu'il peut mesurer.
Techniquement, Karpathy Autoresearch s'appuie sur nanochat, l'implémentation simplifiée d'entraînement LLM sur GPU unique développée par Karpathy. Dans l'expérience publiée, 8 agents fonctionnaient simultanément — 4 instances Claude (Anthropic) et 4 instances Codex (OpenAI) — dans différentes structures organisationnelles. À 5 minutes par expérience, cela représente environ 12 expériences par heure, plus de 100 sur une nuit.
Trois Fichiers, Une Nuit, 110 Expériences
Les chiffres de ce seul run nocturne méritent d'être examinés : 110+ commits Git, 12 heures, 8 GPU fonctionnant en parallèle. Karpathy l'exprime clairement dans le README :
"One day, frontier AI research used to be done by meat computers in between eating, sleeping... Research is now entirely the domain of autonomous swarms of AI agents running across compute cluster megastructures in the skies."
Ce n'est pas de l'hyperbole. C'est un constat factuel.
La structure multi-agents était délibérée. Karpathy Autoresearch a testé différentes configurations organisationnelles — certains agents fonctionnant en parallèle, d'autres en hiérarchies. Le gain de parallélisation est substantiel. Au lieu d'un chercheur occupé pendant 12 heures, 8 agents travaillent simultanément, partagent les résultats et continuent d'itérer. Le temps réel pour couvrir un espace de recherche s'effondre.
Ce que Karpathy Autoresearch ne prétend pas : livrer des percées. Les agents optimisent dans un espace de recherche bien délimité. Ils trouvent des améliorations locales. Mais ils n'inventent pas l'espace de recherche.
Ce que les Agents Réussissent — et Où Ils Échouent
Glen Rhodes a publié une analyse détaillée de Karpathy Autoresearch qui formule la conclusion centrale avec précision : les agents sont "très bons pour mettre en œuvre n'importe quelle idée bien délimitée, mais ils ne les génèrent pas de façon créative."
Karpathy Autoresearch confirme deux choses simultanément :
Ce qui fonctionne : La parallélisation. Quand l'humain définit le bon espace de recherche, les agents peuvent l'explorer à une vitesse et une endurance qu'aucune équipe humaine n'égale. 12 expériences par heure, la nuit, sans café ni interruptions de contexte.
Ce qui ne fonctionne pas : Le jugement scientifique. Un agent a "découvert" que les réseaux plus grands réduisent la perte — un résultat trivialement confondu que Karpathy a dû corriger manuellement. L'agent avait techniquement raison mais était intellectuellement vide : il ne savait pas pourquoi le résultat était sans valeur. Il ne pouvait pas distinguer une vraie découverte d'un facteur de confusion.
Le goulot d'étranglement se situe en amont : quelles expériences méritent d'être menées ? Cette question reste humaine. Karpathy Autoresearch le rend explicite par son architecture — program.md est l'endroit où l'intelligence humaine se déploie. Tout ce qui est en aval appartient aux agents.
Karpathy le formule précisément : "You're programming an organization. The source code is the collection of prompts, skills, tools, and processes."
Notre Expérience chez Context Studios : Le Même Paradigme au Quotidien
Quand Karpathy Autoresearch est sorti, c'était une reconnaissance immédiate — parce que nous opérons la même architecture quotidiennement, dans un domaine différent.
Nous gérons plus de 16 tâches cron autonomes chaque jour. Chacune est essentiellement un program.md : Mike a défini une fois ce que l'agent doit accomplir, quels standards de qualité s'appliquent, quelles contraintes tenir. L'agent exécute, itère, journalise. Nuit après nuit, sans supervision.
Exemples concrets de nos opérations quotidiennes :
- Pipeline de contenu : Un agent recherche chaque jour des sujets IA pertinents, rédige des ébauches en quatre langues (DE, EN, FR, IT), génère des images hero, publie des articles de blog et les distribue sur LinkedIn, X et Facebook — tout cela sans intervention humaine dans le processus lui-même.
- SEO Healer : Un agent scanne tous les articles publiés pour détecter les méta-descriptions manquantes, les tableaux de mots-clés vides et les liens de traduction cassés. Il répare ce qu'il peut, escalade ce qu'il ne peut pas.
- Engagement social : Un agent commente chaque jour des publications LinkedIn pertinentes dans notre domaine — pas comme spam, mais comme perspective curatorée alignée sur notre positionnement.
Ce que Karpathy mesure avec val_bpb, nous le mesurons avec le trafic, le taux d'engagement et le score de qualité de publication. Ce qu'il écrit dans program.md, nous l'écrivons dans les prompts de tâches cron. L'architecture est identique.
Et la conclusion centrale de Karpathy vaut aussi pour nous : les agents exécutent brillamment. Mais la décision de ce qui mérite d'être exécuté — quels sujets importent, quelles audiences prioriser, quels standards de qualité appliquer — reste humaine. Chaque jour. Sans exception.
Ce n'est pas une limitation à contourner. C'est la bonne division du travail.
Pour ceux qui souhaitent développer leurs propres systèmes d'agents IA, le modèle Karpathy Autoresearch est un cadre mental utile — même si vous n'entraînez pas de LLM. L'architecture objectif (humain) + exécution (agent) + optimisation de métrique (agent) s'applique à presque tous les domaines du travail de connaissance.
Le Vrai Changement : Que Signifie "Programmer" Maintenant ?
Karpathy Autoresearch est aussi un commentaire sur la façon dont le sens de "programmer" est en train d'évoluer. Traditionnellement, programmer signifiait écrire du code qui indique à un ordinateur ce qu'il doit faire. Dans le modèle Karpathy Autoresearch, programmer signifie écrire des prompts qui indiquent à une organisation comment faire de la recherche.
Ce n'est pas une métaphore. La "base de code" de Karpathy Autoresearch est program.md. Le fichier de configuration est un document Markdown en langage naturel. C'est un vrai changement de niveau d'abstraction.
Pour les développeurs et les agences, cela a des implications concrètes. Quiconque développe des systèmes d'agents IA aujourd'hui doit comprendre comment écrire des prompts organisationnels — pas seulement comment construire les agents techniquement. La compétence à rédiger un bon program.md est aussi importante que l'implémentation technique des agents eux-mêmes.
Nous l'avons reconnu tôt chez Context Studios. Notre approche du développement d'agents IA commence donc non pas par l'architecture technique, mais par la question : Que doit savoir cet agent ? Que doit-il pouvoir faire ? Et surtout : Que ne doit-il pas décider seul ?
Bien répondre à cette troisième question, c'est ce qui distingue une automatisation utile d'un bruit coûteux. Notre guide sur l'ingénierie de prompt couvre les techniques pratiques pour rédiger des instructions d'agents qui produisent des résultats fiables et évolutifs.
Ce que Karpathy Autoresearch Signifie pour le Développement IA
Karpathy Autoresearch met en lumière trois insights qui comptent pour quiconque travaille avec des systèmes IA :
1. L'argument de la parallélisation pour les agents est réel. 8 agents, 12 heures, 110 expériences — ce n'est pas du buzz. C'est un débit démontré. Ce qui prenait auparavant une semaine à un chercheur prend maintenant une nuit. Cela change fondamentalement l'économie de la R&D — pas seulement pour la recherche en IA.
2. La qualité du prompt égale la qualité de l'output. Un program.md faible produit des résultats confondus que personne ne peut utiliser. Un prompt solide produit des insights exploitables. L'ingénierie de prompt n'est plus une compétence douce — c'est la discipline d'ingénierie de la décennie.
3. La frontière chercheur/ingénieur se dissout. Karpathy Autoresearch est simultanément un framework de recherche et un système de production. L'exploiter requiert d'être scientifique, ingénieur et designer organisationnel. Cette convergence n'est pas réversible.
Pour les organisations qui souhaitent intégrer des agents IA dans leurs pipelines de développement, Karpathy Autoresearch est un excellent modèle mental. Pas comme plan directeur à copier, mais comme point de référence : voilà à quoi ressemble la collaboration humain-machine dans le travail de connaissance quand elle fonctionne.
FAQ
Qu'est-ce que Karpathy Autoresearch exactement ?
Karpathy Autoresearch est un framework open-source d'Andrej Karpathy où des agents IA mènent de façon autonome des expériences d'entraînement LLM. Les humains définissent des objectifs dans un fichier Markdown (program.md), les agents modifient le code d'entraînement, lancent des expériences de 5 minutes et itèrent. Dans un test, 110+ expériences ont été menées en 12 heures sur 8 GPU H100.
Combien d'expériences par heure Karpathy Autoresearch peut-il effectuer ?
Avec un budget fixe de 5 minutes par expérience, Karpathy Autoresearch atteint environ 12 expériences par heure. Sur une nuit (8-12 heures), cela représente 100+ runs d'entraînement autonomes — bien plus que n'importe quelle équipe de recherche humaine sur la même fenêtre.
Quels modèles IA ont été utilisés dans l'expérience Karpathy Autoresearch ?
L'expérience publiée a utilisé 8 agents : 4 instances Claude (Anthropic) et 4 instances Codex (OpenAI), dans diverses structures organisationnelles — certains en parallèle, d'autres en hiérarchies.
Les agents IA peuvent-ils vraiment faire de la recherche indépendante ?
Karpathy Autoresearch montre que les agents sont d'excellents exécuteurs d'espaces de recherche clairement définis, mais pas des scientifiques indépendants. Un agent a "découvert" que les réseaux plus grands fonctionnent mieux — un résultat confondu que Karpathy a dû corriger manuellement. La question de quelles expériences méritent d'être menées reste humaine.
Qu'est-ce que val_bpb et pourquoi est-ce la métrique choisie ?
val_bpb signifie "validation bits per byte" — une mesure de la façon dont le modèle de langage compresse le dataset de validation. Plus bas c'est mieux. Karpathy Autoresearch l'utilise parce que c'est automatiquement calculable et ne nécessite aucun jugement humain.
En quoi Karpathy Autoresearch diffère-t-il de l'AutoML standard ?
L'AutoML standard explore des grilles d'hyperparamètres prédéfinies. Les agents Karpathy Autoresearch peuvent modifier le code d'entraînement lui-même — tester de nouvelles architectures, modifier la logique de traitement des données, expérimenter des approches entièrement nouvelles. C'est un degré de liberté qualitativement différent.
Sources : Karpathy Autoresearch GitHub | Analyse de Glen Rhodes