Karpathy Autoresearch: Un Prompt Sostituisce il Paper

Andrej Karpathy ha pubblicato Karpathy Autoresearch — un framework in cui agenti IA conducono esperimenti LLM in modo autonomo. 110+ run in 12h su 8×H100.

Karpathy Autoresearch: Un Prompt Sostituisce il Paper

Karpathy Autoresearch: Un Prompt Sostituisce il Paper

Il 7 marzo 2026, Andrej Karpathy ha pubblicato Karpathy Autoresearch — un repository GitHub minimale che dimostra cosa succede quando gli agenti IA conducono esperimenti di addestramento LLM senza supervisione durante la notte. Il risultato: oltre 110 commit in 12 ore su 8 GPU NVIDIA H100. Nessun ricercatore ha lavorato tutta la notte. Gli agenti lo hanno fatto.

Karpathy Autoresearch non è un prodotto. Non è una piattaforma rifinita. Sono tre file e una proof of concept — e un segnale che solleva una domanda scomoda: se un prompt Markdown può sostituire una notte di ricerca, cosa significa per il modo in cui costruiamo l'IA?

Cos'è Karpathy Autoresearch?

Karpathy Autoresearch è un framework sperimentale in cui gli agenti IA conducono autonomamente esperimenti di addestramento LLM. L'umano scrive un obiettivo in Markdown. L'agente legge il file, modifica il codice di addestramento, esegue un run di 5 minuti, valuta i risultati e itera.

Il repository contiene esattamente tre file:

  • prepare.py — preparazione dei dati, fisso, non modificabile dall'agente
  • train.py — il codice di addestramento vero e proprio; l'agente può modificarlo liberamente
  • program.md — il file di controllo; qui l'umano scrive gli obiettivi di ricerca

La metrica di ottimizzazione è deliberatamente semplice: val_bpb (validation bits per byte) — più basso è meglio. Nessun framework di valutazione complesso. Nessun giudizio umano in tempo reale nel loop. L'agente ottimizza ciò che può misurare.

Tecnicamente, Karpathy Autoresearch si basa su nanochat, l'implementazione semplificata di addestramento LLM su GPU singola di Karpathy. Nell'esperimento pubblicato, 8 agenti operavano simultaneamente — 4 istanze Claude (Anthropic) e 4 istanze Codex (OpenAI) — in diverse strutture organizzative. A 5 minuti per esperimento, sono circa 12 esperimenti all'ora, oltre 100 in una notte.

Tre File, Una Notte, 110 Esperimenti

I numeri di questo singolo run notturno meritano attenzione: 110+ commit Git, 12 ore, 8 GPU che operano in parallelo. Karpathy lo dice chiaramente nel README:

"One day, frontier AI research used to be done by meat computers in between eating, sleeping... Research is now entirely the domain of autonomous swarms of AI agents running across compute cluster megastructures in the skies."

Non è iperbole. È una constatazione fattuale.

La struttura multi-agente era deliberata. Karpathy Autoresearch ha testato diverse configurazioni organizzative — alcuni agenti in parallelo, altri in gerarchie. Il dividendo della parallelizzazione è sostanziale. Invece di un ricercatore occupato per 12 ore, 8 agenti lavorano simultaneamente, condividono risultati e continuano a iterare. Il tempo reale per esplorare uno spazio di ricerca si riduce drasticamente.

Quello che Karpathy Autoresearch non afferma: consegnare breakthrough. Gli agenti ottimizzano all'interno di uno spazio di ricerca ben definito. Trovano miglioramenti locali. Ma non inventano lo spazio di ricerca.

Cosa gli Agenti Fanno Bene — e Dove Falliscono

Glen Rhodes ha pubblicato un'analisi dettagliata di Karpathy Autoresearch che formula la conclusione centrale con precisione: gli agenti sono "molto bravi nell'implementare qualsiasi idea ben definita, ma non le generano creativamente."

Karpathy Autoresearch conferma due cose simultaneamente:

Cosa funziona: La parallelizzazione. Quando l'umano definisce lo spazio di ricerca giusto, gli agenti possono esplorarlo a una velocità e resistenza che nessun team umano eguaglia. 12 esperimenti all'ora, di notte, senza caffè né interruzioni di contesto.

Cosa non funziona: Il giudizio scientifico. Un agente ha "scoperto" che reti più grandi riducono la perdita — un risultato banalmente confuso che Karpathy ha dovuto correggere manualmente. L'agente aveva tecnicamente ragione ma era intellettualmente vuoto: non sapeva perché il risultato fosse privo di valore. Non riusciva a distinguere una vera scoperta da un fattore confondente.

Il collo di bottiglia si trova a monte: quali esperimenti vale la pena condurre? Questa domanda rimane umana. Karpathy Autoresearch lo rende esplicito attraverso la sua architettura — program.md è il luogo dove si dispiegà l'intelligenza umana. Tutto ciò che è a valle appartiene agli agenti.

Karpathy lo formula con precisione: "You're programming an organization. The source code is the collection of prompts, skills, tools, and processes."

La Nostra Esperienza a Context Studios: Lo Stesso Paradigma nel Quotidiano

Quando Karpathy Autoresearch è uscito, è stato un riconoscimento immediato — perché operiamo la stessa architettura quotidianamente, in un dominio diverso.

Gestiamo oltre 16 cron job autonomi ogni giorno. Ognuno è essenzialmente un program.md: Mike ha definito una volta cosa l'agente deve perseguire, quali standard di qualità si applicano, quali vincoli rispettare. L'agente esegue, itera, registra. Notte dopo notte, senza supervisione.

Esempi concreti dalle nostre operazioni quotidiane:

  • Pipeline di contenuti: Un agente ricerca ogni giorno argomenti IA rilevanti, scrive bozze in quattro lingue (DE, EN, FR, IT), genera immagini hero, pubblica post del blog e li distribuisce su LinkedIn, X e Facebook — tutto senza intervento umano nel processo stesso.
  • SEO Healer: Un agente scansiona tutti i post pubblicati alla ricerca di meta description mancanti, array di keyword vuoti e link di traduzione interrotti. Ripara ciò che può, escalation per ciò che non può.
  • Engagement social: Un agente commenta ogni giorno post LinkedIn rilevanti nel nostro dominio — non come spam, ma come prospettiva curata allineata al nostro posizionamento.

Ciò che Karpathy misura con val_bpb, lo misuriamo con traffico, tasso di engagement e punteggio di qualità di pubblicazione. Ciò che scrive in program.md, lo scriviamo nei prompt dei task cron. L'architettura è identica.

E la conclusione centrale di Karpathy vale anche per noi: gli agenti eseguono brillantemente. Ma la decisione su cosa vale la pena eseguire — quali argomenti contano, quali audience prioritizzare, quali standard di qualità applicare — rimane umana. Ogni giorno. Senza eccezioni.

Non è un limite da aggirare. È la giusta divisione del lavoro.

Per chi vuole sviluppare i propri sistemi di agenti IA, il modello Karpathy Autoresearch è un utile framework mentale — anche se non si addestrano LLM. L'architettura obiettivo (umano) + esecuzione (agente) + ottimizzazione della metrica (agente) si applica a quasi tutti i domini del lavoro intellettuale.

Il Vero Cambiamento: Cosa Significa "Programmare" Ora?

Karpathy Autoresearch è anche un commento su come il significato di "programmare" stia evolvendo. Tradizionalmente, programmare significava scrivere codice che istruisce un computer su cosa fare. Nel modello Karpathy Autoresearch, programmare significa scrivere prompt che istruiscono un'organizzazione su come fare ricerca.

Non è una metafora. La "codebase" di Karpathy Autoresearch è program.md. Il file di configurazione è un documento Markdown in linguaggio naturale. Questo è un vero cambiamento nel livello di astrazione.

Per gli sviluppatori e le agenzie, questo ha implicazioni concrete. Chiunque sviluppi sistemi di agenti IA oggi deve capire come scrivere prompt organizzativi — non solo come costruire gli agenti tecnicamente. La capacità di scrivere un buon program.md è importante quanto l'implementazione tecnica degli agenti stessi.

Lo abbiamo riconosciuto presto a Context Studios. Il nostro approccio allo sviluppo di agenti IA inizia quindi non dall'architettura tecnica, ma dalla domanda: Cosa deve sapere questo agente? Cosa deve saper fare? E soprattutto: Cosa non deve decidere da solo?

Rispondere correttamente a questa terza domanda è ciò che distingue un'automazione utile da un rumore costoso. La nostra guida al prompt engineering copre le tecniche pratiche per scrivere istruzioni per agenti che producono output affidabili e scalabili.

Cosa Significa Karpathy Autoresearch per lo Sviluppo IA

Karpathy Autoresearch mette in luce tre insight rilevanti per chiunque lavori con sistemi IA:

1. L'argomento della parallelizzazione per gli agenti è reale. 8 agenti, 12 ore, 110 esperimenti — non è hype. È un throughput dimostrato. Ciò che prima richiedeva a un ricercatore una settimana ora richiede una notte. Questo cambia fondamentalmente l'economia della R&D — non solo per la ricerca in IA.

2. La qualità del prompt equivale alla qualità dell'output. Un program.md debole produce risultati confusi che nessuno può utilizzare. Un prompt solido produce insight azionabili. Il prompt engineering non è più una competenza morbida — è la disciplina ingegneristica del decennio.

3. Il confine ricercatore/ingegnere si sta dissolvendo. Karpathy Autoresearch è simultaneamente un framework di ricerca e un sistema di produzione. Operarlo richiede di essere scienziato, ingegnere e designer organizzativo. Questa convergenza non è reversibile.

Per le organizzazioni che vogliono integrare agenti IA nelle loro pipeline di sviluppo, Karpathy Autoresearch è un eccellente modello mentale. Non come progetto da copiare, ma come punto di riferimento: ecco come appare la collaborazione uomo-macchina nel lavoro intellettuale quando funziona.

FAQ

Cos'è esattamente Karpathy Autoresearch?

Karpathy Autoresearch è un framework open-source di Andrej Karpathy in cui agenti IA conducono autonomamente esperimenti di addestramento LLM. Gli umani definiscono obiettivi in un file Markdown (program.md), gli agenti modificano il codice di addestramento, eseguono esperimenti di 5 minuti e iterano. In un test, 110+ esperimenti sono stati condotti in 12 ore su 8 GPU H100.

Quanti esperimenti all'ora può eseguire Karpathy Autoresearch?

Con un budget fisso di 5 minuti per esperimento, Karpathy Autoresearch raggiunge circa 12 esperimenti all'ora. Nel corso di una notte (8-12 ore), si tratta di 100+ run di addestramento autonomi — molto di più di qualsiasi team di ricerca umano nella stessa finestra temporale.

Quali modelli IA sono stati utilizzati nell'esperimento Karpathy Autoresearch?

L'esperimento pubblicato ha utilizzato 8 agenti: 4 istanze Claude (Anthropic) e 4 istanze Codex (OpenAI), in varie strutture organizzative — alcuni in parallelo, altri in gerarchie.

Gli agenti IA possono davvero fare ricerca indipendente?

Karpathy Autoresearch mostra che gli agenti sono eccellenti esecutori di spazi di ricerca chiaramente definiti, ma non scienziati indipendenti. Un agente ha "scoperto" che le reti più grandi funzionano meglio — un risultato confuso che Karpathy ha dovuto correggere manualmente. La questione di quali esperimenti vale la pena condurre rimane umana.

Cos'è val_bpb e perché è la metrica scelta?

val_bpb sta per "validation bits per byte" — una misura di quanto bene il modello linguistico comprime il dataset di validazione. Più basso è meglio. Karpathy Autoresearch lo utilizza perché è calcolabile automaticamente e non richiede giudizio umano.

In cosa differisce Karpathy Autoresearch dall'AutoML standard?

L'AutoML standard esplora griglie di iperparametri predefinite. Gli agenti Karpathy Autoresearch possono modificare il codice di addestramento stesso — provare nuove architetture, cambiare la logica di elaborazione dei dati, sperimentare approcci completamente nuovi. Questo è un grado di libertà qualitativamente diverso.


Fonti: Karpathy Autoresearch GitHub | Analisi di Glen Rhodes

Condividi articolo

Share: