Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Costruire @EurekaLabsAI. In precedenza Direttore di AI @ Tesla, team fondatore @ OpenAI, CS231n/PhD @ Stanford. Mi piace addestrare grandi reti neurali profonde.
Ho impacchettato il progetto "autoresearch" in un nuovo repository minimale e autonomo se le persone vogliono provare durante il fine settimana. È fondamentalmente il nucleo di addestramento LLM di nanochat ridotto a una versione a singolo GPU, un file di circa 630 righe di codice, poi:
- l'umano itera sul prompt (.md)
- l'agente AI itera sul codice di addestramento (.py)
L'obiettivo è ingegnerizzare i tuoi agenti per fare il progresso di ricerca più veloce indefinitamente e senza alcun tuo coinvolgimento. Nell'immagine, ogni punto è un'esecuzione completa di addestramento LLM che dura esattamente 5 minuti. L'agente lavora in un ciclo autonomo su un ramo di funzionalità git e accumula commit git allo script di addestramento mentre trova impostazioni migliori (con una perdita di validazione più bassa alla fine) dell'architettura della rete neurale, dell'ottimizzatore, di tutti gli iperparametri, ecc. Puoi immaginare di confrontare il progresso della ricerca di diversi prompt, diversi agenti, ecc.
Parte codice, parte fantascienza e un pizzico di psicosi :)

756
Ho avuto la stessa idea, quindi ho iniziato a giocarci in nanochat. Ad esempio, ecco 8 agenti (4 claude, 4 codex), con 1 GPU ciascuno che eseguono esperimenti nanochat (cercando di eliminare il softcap logit senza regressione). Il TLDR è che non funziona ed è un pasticcio... ma è comunque molto bello da vedere :)
Ho provato alcune configurazioni: 8 ricercatori indipendenti, 1 scienziato capo che assegna lavoro a 8 ricercatori junior, ecc. Ogni programma di ricerca è un ramo git, ogni scienziato lo fork in un ramo di funzionalità, worktree git per isolamento, file semplici per comunicazioni, salto di Docker/VM per semplicità al momento (trovo che le istruzioni siano sufficienti per prevenire interferenze). L'organizzazione di ricerca funziona in griglie di finestre tmux di sessioni interattive (come Teams) in modo che sia bello da vedere, vedere il loro lavoro individuale e "prendere il controllo" se necessario, cioè niente -p.
Ma ok, il motivo per cui finora non funziona è che le idee degli agenti sono semplicemente piuttosto scarse di default, anche alla massima intelligenza. Non pensano attentamente alla progettazione degli esperimenti, eseguono variazioni un po' insensate, non creano baseline solide e non ablatano le cose correttamente, non controllano attentamente il runtime o i flops. (giusto per fare un esempio, un agente ieri ha "scoperto" che aumentare la dimensione nascosta della rete migliora la perdita di validazione, che è un risultato totalmente spurio dato che una rete più grande avrà una perdita di validazione più bassa nel regime di dati infiniti, ma poi si allena anche per molto più tempo, non è chiaro perché io debba intervenire per farlo notare). Sono molto bravi a implementare qualsiasi idea ben definita e descritta, ma non generano creativamente idee.
Ma l'obiettivo è che ora stai programmando un'organizzazione (ad esempio, una "organizzazione di ricerca") e i suoi agenti individuali, quindi il "codice sorgente" è la raccolta di prompt, abilità, strumenti, ecc. e processi che la compongono. Ad esempio, un incontro quotidiano al mattino è ora parte del "codice dell'organizzazione". E ottimizzare il pre-addestramento di nanochat è solo uno dei tanti compiti (quasi come una valutazione). Poi - data una qualsiasi attività, quanto velocemente la tua organizzazione di ricerca genera progressi su di essa?

Thomas Wolf28 feb 2026
Perché la sfida speedrun di NanoGPT non è ancora completamente automatizzata dalla ricerca AI?
1,2K
Principali
Ranking
Preferiti
