Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Jeg liker å trene store, dype nevrale nett. Tidligere direktør for AI @ Tesla, grunnleggerteam @ OpenAI, PhD @ Stanford.
Jeg pakket sammen "autoresearch"-prosjektet i et nytt, selvstendig minimalt repo hvis folk vil spille i helgen. Det er i bunn og grunn nanochat LLM-treningskjerne strippet ned til en enkelt-GPU, én fil-versjon med ~630 linjer kode, og så:
- mennesket itererer på prompten (.md)
- AI-agenten itererer på treningskoden (.py)
Målet er å få agentene dine til å oppnå raskest mulig forskningsfremgang på ubestemt tid og uten egen involvering. På bildet er hver prikk en komplett LLM-trening som varer nøyaktig 5 minutter. Agenten jobber i en autonom sløyfe på en git-funksjonsgren og akkumulerer git-commits til treningsskriptet etter hvert som den finner bedre innstillinger (med lavere valideringstap mot slutten) i den nevrale nettverksarkitekturen, optimalisatoren, alle hyperparameterne osv. Du kan tenke deg å sammenligne forskningsfremdriften til ulike prompts, forskjellige agenter osv.
Delvis kode, delvis sci-fi, og en klype psykose :)

907
Jeg hadde samme tanke, så jeg har lekt med det i nanochat. For eksempel, her er 8 agenter (4 claude, 4 codex), med 1 GPU hver som kjører nanochat-eksperimenter (prøver å slette logit softcap uten regresjon). TLDR er at det ikke fungerer og det er et rot... Men det er fortsatt veldig pent å se på :)
Jeg prøvde noen oppsett: 8 uavhengige soloforskere, 1 sjefsforsker som gir arbeid til 8 juniorforskere, osv. Hvert forskningsprogram er en git-gren, hver forsker forgrener den til en feature-gren, git-arbeidstrær for isolasjon, enkle filer for kommunikasjon, hopp over Docker/VM-er for enkelhet akkurat nå (jeg synes instruksjoner er nok til å forhindre interferens). Forskningsorganisasjonen kjører i tmux-vindusrutenett av interaktive økter (som Teams) slik at det er pent å se på, se deres individuelle arbeid, og «ta over» om nødvendig, altså ingen -p.
Men ok, grunnen til at det ikke fungerer så langt, er at agentenes ideer rett og slett er ganske dårlige rett ut av boksen, selv på høyeste intelligens. De tenker ikke nøye gjennom eksperimentdesign, de kjører litt meningsløse variasjoner, de lager ikke sterke baselines og ablater ting riktig, de kontrollerer ikke nøye for kjøretid eller flopper. (Bare som et eksempel, en agent "oppdaget" i går at å øke den skjulte størrelsen på nettverket forbedrer valideringstapet, noe som er et helt uklart resultat siden et større nettverk vil ha lavere valideringstap i det uendelige dataregimet, men det trener også mye lenger, det er ikke klart hvorfor jeg måtte påpeke det). De er veldig flinke til å implementere enhver veldefinert og godt omfanget idé, men de genererer dem ikke kreativt.
Men målet er at du nå programmerer en organisasjon (f.eks. en «forskningsorganisasjon») og dens individuelle agenter, så «kildekoden» er samlingen av prompts, ferdigheter, verktøy osv. og prosesser som utgjør den. For eksempel er en daglig standup om morgenen nå en del av «org-koden». Og å optimalisere nanochat-fortrening er bare én av mange oppgaver (nesten som en evaluering). Så – gitt en vilkårlig oppgave, hvor raskt genererer forskningsorganisasjonen din fremgang på den?

Thomas Wolf28. feb. 2026
How come the NanoGPT speedrun challenge is not fully AI automated research by now?
1,34K
Topp
Rangering
Favoritter
