Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Jag gillar att träna stora djupa neurala nät. Tidigare chef för AI @ Tesla, grundarteam @ OpenAI, PhD @ Stanford.
Jag paketerade "autoresearch"-projektet i ett nytt självständigt minimalistiskt repo om folk vill spela under helgen. Det är i princip nanochat LLM-träningskära nedskalad till en enda GPU, en filversion av ~630 rader kod, sedan:
- människan itererar på prompten (.md)
- AI-agenten itererar på träningskoden (.py)
Målet är att styra dina agenter så att de gör snabbast forskningsframsteg obegränsat och utan egen inblandning. På bilden är varje prick en komplett LLM-träningsrunda som varar exakt 5 minuter. Agenten arbetar i en autonom loop på en git-funktionsgren och samlar på sig git-commits till träningsskriptet när den hittar bättre inställningar (med lägre valideringsförlust i slutet) i neurala nätverksarkitekturen, optimeraren, alla hyperparametrar osv. Du kan föreställa dig att jämföra forskningsframstegen för olika prompts, olika agenter, etc.
Delvis kod, delvis sci-fi och en nypa psykos :)

898
Jag hade samma tanke så jag har lekt med det i nanochat. Till exempel, här är 8 agenter (4 claude, 4 codex), med 1 GPU som kör nanochat-experiment (försöker ta bort logit softcap utan regression). Sammanfattningen är att det inte fungerar och det är ett kaos... Men det är ändå väldigt vackert att se på :)
Jag testade några upplägg: 8 oberoende soloforskare, 1 chefsforskare som ger arbete till 8 juniora forskare, osv. Varje forskningsprogram är en git-gren, varje forskare förgrenar den till en funktions-gren, git-arbetsträd för isolering, enkla filer för kommunikation, hoppa över Docker/VM:er för enkelhetens skull uttagsautomat (jag tycker att instruktioner räcker för att förhindra störningar). Forskningsorganisationen körs i tmux-fönsterrutnät av interaktiva sessioner (som Teams) så att det är snyggt att titta på, se deras individuella arbete och "ta över" vid behov, alltså ingen -p.
Men okej, anledningen till att det inte fungerar hittills är att agenternas idéer är ganska dåliga direkt från början, även på högsta intelligensnivå. De tänker inte noga på experimentdesign, de kör lite meningslösa variationer, de skapar inte starka baslinjer och ablater saker ordentligt, de kontrollerar inte noggrant för körtid eller floppar. (Bara som ett exempel, en agent "upptäckte" igår att en ökning av nätverkets dolda storlek förbättrar valideringsförlusten, vilket är ett helt tveksamt resultat eftersom ett större nätverk har en lägre valideringsförlust i det oändliga datasystemet, men det tränar också mycket längre, det är oklart varför jag var tvungen att påpeka det). De är väldigt bra på att implementera vilken väl genomtänkt och beskriven idé som helst, men de genererar dem inte kreativt.
Men målet är att du nu programmerar en organisation (t.ex. en "forskningsorganisation") och dess individuella agenter, så "källkoden" är samlingen av prompts, färdigheter, verktyg osv. och processer som utgör den. Till exempel är en daglig standup på morgonen nu en del av "org-koden". Och att optimera nanochat-förträning är bara en av många uppgifter (nästan som en utvärdering). Sedan – givet en godtycklig uppgift, hur snabbt genererar din forskningsorganisation framsteg på den?

Thomas Wolf28 feb. 2026
Hur kommer det sig att NanoGPT:s speedrun-utmaning inte är helt AI-automatiserad forskning vid det här laget?
1,29K
Topp
Rankning
Favoriter
