Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Îmi place să antrenez rețele neuronale mari și profunde. Anterior director AI @ Tesla, echipa fondatoare @ OpenAI, PhD @ Stanford.
Am împachetat proiectul de "autocercetare" într-un nou depozit minimal autonom, dacă oamenii ar dori să joace în weekend. Practic, este un nucleu de antrenament LLM nanochat, redus la o singură versiune cu un singur GPU, un singur fișier, de aproximativ 630 de linii de cod, apoi:
- omul itera pe prompt (.md)
- agentul AI itera codul de antrenament (.py)
Scopul este să-ți proiectezi agenții să facă cel mai rapid progres în cercetare, pe termen nelimitat și fără implicarea ta. În imagine, fiecare punct este o rundă completă de antrenament LLM care durează exact 5 minute. Agentul funcționează într-un ciclu autonom pe o ramură de caracteristică git și acumulează commit-uri git în scriptul de antrenament pe măsură ce găsește setări mai bune (cu pierdere mai mică de validare până la final) ale arhitecturii rețelei neuronale, optimizatorului, tuturor hiperparametrilor etc. Îți poți imagina compararea progresului cercetării diferitelor prompturi, agenți diferiți etc.
Parțial cod, parțial SF și un strop de psihoză :)

924
Am avut aceeași idee, așa că m-am jucat cu asta în nanochat. De exemplu, aici sunt 8 agenți (4 claude, 4 codex), fiecare cu câte 1 GPU care rulează experimente nanochat (încercând să șterg softcap logit fără regresie). Pe scurt, nu funcționează și e un haos... Dar tot este foarte frumos de privit :)
Am încercat câteva configurații: 8 cercetători independenți solo, 1 cercetător șef care dădea muncă la 8 cercetători juniori, etc. Fiecare program de cercetare este o ramură git, fiecare om de știință o bifurcează într-o ramură de funcționalitate, arbori de lucru git pentru izolare, fișiere simple pentru comunicații, sărind peste Docker/VM-uri pentru simplitate momentan (consider că instrucțiunile sunt suficiente pentru a preveni interferențele). Organizația de cercetare rulează în grile de ferestre tmux cu sesiuni interactive (ca Teams), astfel încât să fie frumos de privit, de văzut munca lor individuală și de "preluat" dacă e nevoie, adică fără -p.
Dar, ok, motivul pentru care nu funcționează până acum este că ideile agenților sunt destul de proaste din start, chiar și la cel mai mare nivel de inteligență. Nu gândesc cu atenție designul experimentelor, folosesc variații puțin absurde, nu creează baze puternice și nu ablează corect lucrurile, nu controlează cu grijă durata de execuție sau eșecurile. (Ca exemplu, un agent a "descoperit" ieri că mărirea dimensiunii ascunse a rețelei crește pierderea de validare, ceea ce este un rezultat total fals având în vedere că o rețea mai mare va avea o pierdere de validare mai mică în regimul infinit de date, dar apoi antrenează mult mai mult timp, nu este clar de ce a trebuit să vin să subliniez asta). Sunt foarte buni la implementarea oricărei idei bine conturate și descrise, dar nu le generează creativ.
Dar scopul este ca acum să programezi o organizație (de exemplu, o "organizație de cercetare") și agenții săi individuali, astfel încât "codul sursă" este colecția de prompturi, abilități, unelte etc. și procese care îl compun. De exemplu, un stand up zilnic dimineața face acum parte din "codul organizației". Și optimizarea preantrenării nanochat este doar una dintre multele sarcini (aproape ca o evaluare). Atunci – având o sarcină arbitrară, cât de repede organizația ta de cercetare generează progrese în această privință?

Thomas Wolf28 feb. 2026
De ce provocarea NanoGPT speedrun nu este acum cercetare complet automatizată de AI?
1,37K
Limită superioară
Clasament
Favorite
