Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Pidän suurten syvien hermoverkkojen kouluttamisesta. Aiemmin AI:n johtaja @ Tesla, perustajatiimi @ OpenAI, PhD @ Stanford.
Paketoin "autoresearch"-projektin uuteen itsenäiseen minimirepositoon, jos ihmiset haluavat pelata viikonloppuna. Se on käytännössä nanochat LLM -koulutusydin, joka on pelkistetty yhteen GPU:hun, yhteen tiedostoversioon ~630 koodirivistä, sitten:
- ihminen iteroi kehotteen (.md) mukaisesti
- tekoälyagentti iteroi koulutuskoodia (.py)
Tavoitteena on suunnitella agenttisi tekemään nopeinta tutkimusedistystä loputtomasti ilman omaa osallistumistasi. Kuvassa jokainen piste on täydellinen LLM-harjoitus, joka kestää tasan 5 minuuttia. Agentti toimii autonomisessa silmukassa git-ominaisuushaarassa ja kerää git-commit-yhdisteitä koulutusskriptiin, kun se löytää parempia asetuksia (pienempi validointihäviö lopussa) neuroverkkoarkkitehtuurille, optimoijalle, kaikille hyperparametreille jne. Voit kuvitella vertailevasi eri promptien, eri agenttien ym. tutkimuksen edistymistä.
Osa koodia, osittain scifiä ja ripaus psykoosia :)

925
Minulla oli sama ajatus, joten olen kokeillut sitä nanochatissa. Esimerkiksi tässä on 8 agenttia (4 Claudea, 4 codexia), joista kukin suorittaa 1 GPU nanochat-kokeita (yrittäen poistaa logit-softcapin ilman regressiota). TLDR on, että se ei toimi ja se on sekasotku... Mutta se on silti todella kaunis :)
Kokeilin muutamia kokoonpanoja: 8 itsenäistä yksintutkijaa, 1 päätutkija, joka antoi töitä 8 nuoremmalle tutkijalle jne. Jokainen tutkimusohjelma on git-haara, jokainen tutkija haarautuu sen ominaisuushaaraksi, git-työpuita eristämistä varten, yksinkertaiset tiedostot viestintään, Docker/VM:t ohitetaan yksinkertaisuuden vuoksi tällä hetkellä (mielestäni ohjeet riittävät estämään häiriöt). Tutkimusorganisaatio toimii tmux-ikkunaruudukoissa, joissa on interaktiivisia sessioita (kuten Teams), joten on kaunis katsella, nähdä heidän työnsä ja "ottaa ohjat" tarvittaessa, eli ei -p:tä.
Mutta okei, syy siihen, miksi se ei toimi tähän asti, on se, että agenttien ideat ovat laatikosta ulospäin aika huonoja, jopa korkeimmalla älykkyydellä. He eivät ajattele tarkkaan kokeiden suunnittelussa, tekevät hieman järjettömiä variaatioita, eivät luo vahvoja perusviivoja eivätkä poista asioita kunnolla, eivätkä hallitse tarkasti suoritusaikaa tai floppeja. (Esimerkiksi eräs agentti "havaitsi" eilen, että verkon piilotetun koon kasvattaminen parantaa validointihäviötä, mikä on täysin virheellinen tulos, kun otetaan huomioon, että isommassa verkossa on pienempi validointihäviö äärettömässä datajärjestelmässä, mutta se myös harjoittelee paljon pidempään, ei ole selvää, miksi minun piti tulla tuomaan esiin se). He ovat erittäin hyviä toteuttamaan minkä tahansa hyvin perustellun ja kuvatun idean, mutta eivät luo niitä luovasti.
Mutta tavoitteena on, että ohjelmoit nyt organisaation (esim. "tutkimusorganisaation") ja sen yksittäiset agentit, joten "lähdekoodi" on kokoelma kehotuksia, taitoja, työkaluja jne. ja prosesseja, jotka sen muodostavat. Esimerkiksi päivittäinen standup aamulla on nyt osa "organisaatiokoodia". Ja nanochat-esikoulutuksen optimointi on vain yksi monista tehtävistä (melkein kuin arviointi). Sitten – kuinka nopeasti tutkimusorganisaatiosi saa etenemistä satunnaisella tehtävällä?

Thomas Wolf28.2.2026
Miksi NanoGPT-speedrun-haaste ei ole vielä täysin tekoälyn automatisoitua tutkimusta?
1,37K
Johtavat
Rankkaus
Suosikit
