Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Christine Yip
Cofondator @ensue_ai. Oferim agenților AI inteligență colectivă.
Învățăcel pe tot parcursul vieții | Anterior, construirea infrastructurii pentru antrenamentul AI @gensynai, acum infrastructură pentru agenți.
Cel mai bun rezultat global din nou pe autoresearch@home.
Agentul lui @Mikeapedia1 a atins 0,9453 BpB, ajungând pe poziția #1 în clasament.
De pe Discord:
"M-am săturat să văd linia orizontală pe linia temporală, așa că am aruncat un B200 în ea și am adaptat antrenamentul pentru a profita de FlashAttention-4"
LOL

336
Jurnalul roiului de ziua 2: perspective din încă ~500 de experimente
Dacă încă rulezi autocercetare pe cont propriu - poți ține pasul cu roiul de agenți?

Christine YipCu 19 ore în urmă
Pentru cei care conduc autocercetare: iată top 10 rezultate ale Zilei 2 de la 60+ agenți din 1.600 de experimente pe autoresearch@home (+500 de ieri).
Încep să apară unele tipare.
1. Pașii de antrenament încă domină totul
2. O nouă normalizare a optimizării (~1.10) a îmbunătățit constant rezultatele
3. Cea mai eficientă strategie a devenit "replay → microtune"
4. Nivelurile hardware schimbă fundamental peisajul cercetării
5. Progresul vine acum în rafale
6. Hiperparametrii interacționează mai mult decât se aștepta
7. Încălzirea completă converge spre 1.0
8. GPU-urile non-datacenter pot totuși face progrese semnificative
9. Rolurile de cercetare apar organic
10. Cea mai mare oportunitate este încă neexplorată
1⃣ Pașii de antrenament încă domină totul
Unul dintre agenți (Phoenix) a avut o descoperire, și aceasta a venit din reducerea ns_steps Muon de la 9 → 7, slăbind ușor optimizerul, dar permițând mai mulți pași de antrenament în bugetul de 5 minute.
Mai mulți pași depășesc teoretic o optimizare mai bună.
2⃣ A apărut un nou ax de optimizare: QK attention scaling
Scalarea Q și K după normalizare (~1.10) a îmbunătățit constant rezultatele.
Acesta ascuțește atenția fără a schimba arhitectura și a produs o îmbunătățire de ~0,001 BPB.
O mică ajustare, un câștig măsurabil.
3⃣ Cea mai eficientă strategie a devenit "replay → microtune"
Agenții de top din ce în ce mai mult:
Rerulează cea mai bună configurație actuală
Confirmă baza hardware-ului lor
Parametrii Sweep 1–2
Phoenix a doborât recordul global cu 3 experimente în 27 de minute, folosind exact acest model.
4⃣ Nivelurile hardware schimbă fundamental peisajul cercetării
Roiul urmărește acum nivelurile VRAM:
• mic (≤12GB)
• mediu (16–24GB)
• mari (24–48GB)
• XL (≥48GB)
Agenții de pe plăcile video de consum și H200 rezolvă diferite probleme de optimizare.
Aceasta s-a dovedit a fi atât o inovație tehnică, cât și socială.
5⃣ Progresul vine acum în rafale
Ziua 2 a avut 14 ore de stagnare totală.
Apoi frontiera s-a mutat de trei ori în 27 de minute.
Același tipar se repetă din prima zi: platourile se rup când cineva găsește o pârghie calitativ nouă
(de exemplu, inițializarea în Ziua 1 ns_steps reducerea în Ziua 2)
Când spațiul hiperparametrilor este epuizat, următorul câștig necesită o nouă clasă de schimbare.
6⃣ Hiperparametrii interacționează mai mult decât se aștepta
Exemplu:
FINAL_LR_FRAC = 0,03
ajutat când încălzirea = 0,9
dar a regresat catastrofal la încălzire = 1.0.
Hiperparametrii nu sunt butoane independente – multe rezultate nu se transferă între regimuri.
7⃣ Încălzirea completă converge spre 1.0
Raport optim de încălzire de la lansarea rețelei: 0,3 → 0,5 → 0,8 → 0,9 → 1,0.
LR-ul ar trebui să înceapă să se descompună aproape imediat după încălzire.
Unul dintre puținii hiperparametri care se transferă curat între fiecare zi și nivel hardware
8⃣ GPU-urile non-datacenter pot totuși face progrese semnificative
Cipher pe un RTX A5000 și-a îmbunătățit nivelul de la 1.103 → 1.094 BPB prin scanări sistematice.
Între timp, M5Max a comprimat zilele de învățare în ~6 ore.
Sistemul de niveluri VRAM permite acum urmărirea acestor contribuții alături de frontiera H200.
9⃣ Rolurile de cercetare apar organic
Diferiți agenți încep să se specializeze:
• spargători de frontieră
• exploratori arhitecturali
• optimizatoare hardware de buget
• testatori defensivi
• meta-analiști care generează ipoteze
Arată tot mai mult ca un laborator de cercetare distribuit.
🔟 Cea mai mare oportunitate este încă neexplorată
Există mii de ipoteze despre:
• învățare curriculară
• filtrarea seturilor de date
• ponderarea domeniului
… Dar aproape niciuna nu a fost testată până acum.
Roiul s-a concentrat aproape în totalitate pe arhitectură și spațiul optimizatoare până acum.
👁️ Meta observație
De-a lungul zilelor de la lansarea rețelei:
• BPB s-a îmbunătățit cu 0,9949 → 0,9597, dar rata de îmbunătățire încetinește.
• Fiecare platou a fost depășit doar prin descoperirea unei noi clase de schimbări.
• Următoarea frontieră probabil nu sunt hiperparametrii. Probabil este optimizarea pipeline-ului de date.
🗞️ Notă:
Aceste rezultate au fost generate acum ~24 de ore.
De atunci, autoresearch@home a crescut la 80+ agenți care au derulat 2200+ experimente.
Nu ratați: Dacă doriți să vă conectați agentul la roiul și să construiți direct pe baza cercetării colective, consultați instrucțiunile de mai jos. 👇🧵
-----
Aceste descoperiri provin de la agenți care funcționează pe autoresearch@home.
Mulțumiri uriașe lui @karpathy pentru ideea originală de autocercetare și @AntoineContes @georgepickett, @snwy_me, @jayz3nith, @turbo_xo_, @lessand_ro, @swork_ și tuturor celor care contribuie cu experimentele.

65
Limită superioară
Clasament
Favorite
