DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Christine Yip

Cofondator @ensue_ai. Oferim agenților AI inteligență colectivă. Învățăcel pe tot parcursul vieții | Anterior, construirea infrastructurii pentru antrenamentul AI @gensynai, acum infrastructură pentru agenți.

Jurnalul roiului de ziua 2: perspective din încă ~500 de experimente Dacă încă rulezi autocercetare pe cont propriu - poți ține pasul cu roiul de agenți?

Pentru cei care conduc autocercetare: iată top 10 rezultate ale Zilei 2 de la 60+ agenți din 1.600 de experimente pe autoresearch@home (+500 de ieri). Încep să apară unele tipare. 1. Pașii de antrenament încă domină totul 2. O nouă normalizare a optimizării (~1.10) a îmbunătățit constant rezultatele 3. Cea mai eficientă strategie a devenit "replay → microtune" 4. Nivelurile hardware schimbă fundamental peisajul cercetării 5. Progresul vine acum în rafale 6. Hiperparametrii interacționează mai mult decât se aștepta 7. Încălzirea completă converge spre 1.0 8. GPU-urile non-datacenter pot totuși face progrese semnificative 9. Rolurile de cercetare apar organic 10. Cea mai mare oportunitate este încă neexplorată 1⃣ Pașii de antrenament încă domină totul Unul dintre agenți (Phoenix) a avut o descoperire, și aceasta a venit din reducerea ns_steps Muon de la 9 → 7, slăbind ușor optimizerul, dar permițând mai mulți pași de antrenament în bugetul de 5 minute. Mai mulți pași depășesc teoretic o optimizare mai bună. 2⃣ A apărut un nou ax de optimizare: QK attention scaling Scalarea Q și K după normalizare (~1.10) a îmbunătățit constant rezultatele. Acesta ascuțește atenția fără a schimba arhitectura și a produs o îmbunătățire de ~0,001 BPB. O mică ajustare, un câștig măsurabil. 3⃣ Cea mai eficientă strategie a devenit "replay → microtune" Agenții de top din ce în ce mai mult: Rerulează cea mai bună configurație actuală Confirmă baza hardware-ului lor Parametrii Sweep 1–2 Phoenix a doborât recordul global cu 3 experimente în 27 de minute, folosind exact acest model. 4⃣ Nivelurile hardware schimbă fundamental peisajul cercetării Roiul urmărește acum nivelurile VRAM: • mic (≤12GB) • mediu (16–24GB) • mari (24–48GB) • XL (≥48GB) Agenții de pe plăcile video de consum și H200 rezolvă diferite probleme de optimizare. Aceasta s-a dovedit a fi atât o inovație tehnică, cât și socială. 5⃣ Progresul vine acum în rafale Ziua 2 a avut 14 ore de stagnare totală. Apoi frontiera s-a mutat de trei ori în 27 de minute. Același tipar se repetă din prima zi: platourile se rup când cineva găsește o pârghie calitativ nouă (de exemplu, inițializarea în Ziua 1 ns_steps reducerea în Ziua 2) Când spațiul hiperparametrilor este epuizat, următorul câștig necesită o nouă clasă de schimbare. 6⃣ Hiperparametrii interacționează mai mult decât se aștepta Exemplu: FINAL_LR_FRAC = 0,03 ajutat când încălzirea = 0,9 dar a regresat catastrofal la încălzire = 1.0. Hiperparametrii nu sunt butoane independente – multe rezultate nu se transferă între regimuri. 7⃣ Încălzirea completă converge spre 1.0 Raport optim de încălzire de la lansarea rețelei: 0,3 → 0,5 → 0,8 → 0,9 → 1,0. LR-ul ar trebui să înceapă să se descompună aproape imediat după încălzire. Unul dintre puținii hiperparametri care se transferă curat între fiecare zi și nivel hardware 8⃣ GPU-urile non-datacenter pot totuși face progrese semnificative Cipher pe un RTX A5000 și-a îmbunătățit nivelul de la 1.103 → 1.094 BPB prin scanări sistematice. Între timp, M5Max a comprimat zilele de învățare în ~6 ore. Sistemul de niveluri VRAM permite acum urmărirea acestor contribuții alături de frontiera H200. 9⃣ Rolurile de cercetare apar organic Diferiți agenți încep să se specializeze: • spargători de frontieră • exploratori arhitecturali • optimizatoare hardware de buget • testatori defensivi • meta-analiști care generează ipoteze Arată tot mai mult ca un laborator de cercetare distribuit. 🔟 Cea mai mare oportunitate este încă neexplorată Există mii de ipoteze despre: • învățare curriculară • filtrarea seturilor de date • ponderarea domeniului … Dar aproape niciuna nu a fost testată până acum. Roiul s-a concentrat aproape în totalitate pe arhitectură și spațiul optimizatoare până acum. 👁️ Meta observație De-a lungul zilelor de la lansarea rețelei: • BPB s-a îmbunătățit cu 0,9949 → 0,9597, dar rata de îmbunătățire încetinește. • Fiecare platou a fost depășit doar prin descoperirea unei noi clase de schimbări. • Următoarea frontieră probabil nu sunt hiperparametrii. Probabil este optimizarea pipeline-ului de date. 🗞️ Notă: Aceste rezultate au fost generate acum ~24 de ore. De atunci, autoresearch@home a crescut la 80+ agenți care au derulat 2200+ experimente. Nu ratați: Dacă doriți să vă conectați agentul la roiul și să construiți direct pe baza cercetării colective, consultați instrucțiunile de mai jos. 👇🧵 ----- Aceste descoperiri provin de la agenți care funcționează pe autoresearch@home. Mulțumiri uriașe lui @karpathy pentru ideea originală de autocercetare și @AntoineContes @georgepickett, @snwy_me, @jayz3nith, @turbo_xo_, @lessand_ro, @swork_ și tuturor celor care contribuie cu experimentele.

Limită superioară

Clasament

Favorite