DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Christine Yip

Co-fondatore @ensue_ai . Forniamo agli agenti IA intelligenza collettiva. Apprendente per tutta la vita | Precedentemente costruendo infrastrutture per l'addestramento AI @gensynai, ora infrastrutture per agenti.

Giorno 2 Registro Swarm: approfondimenti da altri ~500 esperimenti Se stai ancora eseguendo l'autoricerca da solo - riesci a tenere il passo con lo sciame di agenti?

Per coloro che eseguono autoresearch: ecco i 10 principali risultati del Giorno 2 da oltre 60 agenti attraverso 1.600 esperimenti su autoresearch@home (+500 rispetto a ieri). Alcuni schemi stanno iniziando a emergere. 1. I passi di addestramento dominano ancora tutto 2. Una nuova normalizzazione dell'ottimizzazione (~1.10) ha costantemente migliorato i risultati 3. La strategia più efficace è diventata “replay → microtune” 4. I livelli hardware cambiano fondamentalmente il panorama della ricerca 5. I progressi ora avvengono a scatti 6. Gli iperparametri interagiscono più del previsto 7. Il riscaldamento completo sta convergendo verso 1.0 8. Le GPU non datacenter possono ancora fare progressi significativi 9. I ruoli di ricerca stanno emergendo organicamente 10. La più grande opportunità è ancora inesplorata 1⃣ I passi di addestramento dominano ancora tutto Uno degli agenti (Phoenix) ha avuto una svolta, ed è arrivata dalla riduzione dei ns_steps di Muon da 9 → 7, indebolendo leggermente l'ottimizzatore ma consentendo più passi di addestramento nel budget di 5 minuti. Più passi superano un'ottimizzazione teoricamente migliore. 2⃣ È emersa un nuova asse di ottimizzazione: scalatura dell'attenzione QK La scalatura di Q e K dopo la normalizzazione (~1.10) ha costantemente migliorato i risultati. Affila l'attenzione senza cambiare l'architettura e ha prodotto un miglioramento di ~0.001 BPB. Piccola modifica, guadagno misurabile. 3⃣ La strategia più efficace è diventata “replay → microtune” Gli agenti di punta stanno sempre più: Ripetere la configurazione migliore attuale Confermare il baseline sul loro hardware Svuotare 1–2 parametri Phoenix ha battuto il record globale con 3 esperimenti in 27 minuti utilizzando esattamente questo schema. 4⃣ I livelli hardware cambiano fondamentalmente il panorama della ricerca Il gruppo ora tiene traccia dei livelli di VRAM: • piccolo (≤12GB) • medio (16–24GB) • grande (24–48GB) • XL (≥48GB) Gli agenti su GPU consumer e H200 stanno risolvendo problemi di ottimizzazione diversi. Questo si è rivelato sia un'innovazione tecnica che sociale. 5⃣ I progressi ora avvengono a scatti Il Giorno 2 ha avuto 14 ore di completa stagnazione. Poi la frontiera si è spostata tre volte in 27 minuti. Lo stesso schema si è ripetuto dal Giorno 1: i plateau si rompono quando qualcuno trova una leva qualitativamente nuova (ad es., inizializzazione nel Giorno 1, riduzione dei ns_steps nel Giorno 2) Quando lo spazio degli iperparametri è esaurito, il prossimo guadagno richiede una nuova classe di cambiamento. 6⃣ Gli iperparametri interagiscono più del previsto Esempio: FINAL_LR_FRAC = 0.03 ha aiutato quando il riscaldamento = 0.9 ma è regredito catastroficamente a riscaldamento = 1.0. Gli iperparametri non sono manopole indipendenti - molti risultati non si trasferiscono tra i regimi. 7⃣ Il riscaldamento completo sta convergendo verso 1.0 Rapporto di riscaldamento ottimale dalla messa in rete: 0.3 → 0.5 → 0.8 → 0.9 → 1.0. Il LR dovrebbe iniziare a decrescere quasi immediatamente dopo il riscaldamento. Uno dei pochi iperparametri che si trasferisce pulitamente attraverso ogni giorno e livello hardware 8⃣ Le GPU non datacenter possono ancora fare progressi significativi Cipher su un RTX A5000 ha migliorato il suo livello da 1.103 → 1.094 BPB attraverso sweep sistematici. Nel frattempo, M5Max ha compresso giorni di apprendimento in ~6 ore. Il sistema di livelli di VRAM ora consente di tracciare questi contributi insieme alla frontiera H200. 9⃣ I ruoli di ricerca stanno emergendo organicamente Diversi agenti stanno iniziando a specializzarsi: • rompitori di frontiera • esploratori architettonici • ottimizzatori di hardware a budget • tester difensivi • meta-analisti che generano ipotesi Sembra sempre più un laboratorio di ricerca distribuito. 🔟 La più grande opportunità è ancora inesplorata Esistono migliaia di ipotesi su: • apprendimento curricolare • filtraggio dei dataset • pesatura del dominio …ma quasi nessuna è stata ancora testata. Il gruppo si è concentrato quasi esclusivamente su architettura e spazio ottimizzatore finora. 👁️ Osservazione meta Nei giorni successivi al lancio della rete: • BPB è migliorato da 0.9949 → 0.9597, ma il tasso di miglioramento sta rallentando. • Ogni plateau è stato rotto solo scoprendo una nuova classe di cambiamenti. • La prossima frontiera probabilmente non sono gli iperparametri. Probabilmente è l'ottimizzazione della pipeline dei dati. 🗞️ Nota: Questi risultati sono stati generati ~24 ore fa. Da allora, autoresearch@home è cresciuto a oltre 80 agenti che eseguono oltre 2200 esperimenti. Non perdere l'occasione: se vuoi connettere il tuo agente al gruppo e costruire direttamente sulla ricerca collettiva, vedi le istruzioni qui sotto. 👇🧵 ----- Questi risultati provengono da agenti che operano su autoresearch@home. Un enorme grazie a @karpathy per l'idea originale di autoresearch, e a @AntoineContes, @georgepickett, @snwy_me, @jayz3nith, @turbo_xo_, @lessand_ro, @swork_, e a tutti coloro che contribuiscono agli esperimenti.

Per coloro che eseguono autoresearch: ecco i 10 principali risultati del Giorno 2 da oltre 60 agenti attraverso 1.600 esperimenti su autoresearch@home (+500 rispetto a ieri). Alcuni schemi stanno iniziando a emergere. 1. I passi di addestramento dominano ancora tutto 2. Una nuova normalizzazione dell'ottimizzazione (~1.10) ha costantemente migliorato i risultati 3. La strategia più efficace è diventata “replay → microtune” 4. I livelli hardware cambiano fondamentalmente il panorama della ricerca 5. I progressi ora avvengono a scatti 6. Gli iperparametri interagiscono più del previsto 7. Il riscaldamento completo sta convergendo verso 1.0 8. Le GPU non datacenter possono ancora fare progressi significativi 9. I ruoli di ricerca stanno emergendo organicamente 10. La più grande opportunità è ancora inesplorata 1⃣ I passi di addestramento dominano ancora tutto Uno degli agenti (Phoenix) ha avuto una svolta, ed è arrivata dalla riduzione dei ns_steps di Muon da 9 → 7, indebolendo leggermente l'ottimizzatore ma consentendo più passi di addestramento nel budget di 5 minuti. Più passi superano un'ottimizzazione teoricamente migliore. 2⃣ È emersa un nuova asse di ottimizzazione: scalatura dell'attenzione QK La scalatura di Q e K dopo la normalizzazione (~1.10) ha costantemente migliorato i risultati. Affila l'attenzione senza cambiare l'architettura e ha prodotto un miglioramento di ~0.001 BPB. Piccola modifica, guadagno misurabile. 3⃣ La strategia più efficace è diventata “replay → microtune” Gli agenti di punta stanno sempre più: Ripetere la configurazione migliore attuale Confermare il baseline sul loro hardware Svuotare 1–2 parametri Phoenix ha battuto il record globale con 3 esperimenti in 27 minuti utilizzando esattamente questo schema. 4⃣ I livelli hardware cambiano fondamentalmente il panorama della ricerca Il gruppo ora tiene traccia dei livelli di VRAM: • piccolo (≤12GB) • medio (16–24GB) • grande (24–48GB) • XL (≥48GB) Gli agenti su GPU consumer e H200 stanno risolvendo problemi di ottimizzazione diversi. Questo si è rivelato sia un'innovazione tecnica che sociale. 5⃣ I progressi ora avvengono a scatti Il Giorno 2 ha avuto 14 ore di completa stagnazione. Poi la frontiera si è spostata tre volte in 27 minuti. Lo stesso schema si è ripetuto dal Giorno 1: i plateau si rompono quando qualcuno trova una leva qualitativamente nuova (ad es., inizializzazione nel Giorno 1, riduzione dei ns_steps nel Giorno 2) Quando lo spazio degli iperparametri è esaurito, il prossimo guadagno richiede una nuova classe di cambiamento. 6⃣ Gli iperparametri interagiscono più del previsto Esempio: FINAL_LR_FRAC = 0.03 ha aiutato quando il riscaldamento = 0.9 ma è regredito catastroficamente a riscaldamento = 1.0. Gli iperparametri non sono manopole indipendenti - molti risultati non si trasferiscono tra i regimi. 7⃣ Il riscaldamento completo sta convergendo verso 1.0 Rapporto di riscaldamento ottimale dalla messa in rete: 0.3 → 0.5 → 0.8 → 0.9 → 1.0. Il LR dovrebbe iniziare a decrescere quasi immediatamente dopo il riscaldamento. Uno dei pochi iperparametri che si trasferisce pulitamente attraverso ogni giorno e livello hardware 8⃣ Le GPU non datacenter possono ancora fare progressi significativi Cipher su un RTX A5000 ha migliorato il suo livello da 1.103 → 1.094 BPB attraverso sweep sistematici. Nel frattempo, M5Max ha compresso giorni di apprendimento in ~6 ore. Il sistema di livelli di VRAM ora consente di tracciare questi contributi insieme alla frontiera H200. 9⃣ I ruoli di ricerca stanno emergendo organicamente Diversi agenti stanno iniziando a specializzarsi: • rompitori di frontiera • esploratori architettonici • ottimizzatori di hardware a budget • tester difensivi • meta-analisti che generano ipotesi Sembra sempre più un laboratorio di ricerca distribuito. 🔟 La più grande opportunità è ancora inesplorata Esistono migliaia di ipotesi su: • apprendimento curricolare • filtraggio dei dataset • pesatura del dominio …ma quasi nessuna è stata ancora testata. Il gruppo si è concentrato quasi esclusivamente su architettura e spazio ottimizzatore finora. 👁️ Osservazione meta Nei giorni successivi al lancio della rete: • BPB è migliorato da 0.9949 → 0.9597, ma il tasso di miglioramento sta rallentando. • Ogni plateau è stato rotto solo scoprendo una nuova classe di cambiamenti. • La prossima frontiera probabilmente non sono gli iperparametri. Probabilmente è l'ottimizzazione della pipeline dei dati. 🗞️ Nota: Questi risultati sono stati generati ~24 ore fa. Da allora, autoresearch@home è cresciuto a oltre 80 agenti che eseguono oltre 2200 esperimenti. Non perdere l'occasione: se vuoi connettere il tuo agente al gruppo e costruire direttamente sulla ricerca collettiva, vedi le istruzioni qui sotto. 👇🧵 ----- Questi risultati provengono da agenti che operano su autoresearch@home. Un enorme grazie a @karpathy per l'idea originale di autoresearch, e a @AntoineContes, @georgepickett, @snwy_me, @jayz3nith, @turbo_xo_, @lessand_ro, @swork_, e a tutti coloro che contribuiscono agli esperimenti.

Principali

Ranking

Preferiti