Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Christine Yip
Co-fondatore @ensue_ai . Forniamo agli agenti IA intelligenza collettiva.
Apprendente per tutta la vita | Precedentemente costruendo infrastrutture per l'addestramento AI @gensynai, ora infrastrutture per agenti.
Nuovo record globale su autoresearch@home.
L'agente di @Mikeapedia1 ha raggiunto 0.9453 BpB, arrivando al #1 nella classifica.
Da Discord:
"Mi sono stancato di vedere la linea orizzontale sulla timeline, quindi ho lanciato un B200 e ho adattato l'addestramento per sfruttare FlashAttention-4"
LOL

304
Giorno 2 Registro Swarm: approfondimenti da altri ~500 esperimenti
Se stai ancora eseguendo l'autoricerca da solo - riesci a tenere il passo con lo sciame di agenti?

Christine Yip3 ore fa
Per coloro che eseguono autoresearch: ecco i 10 principali risultati del Giorno 2 da oltre 60 agenti attraverso 1.600 esperimenti su autoresearch@home (+500 rispetto a ieri).
Alcuni schemi stanno iniziando a emergere.
1. I passi di addestramento dominano ancora tutto
2. Una nuova normalizzazione dell'ottimizzazione (~1.10) ha costantemente migliorato i risultati
3. La strategia più efficace è diventata “replay → microtune”
4. I livelli hardware cambiano fondamentalmente il panorama della ricerca
5. I progressi ora avvengono a scatti
6. Gli iperparametri interagiscono più del previsto
7. Il riscaldamento completo sta convergendo verso 1.0
8. Le GPU non datacenter possono ancora fare progressi significativi
9. I ruoli di ricerca stanno emergendo organicamente
10. La più grande opportunità è ancora inesplorata
1⃣ I passi di addestramento dominano ancora tutto
Uno degli agenti (Phoenix) ha avuto una svolta, ed è arrivata dalla riduzione dei ns_steps di Muon da 9 → 7, indebolendo leggermente l'ottimizzatore ma consentendo più passi di addestramento nel budget di 5 minuti.
Più passi superano un'ottimizzazione teoricamente migliore.
2⃣ È emersa un nuova asse di ottimizzazione: scalatura dell'attenzione QK
La scalatura di Q e K dopo la normalizzazione (~1.10) ha costantemente migliorato i risultati.
Affila l'attenzione senza cambiare l'architettura e ha prodotto un miglioramento di ~0.001 BPB.
Piccola modifica, guadagno misurabile.
3⃣ La strategia più efficace è diventata “replay → microtune”
Gli agenti di punta stanno sempre più:
Ripetere la configurazione migliore attuale
Confermare il baseline sul loro hardware
Svuotare 1–2 parametri
Phoenix ha battuto il record globale con 3 esperimenti in 27 minuti utilizzando esattamente questo schema.
4⃣ I livelli hardware cambiano fondamentalmente il panorama della ricerca
Il gruppo ora tiene traccia dei livelli di VRAM:
• piccolo (≤12GB)
• medio (16–24GB)
• grande (24–48GB)
• XL (≥48GB)
Gli agenti su GPU consumer e H200 stanno risolvendo problemi di ottimizzazione diversi.
Questo si è rivelato sia un'innovazione tecnica che sociale.
5⃣ I progressi ora avvengono a scatti
Il Giorno 2 ha avuto 14 ore di completa stagnazione.
Poi la frontiera si è spostata tre volte in 27 minuti.
Lo stesso schema si è ripetuto dal Giorno 1: i plateau si rompono quando qualcuno trova una leva qualitativamente nuova
(ad es., inizializzazione nel Giorno 1, riduzione dei ns_steps nel Giorno 2)
Quando lo spazio degli iperparametri è esaurito, il prossimo guadagno richiede una nuova classe di cambiamento.
6⃣ Gli iperparametri interagiscono più del previsto
Esempio:
FINAL_LR_FRAC = 0.03
ha aiutato quando il riscaldamento = 0.9
ma è regredito catastroficamente a riscaldamento = 1.0.
Gli iperparametri non sono manopole indipendenti - molti risultati non si trasferiscono tra i regimi.
7⃣ Il riscaldamento completo sta convergendo verso 1.0
Rapporto di riscaldamento ottimale dalla messa in rete: 0.3 → 0.5 → 0.8 → 0.9 → 1.0.
Il LR dovrebbe iniziare a decrescere quasi immediatamente dopo il riscaldamento.
Uno dei pochi iperparametri che si trasferisce pulitamente attraverso ogni giorno e livello hardware
8⃣ Le GPU non datacenter possono ancora fare progressi significativi
Cipher su un RTX A5000 ha migliorato il suo livello da 1.103 → 1.094 BPB attraverso sweep sistematici.
Nel frattempo, M5Max ha compresso giorni di apprendimento in ~6 ore.
Il sistema di livelli di VRAM ora consente di tracciare questi contributi insieme alla frontiera H200.
9⃣ I ruoli di ricerca stanno emergendo organicamente
Diversi agenti stanno iniziando a specializzarsi:
• rompitori di frontiera
• esploratori architettonici
• ottimizzatori di hardware a budget
• tester difensivi
• meta-analisti che generano ipotesi
Sembra sempre più un laboratorio di ricerca distribuito.
🔟 La più grande opportunità è ancora inesplorata
Esistono migliaia di ipotesi su:
• apprendimento curricolare
• filtraggio dei dataset
• pesatura del dominio
…ma quasi nessuna è stata ancora testata.
Il gruppo si è concentrato quasi esclusivamente su architettura e spazio ottimizzatore finora.
👁️ Osservazione meta
Nei giorni successivi al lancio della rete:
• BPB è migliorato da 0.9949 → 0.9597, ma il tasso di miglioramento sta rallentando.
• Ogni plateau è stato rotto solo scoprendo una nuova classe di cambiamenti.
• La prossima frontiera probabilmente non sono gli iperparametri. Probabilmente è l'ottimizzazione della pipeline dei dati.
🗞️ Nota:
Questi risultati sono stati generati ~24 ore fa.
Da allora, autoresearch@home è cresciuto a oltre 80 agenti che eseguono oltre 2200 esperimenti.
Non perdere l'occasione: se vuoi connettere il tuo agente al gruppo e costruire direttamente sulla ricerca collettiva, vedi le istruzioni qui sotto. 👇🧵
-----
Questi risultati provengono da agenti che operano su autoresearch@home.
Un enorme grazie a @karpathy per l'idea originale di autoresearch, e a @AntoineContes, @georgepickett, @snwy_me, @jayz3nith, @turbo_xo_, @lessand_ro, @swork_, e a tutti coloro che contribuiscono agli esperimenti.

15
Per coloro che eseguono autoresearch: ecco i 10 principali risultati del Giorno 2 da oltre 60 agenti attraverso 1.600 esperimenti su autoresearch@home (+500 rispetto a ieri).
Alcuni schemi stanno iniziando a emergere.
1. I passi di addestramento dominano ancora tutto
2. Una nuova normalizzazione dell'ottimizzazione (~1.10) ha costantemente migliorato i risultati
3. La strategia più efficace è diventata “replay → microtune”
4. I livelli hardware cambiano fondamentalmente il panorama della ricerca
5. I progressi ora avvengono a scatti
6. Gli iperparametri interagiscono più del previsto
7. Il riscaldamento completo sta convergendo verso 1.0
8. Le GPU non datacenter possono ancora fare progressi significativi
9. I ruoli di ricerca stanno emergendo organicamente
10. La più grande opportunità è ancora inesplorata
1⃣ I passi di addestramento dominano ancora tutto
Uno degli agenti (Phoenix) ha avuto una svolta, ed è arrivata dalla riduzione dei ns_steps di Muon da 9 → 7, indebolendo leggermente l'ottimizzatore ma consentendo più passi di addestramento nel budget di 5 minuti.
Più passi superano un'ottimizzazione teoricamente migliore.
2⃣ È emersa un nuova asse di ottimizzazione: scalatura dell'attenzione QK
La scalatura di Q e K dopo la normalizzazione (~1.10) ha costantemente migliorato i risultati.
Affila l'attenzione senza cambiare l'architettura e ha prodotto un miglioramento di ~0.001 BPB.
Piccola modifica, guadagno misurabile.
3⃣ La strategia più efficace è diventata “replay → microtune”
Gli agenti di punta stanno sempre più:
Ripetere la configurazione migliore attuale
Confermare il baseline sul loro hardware
Svuotare 1–2 parametri
Phoenix ha battuto il record globale con 3 esperimenti in 27 minuti utilizzando esattamente questo schema.
4⃣ I livelli hardware cambiano fondamentalmente il panorama della ricerca
Il gruppo ora tiene traccia dei livelli di VRAM:
• piccolo (≤12GB)
• medio (16–24GB)
• grande (24–48GB)
• XL (≥48GB)
Gli agenti su GPU consumer e H200 stanno risolvendo problemi di ottimizzazione diversi.
Questo si è rivelato sia un'innovazione tecnica che sociale.
5⃣ I progressi ora avvengono a scatti
Il Giorno 2 ha avuto 14 ore di completa stagnazione.
Poi la frontiera si è spostata tre volte in 27 minuti.
Lo stesso schema si è ripetuto dal Giorno 1: i plateau si rompono quando qualcuno trova una leva qualitativamente nuova
(ad es., inizializzazione nel Giorno 1, riduzione dei ns_steps nel Giorno 2)
Quando lo spazio degli iperparametri è esaurito, il prossimo guadagno richiede una nuova classe di cambiamento.
6⃣ Gli iperparametri interagiscono più del previsto
Esempio:
FINAL_LR_FRAC = 0.03
ha aiutato quando il riscaldamento = 0.9
ma è regredito catastroficamente a riscaldamento = 1.0.
Gli iperparametri non sono manopole indipendenti - molti risultati non si trasferiscono tra i regimi.
7⃣ Il riscaldamento completo sta convergendo verso 1.0
Rapporto di riscaldamento ottimale dalla messa in rete: 0.3 → 0.5 → 0.8 → 0.9 → 1.0.
Il LR dovrebbe iniziare a decrescere quasi immediatamente dopo il riscaldamento.
Uno dei pochi iperparametri che si trasferisce pulitamente attraverso ogni giorno e livello hardware
8⃣ Le GPU non datacenter possono ancora fare progressi significativi
Cipher su un RTX A5000 ha migliorato il suo livello da 1.103 → 1.094 BPB attraverso sweep sistematici.
Nel frattempo, M5Max ha compresso giorni di apprendimento in ~6 ore.
Il sistema di livelli di VRAM ora consente di tracciare questi contributi insieme alla frontiera H200.
9⃣ I ruoli di ricerca stanno emergendo organicamente
Diversi agenti stanno iniziando a specializzarsi:
• rompitori di frontiera
• esploratori architettonici
• ottimizzatori di hardware a budget
• tester difensivi
• meta-analisti che generano ipotesi
Sembra sempre più un laboratorio di ricerca distribuito.
🔟 La più grande opportunità è ancora inesplorata
Esistono migliaia di ipotesi su:
• apprendimento curricolare
• filtraggio dei dataset
• pesatura del dominio
…ma quasi nessuna è stata ancora testata.
Il gruppo si è concentrato quasi esclusivamente su architettura e spazio ottimizzatore finora.
👁️ Osservazione meta
Nei giorni successivi al lancio della rete:
• BPB è migliorato da 0.9949 → 0.9597, ma il tasso di miglioramento sta rallentando.
• Ogni plateau è stato rotto solo scoprendo una nuova classe di cambiamenti.
• La prossima frontiera probabilmente non sono gli iperparametri. Probabilmente è l'ottimizzazione della pipeline dei dati.
🗞️ Nota:
Questi risultati sono stati generati ~24 ore fa.
Da allora, autoresearch@home è cresciuto a oltre 80 agenti che eseguono oltre 2200 esperimenti.
Non perdere l'occasione: se vuoi connettere il tuo agente al gruppo e costruire direttamente sulla ricerca collettiva, vedi le istruzioni qui sotto. 👇🧵
-----
Questi risultati provengono da agenti che operano su autoresearch@home.
Un enorme grazie a @karpathy per l'idea originale di autoresearch, e a @AntoineContes, @georgepickett, @snwy_me, @jayz3nith, @turbo_xo_, @lessand_ro, @swork_, e a tutti coloro che contribuiscono agli esperimenti.

741
Principali
Ranking
Preferiti