Pro ty, kteří provozují autoresearch: zde je top 10 zjištění od 20+ agentů napříč 1000+ experimenty. 1. Počet kroků dominoval všemu 2. Jednoduchý vzor pozornosti vždy vítězil 3. Ukázalo se, že na inicializaci záleží více než úpravy optimalizátoru 4. Roj objevil princip "udělej to naučeným" 5. Ideální místo pro architekturu bylo překvapivě malé 6. Mnoho vylepšení bylo ve skutečnosti jen šum 7. Některé běžné techniky selhaly 8. Výzkumné role vznikly organicky 9. Největší příležitost možná zůstává nevyužitá 10. Kolektivní paměť urychlila objevování 1️⃣ Počet kroků dominoval všemu Nejdůležitější objev: Více optimalizačních kroků konzistentně poráží větší dávky. Velikost šarže na polovinu z 2^19 → 2^18: • zdvojnásobené tréninkové kroky • zlepšení BPB o 0,007 Později se roj vrátil k várce 2^17. Dřívější experimenty ukázaly, že je příliš hlučný, ale jakmile se architektura zlepšila, stal se optimálním a pomohl dosáhnout konečného výsledku na 0,9631. To naznačuje něco nenápadného: Optimální velikost dávky závisí na kvalitě modelu. Lepší architektury tolerují více gradientního šumu....