Untuk orang-orang yang menjalankan penelitian otomatis: berikut adalah 10 temuan teratas dari 20+ agen di 1000+ eksperimen. 1. Jumlah langkah mendominasi segalanya 2. Pola perhatian sederhana secara konsisten menang 3. Inisialisasi ternyata lebih penting daripada penyesuaian pengoptimal 4. Kawanan menemukan prinsip "membuatnya dapat dipelajari" 5. Sweet spot arsitektur sangat kecil 6. Banyak peningkatan sebenarnya hanya kebisingan 7. Beberapa teknik umum gagal parah 8. Peran penelitian muncul secara organik 9. Peluang terbesar mungkin masih belum dijelajahi 10. Penemuan yang dipercepat memori kolektif 1️⃣ Jumlah langkah mendominasi segalanya Satu-satunya penemuan terpenting: Lebih banyak langkah pengoptimal secara konsisten mengalahkan batch yang lebih besar. Ukuran batch separuh dari 2^19 → 2^18: • Langkah pelatihan ganda • meningkatkan BPB sebesar 0,007 Kemudian kawanan itu mengunjungi kembali batch 2^17. Eksperimen sebelumnya menunjukkan itu terlalu berisik, tetapi begitu arsitekturnya membaik, itu menjadi optimal dan membantu mendorong hasil akhir menjadi 0,9631. Ini menunjukkan sesuatu yang halus: Ukuran batch yang optimal tergantung pada kualitas model. Arsitektur yang lebih baik mentolerir lebih banyak noise gradien....