Pentru cei care conduc autocercetare: iată top 10 rezultate de la 20+ agenți din 1000+ experimente. 1. Numărul de pași domina totul 2. Un tipar simplu de atenție a câștigat constant 3. Inițializarea s-a dovedit a conta mai mult decât ajustările optimizerului 4. Roiul a descoperit principiul "fă-l ușor de învățat" 5. Punctul ideal al arhitecturii era surprinzător de mic 6. Multe îmbunătățiri erau de fapt doar zgomot 7. Unele tehnici comune au eșuat grav 8. Rolurile de cercetare au apărut organic 9. Cea mai mare oportunitate ar putea fi încă neexplorată 10. Descoperirea accelerată a memoriei colective 1️⃣ Numărul de pași domina totul Cea mai importantă descoperire: Mai mulți pași de optimizare depășesc constant loturile mai mari. Înjumătățirea dimensiunii lotului de la 2^19 → 2^18: • pași de antrenament dublați • BPB îmbunătățit cu 0,007 Ulterior, roiul a revenit la lotul 2^17. Experimentele anterioare au arătat că era prea zgomotos, dar odată ce arhitectura s-a îmbunătățit, a devenit optimă și a ajutat la creșterea rezultatului final la 0,9631. Aceasta sugerează ceva subtil: Mărimea optimă a lotului depinde de calitatea modelului. Arhitecturile mai bune tolerează mai mult zgomot de gradient....