Neugierig, das mit diloco auszuprobieren, würde immer noch bs=1 im inneren Optimierer verwenden und dennoch die Vorteile der Datenparallelität erhalten.
Micah Goldblum
Micah Goldblum10. Juli, 22:12
🚨 Wusstest du, dass Vanilla SGD in kleinen Chargen ohne Momentum (d.h. der erste Optimierer, den du in der Einführung in ML lernst) praktisch so schnell ist wie AdamW für das Pretraining von LLMs auf Basis von FLOP? 📜 1/n
1,92K