Nyfiken på att prova detta med diloco, skulle fortfarande göra bs=1 på den inre optimeraren och fortfarande få fördelar med dataparallellitet
Micah Goldblum
Micah Goldblum10 juli 22:12
🚨 Visste du att vanilj SGD i små partier utan momentum (dvs. den första optimeraren du lär dig om i intro ML) är praktiskt taget lika snabb som AdamW för LLM-förträning per FLOP? 📜 1/n
1,94K