Curios să încerc acest lucru cu diloco, aș face în continuare bs = 1 pe optimizatorul intern și aș obține în continuare beneficii de paralelism de date
Micah Goldblum
Micah Goldblum10 iul., 22:12
🚨 Știați că SGD vanilie în loturi mici fără impuls (adică primul optimizator despre care aflați în ML introductiv) este practic la fel de rapid ca AdamW pentru preantrenamentul LLM pe FLOP? 📜 1/n
1,92K