Penasaran untuk mencoba ini dengan diloco, masih akan melakukan bs=1 pada pengoptimal batin dan tetap mendapatkan manfaat paralelisme data
Micah Goldblum
Micah Goldblum10 Jul, 22.12
🚨 Tahukah Anda bahwa SGD vanilla batch kecil tanpa momentum (yaitu pengoptimal pertama yang Anda pelajari di intro ML) hampir secepat AdamW untuk prapelatihan LLM per FLOP? 📜 1/n
1,89K