Curioso para experimentar isto com diloco, ainda faria bs=1 no otimizador interno e ainda obteria benefícios do paralelismo de dados.
Micah Goldblum
Micah Goldblum10/07, 22:12
🚨 Sabia que o SGD de baunilha em pequenos lotes sem momentum (ou seja, o primeiro otimizador que você aprende em introdução ao ML) é virtualmente tão rápido quanto o AdamW para pré-treinamento de LLM em uma base por-FLOP? 📜 1/n
1,91K