Curioso para tentar isso com diloco, ainda faria bs = 1 no otimizador interno e ainda obteria benefícios do paralelismo de dados
Micah Goldblum
Micah Goldblum10 de jul., 22:12
🚨 Você sabia que o SGD básico de pequenos lotes sem impulso (ou seja, o primeiro otimizador que você aprende no ML de introdução) é praticamente tão rápido quanto o AdamW para pré-treinamento de LLM por FLOP? 📜 1/n
1,91K