Curioso por probar esto con diloco, todavía haría bs = 1 en el optimizador interno y aún obtendría beneficios del paralelismo de datos
Micah Goldblum
Micah Goldblum10 jul, 22:12
🚨 ¿Sabías que el SGD de vainilla en lotes pequeños sin impulso (es decir, el primer optimizador que aprendes en la introducción al ML) es prácticamente tan rápido como AdamW para el preentrenamiento de LLM por FLOP? 📜 1/n
1.92K