Curieux d'essayer cela avec diloco, je ferais toujours bs=1 sur l'optimiseur interne et je bénéficierais toujours des avantages du parallélisme des données.
Micah Goldblum
Micah Goldblum10 juil., 22:12
🚨 Saviez-vous que le SGD vanille en petite quantité sans momentum (c'est-à-dire le premier optimiseur que vous apprenez dans l'introduction à l'apprentissage automatique) est pratiquement aussi rapide qu'AdamW pour le pré-entraînement des LLM sur une base par FLOP ? 📜 1/n
1,9K