好奇想用 diloco 尝试这个,仍然会在内部优化器上设置 bs=1,并且仍然能获得数据并行的好处。
Micah Goldblum
Micah Goldblum7月10日 22:12
🚨 你知道小批量的无动量香草SGD(即你在入门机器学习中学习的第一个优化器)在每个FLOP的基础上几乎和AdamW一样快吗?📜 1/n
1.9K