Wir schlagen einen neuen Momentum Look-Ahead-Algorithmus auf der ICLR'25 MCDC vor, der es ermöglicht, heterogene GPUs mit hoher Auslastung im dezentralen Pretraining zu verwenden. Die Ausgangswerte sind Async-DiloCo und DyLU, die wir übertreffen.
18,4K