We stellen een nieuw Momentum Look-Ahead-algoritme voor op ICLR'25 MCDC waarmee heterogene GPU's kunnen worden gebruikt met een hoog gebruik in gedecentraliseerde pretraining. Baselines zijn Async-DiloCo en DyLU die we beter presteren.
18,41K