我們在 ICLR'25 MCDC 上提出了一種新的 Momentum Look-Ahead 演算法,該演算法允許在分散式預訓練中以高利用率使用異構 GPU。基準是 Async-DiloCo 和 DyLU,我們的表現優於 Async-DiloCo 和 DyLU。
18.39K