Kami mengusulkan algoritma Momentum Look-Ahead baru di ICLR'25 MCDC yang memungkinkan GPU heterogen digunakan dengan pemanfaatan tinggi dalam prapelatihan terdesentralisasi. Baseline adalah Async-DiloCo dan DyLU yang kami ungguli.
18,39K