Ми пропонуємо новий алгоритм Momentum Look-Ahead в ICLR'25 MCDC, який дозволяє використовувати гетерогенні графічні процесори з високим рівнем використання в децентралізованому попередньому навчанні. Базовими рівнями є Async-DiloCo і DyLU, які ми перевершуємо.
18,4K