Мы предлагаем новый алгоритм Momentum Look-Ahead на ICLR'25 MCDC, который позволяет использовать гетерогенные GPU с высокой загрузкой в децентрализованной предварительной подготовке. Базовые алгоритмы — Async-DiloCo и DyLU, которые мы превосходим.
18,42K