Propomos um novo algoritmo Momentum Look-Ahead no ICLR'25 MCDC que permite que GPUs heterogêneas sejam usadas com alta utilização em pré-treinamento descentralizado. As linhas de base são Async-DiloCo e DyLU que superamos.
18,4K