Nous proposons un nouvel algorithme Momentum Look-Ahead à l’ICLR'25 MCDC qui permet d’utiliser des GPU hétérogènes avec une utilisation élevée dans le pré-entraînement décentralisé. Les lignes de base sont Async-DiloCo et DyLU que nous surpassons.
18,4K