Vi föreslår en ny Momentum Look-Ahead-algoritm på ICLR'25 MCDC som gör det möjligt att använda heterogena GPU:er med hög användning i decentraliserad förträning. Baslinjer är Async-DiloCo och DyLU som vi överträffar.
18,43K