Vi foreslår en ny Momentum Look-Ahead-algoritme på ICLR'25 MCDC som gjør at heterogene GPUer kan brukes med høy utnyttelse i desentralisert forhåndstrening. Grunnlinjene er Async-DiloCo og DyLU som vi overgår.
18,39K