Navrhujeme nový algoritmus Momentum Look-Ahead na ICLR'25 MCDC, který umožňuje použití heterogenních GPU s vysokým využitím v decentralizovaném předtrénování. Výchozí hodnoty jsou Async-DiloCo a DyLU, které překonáváme.
18,39K