Chúng tôi đề xuất một thuật toán Momentum Look-Ahead mới tại ICLR'25 MCDC cho phép sử dụng GPU không đồng nhất với hiệu suất cao trong quá trình tiền huấn luyện phi tập trung. Các mô hình cơ sở là Async-DiloCo và DyLU mà chúng tôi đã vượt qua.
18,41K