Tò mò muốn thử điều này với diloco, vẫn sẽ đặt bs=1 trên bộ tối ưu hóa bên trong và vẫn nhận được lợi ích từ sự song song dữ liệu.
Micah Goldblum
Micah Goldblum22:12 10 thg 7
🚨 Bạn có biết rằng SGD vanilla theo lô nhỏ mà không có động lượng (tức là bộ tối ưu đầu tiên bạn học trong ML cơ bản) thực sự nhanh như AdamW cho việc huấn luyện trước LLM trên cơ sở mỗi FLOP không? 📜 1/n
1,95K