Chúng tôi vừa phát hành hơn 100 điểm kiểm tra trung gian và nhật ký đào tạo từ quá trình đào tạo SmolLM3-3B. Chúng tôi hy vọng điều này có thể hữu ích cho các nhà nghiên cứu làm việc về giải thích cơ chế, động lực đào tạo, RL và các chủ đề khác :) Nhật ký đào tạo: -> Mất mát đào tạo thông thường (khoảng cách trong mất mát là do sự thay đổi của hỗn hợp), grad_norm v.v.. -> Các chỉ số theo từng lớp/bloc (l1/l2 norm, trung bình, tối thiểu, tối đa, độ nhọn) Điểm kiểm tra: -> tiền đào tạo mỗi 40k bước (94.4B token) -> mở rộng ngữ cảnh dài mỗi 4k bước (9.4B token) -> sau đào tạo: SFT, giữa đào tạo, APO soup, LC expert
26,08K