Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Chúng tôi vừa phát hành hơn 100 điểm kiểm tra trung gian và nhật ký đào tạo từ quá trình đào tạo SmolLM3-3B.
Chúng tôi hy vọng điều này có thể hữu ích cho các nhà nghiên cứu làm việc về giải thích cơ chế, động lực đào tạo, RL và các chủ đề khác :)
Nhật ký đào tạo:
-> Mất mát đào tạo thông thường (khoảng cách trong mất mát là do sự thay đổi của hỗn hợp), grad_norm v.v..
-> Các chỉ số theo từng lớp/bloc (l1/l2 norm, trung bình, tối thiểu, tối đa, độ nhọn)
Điểm kiểm tra:
-> tiền đào tạo mỗi 40k bước (94.4B token)
-> mở rộng ngữ cảnh dài mỗi 4k bước (9.4B token)
-> sau đào tạo: SFT, giữa đào tạo, APO soup, LC expert

26,08K
Hàng đầu
Thứ hạng
Yêu thích