Kami baru saja merilis 100+ pos pemeriksaan menengah dan log pelatihan kami dari pelatihan SmolLM3-3B. Kami berharap ini dapat bermanfaat bagi peneliti yang mengerjakan interpretasi mekanisme, dinamika pelatihan, RL, dan topik lainnya :) Log pelatihan: -> Kerugian pelatihan biasa (kesenjangan kerugian disebabkan oleh perubahan campuran), grad_norm dll. -> Metrik per lapisan/blok (norma l1/l2, rata-rata, min, maks, kurtosis) Pos pemeriksaan: -> pra-pelatihan setiap langkah 40 ribu (token 94,4 miliar) -> ekstensi konteks panjang setiap langkah 4k (token 9,4 miliar) -> pasca-pelatihan: SFT, mid-training, sup APO, pakar LC
16,99K