لقد أطلقنا للتو 100+ نقطة تفتيش وسيطة وسجلات التدريب الخاصة بنا من تدريب SmolLM3-3B. نأمل أن يكون هذا مفيدا للباحث الذي يعمل على الترجمة الميكانيكية وديناميكيات التدريب و RL وموضوعات أخرى :) سجلات التدريب: -> خسارة التدريب المعتادة (الفجوة في الخسارة ناتجة عن تغيير الخليط) ، grad_norm إلخ. -> مقاييس لكل طبقة / كتلة (معيار l1 / l2 ، متوسط ، دقيقة ، ماكس ، تفرطم) نقاط التفتيش: - > تدريب مسبق كل 40 ألف خطوة (94.4 مليار رمز مميز) -> امتداد سياق طويل كل خطوة 4K (9.4 مليار رمز مميز) - > بعد التدريب: SFT ، منتصف التدريب ، حساء APO ، خبير LC
‏‎23.08‏K