أن الورقة * الثانية * التي أسقطت مع الكثير من أسرار دولاب الموازنة RL و * متعدد الوسائط * على غرار o1 ليست موجودة على بطاقة البنغو الخاصة بي اليوم. تقاربت أوراق Kimi (شركة ناشئة أخرى) و DeepSeek بشكل ملحوظ حول نتائج مماثلة: > لا حاجة للبحث الشجري المعقد مثل MCTS. ما عليك سوى خطية تتبع الفكر والقيام بالتنبؤ الانحدار الذاتي القديم الجيد. > لا حاجة لوظائف القيمة التي تتطلب نسخة أخرى باهظة الثمن من النموذج ؛ > لا حاجة لنمذجة المكافآت الكثيفة. اعتمد قدر الإمكان على الحقيقة الأرضية والنتيجة النهائية. فوارق: > يقوم DeepSeek بنهج AlphaZero - التمهيد البحت من خلال RL بدون المدخلات البشرية ، أي "البداية الباردة". يقوم Kimi بنهج AlphaGo-Master: SFT خفيف للإحماء من خلال آثار CoT المصممة على الفور. > أوزان DeepSeek هي ترخيص معهد ماساتشوستس للتكنولوجيا (قيادة الفكر!) ؛ Kimi ليس لديه إصدار نموذج حتى الآن. يظهر > Kimi أداء قويا متعدد الوسائط (!) على معايير مثل MathVista ، والذي يتطلب فهما بصريا للهندسة واختبارات الذكاء وما إلى ذلك. تحتوي ورقة Kimi > على الكثير من التفاصيل حول تصميم النظام: البنية التحتية RL ، والمجموعة الهجينة ، ووضع الحماية للكود ، واستراتيجيات التوازي. وتفاصيل التعلم: السياق الطويل ، وضغط CoT ، والمناهج الدراسية ، واستراتيجية أخذ العينات ، وإنشاء حالة الاختبار ، وما إلى ذلك. يقرأ متفائل في عطلة!
رابط المستند التقني:
‏‎300.45‏K