المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
أن الورقة * الثانية * التي أسقطت مع الكثير من أسرار دولاب الموازنة RL و * متعدد الوسائط * على غرار o1 ليست موجودة على بطاقة البنغو الخاصة بي اليوم. تقاربت أوراق Kimi (شركة ناشئة أخرى) و DeepSeek بشكل ملحوظ حول نتائج مماثلة:
> لا حاجة للبحث الشجري المعقد مثل MCTS. ما عليك سوى خطية تتبع الفكر والقيام بالتنبؤ الانحدار الذاتي القديم الجيد.
> لا حاجة لوظائف القيمة التي تتطلب نسخة أخرى باهظة الثمن من النموذج ؛
> لا حاجة لنمذجة المكافآت الكثيفة. اعتمد قدر الإمكان على الحقيقة الأرضية والنتيجة النهائية.
فوارق:
> يقوم DeepSeek بنهج AlphaZero - التمهيد البحت من خلال RL بدون المدخلات البشرية ، أي "البداية الباردة". يقوم Kimi بنهج AlphaGo-Master: SFT خفيف للإحماء من خلال آثار CoT المصممة على الفور.
> أوزان DeepSeek هي ترخيص معهد ماساتشوستس للتكنولوجيا (قيادة الفكر!) ؛ Kimi ليس لديه إصدار نموذج حتى الآن.
يظهر > Kimi أداء قويا متعدد الوسائط (!) على معايير مثل MathVista ، والذي يتطلب فهما بصريا للهندسة واختبارات الذكاء وما إلى ذلك.
تحتوي ورقة Kimi > على الكثير من التفاصيل حول تصميم النظام: البنية التحتية RL ، والمجموعة الهجينة ، ووضع الحماية للكود ، واستراتيجيات التوازي. وتفاصيل التعلم: السياق الطويل ، وضغط CoT ، والمناهج الدراسية ، واستراتيجية أخذ العينات ، وإنشاء حالة الاختبار ، وما إلى ذلك.
يقرأ متفائل في عطلة!

رابط المستند التقني:
300.45K
الأفضل
المُتصدِّرة
التطبيقات المفضلة