Bahwa makalah *kedua* yang dijatuhkan dengan banyak rahasia roda gila RL dan penalaran gaya o1 *multimodal* tidak ada di kartu bingo saya hari ini. Makalah Kimi (startup lain) dan DeepSeek sangat menyatu pada temuan serupa: > Tidak perlu pencarian pohon yang rumit seperti MCTS. Cukup linier jejak pikiran dan lakukan prediksi autoregresif lama yang baik; > Tidak perlu fungsi nilai yang memerlukan salinan model mahal lainnya; > Tidak perlu pemodelan hadiah yang padat. Andalkan sebanyak mungkin pada groundtruth, hasil akhir. Perbedaan: > DeepSeek melakukan pendekatan AlphaZero - murni bootstrap melalui RL tanpa input manusia, yaitu "start dingin". Kimi melakukan pendekatan AlphaGo-Master: SFT ringan untuk memanaskan melalui jejak CoT yang direkayasa dengan cepat. > bobot DeepSeek adalah lisensi MIT (kepemimpinan pemikiran!); Kimi belum memiliki rilis model. > Kimi menunjukkan kinerja multimoda yang kuat (!) pada tolok ukur seperti MathVista, yang membutuhkan pemahaman visual tentang geometri, tes IQ, dll. > makalah Kimi memiliki BANYAK detail lebih banyak tentang desain sistem: infrastruktur RL, kluster hibrida, kotak pasir kode, strategi paralelisme; dan detail pembelajaran: konteks panjang, kompresi CoT, kurikulum, strategi pengambilan sampel, pembuatan kasus uji, dll. Bacaan optimis saat liburan!
Tautan whitepaper:
300,45K