Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bahwa makalah *kedua* yang dijatuhkan dengan banyak rahasia roda gila RL dan penalaran gaya o1 *multimodal* tidak ada di kartu bingo saya hari ini. Makalah Kimi (startup lain) dan DeepSeek sangat menyatu pada temuan serupa:
> Tidak perlu pencarian pohon yang rumit seperti MCTS. Cukup linier jejak pikiran dan lakukan prediksi autoregresif lama yang baik;
> Tidak perlu fungsi nilai yang memerlukan salinan model mahal lainnya;
> Tidak perlu pemodelan hadiah yang padat. Andalkan sebanyak mungkin pada groundtruth, hasil akhir.
Perbedaan:
> DeepSeek melakukan pendekatan AlphaZero - murni bootstrap melalui RL tanpa input manusia, yaitu "start dingin". Kimi melakukan pendekatan AlphaGo-Master: SFT ringan untuk memanaskan melalui jejak CoT yang direkayasa dengan cepat.
> bobot DeepSeek adalah lisensi MIT (kepemimpinan pemikiran!); Kimi belum memiliki rilis model.
> Kimi menunjukkan kinerja multimoda yang kuat (!) pada tolok ukur seperti MathVista, yang membutuhkan pemahaman visual tentang geometri, tes IQ, dll.
> makalah Kimi memiliki BANYAK detail lebih banyak tentang desain sistem: infrastruktur RL, kluster hibrida, kotak pasir kode, strategi paralelisme; dan detail pembelajaran: konteks panjang, kompresi CoT, kurikulum, strategi pengambilan sampel, pembuatan kasus uji, dll.
Bacaan optimis saat liburan!

Tautan whitepaper:
300,45K
Teratas
Peringkat
Favorit