那篇帶有大量 RL 飛輪秘密和*多模態* o1 風格推理的*第二篇*論文今天不在我的賓果卡上。Kimi(另一家初創公司)和 DeepSeek 的論文在相似的發現上驚人地趨同: > 無需像MCTS那樣進行複雜的樹搜索。只需線性化思維軌跡並做好的舊自回歸預測; > 不需要需要另一個昂貴的模型副本的值函數; > 無需密集的獎勵建模。盡可能多地依賴 groundtruth,最終結果。 差異: > DeepSeek 採用 AlphaZero 方法 - 純粹通過 RL 引導,無需人工輸入,即“冷啟動”。Kimi 採用 AlphaGo-Master 方法:通過提示設計的 CoT 跟蹤來輕 SFT 預熱。 > DeepSeek 權重是 MIT 許可證(思想領導力!Kimi 還沒有模型發佈。 > Kimi 在 MathVista 等基準測試中表現出強大的多模態性能 (!),這需要對幾何圖形、IQ 測試等進行可視化理解。 > Kimi 論文中提供了有關系統設計的更多細節:RL 基礎設施、混合集群、代碼沙箱、並行策略;和學習細節:長上下文、CoT 壓縮、課程、抽樣策略、測試用例生成等。 假期的樂觀讀物!
白皮書連結:
300.46K