今天有一篇*第二*篇论文发布,里面包含了大量的RL飞轮秘密和*多模态*的o1风格推理,这可不是我今天的预期。Kimi(另一家初创公司)和DeepSeek的论文在相似的发现上惊人地趋同: > 不需要像MCTS那样复杂的树搜索。只需线性化思维轨迹,进行传统的自回归预测; > 不需要需要另一个昂贵模型副本的价值函数; > 不需要密集的奖励建模。尽可能依赖真实数据,最终结果。 差异: > DeepSeek采用AlphaZero方法——完全通过RL自举,没有人类输入,即“冷启动”。Kimi采用AlphaGo-Master方法:通过提示工程化的CoT轨迹进行轻量级SFT预热。 > DeepSeek的权重是MIT许可证(思想领导力!);Kimi尚未发布模型。 > Kimi在MathVista等基准测试上表现出强大的多模态性能(!),这需要对几何、智商测试等的视觉理解。 > Kimi的论文在系统设计方面有更多细节:RL基础设施、混合集群、代码沙箱、并行策略;以及学习细节:长上下文、CoT压缩、课程、采样策略、测试用例生成等。 在假期中阅读这些令人振奋的内容!
白皮书链接:
300.46K