一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

今天有一篇*第二*篇论文发布，里面包含了大量的RL飞轮秘密和*多模态*的o1风格推理，这可不是我今天的预期。Kimi（另一家初创公司）和DeepSeek的论文在相似的发现上惊人地趋同： > 不需要像MCTS那样复杂的树搜索。只需线性化思维轨迹，进行传统的自回归预测； > 不需要需要另一个昂贵模型副本的价值函数； > 不需要密集的奖励建模。尽可能依赖真实数据，最终结果。差异： > DeepSeek采用AlphaZero方法——完全通过RL自举，没有人类输入，即“冷启动”。Kimi采用AlphaGo-Master方法：通过提示工程化的CoT轨迹进行轻量级SFT预热。 > DeepSeek的权重是MIT许可证（思想领导力！）；Kimi尚未发布模型。 > Kimi在MathVista等基准测试上表现出强大的多模态性能（！），这需要对几何、智商测试等的视觉理解。 > Kimi的论文在系统设计方面有更多细节：RL基础设施、混合集群、代码沙箱、并行策略；以及学习细节：长上下文、CoT压缩、课程、采样策略、测试用例生成等。在假期中阅读这些令人振奋的内容！

白皮书链接：

300.46K