热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
今天有一篇*第二*篇论文发布,里面包含了大量的RL飞轮秘密和*多模态*的o1风格推理,这可不是我今天的预期。Kimi(另一家初创公司)和DeepSeek的论文在相似的发现上惊人地趋同:
> 不需要像MCTS那样复杂的树搜索。只需线性化思维轨迹,进行传统的自回归预测;
> 不需要需要另一个昂贵模型副本的价值函数;
> 不需要密集的奖励建模。尽可能依赖真实数据,最终结果。
差异:
> DeepSeek采用AlphaZero方法——完全通过RL自举,没有人类输入,即“冷启动”。Kimi采用AlphaGo-Master方法:通过提示工程化的CoT轨迹进行轻量级SFT预热。
> DeepSeek的权重是MIT许可证(思想领导力!);Kimi尚未发布模型。
> Kimi在MathVista等基准测试上表现出强大的多模态性能(!),这需要对几何、智商测试等的视觉理解。
> Kimi的论文在系统设计方面有更多细节:RL基础设施、混合集群、代码沙箱、并行策略;以及学习细节:长上下文、CoT压缩、课程、采样策略、测试用例生成等。
在假期中阅读这些令人振奋的内容!

白皮书链接:
300.46K
热门
排行
收藏