DeepSeek推出V3.1,将V3和R1统一为一个混合推理模型,智能水平逐步提升 智能水平逐步提升:DeepSeek V3.1的初步基准测试结果显示,推理模式下的人工分析智能指数为60,较R1的59有所上升。在非推理模式下,V3.1的得分为49,较早期的V3 0324得分44有了更大的提升。这使得V3.1(推理)落后于阿里巴巴最新的Qwen3 235B 2507(推理)——DeepSeek尚未重新夺回领先地位。 混合推理:@deepseek_ai首次采用混合推理模型,支持推理和非推理模式。DeepSeek转向统一的混合推理模型模仿了OpenAI、Anthropic和Google的做法。然而,值得注意的是,阿里巴巴最近放弃了他们之前偏好的混合方法,分别发布了Qwen3 2507推理和指令模型。 功能调用/工具使用:虽然DeepSeek声称模型的功能调用有所改善,但DeepSeek V3.1在推理模式下不支持功能调用。这可能会大大限制其支持具有智能要求的代理工作流程的能力,包括在编码代理中的应用。 令牌使用:DeepSeek V3.1在推理模式下的得分比DeepSeek R1略高,并且在我们用于人工分析智能指数的评估中使用的令牌略少。在非推理模式下,它使用的令牌比V3 0324略多——但仍然是其推理模式使用的令牌的几倍。 API:DeepSeek的第一方API现在在他们的聊天和推理端点上服务于新的DeepSeek V3.1模型——只需在聊天模板中更改是否提供结束思考</think>令牌,以控制模型是否进行推理。 架构:DeepSeek V3.1在架构上与之前的V3和R1模型完全相同,具有671B的总参数和37B的活跃参数。 影响:我们建议在对这一发布所暗示的DeepSeek在未来模型(传闻称为V4或R2)进展方面做出任何假设时保持谨慎。我们注意到,DeepSeek之前在2024年12月10日发布了基于其V2架构的最终模型,仅在发布V3的两周前。
70.81K