DeepSeek推出V3.1,將V3和R1統一為一個混合推理模型,智能水平逐步提升 智能水平逐步提升:DeepSeek V3.1的初步基準測試結果顯示,推理模式下的人工分析智能指數為60,較R1的59有所上升。在非推理模式下,V3.1的得分為49,較早期的V3 0324得分44有了更大的提升。這使得V3.1(推理)落後於阿里巴巴最新的Qwen3 235B 2507(推理)——DeepSeek尚未重新奪回領先地位。 混合推理:@deepseek_ai首次採用混合推理模型,支持推理和非推理模式。DeepSeek轉向統一的混合推理模型模仿了OpenAI、Anthropic和Google的做法。然而,值得注意的是,阿里巴巴最近放棄了他們之前偏好的混合方法,分別發布了Qwen3 2507推理和指令模型。 功能調用/工具使用:雖然DeepSeek聲稱模型的功能調用有所改善,但DeepSeek V3.1在推理模式下不支持功能調用。這可能會大大限制其支持具有智能要求的代理工作流程的能力,包括在編碼代理中的應用。 令牌使用:DeepSeek V3.1在推理模式下的得分比DeepSeek R1略高,並且在我們用於人工分析智能指數的評估中使用的令牌略少。在非推理模式下,它使用的令牌比V3 0324略多——但仍然是其推理模式使用的令牌的幾倍。 API:DeepSeek的第一方API現在在他們的聊天和推理端點上服務於新的DeepSeek V3.1模型——只需在聊天模板中更改是否提供結束思考</think>令牌,以控制模型是否進行推理。 架構:DeepSeek V3.1在架構上與之前的V3和R1模型完全相同,具有671B的總參數和37B的活躍參數。 影響:我們建議在對這一發布所暗示的DeepSeek在未來模型(傳聞稱為V4或R2)進展方面做出任何假設時保持謹慎。我們注意到,DeepSeek之前在2024年12月10日發布了基於其V2架構的最終模型,僅在發布V3的兩週前。
70.79K