DeepSeek lanserar V3.1 och förenar V3 och R1 till en hybrid resonemangsmodell med en inkrementell ökning av intelligensen Ökning av inkrementell intelligens: Initiala benchmarkingresultat för DeepSeek V3.1 visar Artificial Analysis Intelligence Index på 60 i resonemangsläge, upp från R1:s poäng på 59. I icke-resonemangsläge uppnår V3.1 en poäng på 49, en större ökning från den tidigare V3 0324-poängen på 44. Detta lämnar V3.1 (resonemang) bakom Alibabas senaste Qwen3 235B 2507 (resonemang) - DeepSeek har inte tagit tillbaka ledningen. Hybridresonemang: @deepseek_ai har för första gången gått över till en hybridmodell för resonemang - med stöd för både resonemang och icke-resonemang. DeepSeeks övergång till en enhetlig hybridresonemangsmodell efterliknar det tillvägagångssätt som OpenAI, Anthropic och Google har antagit. Det är dock intressant att notera att Alibaba nyligen övergav sin hybridmetod som de föredrog för Qwen3 med sina separata utgåvor av Qwen3 2507 resonemangs- och instruktionsmodeller. Funktionsanrop / verktygsanvändning: Medan DeepSeek hävdar förbättrad funktionsanrop för modellen, stöder DeepSeek V3.1 inte funktionsanrop i resonemangsläge. Detta kommer sannolikt att avsevärt begränsa dess förmåga att stödja agentiska arbetsflöden med intelligenskrav, inklusive kodning av agenter. Tokenanvändning: DeepSeek V3.1 får stegvis högre poäng i resonemangsläge än DeepSeek R1 och använder något färre tokens över de val vi använder för Artificial Analysis Intelligence Index. I icke-resonemangsläge använder den något fler tokens än V3 0324 - men fortfarande flera gånger färre än i sitt eget resonemangsläge. API: DeepSeeks förstaparts-API betjänar nu den nya DeepSeek V3.1-modellen på både deras chatt- och resonemangsslutpunkter - och ändrar helt enkelt om sluttänkartoken </think> tillhandahålls till modellen i chattmallen för att kontrollera om modellen kommer att resonera. Arkitektur: DeepSeek V3.1 är arkitektoniskt identisk med tidigare V3- och R1-modeller, med totalt 671B parametrar och 37B aktiva parametrar. Konsekvenser: Vi skulle råda till försiktighet med att göra några antaganden om vad denna utgåva innebär om DeepSeeks framsteg mot en framtida modell som i rykten kallas V4 eller R2. Vi noterar att DeepSeek tidigare släppte den slutliga modellen byggd på deras V2-arkitektur den 10 december 2024, bara två veckor innan de släppte V3.
70,8K