DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

DeepSeek lansează V3.1, unificând V3 și R1 într-un model de raționament hibrid cu o creștere incrementală a inteligenței Creșterea incrementală a inteligenței: Rezultatele inițiale ale benchmarking-ului pentru DeepSeek V3.1 arată un indice de inteligență de analiză artificială de 60 în modul de raționament, în creștere de la scorul R1 de 59. În modul non-raționament, V3.1 obține un scor de 49, o creștere mai mare față de scorul anterior V3 0324 de 44. Acest lucru lasă V3.1 (raționament) în spatele celui mai recent Qwen3 235B 2507 (raționament) al Alibaba - DeepSeek nu a preluat conducerea. Raționament hibrid: @deepseek_ai trecut pentru prima dată la un model de raționament hibrid - acceptând atât modurile de raționament, cât și cele de non-raționament. Trecerea DeepSeek la un model de raționament hibrid unificat imită abordarea adoptată de OpenAI, Anthropic și Google. Este interesant de remarcat, totuși, că Alibaba a abandonat recent abordarea hibridă pe care o preferau pentru Qwen3 cu lansările lor separate ale modelelor Qwen3 2507 de raționament și instruire. Apelarea funcției / utilizarea instrumentului: În timp ce DeepSeek pretinde că a îmbunătățit apelarea funcției pentru model, DeepSeek V3.1 nu acceptă apelarea funcției atunci când este în modul de raționament. Acest lucru este probabil să limiteze substanțial capacitatea sa de a susține fluxurile de lucru agentice cu cerințe de informații, inclusiv în agenții de codificare. Utilizarea token-urilor: DeepSeek V3.1 are un scor incremental mai mare în modul de raționament decât DeepSeek R1 și folosește puțin mai puține token-uri în evaluările pe care le folosim pentru Artificial Analysis Intelligence Index. În modul non-raționament, folosește puțin mai multe jetoane decât V3 0324 - dar totuși de câteva ori mai puține decât în propriul său mod de raționament. API: API-ul primar al DeepSeek servește acum noul model DeepSeek V3.1 atât pe chat, cât și pe endpoint-urile de raționament - pur și simplu schimbând dacă tokenul de gândire finală </think> este furnizat modelului în șablonul de chat pentru a controla dacă modelul va raționa. Arhitectură: DeepSeek V3.1 este identic din punct de vedere arhitectural cu modelele anterioare V3 și R1, cu 671 miliarde de parametri totali și 37 miliarde de parametri activi. Implicații: Vă sfătuim să fiți precauți atunci când faceți presupuneri despre ceea ce implică această versiune despre progresul DeepSeek către un model viitor denumit în zvonuri V4 sau R2. Observăm că DeepSeek a lansat anterior modelul final construit pe arhitectura lor V2 pe 10 decembrie 2024, cu doar două săptămâni înainte de lansarea V3.

70,8K

Limită superioară

Clasament

Favorite

La modă pe lanț

La modă pe X

Principalele finanțări recente

Cele mai importante