DeepSeek lance V3.1, unifiant V3 et R1 en un modèle de raisonnement hybride avec une augmentation incrémentale de l'intelligence Augmentation incrémentale de l'intelligence : Les premiers résultats de benchmarking pour DeepSeek V3.1 montrent un indice d'intelligence d'analyse artificielle de 60 en mode raisonnement, contre 59 pour le score de R1. En mode non-raisonnement, V3.1 atteint un score de 49, une augmentation plus importante par rapport au score précédent de V3 0324 qui était de 44. Cela laisse V3.1 (raisonnement) derrière le dernier Qwen3 235B 2507 d'Alibaba (raisonnement) - DeepSeek n'a pas repris la tête. Raisonnement hybride : @deepseek_ai est passé à un modèle de raisonnement hybride pour la première fois - supportant à la fois les modes de raisonnement et de non-raisonnement. Le passage de DeepSeek à un modèle de raisonnement hybride unifié imite l'approche adoptée par OpenAI, Anthropic et Google. Il est intéressant de noter, cependant, qu'Alibaba a récemment abandonné l'approche hybride qu'il favorisait pour Qwen3 avec ses sorties séparées des modèles de raisonnement et d'instruction de Qwen3 2507. Appel de fonction / utilisation d'outils : Bien que DeepSeek affirme avoir amélioré l'appel de fonction pour le modèle, DeepSeek V3.1 ne prend pas en charge l'appel de fonction en mode raisonnement. Cela risque de limiter considérablement sa capacité à soutenir des flux de travail agentiques avec des exigences d'intelligence, y compris dans les agents de codage. Utilisation des tokens : DeepSeek V3.1 obtient des scores légèrement plus élevés en mode raisonnement que DeepSeek R1, et utilise légèrement moins de tokens dans les évaluations que nous utilisons pour l'indice d'intelligence d'analyse artificielle. En mode non-raisonnement, il utilise légèrement plus de tokens que V3 0324 - mais reste plusieurs fois inférieur à son propre mode raisonnement. API : L'API de première partie de DeepSeek sert désormais le nouveau modèle DeepSeek V3.1 sur ses points de terminaison de chat et de raisonnement - il suffit de changer si le token de pensée finale </think> est fourni au modèle dans le modèle de chat pour contrôler si le modèle va raisonner. Architecture : DeepSeek V3.1 est architecturale identique aux modèles précédents V3 et R1, avec 671B de paramètres totaux et 37B de paramètres actifs. Implications : Nous conseillerions la prudence dans toute hypothèse concernant ce que cette sortie implique sur les progrès de DeepSeek vers un futur modèle désigné dans les rumeurs comme V4 ou R2. Nous notons que DeepSeek a précédemment publié le modèle final construit sur leur architecture V2 le 10 décembre 2024, juste deux semaines avant de publier V3.
70,79K