Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Analyse indépendante des modèles d’IA et des fournisseurs d’hébergement - choisissez le meilleur modèle et le meilleur fournisseur d’API pour votre cas d’utilisation
Alibaba a lancé 4 nouveaux modèles Qwen3.5 allant de 0.8B à 9B. Le 9B (Raisonnement, 32 sur l'Indice d'Intelligence) est le modèle le plus intelligent sous 10B paramètres, et le 4B (Raisonnement, 27) le plus intelligent sous 5B, mais les deux utilisent plus de 200M de tokens de sortie pour faire fonctionner l'Indice d'Intelligence
@Alibaba_Qwen a élargi la famille Qwen3.5 avec quatre modèles denses plus petits : le 9B (Raisonnement, 32 sur l'Indice d'Intelligence), 4B (Raisonnement, 27), 2B (Raisonnement, 16) et 0.8B (Raisonnement, 9). Ceux-ci complètent les plus grands modèles 397B, 27B, 122B A10B et 35B A3B lancés plus tôt ce mois-ci. Tous les modèles sont sous licence Apache 2.0, supportent 262K de contexte, incluent un support de vision natif et utilisent la même approche hybride de pensée/non-pensée unifiée que le reste de la famille Qwen3.5
Résultats clés des benchmarks pour les variantes de raisonnement :
➤ Le 9B et le 4B sont les modèles les plus intelligents dans leurs classes de taille respectives, devant tous les autres modèles sous 10B paramètres. Qwen3.5 9B (32) obtient environ le double des scores des modèles les plus proches sous 10B : Falcon-H1R-7B (16) et NVIDIA Nemotron Nano 9B V2 (Raisonnement, 15). Qwen3.5 4B (27) surpasse tous ces modèles malgré un nombre de paramètres environ deux fois inférieur. Tous les quatre petits modèles Qwen3.5 se trouvent sur le front de Pareto du graphique Intelligence vs. Total des Paramètres
➤ La génération Qwen3.5 représente une augmentation significative de l'intelligence par rapport à Qwen3 dans toutes les tailles de modèles sous 10B, avec des gains plus importants à des nombres de paramètres totaux plus élevés. En comparant les variantes de raisonnement : Qwen3.5 9B (32) est 15 points devant Qwen3 VL 8B (17), le 4B (27) gagne 9 points par rapport à Qwen3 4B 2507 (18), le 2B (16) est 3 points devant Qwen3 1.7B (estimé à 13), et le 0.8B (9) gagne 2.5 points par rapport à Qwen3 0.6B (6.5).
➤ Tous les quatre modèles utilisent entre 230 et 390M de tokens de sortie pour faire fonctionner l'Indice d'Intelligence, ce qui est significativement plus que les modèles Qwen3.5 plus grands et les prédécesseurs Qwen3. Qwen3.5 2B a utilisé environ 390M de tokens de sortie, 4B a utilisé environ 240M, 0.8B a utilisé environ 230M, et 9B a utilisé environ 260M. Pour le contexte, le modèle Qwen3.5 27B beaucoup plus grand a utilisé 98M et le modèle phare 397B a utilisé 86M. Ces comptes de tokens dépassent également la plupart des modèles de pointe : Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) et GLM-5 Raisonnement (109M)
➤ L'AA-Omniscience est une faiblesse relative, avec des taux d'hallucination de 80-82% pour le 4B et le 9B. Qwen3.5 4B obtient -57 sur l'AA-Omniscience avec un taux d'hallucination de 80% et une précision de 12.8%. Qwen3.5 9B obtient -56 avec 82% d'hallucination et 14.7% de précision. Ceux-ci sont légèrement meilleurs que leurs prédécesseurs Qwen3 (Qwen3 4B 2507 : -61, 84% d'hallucination, 12.7% de précision), l'amélioration étant principalement due à des taux d'hallucination plus bas plutôt qu'à une précision plus élevée.
➤ Les modèles Qwen3.5 sub-10B combinent une intelligence élevée avec une vision native à une échelle auparavant indisponible. Sur MMMU-Pro (raisonnement multimodal), Qwen3.5 9B obtient 69.2% et 4B obtient 65.4%, devant Qwen3 VL 8B (56.6%), Qwen3 VL 4B (52.0%) et Ministral 3 8B (46.0%). Le Qwen3.5 0.8B obtient 25.8%, ce qui est notable pour un modèle sub-1B
Autres informations :
➤ Fenêtre de contexte : 262K tokens
➤ Licence : Apache 2.0
➤ Quantification : Les poids natifs sont BF16. Alibaba n'a pas publié de quantifications GPTQ-Int4 de première partie pour ces petits modèles, bien qu'ils l'aient fait pour les modèles plus grands de la famille Qwen3.5 publiés plus tôt (27B, 35B-A3B, 122B-A10B, 397B-A17B). En quantification 4 bits, tous les quatre modèles sont accessibles sur du matériel grand public
➤ Disponibilité : Au moment de la publication, il n'y a pas d'APIs serverless de première ou de troisième partie hébergeant ces modèles.

9,79K
Alibaba a élargi sa famille de modèles Qwen3.5 avec 3 nouveaux modèles - le modèle 27B se distingue, obtenant un score de 42 sur l'Indice d'Analyse de l'Intelligence Artificielle et égalant des modèles à poids ouverts de 8 à 25 fois sa taille
@Alibaba_Qwen a élargi la famille Qwen3.5 avec trois nouveaux modèles aux côtés du modèle phare 397B lancé plus tôt ce mois-ci : le Qwen3.5 27B (Dense, obtenant un score de 42 sur l'Indice d'Intelligence), le Qwen3.5 122B A10B (MoE, 42) et le Qwen3.5 35B A3B (MoE, 37). Les deux modèles MoE (Mixture-of-Experts) n'activent qu'une fraction des paramètres totaux par passage avant (10B de 122B et ~3B de 35B respectivement). L'Indice d'Intelligence est notre métrique de synthèse incorporant 10 évaluations couvrant le raisonnement général, les tâches agentiques, le codage et le raisonnement scientifique.
Tous les modèles sont sous licence Apache 2.0, prennent en charge nativement 262K de contexte et reviennent à l'architecture hybride de pensée/non-pensée unifiée de l'original Qwen3, après qu'Alibaba soit passé à des points de contrôle séparés pour l'Instruction et le Raisonnement avec les mises à jour Qwen3 2507.
Principaux résultats de benchmarking pour les variantes de raisonnement :
➤ Le Qwen3.5 27B obtient un score de 42 sur l'Indice d'Intelligence et est le modèle le plus intelligent sous 230B. Le modèle le plus proche de taille similaire est GLM-4.7-Flash (31B au total, 3B actifs) qui obtient un score de 30. Les modèles à poids ouverts d'intelligence équivalente sont 8 à 25 fois plus grands en termes de paramètres totaux : MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) et GLM-4.7 (357B, 42). En précision FP8, il faut ~27 Go pour stocker les poids du modèle, tandis qu'en quantification 4 bits, vous pouvez utiliser du matériel de qualité ordinateur portable avec 16 Go+ de RAM
➤ Le Qwen3.5 27B obtient un score de 1205 sur GDPval-AA (Tâches de Travail Réelles Agentiques), le plaçant aux côtés de modèles plus grands. Pour le contexte, MiniMax-M2.5 obtient 1206, GLM-4.7 (Raisonnement) obtient 1200, et DeepSeek V3.2 (Raisonnement) obtient 1194. Cela est particulièrement notable pour un modèle de 27B de paramètres et suggère une forte capacité agentique pour sa taille. GDPval-AA teste les modèles sur des tâches réelles à travers 44 professions et 9 grandes industries
➤ AA-Omniscience reste une faiblesse relative à travers la famille Qwen3.5, principalement due à une précision inférieure plutôt qu'à un taux d'hallucination. Le Qwen3.5 27B obtient -42 sur AA-Omniscience, comparable à MiniMax-M2.5 (-40) mais derrière DeepSeek V3.2 (-21) et GLM-4.7 (-35). Bien que le taux d'hallucination du Qwen3.5 27B (80%) soit inférieur à celui des pairs (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), sa précision est également inférieure à 21% contre 34% pour DeepSeek V3.2 et 29% pour GLM-4.7. Cela est probablement une conséquence de la taille du modèle - nous avons généralement observé que les modèles avec plus de paramètres totaux obtiennent de meilleurs résultats en précision dans AA-Omniscience, car un rappel de connaissances plus large bénéficie de comptes de paramètres plus importants
➤ Le Qwen3.5 27B est équivalemment intelligent au Qwen3.5 122B A10B. Le 122B A10B est un modèle Mixture-of-Experts qui n'active que 10B de ses 122B de paramètres totaux par passage avant. Le modèle 27B mène en GDPval-AA (1205 Elo contre 1145 Elo) et légèrement sur TerminalBench (+1,5 p.p.), tandis que le modèle 122B mène sur SciCode (+2,5 p.p.), HLE (+1,2 p.p.), et a un taux d'hallucination plus bas (Omniscience -40 contre -42)
➤ Le Qwen3.5 35B A3B (Raisonnement, 37) est le modèle le plus intelligent avec ~3B de paramètres actifs, 7 points devant GLM-4.7-Flash (30). D'autres modèles dans cette catégorie d'environ 3B actifs incluent Qwen3 Coder Next (80B au total, 28), Qwen3 Next 80B A3B (27), et NVIDIA Nemotron 3 Nano 30B A3B (24)
➤ Le Qwen3.5 27B a utilisé 98M de tokens de sortie pour exécuter l'Indice d'Intelligence, coûtant environ 299 $ via l'API Alibaba Cloud. Cela est remarquablement élevé en termes d'utilisation de tokens par rapport aux modèles d'intelligence similaire : MiniMax-M2.5 (56M), DeepSeek V3.2 (61M), et même le plus grand Qwen3.5 397B (86M).
Autres informations :
➤ Fenêtre de contexte : 262K tokens (extensible à 1M via YaRN)
➤ Licence : Apache 2.0
➤ Tarification API (Alibaba Cloud) : 397B : 0,60 $ / 3,60 $, 122B : 0,40 $ / 3,20 $, 27B : 0,30 $ / 2,40 $, 35B A3B : 0,25 $ / 2,00 $ par 1M de tokens d'entrée/sortie

3,91K
Meilleurs
Classement
Favoris
