DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Artificial Analysis

Analisi indipendente dei modelli di intelligenza artificiale e dei provider di hosting: scegli il modello e il fornitore API migliori per il tuo caso d'uso

Alibaba ha rilasciato 4 nuovi modelli Qwen3.5 da 0.8B a 9B. Il 9B (Ragionamento, 32 nell'Indice di Intelligenza) è il modello più intelligente sotto i 10B parametri, e il 4B (Ragionamento, 27) è il più intelligente sotto i 5B, ma entrambi utilizzano oltre 200M di token di output per eseguire l'Indice di Intelligenza @Alibaba_Qwen ha ampliato la famiglia Qwen3.5 con quattro modelli densi più piccoli: il 9B (Ragionamento, 32 nell'Indice di Intelligenza), 4B (Ragionamento, 27), 2B (Ragionamento, 16) e 0.8B (Ragionamento, 9). Questi completano i modelli più grandi 397B, 27B, 122B A10B e 35B A3B rilasciati all'inizio di questo mese. Tutti i modelli sono con licenza Apache 2.0, supportano 262K di contesto, includono supporto visivo nativo e utilizzano lo stesso approccio ibrido di pensiero/non pensiero unificato come il resto della famiglia Qwen3.5 Risultati chiave di benchmarking per le varianti di ragionamento: ➤ Il 9B e il 4B sono i modelli più intelligenti nelle rispettive classi di dimensione, davanti a tutti gli altri modelli sotto i 10B parametri. Qwen3.5 9B (32) ottiene circa il doppio dei punteggi rispetto ai modelli più vicini sotto i 10B: Falcon-H1R-7B (16) e NVIDIA Nemotron Nano 9B V2 (Ragionamento, 15). Qwen3.5 4B (27) supera tutti questi nonostante abbia circa la metà dei parametri. Tutti e quattro i piccoli modelli Qwen3.5 si trovano sul confine di Pareto del grafico Intelligenza vs. Parametri Totali ➤ La generazione Qwen3.5 rappresenta un significativo aumento di intelligenza rispetto a Qwen3 in tutte le dimensioni dei modelli sotto i 10B, con guadagni maggiori a conteggi di parametri totali più elevati. Confrontando le varianti di ragionamento: Qwen3.5 9B (32) è 15 punti avanti rispetto a Qwen3 VL 8B (17), il 4B (27) guadagna 9 punti rispetto a Qwen3 4B 2507 (18), il 2B (16) è 3 punti avanti rispetto a Qwen3 1.7B (stimato 13), e il 0.8B (9) guadagna 2.5 punti rispetto a Qwen3 0.6B (6.5). ➤ Tutti e quattro i modelli utilizzano 230-390M di token di output per eseguire l'Indice di Intelligenza, significativamente più rispetto ai modelli Qwen3.5 più grandi e ai predecessori Qwen3. Qwen3.5 2B ha utilizzato ~390M di token di output, 4B ha utilizzato ~240M, 0.8B ha utilizzato ~230M, e 9B ha utilizzato ~260M. Per contesto, il molto più grande Qwen3.5 27B ha utilizzato 98M e il flagship 397B ha utilizzato 86M. Questi conteggi di token superano anche la maggior parte dei modelli di frontiera: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) e GLM-5 Ragionamento (109M) ➤ L'AA-Omniscienza è una debolezza relativa, con tassi di allucinazione dell'80-82% per il 4B e il 9B. Qwen3.5 4B ottiene -57 su AA-Omniscienza con un tasso di allucinazione dell'80% e un'accuratezza del 12.8%. Qwen3.5 9B ottiene -56 con un'82% di allucinazione e un'accuratezza del 14.7%. Questi sono marginalmente migliori rispetto ai loro predecessori Qwen3 (Qwen3 4B 2507: -61, 84% di allucinazione, 12.7% di accuratezza), con il miglioramento guidato principalmente da tassi di allucinazione più bassi piuttosto che da un'accuratezza più alta. ➤ I modelli Qwen3.5 sotto i 10B combinano alta intelligenza con visione nativa a una scala precedentemente non disponibile. Su MMMU-Pro (ragionamento multimodale), Qwen3.5 9B ottiene il 69.2% e il 4B ottiene il 65.4%, davanti a Qwen3 VL 8B (56.6%), Qwen3 VL 4B (52.0%) e Ministral 3 8B (46.0%). Il Qwen3.5 0.8B ottiene il 25.8%, che è notevole per un modello sotto 1B Altre informazioni: ➤ Finestra di contesto: 262K token ➤ Licenza: Apache 2.0 ➤ Quantizzazione: I pesi nativi sono BF16. Alibaba non ha rilasciato quantizzazioni GPTQ-Int4 di prima parte per questi piccoli modelli, anche se lo ha fatto per i modelli più grandi nella famiglia Qwen3.5 rilasciati in precedenza (27B, 35B-A3B, 122B-A10B, 397B-A17B). In quantizzazione a 4 bit, tutti e quattro i modelli sono accessibili su hardware consumer ➤ Disponibilità: Al momento della pubblicazione, non ci sono API serverless di prima parte o di terze parti che ospitano questi modelli.

Alibaba ha ampliato la sua famiglia di modelli Qwen3.5 con 3 nuovi modelli - il modello 27B è un punto di riferimento, con un punteggio di 42 sull'Artificial Analysis Intelligence Index e pari a modelli a pesi aperti 8-25 volte le sue dimensioni @Alibaba_Qwen ha ampliato la famiglia Qwen3.5 con tre nuovi modelli insieme al flagship da 397B rilasciato all'inizio di questo mese: il Qwen3.5 27B (Denso, punteggio 42 sull'Intelligence Index), Qwen3.5 122B A10B (MoE, 42) e Qwen3.5 35B A3B (MoE, 37). I due modelli MoE (Mixture-of-Experts) attivano solo una frazione dei parametri totali per passaggio in avanti (10B di 122B e ~3B di 35B rispettivamente). L'Intelligence Index è la nostra metrica di sintesi che incorpora 10 valutazioni che coprono ragionamento generale, compiti agentici, codifica e ragionamento scientifico. Tutti i modelli sono con licenza Apache 2.0, supportano nativamente 262K contesto e tornano all'architettura ibrida di pensiero/non pensiero unificata del Qwen3 originale, dopo che Alibaba è passata a separare i checkpoint Instruct e Reasoning con gli aggiornamenti Qwen3 2507. Risultati chiave di benchmarking per le varianti di ragionamento: ➤ Qwen3.5 27B ottiene 42 sull'Intelligence Index ed è il modello più intelligente sotto i 230B. Il modello più vicino di dimensioni simili è GLM-4.7-Flash (31B totali, 3B attivi) che ottiene 30. I modelli a pesi aperti di intelligenza equivalente sono 8-25 volte più grandi in termini di parametri totali: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) e GLM-4.7 (357B, 42). In precisione FP8 ci vogliono ~27GB per memorizzare i pesi del modello, mentre in quantizzazione a 4 bit puoi utilizzare hardware di qualità laptop con 16GB+ di RAM ➤ Qwen3.5 27B ottiene 1205 su GDPval-AA (Compiti di Lavoro Reale Agentici), collocandosi accanto a modelli più grandi. Per contesto, MiniMax-M2.5 ottiene 1206, GLM-4.7 (Ragionamento) ottiene 1200 e DeepSeek V3.2 (Ragionamento) ottiene 1194. Questo è particolarmente notevole per un modello con 27B di parametri e suggerisce una forte capacità agentica per le sue dimensioni. GDPval-AA testa i modelli su compiti reali in 44 professioni e 9 settori principali ➤ AA-Omniscience rimane una debolezza relativa in tutta la famiglia Qwen3.5, guidata principalmente da una minore accuratezza piuttosto che dal tasso di allucinazione. Qwen3.5 27B ottiene -42 su AA-Omniscience, comparabile a MiniMax-M2.5 (-40) ma dietro a DeepSeek V3.2 (-21) e GLM-4.7 (-35). Sebbene il tasso di allucinazione di Qwen3.5 27B (80%) sia inferiore a quello dei pari (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), la sua accuratezza è anche inferiore al 21% rispetto al 34% per DeepSeek V3.2 e al 29% per GLM-4.7. Questo è probabilmente una conseguenza delle dimensioni del modello - abbiamo generalmente osservato che i modelli con più parametri totali performano meglio in accuratezza in AA-Omniscience, poiché il richiamo di conoscenza più ampio beneficia di conteggi di parametri più grandi ➤ Qwen3.5 27B è equivalentemente intelligente rispetto a Qwen3.5 122B A10B. Il 122B A10B è un modello Mixture-of-Experts che attiva solo 10B dei suoi 122B di parametri totali per passaggio in avanti. Il modello 27B guida in GDPval-AA (1205 Elo vs 1145 Elo) e leggermente su TerminalBench (+1.5 p.p.), mentre il modello 122B guida su SciCode (+2.5 p.p.), HLE (+1.2 p.p.) e ha un tasso di allucinazione più basso (Omniscience -40 vs -42) ➤ Qwen3.5 35B A3B (Ragionamento, 37) è il modello più intelligente con ~3B di parametri attivi, 7 punti avanti rispetto a GLM-4.7-Flash (30). Altri modelli in questa categoria di ~3B attivi includono Qwen3 Coder Next (80B totali, 28), Qwen3 Next 80B A3B (27) e NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Qwen3.5 27B ha utilizzato 98M di token di output per eseguire l'Intelligence Index, costando ~$299 tramite Alibaba Cloud API. Questo è notevolmente alto rispetto all'uso di token rispetto a modelli di intelligenza simile: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) e persino il più grande Qwen3.5 397B (86M). Altre informazioni: ➤ Finestra di contesto: 262K token (estendibile a 1M tramite YaRN) ➤ Licenza: Apache 2.0 ➤ Prezzi API (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 per 1M token di input/output

Principali

Ranking

Preferiti