Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Artificial Analysis

Phân tích độc lập các mô hình AI và nhà cung cấp dịch vụ lưu trữ - chọn mô hình và nhà cung cấp API tốt nhất cho trường hợp sử dụng của bạn

Alibaba đã phát hành 4 mô hình Qwen3.5 mới từ 0.8B đến 9B. Mô hình 9B (Lập luận, 32 trên Chỉ số Trí tuệ) là mô hình thông minh nhất dưới 10B tham số, và mô hình 4B (Lập luận, 27) là mô hình thông minh nhất dưới 5B, nhưng cả hai đều sử dụng hơn 200M token đầu ra để chạy Chỉ số Trí tuệ @Alibaba_Qwen đã mở rộng gia đình Qwen3.5 với bốn mô hình dày đặc nhỏ hơn: 9B (Lập luận, 32 trên Chỉ số Trí tuệ), 4B (Lập luận, 27), 2B (Lập luận, 16) và 0.8B (Lập luận, 9). Những mô hình này bổ sung cho các mô hình lớn hơn 397B, 27B, 122B A10B và 35B A3B được phát hành vào đầu tháng này. Tất cả các mô hình đều có giấy phép Apache 2.0, hỗ trợ 262K ngữ cảnh, bao gồm hỗ trợ thị giác bản địa, và sử dụng cùng một phương pháp tư duy/không tư duy kết hợp như phần còn lại của gia đình Qwen3.5 Kết quả đánh giá chính cho các biến thể lập luận: ➤ Mô hình 9B và 4B là những mô hình thông minh nhất trong các lớp kích thước tương ứng của chúng, vượt trội hơn tất cả các mô hình khác dưới 10B tham số. Qwen3.5 9B (32) ghi điểm gấp đôi so với các mô hình gần nhất dưới 10B: Falcon-H1R-7B (16) và NVIDIA Nemotron Nano 9B V2 (Lập luận, 15). Qwen3.5 4B (27) ghi điểm cao hơn tất cả những mô hình này mặc dù có khoảng một nửa tham số. Tất cả bốn mô hình nhỏ Qwen3.5 đều nằm trên biên Pareto của biểu đồ Trí tuệ so với Tổng tham số ➤ Thế hệ Qwen3.5 đại diện cho một sự nâng cấp trí tuệ đáng kể so với Qwen3 trên tất cả các kích thước mô hình dưới 10B, với những cải tiến lớn hơn ở các tổng số tham số cao hơn. So sánh các biến thể lập luận: Qwen3.5 9B (32) cao hơn 15 điểm so với Qwen3 VL 8B (17), 4B (27) cao hơn 9 điểm so với Qwen3 4B 2507 (18), 2B (16) cao hơn 3 điểm so với Qwen3 1.7B (ước tính 13), và 0.8B (9) cao hơn 2.5 điểm so với Qwen3 0.6B (6.5). ➤ Tất cả bốn mô hình sử dụng 230-390M token đầu ra để chạy Chỉ số Trí tuệ, nhiều hơn đáng kể so với cả hai mô hình anh em lớn hơn Qwen3.5 và các mô hình tiền nhiệm Qwen3. Qwen3.5 2B sử dụng khoảng 390M token đầu ra, 4B sử dụng khoảng 240M, 0.8B sử dụng khoảng 230M, và 9B sử dụng khoảng 260M. Để so sánh, mô hình Qwen3.5 lớn hơn 27B sử dụng 98M và mô hình flagship 397B sử dụng 86M. Những số lượng token này cũng vượt quá hầu hết các mô hình tiên tiến: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M), và GLM-5 Lập luận (109M) ➤ AA-Omniscience là một điểm yếu tương đối, với tỷ lệ ảo giác từ 80-82% cho 4B và 9B. Qwen3.5 4B ghi điểm -57 trên AA-Omniscience với tỷ lệ ảo giác 80% và độ chính xác 12.8%. Qwen3.5 9B ghi điểm -56 với 82% ảo giác và 14.7% độ chính xác. Những điểm số này chỉ tốt hơn một chút so với các mô hình tiền nhiệm Qwen3 (Qwen3 4B 2507: -61, 84% ảo giác, 12.7% độ chính xác), với sự cải thiện chủ yếu do tỷ lệ ảo giác thấp hơn thay vì độ chính xác cao hơn. ➤ Các mô hình Qwen3.5 dưới 10B kết hợp trí tuệ cao với thị giác bản địa ở quy mô trước đây chưa từng có. Trên MMMU-Pro (lập luận đa phương thức), Qwen3.5 9B ghi điểm 69.2% và 4B ghi điểm 65.4%, vượt qua Qwen3 VL 8B (56.6%), Qwen3 VL 4B (52.0%), và Ministral 3 8B (46.0%). Qwen3.5 0.8B ghi điểm 25.8%, điều này rất đáng chú ý cho một mô hình dưới 1B Thông tin khác: ➤ Cửa sổ ngữ cảnh: 262K token ➤ Giấy phép: Apache 2.0 ➤ Định lượng: Trọng số bản địa là BF16. Alibaba chưa phát hành các định lượng GPTQ-Int4 từ bên thứ nhất cho các mô hình nhỏ này, mặc dù họ đã phát hành cho các mô hình lớn hơn trong gia đình Qwen3.5 được phát hành trước đó (27B, 35B-A3B, 122B-A10B, 397B-A17B). Trong định lượng 4-bit, cả bốn mô hình đều có thể truy cập trên phần cứng tiêu dùng ➤ Tính khả dụng: Tại thời điểm xuất bản, không có API không máy chủ từ bên thứ nhất hoặc bên thứ ba nào lưu trữ các mô hình này.

Alibaba đã mở rộng dòng mô hình Qwen3.5 của mình với 3 mô hình mới - mô hình 27B là một mô hình nổi bật, đạt 42 điểm trên Chỉ số Trí tuệ Phân tích Nhân tạo và phù hợp với các mô hình trọng lượng mở gấp 8-25 lần kích thước của nó @Alibaba_Qwen đã mở rộng dòng Qwen3.5 với ba mẫu mới cùng với chiếc flagship 397B được phát hành vào đầu tháng này: Qwen3.5 27B (Dense, đạt 42 điểm trên Intelligence Index), Qwen3.5 122B A10B (MoE, 42) và Qwen3.5 35B A3B (MoE, 37). Hai mô hình MoE (Hỗn hợp các chuyên gia) chỉ kích hoạt một phần nhỏ trong tổng số thông số trên mỗi lần chuyển tiếp (lần lượt là 10B của 122B và ~ 3B của 35B). Chỉ số thông minh là số liệu tổng hợp của chúng tôi kết hợp 10 đánh giá bao gồm lý luận chung, nhiệm vụ tác nhân, mã hóa và lý luận khoa học. Tất cả các mô hình đều được cấp phép Apache 2.0, hỗ trợ ngữ cảnh 262K và quay trở lại kiến trúc kết hợp tư duy thống nhất / không suy nghĩ từ Qwen3 ban đầu, sau khi Alibaba chuyển sang các điểm kiểm tra Hướng dẫn và Lý luận riêng biệt với các bản cập nhật Qwen3 2507. Kết quả điểm chuẩn chính cho các biến thể suy luận: ➤ Qwen3.5 27B đạt 42 điểm về Chỉ số thông minh và là mô hình thông minh nhất dưới 230B. Mô hình gần nhất có kích thước tương tự là GLM-4.7-Flash (tổng cộng 31B, 3B hoạt động) đạt 30 điểm. Các mô hình trọng lượng mở có trí thông minh tương đương lớn hơn 8-25 lần về tổng thông số: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) và GLM-4.7 (357B, 42). Ở độ chính xác FP8, cần ~ 27GB để lưu trữ trọng lượng mô hình, trong khi ở lượng tử hóa 4 bit, bạn có thể sử dụng phần cứng chất lượng máy tính xách tay với RAM 16GB + ➤ Qwen3.5 27B đạt 1205 điểm trên GDPval-AA (Nhiệm vụ làm việc trong thế giới thực tác nhân), đặt nó cùng với các mô hình lớn hơn. Đối với ngữ cảnh, MiniMax-M2.5 đạt điểm 1206, GLM-4.7 (Lý luận) đạt 1200 điểm và DeepSeek V3.2 (Lý luận) đạt điểm 1194. Điều này đặc biệt đáng chú ý đối với mô hình tham số 27B và cho thấy khả năng tác nhân mạnh mẽ so với kích thước của nó. GDPval-AA thử nghiệm các mô hình trên các nhiệm vụ trong thế giới thực trên 44 ngành nghề và 9 ngành công nghiệp chính ➤ AA-Omniscience vẫn là một điểm yếu tương đối trong họ Qwen3.5, chủ yếu do độ chính xác thấp hơn là tỷ lệ ảo giác. Qwen3.5 27B đạt điểm -42 trên AA-Omniscience, tương đương với MiniMax-M2.5 (-40) nhưng đứng sau DeepSeek V3.2 (-21) và GLM-4.7 (-35). Mặc dù tỷ lệ ảo giác của Qwen3.5 27B (80%) thấp hơn so với các đồng nghiệp (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), độ chính xác của nó cũng thấp hơn ở mức 21% so với 34% đối với DeepSeek V3.2 và 29% đối với GLM-4.7. Đây có thể là hậu quả của kích thước mô hình - chúng tôi thường quan sát thấy rằng các mô hình có tổng tham số nhiều hơn hoạt động tốt hơn về độ chính xác trong AA-Omniscience, vì khả năng nhớ lại kiến thức rộng hơn được hưởng lợi từ số lượng tham số lớn hơn ➤ Qwen3.5 27B thông minh tương đương với Qwen3.5 122B A10B. 122B A10B là một mô hình Hỗn hợp các chuyên gia chỉ kích hoạt 10B trong tổng số 122B thông số của nó cho mỗi lần chuyển tiếp. Mô hình 27B dẫn đầu về GDPval-AA (1205 Elo so với 1145 Elo) và một chút trên TerminalBench (+1,5 pp), trong khi mô hình 122B dẫn đầu về SciCode (+2,5 pp), HLE (+1,2 pp) và có tỷ lệ ảo giác thấp hơn (Omniscience -40 so với -42) ➤ Qwen3.5 35B A3B (Reasoning, 37) là model thông minh nhất với các thông số hoạt động ~ 3B, hơn 7 điểm so với GLM-4.7-Flash (30). Các mẫu khác trong danh mục hoạt động ~ 3B này bao gồm Qwen3 Coder Next (tổng cộng 80B, 28), Qwen3 Next 80B A3B (27) và NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Qwen3.5 27B đã sử dụng 98 triệu mã thông báo đầu ra để chạy Chỉ số thông minh, có giá ~ 299 đô la thông qua API đám mây của Alibaba. Đây là mức sử dụng token cao đáng chú ý so với các mô hình có trí thông minh tương tự: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) và thậm chí cả Qwen3.5 397B (86M) lớn hơn. Thông tin khác: ➤ Cửa sổ ngữ cảnh: 262K mã thông báo (có thể mở rộng lên 1 triệu thông qua YaRN) ➤ Giấy phép: Apache 2.0 ➤ Định giá API (Alibaba Cloud): 397 tỷ: 0,60 USD/3,60 USD, 122 tỷ: 0,40 USD/3,20 USD, 27B: 0,30 USD/2,40 USD, 35B A3B: 0,25 USD/2,00 USD cho mỗi 1 triệu token đầu vào/đầu ra

Hàng đầu

Thứ hạng

Yêu thích