Thông báo Phân tích Nhân tạo Lý luận Ngữ cảnh Dài (AA-LCR), một tiêu chuẩn mới để đánh giá hiệu suất ngữ cảnh dài thông qua việc kiểm tra khả năng lý luận trên nhiều tài liệu dài (~100k token) Trọng tâm của AA-LCR là tái hiện công việc kiến thức thực tế và các nhiệm vụ lý luận, kiểm tra khả năng quan trọng đối với các ứng dụng AI hiện đại trải rộng từ phân tích tài liệu, hiểu biết về mã nguồn, đến các quy trình làm việc phức tạp nhiều bước. AA-LCR bao gồm 100 câu hỏi khó dựa trên văn bản yêu cầu lý luận qua nhiều tài liệu thực tế đại diện cho ~100k token đầu vào. Các câu hỏi được thiết kế sao cho câu trả lời không thể được tìm thấy trực tiếp mà phải được lý luận từ nhiều nguồn thông tin, với việc kiểm tra của con người xác minh rằng mỗi câu hỏi yêu cầu suy luận thực sự thay vì chỉ là truy xuất. Những điểm chính: ➤ Các mô hình hàng đầu hiện nay đạt ~70% độ chính xác: ba vị trí hàng đầu thuộc về OpenAI o3 (69%), xAI Grok 4 (68%) và Qwen3 235B 2507 Thinking (67%) ➤👀 Chúng tôi cũng đã có kết quả gpt-oss! 120B hoạt động gần với o4-mini (cao), phù hợp với các tuyên bố của OpenAI về hiệu suất mô hình. Chúng tôi sẽ sớm theo dõi với một Chỉ số Trí tuệ cho các mô hình. ➤ 100 câu hỏi khó dựa trên văn bản trải dài 7 loại tài liệu (Báo cáo Công ty, Báo cáo Ngành, Tư vấn Chính phủ, Học thuật, Pháp lý, Tài liệu Tiếp thị và Báo cáo Khảo sát) ➤ ~100k token đầu vào cho mỗi câu hỏi, yêu cầu các mô hình hỗ trợ cửa sổ ngữ cảnh tối thiểu 128K để ghi điểm trên tiêu chuẩn này ➤ ~3M token đầu vào duy nhất trải dài ~230 tài liệu để chạy tiêu chuẩn (token đầu ra thường thay đổi theo mô hình) ➤ Liên kết đến tập dữ liệu trên 🤗 @HuggingFace ở dưới Chúng tôi đang thêm AA-LCR vào Chỉ số Trí tuệ Phân tích Nhân tạo, và nâng số phiên bản lên v2.2. Chỉ số Trí tuệ Phân tích Nhân tạo v2.2 hiện bao gồm: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode và AA-LCR. Tất cả các số liệu đã được cập nhật trên trang web. Tìm hiểu xem các mô hình nào có trong Chỉ số Trí tuệ Phân tích Nhân tạo v2.2 👇
28,62K