宣布人工分析长上下文推理(AA-LCR),这是一个新的基准,用于通过测试多个长文档(~100k tokens)的推理能力来评估长上下文性能。 AA-LCR的重点是复制真实的知识工作和推理任务,测试对现代AI应用至关重要的能力,涵盖文档分析、代码库理解和复杂的多步骤工作流程。 AA-LCR包含100个基于文本的困难问题,这些问题需要在多个代表~100k输入tokens的真实世界文档中进行推理。问题的设计使得答案不能直接找到,而必须从多个信息源中推理得出,人工测试验证每个问题确实需要真实的推理而非检索。 关键要点: ➤ 今天的领先模型实现了~70%的准确率:前三名分别是OpenAI o3(69%)、xAI Grok 4(68%)和Qwen3 235B 2507 Thinking(67%) ➤👀 我们也已经有了gpt-oss的结果!120B的表现接近o4-mini(高),与OpenAI关于模型性能的声明一致。我们将很快跟进模型的智能指数。 ➤ 100个基于文本的困难问题,涵盖7类文档(公司报告、行业报告、政府咨询、学术界、法律、市场材料和调查报告) ➤ 每个问题约需~100k tokens的输入,要求模型支持至少128K的上下文窗口才能在此基准上得分 ➤ 运行基准所需的总独特输入tokens约为~3M,涵盖~230个文档(输出tokens通常因模型而异) ➤ 数据集链接在🤗 @HuggingFace下方 我们将AA-LCR添加到人工分析智能指数,并将版本号提升至v2.2。人工分析智能指数v2.2现在包括:MMLU-Pro、GPQA Diamond、AIME 2025、IFBench、LiveCodeBench、SciCode和AA-LCR。 所有数字现在已在网站上更新。查看哪些模型在人工分析智能指数v2.2中表现优异👇
28.52K