一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

宣布人工分析长上下文推理（AA-LCR），这是一个新的基准，用于通过测试多个长文档（~100k tokens）的推理能力来评估长上下文性能。 AA-LCR的重点是复制真实的知识工作和推理任务，测试对现代AI应用至关重要的能力，涵盖文档分析、代码库理解和复杂的多步骤工作流程。 AA-LCR包含100个基于文本的困难问题，这些问题需要在多个代表~100k输入tokens的真实世界文档中进行推理。问题的设计使得答案不能直接找到，而必须从多个信息源中推理得出，人工测试验证每个问题确实需要真实的推理而非检索。关键要点： ➤ 今天的领先模型实现了~70%的准确率：前三名分别是OpenAI o3（69%）、xAI Grok 4（68%）和Qwen3 235B 2507 Thinking（67%） ➤👀 我们也已经有了gpt-oss的结果！120B的表现接近o4-mini（高），与OpenAI关于模型性能的声明一致。我们将很快跟进模型的智能指数。 ➤ 100个基于文本的困难问题，涵盖7类文档（公司报告、行业报告、政府咨询、学术界、法律、市场材料和调查报告） ➤ 每个问题约需~100k tokens的输入，要求模型支持至少128K的上下文窗口才能在此基准上得分 ➤ 运行基准所需的总独特输入tokens约为~3M，涵盖~230个文档（输出tokens通常因模型而异） ➤ 数据集链接在🤗 @HuggingFace下方我们将AA-LCR添加到人工分析智能指数，并将版本号提升至v2.2。人工分析智能指数v2.2现在包括：MMLU-Pro、GPQA Diamond、AIME 2025、IFBench、LiveCodeBench、SciCode和AA-LCR。所有数字现在已在网站上更新。查看哪些模型在人工分析智能指数v2.2中表现优异👇

28.52K