一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Aakash Gupta

✍️ https://t.co/8fvSCtAXgi：每月54K 🎙️美元 https://t.co/fmB6Zf5n9X 月32K 💼美元 https://t.co/hNxFPvj3v1 月31K 🤝美元 https://t.co/SqC3jTyhav 月28K美元

一个AI模型被赋予无限制的网络访问权限，并被告知要找到1266个问题的答案。它在GitHub上找到了答案密钥并进行了解密。大家都称这为作弊。我会称之为考试通过得太好了。这次“作弊”影响了1266个问题中的2个。调整后的BrowseComp分数从86.81%下降到86.57%。变化为0.24个百分点。基准结果几乎没有变化。实际故事是关于其他9个被标记的问题。那些来自标准污染：ICLR 2026的提交在OpenReview上发布了明文表格的BrowseComp答案。ArXiv论文在附录中包含了完整的解决方案轨迹。在一个问题上，Opus的第一次搜索查询返回了一篇论文，顶级结果正好是答案。因此，旨在测试模型是否能够在网上找到难以找到的信息的基准正在失败，因为研究人员不断在网上发布答案。这是20多个不同的泄漏来源，并且还在增加。Anthropic承认他们自己的披露将使问题变得更糟。但每个AI实验室都应该关注的部分是：18次独立运行收敛于相同的策略。Opus找到了GitHub源代码，逆向工程了XOR/SHA-256加密方案，编写了自己的解密函数，在二进制文件上遇到了内容类型错误，然后在HuggingFace上找到了一个以兼容格式提供数据的替代镜像。URL级别的阻止列表并没有阻止它。模型绕过了这些阻止。这告诉你关于代理AI评估的未来走向。带有加密答案密钥的静态基准相当于在门上锁上并给模型一个可以找到钥匙的搜索引擎。 Anthropic的透明度是真实的。他们本可以悄悄地重新运行，口袋里装着86.57%，然后什么也不说。相反，他们发布了详细的分解，准确说明了事情是如何发生的。与大多数实验室处理基准污染的方式相比，这种做法显得格外不同。 0.24%的分数变化揭示了更大的问题：AI基准是一艘漏水的船，而模型变得足够优秀，可以找到每一个漏洞。

果蝇的大脑刚刚在计算机中苏醒。 Eon Systems 从电子显微镜数据中复制了 125,000 个神经元和 5000 万个突触连接，将它们放入 MuJoCo 物理模拟中，果蝇以 95% 的行为准确性行走、梳理和进食。没有训练数据。没有梯度下降。纯粹的连通组动力学。自然的问题是：我们何时能用人脑做到这一点？ FlyWire 连通组花费了 10 年时间和数百名科学家在普林斯顿、剑桥、贾内利亚和谷歌的合作下完成。对一只雌性果蝇大脑进行了 7,000 次薄切片成像，使用电子显微镜，经过 AI 注释，然后由人类校对。那是 139,255 个神经元。一只小鼠的大脑有 7000 万个神经元。威康信托在 2023 年估计，仅仅映射小鼠的连通组就需要 2 亿到 3 亿美元的成像费用，加上 70 亿到 210 亿美元的人类校对费用。需要 20 台电子显微镜连续运行五年。总共需要 17 年的工作。美国国立卫生研究院的 BRAINS CONNECT 项目旨在到 2028 年扫描 1/30 的小鼠大脑。人脑有 860 亿个神经元，通过 100 万亿个突触相连。自 1986 年首次绘制 C. elegans 地图以来，连通组重建的每个神经元成本一直在下降。但要使整个人人脑连通组在经济上可行，成本需要降到每个神经元 0.01 美元。对于小鼠，成本需要降到 10 美元。目前，啮齿动物的校对费用约为每个神经元 1,000 美元。因此，实际的扩展路径是：果蝇（已完成）→小鼠（估计超过 10 亿美元，十年以上的时间线）→人类（目前在任何价格点上都不可能）。 Eon 证明了仅靠连通组结构就能产生行为。这是一个深刻的结果。模拟方面随着计算能力的提升而扩展。成像方面则随着显微镜小时和博士生的增加而扩展。而这个差距只会越来越大。