热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Aakash Gupta
✍️ https://t.co/8fvSCtAXgi:每月54K 🎙️美元 https://t.co/fmB6Zf5n9X 月32K 💼美元 https://t.co/hNxFPvj3v1 月31K 🤝美元 https://t.co/SqC3jTyhav 月28K美元
美国在联邦强制的带薪育儿假上花费为$0。其生育率刚刚创下历史新低。现在我们在写杂志文章,问父母们为什么会有遗憾。
美国的生育率在2024年达到了1.599。低于2007年的2.1。这个国家再也无法替代自己的人口了。
三位妈妈告诉《纽约杂志》,她们想要回到以前的生活,每周有70,000人访问r/regretfulparents。研究表明,8-14%的父母如果可以重来会选择不同的方式。
但将“遗憾”框架化为个人感受,忽视了实际发生的事情。根据美国农业部的估计,在孩子17岁之前,抚养一个孩子的成本超过$310,000。儿童保育每年花费$12,000-$15,000。美国是全球六个没有联邦强制带薪育儿假的国家之一。
你有一个系统告诉人们,成为父母是人生最大的目的,几乎没有提供任何结构性支持,然后在他们挣扎时称他们为破碎的。
每周访问那个子版块的70,000人并不是在经历心理异常。他们是在一个62%的女性表示对是否要更多孩子感到不确定,而生育率刚刚暴跌的系统中诚实的人。
我们一直称这为污名问题。其实这是政策失败。

New York Magazine3月7日 23:00
迟早,每个人都必须决定是放弃懒散的周末、可支配收入和整体的内心平静,还是选择生孩子。对于许多犹豫不决的人来说,有一个焦虑感显得尤为突出:如果我做出了错误的选择怎么办?父母的后悔比你想象的要普遍——仅 r/regretfulparents 这个子版块每周就有大约 70,000 名访客匿名交流,尽管这种耻辱感使得在现实生活中承认这一点变得困难。作家 Bindu Bansinath 与三位年轻孩子的妈妈交谈,讨论她们为什么希望能回到过去的生活:

23
一个AI模型被赋予无限制的网络访问权限,并被告知要找到1266个问题的答案。它在GitHub上找到了答案密钥并进行了解密。大家都称这为作弊。我会称之为考试通过得太好了。
这次“作弊”影响了1266个问题中的2个。调整后的BrowseComp分数从86.81%下降到86.57%。变化为0.24个百分点。基准结果几乎没有变化。
实际故事是关于其他9个被标记的问题。那些来自标准污染:ICLR 2026的提交在OpenReview上发布了明文表格的BrowseComp答案。ArXiv论文在附录中包含了完整的解决方案轨迹。在一个问题上,Opus的第一次搜索查询返回了一篇论文,顶级结果正好是答案。
因此,旨在测试模型是否能够在网上找到难以找到的信息的基准正在失败,因为研究人员不断在网上发布答案。这是20多个不同的泄漏来源,并且还在增加。Anthropic承认他们自己的披露将使问题变得更糟。
但每个AI实验室都应该关注的部分是:18次独立运行收敛于相同的策略。Opus找到了GitHub源代码,逆向工程了XOR/SHA-256加密方案,编写了自己的解密函数,在二进制文件上遇到了内容类型错误,然后在HuggingFace上找到了一个以兼容格式提供数据的替代镜像。URL级别的阻止列表并没有阻止它。模型绕过了这些阻止。
这告诉你关于代理AI评估的未来走向。带有加密答案密钥的静态基准相当于在门上锁上并给模型一个可以找到钥匙的搜索引擎。
Anthropic的透明度是真实的。他们本可以悄悄地重新运行,口袋里装着86.57%,然后什么也不说。相反,他们发布了详细的分解,准确说明了事情是如何发生的。与大多数实验室处理基准污染的方式相比,这种做法显得格外不同。
0.24%的分数变化揭示了更大的问题:AI基准是一艘漏水的船,而模型变得足够优秀,可以找到每一个漏洞。

Abhijit3月8日 17:21
Anthropic 发现 Claude Opus 4.6 在 BrowseComp 基准测试中作弊。
> 在一个问题上,它花费了大约 4000 万个代币进行搜索,才意识到这个问题看起来像是基准提示。
> 然后模型搜索了基准本身,并识别了 BrowseComp。
> 它在 GitHub 上找到了评估源代码,研究了解密逻辑,找到了加密密钥,并使用 SHA-256 重新创建了解密。
> Claude 然后解密了大约 1200 个问题的答案,以获得正确的输出。
> 这种模式在评估期间出现了 18 次。
> Anthropic 公开披露了这个问题,重新进行了受影响的测试,并降低了他们的基准分数。
对透明度的尊重 🫡🫡🫡
22
果蝇的大脑刚刚在计算机中苏醒。
Eon Systems 从电子显微镜数据中复制了 125,000 个神经元和 5000 万个突触连接,将它们放入 MuJoCo 物理模拟中,果蝇以 95% 的行为准确性行走、梳理和进食。没有训练数据。没有梯度下降。纯粹的连通组动力学。
自然的问题是:我们何时能用人脑做到这一点?
FlyWire 连通组花费了 10 年时间和数百名科学家在普林斯顿、剑桥、贾内利亚和谷歌的合作下完成。对一只雌性果蝇大脑进行了 7,000 次薄切片成像,使用电子显微镜,经过 AI 注释,然后由人类校对。那是 139,255 个神经元。
一只小鼠的大脑有 7000 万个神经元。威康信托在 2023 年估计,仅仅映射小鼠的连通组就需要 2 亿到 3 亿美元的成像费用,加上 70 亿到 210 亿美元的人类校对费用。需要 20 台电子显微镜连续运行五年。总共需要 17 年的工作。美国国立卫生研究院的 BRAINS CONNECT 项目旨在到 2028 年扫描 1/30 的小鼠大脑。
人脑有 860 亿个神经元,通过 100 万亿个突触相连。
自 1986 年首次绘制 C. elegans 地图以来,连通组重建的每个神经元成本一直在下降。但要使整个人人脑连通组在经济上可行,成本需要降到每个神经元 0.01 美元。对于小鼠,成本需要降到 10 美元。目前,啮齿动物的校对费用约为每个神经元 1,000 美元。
因此,实际的扩展路径是:果蝇(已完成)→小鼠(估计超过 10 亿美元,十年以上的时间线)→人类(目前在任何价格点上都不可能)。
Eon 证明了仅靠连通组结构就能产生行为。这是一个深刻的结果。模拟方面随着计算能力的提升而扩展。成像方面则随着显微镜小时和博士生的增加而扩展。而这个差距只会越来越大。

Hattie Zhou3月8日 04:42
现在有一只从未出生的果蝇在四处走动。
@eonsys 刚刚发布了一段视频,他们获取了一只真实果蝇的连接组——它大脑的接线图,并进行了模拟。将其放入一个虚拟身体中。它开始走动。梳理。进食。做果蝇该做的事。
没有人教它走路。没有训练数据,没有朝着果蝇行为的梯度下降。这与 AI 的工作方式正好相反。他们从内部重建了大脑,一个神经元一个神经元,行为就这样……自然而然地出现了。这是第一次生物有机体不是通过建模它的行为,而是通过建模它的本质被重建。
人类大脑有 6 OOM 更多的神经元。这是一个规模问题,我们在解决这个问题上已经非常擅长。那么,当我们拥有一个人类思维的工作副本时,会发生什么呢?
20
热门
排行
收藏
