热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Jasper
@Hyperbolic_Labs 联合创始人兼首席执行官。前@avax和前@citsecurities。在 2 年内完成数学博士学位@UCBerkeley。数学奥林匹克金牌得主。最高荣誉@PKU1898
我们可能正面临OpenAI与DeepMind IMO传奇中的情节反转。
刚看到Joseph Myers的一篇帖子(自1992年以来参与数学奥林匹克):IMO委员会据说要求AI实验室在闭幕式后7天内不要发布结果——出于对人类参赛者的尊重(见我昨天的帖子),并可能是为了留出时间对AI提交的内容和格式进行适当的验证。
根据Joseph的说法,OpenAI并没有与IMO合作测试他们的模型,91名官方IMO协调员中没有人参与评分其解决方案。与此同时,DeepMind似乎遵循规则,耐心等待他们的轮次。
背景信息:
IMO有6道题目,每道题值7分。今年的金牌分数线是35分。即使是小幅扣分也可能让OpenAI降到银牌。从我对他们的写作的理解来看,有些部分可能会引发质疑——并可能导致扣分。
Terence Tao还指出,虽然题目保持不变,但测试格式很重要。在标准条件下无法获得铜牌的学生,可能在修改后的设置中获得金牌——这引发了关于“解决IMO”对AI意味着什么的真实问题。
下周可能会变得火热。敬请关注。


68.08K
刚下班,尝试用Grok-4解决一个本科生的拓扑问题。它花了9分钟思考,然后自信地给出了一个干净、合理但完全错误的答案😅
我认为这并不算是“巧妙的对抗”。AI模型正在打破基准——但在真正的数学AGI方面仍然任重道远。



Elon Musk7月10日 16:47
Grok 4 is at the point where it essentially never gets math/physics exam questions wrong, unless they are skillfully adversarial.
It can identify errors or ambiguities in questions, then fix the error in the question or answer each variant of an ambiguous question.
662.97K
人工智能的未来是协作的

Yuchen Jin7月9日 06:09
Sam Altman was asked how he felt about Zuck and Meta poaching OpenAI’s top talent.
“Fine... good...” he said.
Behind Jony Ive–designed glasses, I couldn’t see his eyes. But I could feel the pain.
It's not hard for Zuck to poach OpenAI talent, not just because he has the money, but because open-source AI is fulfilling the original OpenAI mission.
1.42K
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可