熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Jasper
聯合創始人兼首席執行官 @Hyperbolic_Labs.前@avax和前@citsecurities。2 年@UCBerkeley完成數學博士學位。數學奧林匹克金牌得主。最高榮譽@PKU1898
我們可能正朝著 OpenAI 與 DeepMind IMO 之間的情節轉折前進。
剛看到 Joseph Myers 的一篇帖子(自 1992 年以來參與數學奧林匹克):IMO 委員會據報要求 AI 實驗室在閉幕式後的 7 天內不要公布結果——出於對人類參賽者的尊重(參見我昨天的帖子),並可能是為了給予適當驗證 AI 提交和格式的時間。
根據 Joseph 的說法,OpenAI 沒有與 IMO 合作測試他們的模型,91 位官方 IMO 協調員中也沒有參與評分其解答。與此同時,DeepMind 似乎遵循規則,耐心等待他們的輪到。
背景資訊:
IMO 有 6 道題目,每道題目值 7 分。今年的金牌截止分數是 35 分。即使是小的扣分也可能讓 OpenAI 降到銀牌。根據我對他們的寫作的理解,有些部分可能會引發問題——並可能扣分。
Terence Tao 也指出,雖然題目保持不變,但測試格式很重要。在標準條件下不會獲得銅牌的學生,可能在修改的設置下獲得金牌——這引發了關於 AI "解決 IMO" 的真正問題。
下週可能會變得火熱。敬請關注。


68.08K
剛下班,嘗試在一個本科生的拓撲問題上使用Grok-4。它花了9分鐘思考,然後自信地給出了一個乾淨、合理,但完全錯誤的答案😅
我不認為這個算是「技術上對抗性強」。AI模型正在壓倒基準——但在真正的數學AGI方面仍然有很長的路要走。



Elon Musk7月10日 16:47
Grok 4 is at the point where it essentially never gets math/physics exam questions wrong, unless they are skillfully adversarial.
It can identify errors or ambiguities in questions, then fix the error in the question or answer each variant of an ambiguous question.
662.97K
人工智慧的未來是協作的

Yuchen Jin7月9日 06:09
Sam Altman was asked how he felt about Zuck and Meta poaching OpenAI’s top talent.
“Fine... good...” he said.
Behind Jony Ive–designed glasses, I couldn’t see his eyes. But I could feel the pain.
It's not hard for Zuck to poach OpenAI talent, not just because he has the money, but because open-source AI is fulfilling the original OpenAI mission.
1.42K
熱門
排行
收藏
鏈上熱點
X 熱門榜
近期融資
最受認可