今天,我們在 @OpenAI 達成了一個許多人認為還需要幾年的里程碑:在 2025 年國際數學奧林匹克(IMO)上達到金牌級別的表現,這是通過一個通用推理的 LLM 完成的——在與人類相同的時間限制內,且不使用工具。這聽起來雖然令人驚訝,但其實比標題所表達的意義更為重大 🧵
Alexander Wei
Alexander Wei7月19日 15:50
1/N 我很高興地分享,我們最新的 @OpenAI 實驗性推理 LLM 在人工智慧領域達成了一項長期以來的重大挑戰:在世界上最具聲望的數學競賽——國際數學奧林匹克(IMO)中獲得金牌級別的表現。
通常對於這些 AI 結果,例如在圍棋/ Dota/ 撲克/ 外交中,研究人員花費多年時間製作一個精通某一狹窄領域的 AI,並且幾乎不做其他事情。但這不是一個特定於 IMO 的模型。這是一個推理 LLM,結合了新的實驗性通用技術。
那麼有什麼不同呢?我們開發了新技術,使得大型語言模型在難以驗證的任務上表現得更好。在我看來,問題是這方面的完美挑戰:證明的頁數很長,專家需要幾個小時來評分。與此相比,AIME的答案僅僅是一個從0到999的整數。
這個模型的思考時間也很*長*。o1思考了幾秒鐘。深度研究持續了幾分鐘。這個模型則思考了幾個小時。重要的是,它的思考效率也更高。而且在測試時間的計算和效率上還有很大的提升空間。
Noam Brown
Noam Brown2024年9月13日
@OpenAI @rao2z @OpenAI 的 o1 思考幾秒鐘,但我們的目標是未來的版本能夠思考幾小時、幾天,甚至幾週。推理成本將會更高,但你願意為一種新的癌症藥物支付多少費用?為突破性的電池?為黎曼假設的證明?AI 可以不僅僅是聊天機器人。
值得反思的是,人工智慧的進步速度有多快,尤其是在數學方面。在2024年,人工智慧實驗室在其模型發布中使用了小學數學(GSM8K)作為評估。從那時起,我們已經飽和了(高中)數學基準,然後是AIME,現在已經達到了IMO金牌。
這會去哪裡?儘管最近的人工智慧進展非常迅速,我完全預期這一趨勢會持續下去。重要的是,我認為我們接近於人工智慧在科學發現中做出實質貢獻。人工智慧稍微低於頂尖人類表現與稍微高於之間有很大的區別。
這是一個由 @alexwei_ 領導的小型團隊努力。他將一個少數人相信的研究想法付諸實行,並用它達成了更少人認為可能的結果。這一切也離不開 @OpenAI 和更廣泛的 AI 社區中許多人的多年研究和工程努力。
當你在前沿實驗室工作時,你通常會比其他人早幾個月知道前沿能力的所在。但這個結果是全新的,使用了最近開發的技術。這對許多OpenAI的研究人員來說都是一個驚喜。今天,每個人都能看到前沿的所在。
857.21K