一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

這是2025年OpenAI研究員@ShunyuYao12撰寫的最佳博客文章之一。 “我們正處於AI的中場休息，” 這是一本關於AI研究和初創生態系統中最重要的內容，以及如何為此做好準備的劇本。幾十年來，AI研究專注於算法和新模型，以超越基準。但有一些重要的事情改變了遊戲：“RL終於可以推廣。” 工作的“配方”：大規模語言預訓練（先驗）+規模 + 在RL循環中的推理作為行動。這是基準攀升的結果。遊戲的轉變：從解決問題到定義正確的問題。評估成為中心舞台。現在的核心基準是“效用問題”。基準並不真正適用於現實世界的任務。所以這是下半場的劇本：發明與真實效用相關的評估設置；然後在這些新規則下應用配方以獲勝。在RL中，關鍵三要素是環境、算法和先驗。我們花了很多時間在最佳算法上，但算法會過擬合它們所處的環境。對於“下半場”，評估 = 環境設計：構建更接近現實的設置（人類在環中、非獨立同分布、順序/帶記憶）以推動真實效用，而不僅僅是基準勝利。