這是2025年OpenAI研究員@ShunyuYao12撰寫的最佳博客文章之一。 “我們正處於AI的中場休息,” 這是一本關於AI研究和初創生態系統中最重要的內容,以及如何為此做好準備的劇本。 幾十年來,AI研究專注於算法和新模型,以超越基準。 但有一些重要的事情改變了遊戲:“RL終於可以推廣。” 工作的“配方”:大規模語言預訓練(先驗)+規模 + 在RL循環中的推理作為行動。 這是基準攀升的結果。遊戲的轉變:從解決問題到定義正確的問題。評估成為中心舞台。 現在的核心基準是“效用問題”。基準並不真正適用於現實世界的任務。 所以這是下半場的劇本:發明與真實效用相關的評估設置;然後在這些新規則下應用配方以獲勝。 在RL中,關鍵三要素是環境、算法和先驗。我們花了很多時間在最佳算法上,但算法會過擬合它們所處的環境。 對於“下半場”,評估 = 環境設計:構建更接近現實的設置(人類在環中、非獨立同分布、順序/帶記憶)以推動真實效用,而不僅僅是基準勝利。