熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
這是2025年OpenAI研究員@ShunyuYao12撰寫的最佳博客文章之一。
“我們正處於AI的中場休息,”
這是一本關於AI研究和初創生態系統中最重要的內容,以及如何為此做好準備的劇本。
幾十年來,AI研究專注於算法和新模型,以超越基準。
但有一些重要的事情改變了遊戲:“RL終於可以推廣。”
工作的“配方”:大規模語言預訓練(先驗)+規模 + 在RL循環中的推理作為行動。
這是基準攀升的結果。遊戲的轉變:從解決問題到定義正確的問題。評估成為中心舞台。
現在的核心基準是“效用問題”。基準並不真正適用於現實世界的任務。
所以這是下半場的劇本:發明與真實效用相關的評估設置;然後在這些新規則下應用配方以獲勝。
在RL中,關鍵三要素是環境、算法和先驗。我們花了很多時間在最佳算法上,但算法會過擬合它們所處的環境。
對於“下半場”,評估 = 環境設計:構建更接近現實的設置(人類在環中、非獨立同分布、順序/帶記憶)以推動真實效用,而不僅僅是基準勝利。

熱門
排行
收藏