跳轉至主要內容
行情
掃鏈
追蹤
信號
牛人榜
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
DEX API
探索 DEX API
DEX API 文檔
API Key 管理
區塊鏈瀏覽器
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
Giveaway
完成指定任務,領取空投好禮
交易賽
交易熱門代幣,衝榜贏大獎
獎勵中心
領取獎勵和空投
預警
語言
貨幣
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
學院
幫助中心
探索 Web3 Giveaway 活動,每週豐厚獎勵等您來領取
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-3.33%
USELESS
+13.02%
IKUN
-16.4%
gib
-4.32%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
+2.5%
ALON
+6.48%
LAUNCHCOIN
+17.51%
GOONC
+17.87%
KLED
-2.26%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
+0.39%
Boopa
-15.02%
PORK
+2.53%
主頁
Shane Gu
雙子座思維,高級員工 RS @GoogleDeepMind。🇯🇵 -出生🇨🇳🇨🇦。例如:Gemini Multilinguality Post-Train Lead,GPT-4 @OpenAI (JP: @shanegJP)
查看原文
Shane Gu
9月5日 23:21
真正的AGI並不是最終的獎勵,而是你在這個過程中生成的強化學習軌跡。
5.89K
52
Shane Gu
9月4日 12:30
我們在2021年NeurIPS上組織了第一次以「數據為中心」的強化學習研討會(在深度強化學習的熊市期間)。很高興在大語言模型和現實世界強化學習環境的時代再次看到它。
Andrej Karpathy
2025年8月28日
在預訓練時代,重要的是互聯網文本。你主要希望擁有一個大型、多樣化、高質量的互聯網文檔集合來學習。 在監督微調時代,重要的是對話。雇用合同工來為問題創建答案,有點像你在 Stack Overflow / Quora 等地方看到的,但更針對 LLM 的用例。 我認為上述兩者都不會消失,但在這個強化學習的時代,現在重要的是環境。與上述不同,它們給 LLM 提供了實際互動的機會——採取行動、查看結果等。這意味著你可以希望比統計專家模仿做得更好。它們可以用於模型訓練和評估。但就像以前一樣,現在的核心問題是需要一個大型、多樣化、高質量的環境集合,作為 LLM 練習的練習場。 在某種程度上,我想起了 OpenAI 的第一個項目(gym),這正是一個希望建立一個大型環境集合的框架,但那是在 LLM 之前。因此,這些環境是當時簡單的學術控制任務,比如 cartpole、ATARI 等。@PrimeIntellect 環境中心(以及 GitHub 上的 `verifiers` 倉庫)構建了現代化版本,專門針對 LLM,這是一個偉大的努力/想法。今年早些時候,我建議有人構建類似的東西: 環境具有這樣的特性,一旦框架的骨架到位,原則上社區/行業可以在許多不同領域並行化,這令人興奮。 最後的想法——就個人和長期而言,我對環境和代理互動持樂觀態度,但對強化學習持悲觀態度。我認為獎勵函數非常可疑,我認為人類並不使用 RL 來學習(也許他們在某些運動任務等方面使用,但在智力問題解決任務中並不使用)。人類使用不同的學習範式,這些範式顯著更強大且樣本效率更高,而這些範式尚未得到適當的發明和擴展,儘管早期的草圖和想法已經存在(例如,“系統提示學習”的想法,將更新移動到令牌/上下文而不是權重,並可選擇將其提煉為權重,作為一個類似於睡眠的單獨過程)。
7.14K
49
Shane Gu
9月1日 02:45
亞洲父母:"(經過幾天的談判)。好吧,你可以花1-2年時間來構建AGI。但在AGI之後,申請博士學位,讓我們感到驕傲。"
Shane Gu
2025年8月29日
Solve a moonshot research project -> then apply for PhD
308
1
熱門
排行
收藏