跳轉至主要內容
行情
掃鏈
追蹤
信號
牛人榜
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
DEX API
探索 DEX API
DEX API 文檔
API Key 管理
區塊鏈瀏覽器
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
Giveaway
完成指定任務,領取空投好禮
交易賽
交易熱門代幣,衝榜贏大獎
獎勵中心
領取獎勵和空投
預警
語言
貨幣
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
學院
幫助中心
探索 Web3 Giveaway 活動,每週豐厚獎勵等您來領取
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-7.39%
USELESS
+16.56%
IKUN
-11.93%
gib
-3.89%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
+0.16%
ALON
+4.21%
LAUNCHCOIN
+20.14%
GOONC
-5.6%
KLED
-13.94%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-0.14%
Boopa
+2.19%
PORK
-1.12%
主頁
Andrej Karpathy
建築@EurekaLabsAI。曾任 AI 總監 @ 特斯拉,創始團隊 @ OpenAI,CS231n/PhD @ 史丹佛大學。我喜歡訓練大型深層神經網路。
查看原文
Andrej Karpathy
9月9日 23:36
有點傻,但我從2007年第一次發佈會以來,每年都觀看蘋果發佈會的直播,期待新款iPhone。雖然這沒什麼意義,但沒關係。今天上午10點直播(還有1.5小時)。今年,我再次希望能有一款我知道不會推出的iPhone mini。安息。
477.89K
6.42K
Andrej Karpathy
9月6日 01:38
我再次祝賀OpenAI成功推出GPT-5 Pro。這是我第三次在複雜/棘手的問題上反覆掙扎了一個小時,然後5 Pro只用了10分鐘就給出了可以直接使用的代碼。我讓CC閱讀了5 Pro的版本,它寫了兩段文字來讚美它(非常溫馨)。如果你沒有給它最棘手的問題,你可能會錯過一些東西。
2.42M
12.67K
Andrej Karpathy
2025年8月28日
在預訓練時代,重要的是互聯網文本。你主要希望擁有一個大型、多樣化、高質量的互聯網文檔集合來學習。 在監督微調時代,重要的是對話。雇用合同工來為問題創建答案,有點像你在 Stack Overflow / Quora 等地方看到的,但更針對 LLM 的用例。 我認為上述兩者都不會消失,但在這個強化學習的時代,現在重要的是環境。與上述不同,它們給 LLM 提供了實際互動的機會——採取行動、查看結果等。這意味著你可以希望比統計專家模仿做得更好。它們可以用於模型訓練和評估。但就像以前一樣,現在的核心問題是需要一個大型、多樣化、高質量的環境集合,作為 LLM 練習的練習場。 在某種程度上,我想起了 OpenAI 的第一個項目(gym),這正是一個希望建立一個大型環境集合的框架,但那是在 LLM 之前。因此,這些環境是當時簡單的學術控制任務,比如 cartpole、ATARI 等。@PrimeIntellect 環境中心(以及 GitHub 上的 `verifiers` 倉庫)構建了現代化版本,專門針對 LLM,這是一個偉大的努力/想法。今年早些時候,我建議有人構建類似的東西: 環境具有這樣的特性,一旦框架的骨架到位,原則上社區/行業可以在許多不同領域並行化,這令人興奮。 最後的想法——就個人和長期而言,我對環境和代理互動持樂觀態度,但對強化學習持悲觀態度。我認為獎勵函數非常可疑,我認為人類並不使用 RL 來學習(也許他們在某些運動任務等方面使用,但在智力問題解決任務中並不使用)。人類使用不同的學習範式,這些範式顯著更強大且樣本效率更高,而這些範式尚未得到適當的發明和擴展,儘管早期的草圖和想法已經存在(例如,“系統提示學習”的想法,將更新移動到令牌/上下文而不是權重,並可選擇將其提煉為權重,作為一個類似於睡眠的單獨過程)。
Prime Intellect
2025年8月28日
介紹環境中心 RL環境是下一波AI進步的關鍵瓶頸,但大型實驗室正在封鎖它們 我們建立了一個社區平台,用於眾包開放環境,以便任何人都可以為開源AGI做出貢獻
800.38K
7.01K
熱門
排行
收藏