熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Shane Gu
雙子座 - RL、CoT、多語言。高級員工 RS @GoogleDeepMind MTV。🇯🇵 -出生🇨🇳🇨🇦。例如:@OpenAI(日本:@shanegJP)
亞洲人:我們會解決自己的問題

Patrick Shen7月18日 03:03
在他們的推出時,Cluely 宣稱它將摧毀 9 個行業。
我們的目標是摧毀一個:作弊。
認識 Truely — 這是一個開源工具,可以實時標記 AI 協助的面試。與 Zoom、Meets、Teams 等平台兼容。
在線面試的未來已經來臨。
1.97K
要對抗亞洲人,你需要亞洲人

Patrick Shen7月18日 03:03
在他們的推出時,Cluely 宣稱它將摧毀 9 個行業。
我們的目標是摧毀一個:作弊。
認識 Truely — 這是一個開源工具,可以實時標記 AI 協助的面試。與 Zoom、Meets、Teams 等平台兼容。
在線面試的未來已經來臨。
193
為什麼預訓練和後訓練團隊需要和睦相處

David Mizrahi7月18日 06:21
很高興與大家分享我們的新工作:「當預訓練數據與目標任務匹配時,語言模型會改善」
是的,這聽起來很明顯(而且確實如此!),但通常這僅僅是隱性和間接發生的:直觀地選擇數據 → 基準測試 → 精煉 → 重複。
我們想知道:如果我們明確地將預訓練數據與基準測試匹配,會發生什麼?結果是一種非常簡單的方法,能夠在強基準上產生2倍以上的計算增益,並為我們提供了一種原則性的方法來研究基準選擇如何塑造(和限制!)模型能力。
附加:從訓練500多個模型中獲得的廣泛擴展法則,揭示了隨著模型擴展,最佳數據選擇如何演變。
🧵 (1/14)

2.64K
Grok 團隊正在內部化人類數據操作(例如,招聘日本的 AI 導師角色)。可能更多的前沿實驗室會考慮擁有和運營數據勞動。

Koki Ikeda | SoftBank7月15日 22:12
"xAI" 正在開發 Grok,並尋找一位日本 AI 輔導員。
這份工作涉及標記和註釋日本的文本、音頻和視頻數據。您可以在日本完全遠程工作,薪資按照美國標準支付高時薪。
🗣️ 母語為日語
🧑💻 完全遠程
💰 時薪 $35–65(5200-9600 日圓)
🕐 6 個月合約(可延長)

8.33K
Grok 團隊正在內部化人類數據操作(例如,招聘日本的 AI 導師角色)。考慮到 Scale AI 的轉型,可能會有更多前沿實驗室考慮擁有和運營數據勞動。

Koki Ikeda | SoftBank7月15日 22:12
"xAI" 正在開發 Grok,並尋找一位日本 AI 輔導員。
這份工作涉及標記和註釋日本的文本、音頻和視頻數據。您可以在日本完全遠程工作,薪資按照美國標準支付高時薪。
🗣️ 母語為日語
🧑💻 完全遠程
💰 時薪 $35–65(5200-9600 日圓)
🕐 6 個月合約(可延長)

287
如果你在 ICML 並對 RL 或多語言性有興趣,請跟 @marafinkels 打聲招呼!我們在過去幾個月密切合作,推出了一種 RL 方法來解決一個關鍵的 Gemini 質量問題。她也有很棒的研究想法!希望 Gemini 與學術界保持聯繫。

Mara Finkelstein2024年11月27日
大型語言模型(LLMs)通常在標準測試集上使用自動指標進行評估,但指標和測試集是獨立開發的。這引發了一個關鍵問題:我們能否設計自動指標,專門在我們優先考慮的測試集上表現出色?答案是:可以!

5.72K
Shane Gu 已轉發
關於驗證的不對稱性和「驗證者法則」的新博客文章:
驗證的不對稱性——某些任務的驗證比解決更容易的想法——隨著我們的強化學習(RL)最終普遍有效,正變得越來越重要。
驗證不對稱性的絕佳例子包括數獨謎題、為像 Instagram 這樣的網站編寫代碼,以及 BrowseComp 問題(需要約 100 個網站來找到答案,但一旦有了答案就很容易驗證)。
其他任務則具有近乎對稱的驗證,例如對兩個 900 位數字求和或某些數據處理腳本。還有一些任務提出可行解決方案比驗證它們要容易得多(例如,事實檢查一篇長文章或提出一種新的飲食方式,如「只吃野牛」)。
理解驗證不對稱性的一個重要點是,通過提前做一些工作可以改善不對稱性。例如,如果你有數學問題的答案鍵,或者如果你有 Leetcode 問題的測試用例。這大大增加了具有理想驗證不對稱性問題的集合。
「驗證者法則」指出,訓練 AI 解決任務的難易程度與任務的可驗證性成正比。所有可以解決且易於驗證的任務都將被 AI 解決。訓練 AI 解決任務的能力與任務是否具備以下特性成正比:
1. 客觀真理:每個人都同意什麼是好的解決方案
2. 快速驗證:任何給定的解決方案可以在幾秒鐘內驗證
3. 可擴展驗證:可以同時驗證許多解決方案
4. 低噪音:驗證與解決方案質量的相關性盡可能緊密
5. 持續獎勵:很容易對單個問題的多個解決方案進行排名
驗證者法則的一個明顯實例是,AI 中提出的大多數基準都是易於驗證的,並且迄今為止已經被解決。注意,過去十年幾乎所有流行的基準都符合標準 #1-4;不符合標準 #1-4 的基準將難以變得流行。
為什麼可驗證性如此重要?當上述標準得到滿足時,AI 中的學習量達到最大;你可以進行很多梯度步驟,每一步都有大量信號。迭代速度至關重要——這就是為什麼數位世界的進步比物理世界的進步快得多的原因。
Google 的 AlphaEvolve 是利用驗證不對稱性的最佳例子之一。它專注於符合上述所有標準的設置,並在數學和其他領域帶來了一些進展。與我們在 AI 中過去二十年所做的不同,它是一種新範式,所有問題都在訓練集等同於測試集的環境中進行優化。
驗證不對稱性無處不在,考慮一個我們可以測量的世界,任何事情都將被解決,令人興奮。

298.72K
任何人都可以做的有影響力的工作是使用 LLMs 來記錄和數位化你工作流程、CoTs 和靈感的盡可能多的部分。
上下文工程用於自動化和增強你在生活和工作中的表現。

Thariq7月15日 05:51
日誌與待辦事項
我有幾個自定義命令:
/journal 命令將為當天創建一個新的日誌條目。
/todos 一個命令,讓我可以創建新的待辦事項或將其他事項標記為完成。待辦事項按主題在文件中組織,例如:
克勞德經常會搜索我的代碼、項目等,以獲取更多上下文,當我添加待辦事項時,這非常有幫助。
788
熱門
排行
收藏
鏈上熱點
X 熱門榜
近期融資
最受認可