熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Arvind Narayanan
普林斯頓大學計算機科學教授主任 @PrincetonCITP.我使用 X 來分享我對 AI 的社會影響的研究和評論。
書籍:AI 蛇油。我的檢視。
我與 ChatGPT Agent 的經驗到目前為止:我未能找到任何無法由 Deep Research 處理的用例,而 Agent 卻能成功完成,且不會遇到任何障礙,例如不穩定的網頁表單或訪問限制。
我相信我會找到一些用法,但這將只佔我工作流程中出現的任務的一小部分。
如果是這樣的話,除非是我本來會花幾個小時的任務(或需要每天重複的任務),否則使用 Agent 嘗試新任務就沒有意義。如果我預期 Agent 成功的機率是 5%,而且在放棄之前需要痛苦地嘗試 10-20 分鐘,那麼即使知道 Agent 是否能做到也不值得我花時間。我只會在某種程度上已經知道這是 Agent 能處理的任務時才使用它。
考慮到這一切,我仍然認為特定任務的代理在可預見的未來會更成功。
6.37K
在研究生院的時候,當我意識到「思想市場」實際上是如何運作的時候,感覺就像我找到了研究生涯的作弊碼。今天,這是我教學生的最重要的內容,超過任何與我們研究實質相關的東西。
簡單的前言:當我談論研究成功時,我並不是指發表大量論文。大多數已發表的論文都在積灰,因為任何領域的研究太多,讓人無法關注。尤其是考慮到發佈預印本的便利性,研究不需要正式發表就能成功。因此,雖然發表可能是職業晉升的先決條件,但它們不應該是目標。對我來說,研究成功是創造影響同行並使世界變得更美好的思想的作者身份。
所以基本的見解是,進入思想市場的想法太多,我們需要了解哪些想法最終會產生影響。好消息是質量很重要——在其他條件相同的情況下,更好的研究會更成功。壞消息是質量與成功的相關性很弱,還有許多其他因素也很重要。
首先,給自己多次機會。運氣在我的職業建議中是一個常見主題。運氣在決定哪些論文成功方面確實很重要,但這並不意味著要對此心灰意冷。你可以增加你的「運氣表面積」。
例如,如果你總是發佈預印本,你就有多次機會讓你的工作被注意到:一次是預印本,一次是發表(再加上如果你在一個出版延遲很大的領域,你可以確保研究在發表時不會被搶先或變得不相關)。
更一般地說,把研究項目視為初創企業——接受結果的變異性非常高,有些項目比其他項目成功10倍或100倍。這意味著嘗試許多不同的事情,冒大風險,願意追求同行認為是壞主意的想法,但要有一些理由來解釋為什麼你可能在其他人失敗的地方成功。你知道一些別人不知道的事情,還是他們知道一些你不知道的事情?如果你發現是後者,你需要願意迅速放棄這個項目,而不是陷入沉沒成本謬誤。
要清楚,成功並不全靠運氣——質量和深度非常重要。深入研究一個主題需要幾年的時間。但在你發表任何東西之前花幾年時間研究一個主題是非常冒險的,尤其是在你職業生涯的早期。解決方案很簡單:追求項目,而不是問題。
項目是持續3-5年或更長時間的長期研究議程。一個富有成效的項目可以輕鬆產出十篇或更多的論文(根據領域而定)。為什麼選擇項目而不是問題?如果你的方法是從一個問題跳到另一個問題,結果的論文可能會有些膚淺,並且可能沒有太大影響。其次,如果你已經因某個特定主題的論文而聞名,人們更有可能關注你未來在該主題上的論文。(是的,作者聲譽非常重要。任何關於人們如何選擇閱讀內容的平等主義觀念都是神話。)
總結一下,我通常同時在2-3個長期項目上工作,在每個項目中都有許多問題正在被調查,並且在各個階段產出許多論文。
最難的部分是知道何時結束一個項目。在你考慮一個新項目的時候,你是在比較一個需要幾年才能真正實現的東西與一個你已經非常高產的主題。但你必須結束某些東西以為新的東西騰出空間。適時放棄總是感覺像是太早放棄。如果你跟隨你的直覺,你會在同一研究領域待得太久。
最後,建立自己的分發渠道。在過去,論文的正式發表有兩個目的:給它來自同行評審的可信度,並將論文分發給你的同行。現在這兩個功能已經完全分開。發表仍然帶來可信度,但分發幾乎完全取決於你!
這就是為什麼社交媒體如此重要。不幸的是,社交媒體引入了不健康的激勵來誇大你的發現,因此我發現博客/新聞通訊和長格式視頻是更好的渠道。我們正處於博客的第二個黃金時代,能夠以可接近的方式解釋前沿研究的人極其稀缺,但又不會像新聞稿或新聞文章那樣簡化。永遠不會太早——我在攻讀博士學位期間開始了一個博客,這在傳播我的博士研究方面發揮了重要作用,無論是在我的研究社區內部還是外部。
摘要
* 研究成功不僅僅意味著發表
* 思想市場已經飽和
* 給自己多次機會
* 選擇項目,而不是問題
* 將項目視為初創企業
* 建立自己的分發渠道
39.64K
如果我們將人工智慧的能力與沒有工具(例如互聯網)的人類進行比較,我們可能會發現人工智慧在許多或大多數我們在工作中執行的認知任務上已經超越了人類。但當然,這樣的比較並不有助於我們理解人工智慧的經濟影響。我們沒有工具就什麼都不是。
然而,許多關於「AGI」影響的預測是基於假設的人類與人工智慧的比較,其中人類有互聯網訪問權限,但沒有人工智慧的訪問權限。這種比較同樣無關緊要。
真正的問題是人類 + 人工智慧 vs 單獨的人工智慧。在這樣的比較中,人工智慧不會超越人類-人工智慧的組合,除非是在狹窄的、計算密集的領域,如速度至關重要的遊戲,因為在這種情況下,加入人類只會拖慢進程。
因此,人工智慧是否會取代人類取決於超越準確性的因素——例如問責制、處理未知未知的能力,以及客戶和其他工作者與人類互動的潛在偏好,這些都需要與雇用人類的成本進行權衡。
這並不是說人工智慧不會取代工作。但僅僅看能力基準並直接得出工作損失的結論是完全天真的。
* 有許多研究表明,工人過於頻繁地錯誤地覆蓋人工智慧,但這是因為他們沒有接受何時覆蓋和何時不覆蓋的訓練,這在人工智慧驅動的工作流程中是一項基本技能。
12.64K
Arvind Narayanan 已轉發
SB1047 是個糟糕的主意。但威納參議員最新的 SB53 走在正確的道路上,重要的是要指出這一進展。以下是我的理由。
我對於像模型這樣的新技術的監管方法是:我們不知道如何定義「良好」的減輕和保證,但當我們看到時——如果我們看到的話——我們就會知道。
這有兩個含義。
#1. 我們不應該為模型開發規定風險閾值或護理標準。我們無法就重要的風險達成共識,如何衡量它們,或多少才算過多。對於開發者、監管者和法院的唯一指導是由依賴付費牆進行重任務的封閉源公司主要決定的一套新興實踐。這樣做可能會因為將開發者暴露於模糊或加重的責任而抑制開放創新。
這就是 SB1047 的要點,以及它在本會期激發的約 5 個類似法案,例如紐約的 RAISE 法案。我們應該避免這種方法。這些提案在狹隘但關鍵的方面——過於超前。
然而:
#2. 我們需要關注行業實踐,以更好地了解不同公司所應用的勤勉程度,或缺乏勤勉。如果開發者必須承諾安全和安全政策,展示他們的工作,並留下文書記錄,我們可以更好地評估他們主張的強度,監控新興風險,並決定未來的干預。
這就是歐盟的 AI 法案和最終的實踐守則的要點,OpenAI 和 Mistral 都已支持,這也是 @Scott_Wiener 最新版本的 SB53。
如果我們要監管模型開發,這根本上是更好的方法:監管透明度——而不是能力、減輕或可接受的風險。這將使至少一個美國管轄區擁有布魯塞爾的監管權限,並避免對開放開發的意外影響。
需要明確的是,前方仍有冰山:
> 複雜性。無論是大型科技公司還是其他,這些都是繁重的文檔和報告義務。從戰術上講,越複雜,這項法案就越脆弱。
> 激勵。強制公開自願風險評估的報告會為開發者創造一種扭曲的激勵,使他們對模型進行不足的測試,並對困難的風險視而不見。允許開發者向審計員或機構披露他們的結果,而不是公開,可能有助於促進他們內部評估的更大坦誠。
> 特洛伊木馬。加州的過度活躍的修改文化使得審核這些法案變得困難。如果 SB53 變成像 SB1047 或 RAISE 的護理標準法案,應該因為之前的相同原因而被否決。這棵聖誕樹上添加的裝飾越多,法案就越具爭議性。
> 廣度。該法案以擴展的災難風險和危險能力的定義廣泛涵蓋。如果這是一項「強制報告/自願實踐」的法案,那麼它們是可行的。如果這項法案是一項護理標準法案,那麼它們將是不可行的。
總之:向威納參議員致敬,感謝他在過去一年中深思熟慮地參與並回應反饋。看到一項實際上基於先前批評的法案令人耳目一新。這項法案仍然有許多可能的路徑——而且它已經超越了最初的舉報提案——但其發展趨勢是令人鼓舞的。

5.98K
熱門
排行
收藏
鏈上熱點
X 熱門榜
近期融資
最受認可