這可能是 ICLR 之後迄今為止分散式培訓中最大的一周,更多內容即將發佈。目前的情況總結: 1. 分散式 RL 后訓練顯然有效。@gensynai最新的 這裡 效果很好。這個過程需要一個強大的基本模型,向生成推理跟蹤的參與者提供副本,然後收集這些跟蹤並用於改進基本模型。這顯然依賴於可用/開放權重的基本模型,並且比預訓練便宜得多。節點只需要進行推理。缺點是有越來越多的證據(而且非常直觀)表明不可能通過 RL 繞過一個糟糕的基本模型。所以你保留了一個依賴項。我們需要等待這些運行的結果,但現實情況是,這將以某種方式進行,因為這個過程是如此微不足道。 2. 資料並行 (DP) 預訓練看起來不錯。@NousResearch 和 @PrimeIntellect 都已經在 10B 比例模型大小上取得了結果。將其擴展到 100B 情況將非常簡單(但對節點運營商來說成本高昂)。這是因為在 DP 中,每個節點都保留模型的完整副本,因此您需要 8xh100 才能以 10b 大小進行訓練;你不能使用小卡。因此,您可以通過擴展節點並進行跨數據中心協作訓練來擴展這項技術(即每個節點由 100 個 H100 左右組成,然後您訓練 >100b 模型)。您還遇到了一個問題,即每個人都看到了model的完整副本,因此不清楚如何獲利(Protocol Learning解決了這個問題)。 3. Model-Parallel(模型本身被劃分為多個節點 - 想想 1000 台地理位置不同的 Macbook 訓練一個 100b 參數模型,其中每個設備只佔總模型的一小部分)開始顯示出可能的初步跡象。我們 (@PluralisHQ) 發表了 'Beyond Top k' 論文,該論文將節點之間的通信壓縮了 90% 以上,以及另外兩篇工作,表明您可以在 Pipeline Parallel (PP) 設置中使用異構設備。我們還將PP的 Nesterov方法ICML2025接受,據我所知,這是自最初的SWARM論文以來第一篇關於去中心化訓練的論文被大型 AI 會議接受,應該有助於激發主流 AI 圈的興趣。 分散模型並行求解→否。與數據中心相比,通信頻寬要差得多,即使 90% 也不夠。我們需要達到 300 倍左右的壓縮率,才能與集中式訓練持平。這是否可能仍然存在一個大問題 - 這樣做會破壞如此多的訓練信號。這是 Pluralis 的關注點。 但是,如果這有效怎麼辦?您第一次可以進行真正的協作式預訓練。不依賴於 deepseek 或 Meta。個人可以結合計算從頭開始創建這種規模的模型。我們在這裡以前所未有的方式實現了真正的社區驅動型創新。然後,可以使用基於去中心化 RL 的后訓練來使這些模型變得更好。 現實情況是,我們正處於這裏發生重大事件的早期階段。這將是一個主要領域。上述公司正在全力以赴,很快還會有更多公司問世,我預計從現在開始,這種情況不會完全放緩,直到發生任何事情。如果你讀到這裡,你就來得早。
14.21K