🔥 沒錯。Templar 改變了我對 AI 基礎設施的看法。 我對去中心化的 AI 沒有太多期待,但看到 @tplr_ai 在 Bittensor($TAO)上,使用約 70 個無許可節點訓練 72B 模型,處理 1.1T 的標記。 這本身就已經不尋常,但真正改變我想法的是他們如何讓這一切運作。 - 在這個規模下,訓練受到協調的限制。通常你在節點之間每次同步步驟需要推送約 280GB 的數據,這使得去中心化訓練基本上無法啟動。 - @tplr_ai 將這個數據壓縮到約 2.2GB,並使用 SparseLoCo 大幅減少同步頻率。當我看到這一點時,我看到他們消除了每次嘗試都失敗的核心瓶頸 🤯。 這就是為什麼我認為稱這為 DeepSeek 時刻並不誇張。DeepSeek 展示了模型可以更便宜地訓練。 Templar 則展示了它們可以完全不需要中央協調進行訓練。 -> 這兩者是非常不同的方向,而這一個在結構上感覺更難以競爭。 另一個我不會忽視的信號是:當像 Anthropic 的 Jack Clark 這樣的人公開將其框架為真正的基礎設施時: - 根據我的經驗,這種驗證通常是在某些東西已經運作之後,而不是之前。 - 這仍然是預訓練。AI 的真正優勢來自於後訓練、RLHF、對齊循環,基本上是模型變得真正有用的地方。 Templar 接下來將朝著 Grail 移動,對我來說這才是真正的考驗。如果他們也能去中心化那一層,那麼我們不再談論去中心化計算,而是在談論一個完全無許可的 AI 生產管道。 讓我對 Templar 印象深刻的是他們選擇的時機和方向。 1/ 他們在整個 AI 行業安靜地達到擴展限制時,著手解決協調問題。 - 這是一個非常不同的賭注,通常攻擊約束而不是趨勢的人,才是後來重要的人。 2/ 我看到的另一個催化劑是無許可設計。 - 大多數去中心化的 AI 系統仍然以某種方式限制參與,這會早期扼殺網絡效應。 - Templar 從一開始就完全開放,這意味著如果這個模型有效,它不僅會線性擴展,還會隨著更多貢獻者、更多實驗、更多邊緣案例的平行解決而增長。 此外,他們朝著後訓練(RL 層)發展,告訴我他們理解真正的價值所在。 預訓練引起注意,但後訓練才是模型變得可用、粘性和可貨幣化的地方。如果他們在這裡執行成功,他們將開始擁有智能層的一部分。 3/ 根據這一點我的預測: 在短期內,大多數人仍然會低估它,因為模型質量與集中實驗室之間的差距將是容易的論點。 但隨著時間的推移,我認為 Templar 會成為: - 開放 AI 開發的後端層。 - 分佈式計算的協調網絡。 - 最終成為智能精煉的市場。 不會一夜之間主導,但會悄然嵌入到各處。 如果這一切發展下去,收益將來自於成為任何人都可以構建的系統,當他們不想完全依賴 @OpenAI 時。
templar
templar3月20日 04:01
在本週的 @theallinpod 中,@chamath 問了 @nvidia 的 CEO Jensen Huang 關於去中心化的 AI 訓練,稱我們的 Covenant-72B 執行是「一項相當瘋狂的技術成就」。 有一個更正:是 720 億個參數,而不是四個。這是在 70 多位貢獻者的基礎上,無需許可地在普通互聯網上進行訓練的。這是有史以來在完全去中心化基礎設施上預訓練的最大模型。 Jensen 的回答也值得一聽。
@tplr_ai Chads 提供了很多有關 Bittensor 生態系統的有價值資訊: @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @andyyy @eliz883
Karamata_ 💎
Karamata_ 💎3月20日 11:59
🔥 沒錯。Templar 改變了我對 AI 基礎設施的看法。 我對去中心化的 AI 沒有太多期待,但看到 @tplr_ai 在 Bittensor($TAO)上,使用約 70 個無許可節點訓練 72B 模型,處理 1.1T 的標記。 這本身就已經不尋常,但真正改變我想法的是他們如何讓這一切運作。 - 在這個規模下,訓練受到協調的限制。通常你在節點之間每次同步步驟需要推送約 280GB 的數據,這使得去中心化訓練基本上無法啟動。 - @tplr_ai 將這個數據壓縮到約 2.2GB,並使用 SparseLoCo 大幅減少同步頻率。當我看到這一點時,我看到他們消除了每次嘗試都失敗的核心瓶頸 🤯。 這就是為什麼我認為稱這為 DeepSeek 時刻並不誇張。DeepSeek 展示了模型可以更便宜地訓練。 Templar 則展示了它們可以完全不需要中央協調進行訓練。 -> 這兩者是非常不同的方向,而這一個在結構上感覺更難以競爭。 另一個我不會忽視的信號是:當像 Anthropic 的 Jack Clark 這樣的人公開將其框架為真正的基礎設施時: - 根據我的經驗,這種驗證通常是在某些東西已經運作之後,而不是之前。 - 這仍然是預訓練。AI 的真正優勢來自於後訓練、RLHF、對齊循環,基本上是模型變得真正有用的地方。 Templar 接下來將朝著 Grail 移動,對我來說這才是真正的考驗。如果他們也能去中心化那一層,那麼我們不再談論去中心化計算,而是在談論一個完全無許可的 AI 生產管道。 讓我對 Templar 印象深刻的是他們選擇的時機和方向。 1/ 他們在整個 AI 行業安靜地達到擴展限制時,著手解決協調問題。 - 這是一個非常不同的賭注,通常攻擊約束而不是趨勢的人,才是後來重要的人。 2/ 我看到的另一個催化劑是無許可設計。 - 大多數去中心化的 AI 系統仍然以某種方式限制參與,這會早期扼殺網絡效應。 - Templar 從一開始就完全開放,這意味著如果這個模型有效,它不僅會線性擴展,還會隨著更多貢獻者、更多實驗、更多邊緣案例的平行解決而增長。 此外,他們朝著後訓練(RL 層)發展,告訴我他們理解真正的價值所在。 預訓練引起注意,但後訓練才是模型變得可用、粘性和可貨幣化的地方。如果他們在這裡執行成功,他們將開始擁有智能層的一部分。 3/ 根據這一點我的預測: 在短期內,大多數人仍然會低估它,因為模型質量與集中實驗室之間的差距將是容易的論點。 但隨著時間的推移,我認為 Templar 會成為: - 開放 AI 開發的後端層。 - 分佈式計算的協調網絡。 - 最終成為智能精煉的市場。 不會一夜之間主導,但會悄然嵌入到各處。 如果這一切發展下去,收益將來自於成為任何人都可以構建的系統,當他們不想完全依賴 @OpenAI 時。
@tplr_ai @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @eliz883 👍
3.37K