迅速な予測。 2025年:d-ネットワークで訓練された100B+パラメータモデル。 2026年:ボランティアGPUでトレーニングされた最初の50B+*マルチモーダル*モデル。 2027-8:他のすべてが同じで、GPT-3 175Bの密集した競争力のあるモデルを再現。 2030+: 真の「フロンティア」分散型ラン、1T params+.
Jake Brukhman 🚀 deAI Summer 2025
Jake Brukhman 🚀 deAI Summer 20252025年6月10日
分散型AIトレーニングにおける思考/予測、2025年。 1. ひとつ言えることは、私たちは18ヶ月前とは明らかに異なる世界にいるということです。当時、分散型のトレーニングは不可能でしたが、今では市場に出回っており、分野となっています。 2. 間違いなく、d-training の最終目標は、d-ネットワーク上で競争力のあるフロンティアモデルを訓練することです。そのため、私たちは競争の旅の始まりに過ぎませんが、急速に進んでいます。 3. D-ネットワーク上で数十億のパラメータモデル(主にLLM、主にトランスフォーマーアーキテクチャ)を事前学習および事後学習できるというのがコンセンサスになりました。現在の技術水準は~100Bまでで、その上限は見えていますが、まだ公開されていません。 4. Dネットワーク上で<10Bパラメータモデルをかなり実現可能に訓練できるというのがコンセンサスになりました。また、10B、32B、40Bのパラメータが訓練された、または訓練されている特定のケーススタディ(主に@gensynai @PrimeIntellect @NousResearch)もあります。@gensynaiのトレーニング後の群れは、最大 72B のパラメーター モデルで動作します。 5. @PluralisHQイノベーションにより、通信の非効率性のボトルネックが解消され、d-networksでのスケーラブルな事前学習の「不可能性」が無効になりました。しかし、生のFLOPs、信頼性、検証可能性は、これらのタイプのネットワークにとって依然としてボトルネックであり、非常に解決可能な問題ですが、技術的に解決するには時間がかかります。現状では、Pluralisからのプロトコル学習により、6〜12か月の時間枠で~100Bモデルに到達できると思います。 6. 100Bから300Bのパラメータモデルはどのように取得しますか?私は、パラメータを効果的かつ流動的にシャード化し、個々のデバイスのメモリを比較的低く抑える方法を見つける必要があると考えています(たとえば、デバイスあたり<32GBのメモリ)。ネットワークで 20 EFlops にする必要があると思います。つまり、10〜20Kの消費者向けデバイスがトレーニングで4〜6週間実行されることを意味します。 全体として、d-trainingは非常にエキサイティングな空間になる準備ができています。そのイノベーションの一部は、すでに広範なAIアプリケーション向けに検討されています。
3.69K