トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
おそらく、ICLRのこれまでで最大の分散型トレーニングの週であり、さらに多くの週が発表されようとしています。現在の状況の要約:
1. 分散型RLのポストトレーニングは明らかに機能しています。@gensynai、素晴らしい結果をもたらした最新の記事です。このプロセスでは、強力な基本モデルを使用し、推論トレースを生成する参加者にコピーを提供し、そのトレースを収集して基本モデルの改善に使用します。これは明らかに、基本モデルが利用可能/オープンウェイトであることに依存しており、事前トレーニングよりも大幅に安価です。ノードは推論のみを行う必要があります。欠点は、悪い基本モデルを乗り越えてRLを進めることができないという証拠が山積みになっていることです(そしてそれは非常に直感的です)。したがって、依存関係を保持します。これらの実行の結果を待つ必要がありますが、実際には、このプロセスは非常に簡単に並列化できるため、これは何らかの方法で機能します。
2. Data-Parallel (DP) の事前学習は良好です。@NousResearchと@PrimeIntellectの両方で、10Bスケールモデルサイズですでに結果が出ています。これを100Bケースに拡張するのは非常に簡単です(ただし、ノードオペレーターにとってはコストがかかります)。これは、DPではすべてのノードがモデルの完全なコピーを保持するため、たとえば10bサイズでトレーニングするには8xh100が必要になるためです。小さなカードは使用できません。したがって、ノードをスケールアップし、データセンター間の共同トレーニングを行うことで、この手法を拡張できます(つまり、すべてのノードが100台のH100で構成され、トレーニング>100bモデル)を行います)。また、誰もがモデルの完全なコピーを見るため、収益化の方法が明確でないという問題もあります(プロトコル学習はこれを解決します)。
3. Model-Parallel(モデル自体がノードに分割されている場所 - 1000の地理的に離れたMackbooksが100bパラメータモデルをトレーニングし、各デバイスが全体のモデルのごく一部しか持っていないと考えてください)は、可能であることの最初の兆候を示し始めました。私たち(@PluralisHQ)は、ノード間の通信を90%以上圧縮する「Beyond Top k」論文と、パイプラインパラレル(PP)セットアップでヘテロジニアスデバイスを使用できることを示す他の2つの論文を発表しました。また、PPのNesterov法がICML2025に受け入れられましたが、私が知る限り、これは最初のSWARMの論文以来、主要なAI会議に受け入れられた分散型トレーニングに関する論文であり、主流のAIサークルからの関心を高めるのに役立つはずです。
分散モデル並列解かれていますか → いいえ。通信帯域幅はデータセンターに比べて非常に劣っているため、90%でも十分ではありません。集中型トレーニングと同等にするには、約300倍の圧縮率に到達する必要があります。これが可能かどうかは大きな疑問が残っています - これを行うことで、トレーニング信号の多くを破壊していることになります。これがPluralisの焦点です。
しかし、これがうまくいったらどうなるでしょうか?初めて、本当の意味での共同事前トレーニングができるようになりました。deepseekやMetaに依存することはありません。個人はコンピューティングを組み合わせて、このスケールのモデルをゼロから作成できます。ここでは、コミュニティ主導のイノベーションが、これまで存在しなかった方法で実際に起こっています。分散型の RL ベースのポストトレーニングを使用して、これらのモデルをさらに改善できます。
現実には、私たちはここで非常に重要な何かが起こっている初期の日々にいます。これは主要な分野になるでしょう。上記の企業は全力で発砲しており、さらに多くの企業がまもなくゲートから出てくるでしょう、そして私はこれが今から何が起こるかまでまったく減速するとは思っていません。そして、これを読んでいるなら、あなたは早いです。
14.21K
トップ
ランキング
お気に入り