RLフライホイールの秘密と*マルチモーダル*o1スタイルの推論が大量に書かれた*2番目の*論文が落とされたことは、今日の私のビンゴカードにはありません。Kimi氏(別のスタートアップ)とDeepSeekの論文は、同様の結果に驚くほど収束している。 > MCTSのような複雑なツリー検索は必要ありません。思考トレースを線形化し、古き良き自己回帰予測を行うだけです。 > モデルの別の高価なコピーを必要とする値関数は必要ありません。 > 緻密な報酬モデリングは必要ありません。可能な限りグラウンドトゥルース、最終結果に頼ってください。 違い: DeepSeek>、AlphaZeroアプローチは、人間の入力なしでRLを介して純粋にブートストラップ、つまり「コールドスタート」を行います。キミはAlphaGo-Masterのアプローチを実践しています:プロンプトエンジニアリングされたCoTトレースを通じてウォームアップするための軽いSFTです。 > DeepSeekのウェイトはMITライセンスです(ソートリーダーシップ!キミはまだモデルリリースを持っていません。 > Kimiは、幾何学やIQテストなどの視覚的な理解が必要なMathVistaのようなベンチマークで、強力なマルチモーダルパフォーマンスを示しています。 > Kimiの論文には、システム設計に関する多くの詳細があります:RLインフラストラクチャ、ハイブリッドクラスタ、コードサンドボックス、並列処理戦略。学習の詳細:ロングコンテクスト、CoT圧縮、カリキュラム、サンプリング戦略、テストケース生成など 休日に明るい読書を!
ホワイトペーパーのリンク:
300.46K