分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

RLフライホイールの秘密と*マルチモーダル*o1スタイルの推論が大量に書かれた*2番目の*論文が落とされたことは、今日の私のビンゴカードにはありません。Kimi氏(別のスタートアップ)とDeepSeekの論文は、同様の結果に驚くほど収束している。 > MCTSのような複雑なツリー検索は必要ありません。思考トレースを線形化し、古き良き自己回帰予測を行うだけです。 > モデルの別の高価なコピーを必要とする値関数は必要ありません。 > 緻密な報酬モデリングは必要ありません。可能な限りグラウンドトゥルース、最終結果に頼ってください。違い： DeepSeek>、AlphaZeroアプローチは、人間の入力なしでRLを介して純粋にブートストラップ、つまり「コールドスタート」を行います。キミはAlphaGo-Masterのアプローチを実践しています:プロンプトエンジニアリングされたCoTトレースを通じてウォームアップするための軽いSFTです。 > DeepSeekのウェイトはMITライセンスです(ソートリーダーシップ!キミはまだモデルリリースを持っていません。 > Kimiは、幾何学やIQテストなどの視覚的な理解が必要なMathVistaのようなベンチマークで、強力なマルチモーダルパフォーマンスを示しています。 > Kimiの論文には、システム設計に関する多くの詳細があります:RLインフラストラクチャ、ハイブリッドクラスタ、コードサンドボックス、並列処理戦略。学習の詳細:ロングコンテクスト、CoT圧縮、カリキュラム、サンプリング戦略、テストケース生成など休日に明るい読書を!

ホワイトペーパーのリンク:

300.46K

トップ

ランキング

お気に入り

Trending onchain

Trending on X

Recent top fundings

Most notable