トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
RLフライホイールの秘密と*マルチモーダル*o1スタイルの推論が大量に書かれた*2番目の*論文が落とされたことは、今日の私のビンゴカードにはありません。Kimi氏(別のスタートアップ)とDeepSeekの論文は、同様の結果に驚くほど収束している。
> MCTSのような複雑なツリー検索は必要ありません。思考トレースを線形化し、古き良き自己回帰予測を行うだけです。
> モデルの別の高価なコピーを必要とする値関数は必要ありません。
> 緻密な報酬モデリングは必要ありません。可能な限りグラウンドトゥルース、最終結果に頼ってください。
違い:
DeepSeek>、AlphaZeroアプローチは、人間の入力なしでRLを介して純粋にブートストラップ、つまり「コールドスタート」を行います。キミはAlphaGo-Masterのアプローチを実践しています:プロンプトエンジニアリングされたCoTトレースを通じてウォームアップするための軽いSFTです。
> DeepSeekのウェイトはMITライセンスです(ソートリーダーシップ!キミはまだモデルリリースを持っていません。
> Kimiは、幾何学やIQテストなどの視覚的な理解が必要なMathVistaのようなベンチマークで、強力なマルチモーダルパフォーマンスを示しています。
> Kimiの論文には、システム設計に関する多くの詳細があります:RLインフラストラクチャ、ハイブリッドクラスタ、コードサンドボックス、並列処理戦略。学習の詳細:ロングコンテクスト、CoT圧縮、カリキュラム、サンプリング戦略、テストケース生成など
休日に明るい読書を!

ホワイトペーパーのリンク:
300.46K
トップ
ランキング
お気に入り