トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAIは、この実験モデルで非常に長いエピソードのRLを達成しましたか?
@natolambertの記事「強化学習の次はどうなるのか」のスクリーンショット。
Nathanはこの記事で次のように述べています - 現在の方法では、トレーニング中の数学またはコードの問題に対して回答ごとに10K〜100Kトークンが生成されていますが、次世代RLトレーニングを適用するために人々が議論する種類の問題は、回答ごとに1M〜100Mトークンになります。これには、ポリシーが更新される 1 つのエピソード内で、複数の推論呼び出し、プロンプト、および環境との対話をラップすることが含まれます。
おそらく、このブレークスルーは、非常に長いエピソードのRLと、TTCを回答ごとに1M-100Mトークンにスケーリングする両方の組み合わせです!


7月19日 15:50
5/N 結果自体に加えて、私は私たちのアプローチに興奮しています:私たちは、狭いタスク固有の方法論ではなく、汎用強化学習とテスト時のコンピューティングスケーリングの新境地を開拓することによって、この能力レベルに到達します。
8.5K
トップ
ランキング
お気に入り