分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

OpenAIは、この実験モデルで非常に長いエピソードのRLを達成しましたか? @natolambertの記事「強化学習の次はどうなるのか」のスクリーンショット。 Nathanはこの記事で次のように述べています - 現在の方法では、トレーニング中の数学またはコードの問題に対して回答ごとに10K〜100Kトークンが生成されていますが、次世代RLトレーニングを適用するために人々が議論する種類の問題は、回答ごとに1M〜100Mトークンになります。これには、ポリシーが更新される 1 つのエピソード内で、複数の推論呼び出し、プロンプト、および環境との対話をラップすることが含まれます。おそらく、このブレークスルーは、非常に長いエピソードのRLと、TTCを回答ごとに1M-100Mトークンにスケーリングする両方の組み合わせです!

8.5K

トップ

ランキング

お気に入り

Trending onchain

Trending on X

Recent top fundings

Most notable