トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
さまざまな環境で報酬を最大化するように RL エージェントをトレーニングしたとします
次に、新しい環境にドロップした場合、最初に尋ねることを学習する質問は、「ここでの報酬関数は何ですか?」です。
これを理解するために、シミュレーターの動機をモデル化することを学ぶことさえあるかもしれません
「What is my goal/purpose」は、楽器的に収束しているように感じます。ある意味、それが私たちが神を求める理由なのだろうか
24.72K
トップ
ランキング
お気に入り