トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
ジャッジとしてのLLMを向上させるための環境のPRを統合し、モデルのジャッジ能力を評価しました!
すべての検証可能なRL環境はベンチマークとほぼ同等であることをご存知ですか(その逆も同様です)。そこで、Atroposのベースに評価コマンドを追加し、Atropos環境を通じてベンチマークを実行できるようになりました。
私たちは、古いまたは使用できない多くのベンチマークフレームワークを扱うことに不満を感じていたため、RL環境フレームワークであるAtroposに評価専用モードを実装しました。
そこで、既存の環境の外部からの最初の移植は、@natolambertのReward-Benchでした。
注:現時点では、生成報酬モデル(通常のLLMジャッジ)のみをサポートしています。
ここでPRをチェックしてください:

20.53K
トップ
ランキング
お気に入り