ジャッジとしてのLLMを向上させるための環境のPRを統合し、モデルのジャッジ能力を評価しました! すべての検証可能なRL環境はベンチマークとほぼ同等であることをご存知ですか(その逆も同様です)。そこで、Atroposのベースに評価コマンドを追加し、Atropos環境を通じてベンチマークを実行できるようになりました。 私たちは、古いまたは使用できない多くのベンチマークフレームワークを扱うことに不満を感じていたため、RL環境フレームワークであるAtroposに評価専用モードを実装しました。 そこで、既存の環境の外部からの最初の移植は、@natolambertのReward-Benchでした。 注:現時点では、生成報酬モデル(通常のLLMジャッジ)のみをサポートしています。 ここでPRをチェックしてください:
20.53K