分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

ジャッジとしてのLLMを向上させるための環境のPRを統合し、モデルのジャッジ能力を評価しました! すべての検証可能なRL環境はベンチマークとほぼ同等であることをご存知ですか(その逆も同様です)。そこで、Atroposのベースに評価コマンドを追加し、Atropos環境を通じてベンチマークを実行できるようになりました。私たちは、古いまたは使用できない多くのベンチマークフレームワークを扱うことに不満を感じていたため、RL環境フレームワークであるAtroposに評価専用モードを実装しました。そこで、既存の環境の外部からの最初の移植は、@natolambertのReward-Benchでした。注:現時点では、生成報酬モデル(通常のLLMジャッジ)のみをサポートしています。ここでPRをチェックしてください:

20.53K

トップ

ランキング

お気に入り

Trending onchain

Trending on X

Recent top fundings

Most notable