目が覚めると、@yesnoerrorトレンドフィードのチャートに掲載された@scale_AIのこの新しい論文が見えました。 著者: @anisha_gunjal、@aytwang、Elaine Lau、@vaskar_n、@BingLiu1011、@SeanHendryx 「報酬としてのルーブリック: 検証可能な領域を超えた強化学習」 簡略化: 漠然とした親指を立てる評価ではなく、詳細なチェックリストを使用してコンピューターを教えることで、医学や科学の質問でより良い答えを学ぶことができ、報酬を受け取った理由が明確になります。 主な調査結果: • 暗黙的に集計されたルーブリック報酬により、リッカートのベースラインと比較して医療ベンチマーク スコアが 28% 向上します。 • 小規模な審査員を使用しているにもかかわらず、専門家の参考回答に基づく報酬に匹敵するか、それを超えています。 何に使えますか? • 医療安全ルーブリックを使用して臨床意思決定支援チャットボットを微調整します。 • 複数の主観的要因が重要な政策分析または法的推論モデルをトレーニングします。 詳細な概要: 報酬としてのルーブリック (RaR) は、強化学習を使用して大規模言語モデル (LLM) を微調整する際の、不透明な好みベースの報酬モデルに代わる解釈可能な代替手段として提案されています。人間に回答全体のランク付けを求める代わりに、ドメインの専門家 (または専門家の参考文献に導かれる強力な LLM) が、重要な事実、推論手順、スタイル、一般的な落とし穴を捉えた 7 から 20 のバイナリ基準のプロンプト固有のチェックリストを作成します。各基準には、Essential、Important、Optional、または Pitfall のタグが付けられ、重みが与えられます。オンポリシートレーニング中、ポリシーモデル(論文のQwen-2.5-7B)は、プロンプトごとに16の候補回答をサンプリングします。別の審査員 LLM (GPT-4o-mini 以下) は、各基準を個別に採点するか (明示的な集計)、完全なルーブリックを読んで 1 つの総合的なリッカート評価 1 から 10 (暗黙の集計) を出力するように求められます。正規化されたスコアがスカラー報酬になり、ポリシーはGRPOアルゴリズムで更新されます。 著者らは、既存の医学と科学の推論コーパスを組み合わせ、o3-mini または GPT-4o を使用して合成ルーブリックを生成することにより、20 k の例トレーニング セット (RaR-Medical-20k と RaR-Science-20k) を厳選しました。HealthBench-1k(医学的推論)とGPQA-Diamond(大学院レベルの物理学/化学/生物学)での評価によると、RaR-Implicitは単純なリッカートのみの報酬よりも最大28%の相対的な改善をもたらし、専門家の参照回答と比較して計算された報酬に匹敵するか、それを超えています。暗黙的な集計は一貫して明示的な集計よりも優れており、基準を組み合わせる方法を裁判官に決定させる方が、手作業で調整された固定の重みよりも効果的であることを示しています。 ルーブリックの監督は、小規模なジャッジモデルにも役立ちます。優先回答と動揺した回答を評価するよう求められた場合、ルーブリックガイド付きの審査員は、同じサイズのリッカートのみの審査員よりもはるかに確実に優先回答を選択し、7 B 評価者と GPT-4o-mini の間のギャップを縮めます。アブレーションにより、プロンプト固有のルーブリックが一般的なルーブリックに勝り、複数の基準が必須のみのリストに勝り、ルーブリックの起草中に専門家の参考資料にアクセスすることで下流のパフォーマンスが大幅に向上することが明らかになりました。人間が書いた高品質の合成ルーブリックでさえ同等のパフォーマンスを発揮し、拡張性を示唆しています。 RaRは、検証可能な報酬(RLVR)による強化学習を一般化します:ルーブリックに正しさチェックが1つしかない場合、フレームワークはRLVRの完全一致報酬に崩壊します。品質の各側面を明示的に公開することで、RaR はニューラル報酬モデルよりも透明性が高く、監査可能であり、報酬ハックが困難になる可能性があります。著者らは、現実世界のエージェントタスクの拡張、ルーブリック重みによる動的カリキュラム、および正式な堅牢性研究について議論しています。 -- 毎月 500,000 ページを超える研究が @arXiv で公開されています。その中には、あなたの仕事を変える可能性のある画期的な洞察が隠されていますが、それを見つけることは、データの海の中でダイヤモンドを探すようなものです。@yesnoerrorノイズをカットして、プロジェクト、投資、発見にとって最も影響力のある調査を浮き彫りにします。 $yne
@scale_AI @yesnoerror @anisha_gunjal @aytwang @vaskar_n @BingLiu1011 @SeanHendryx 早期アクセスにはこちらからサインアップしてください。
2.79K