非常にきちんとしたパイプライン、要約すると: 1. ユーザー指定のタスクプロンプトを言い換えます。 2. いくつかの (n=25) 多様な合成トレーニング例を生成します (多様性を確保するために大きなコンテキスト ウィンドウを備えた ICL を活用します)。 3. 報酬として RULER ルーブリックを使用して、GRPO + LoRA を使用してモデルをトレーニングする
Matt Shumer
Matt Shumer2025年7月30日
「AutoRL」📈の紹介 RL を使用してタスク固有の LLM をトレーニングする世界で最も簡単な方法。 *必要なモデルを説明する文を書くだけです。 一連の AI システムがデータ + ルーブリックを生成し、モデルをトレーニングします。 ART を利用し、オープンソースです。 スレッド内のリンク:
5.74K