「AutoRL」📈の紹介 RL を使用してタスク固有の LLM をトレーニングする世界で最も簡単な方法。 *必要なモデルを説明する文を書くだけです。 一連の AI システムがデータ + ルーブリックを生成し、モデルをトレーニングします。 ART を利用し、オープンソースです。 スレッド内のリンク:
@theRohitDas この実行では、GPU に 0 ドルを費やし、プロンプト生成や RULER ランキングなどの OpenRouter クレジットに 40 セントを費やしました。
139.78K