トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
非常にきちんとしたパイプライン、要約すると:
1. ユーザー指定のタスクプロンプトを言い換えます。
2. いくつかの (n=25) 多様な合成トレーニング例を生成します (多様性を確保するために大きなコンテキスト ウィンドウを備えた ICL を活用します)。
3. 報酬として RULER ルーブリックを使用して、GRPO + LoRA を使用してモデルをトレーニングする

2025年7月30日
「AutoRL」📈の紹介
RL を使用してタスク固有の LLM をトレーニングする世界で最も簡単な方法。
*必要なモデルを説明する文を書くだけです。
一連の AI システムがデータ + ルーブリックを生成し、モデルをトレーニングします。
ART を利用し、オープンソースです。
スレッド内のリンク:
5.74K
トップ
ランキング
お気に入り