超棒的流程,總結來說他們: 1. 重新表述用戶指定的任務提示, 2. 生成幾個(n=25)多樣的合成訓練範例(利用ICL和大上下文窗口以確保多樣性), 3. 使用GRPO + LoRA訓練模型,並使用RULER標準作為獎勵。
Matt Shumer
Matt Shumer2025年7月30日
介紹 `AutoRL` 📈 世界上最簡單的方式來訓練一個特定任務的 LLM,使用強化學習。 *只需寫一句話描述您想要的模型。* 一系列 AI 系統將生成數據 + 評分標準並為您訓練模型。 由 ART 提供支持,這是開源的。 線程中的鏈接:
5.75K