提示优化与像 GRPO 这样的强化学习算法相比如何? GRPO 需要数千次的回合,但人类可以通过反思什么有效和什么无效,从少量的试验中学习。 认识 GEPA:一种反思性提示优化器,可以在减少 35 倍回合的情况下,超越 GRPO 达到 20% 的提升!🧵
231.41K