这似乎真的很重要: 在给定一个完美设计的提示的情况下,模型完全有可能在没有 *任何* 强化学习的情况下获得 IMO 金牌。 我们只是不知道,并且缺乏有效搜索提示空间的工具。很高兴看到至少有人在尝试。
Lakshya A Agrawal
Lakshya A Agrawal2025年7月29日
提示优化与像 GRPO 这样的强化学习算法相比如何? GRPO 需要数千次的回合,但人类可以通过反思什么有效和什么无效,从少量的试验中学习。 认识 GEPA:一种反思性提示优化器,可以在减少 35 倍回合的情况下,超越 GRPO 达到 20% 的提升!🧵
38.31K