這似乎真的很重要: 在給定一個完美設計的提示的情況下,模型完全有可能在沒有 *任何* 強化學習的情況下獲得 IMO 金牌。 我們只是不知道,並且缺乏有效搜索提示空間的工具。很高興看到至少有人在嘗試。
Lakshya A Agrawal
Lakshya A Agrawal2025年7月29日
提示優化與像 GRPO 這樣的強化學習算法相比如何? GRPO 需要數千次的回合,但人類可以從幾次試驗中學習——通過反思什麼有效和什麼無效。 介紹 GEPA:一種反思性提示優化器,能夠以少達 35 倍的回合數超越 GRPO,最多可提高 20% 的表現!🧵
38.31K