提示優化與像 GRPO 這樣的強化學習算法相比如何? GRPO 需要數千次的回合,但人類可以從幾次試驗中學習——通過反思什麼有效和什麼無效。 介紹 GEPA:一種反思性提示優化器,能夠以少達 35 倍的回合數超越 GRPO,最多可提高 20% 的表現!🧵
231.41K