プロンプト最適化は、GRPO などの RL アルゴとどのように比較されますか? GRPOには何千回ものロールアウトが必要ですが、人間は、何がうまくいったのか、何がうまくいかなかったのかを振り返ることで、いくつかの試行から学ぶことができます。 GEPAは、35倍のロールアウトでGRPOを最大20%上回るリフレクティブ・プロンプト・オプティマイザーです。 🧵
231.42K