これは本当に重要だと思われます。 完璧に作成されたプロンプトが与えられた場合、モデルが強化学習なしでIMOゴールドを獲得できる可能性は十分にあります 私たちは知らず、プロンプトスペースを効率的に検索するためのツールが不足しています。 少なくとも誰かが努力しているのを見てうれしいです
Lakshya A Agrawal
Lakshya A Agrawal2025年7月29日
プロンプト最適化は、GRPO などの RL アルゴとどのように比較されますか? GRPOには何千回ものロールアウトが必要ですが、人間は、何がうまくいったのか、何がうまくいかなかったのかを振り返ることで、いくつかの試行から学ぶことができます。 GEPAは、35倍のロールアウトでGRPOを最大20%上回るリフレクティブ・プロンプト・オプティマイザーです。 🧵
38.46K