das scheint wirklich wichtig zu sein: es ist völlig plausibel, dass ein Modell IMO Gold ohne *irgendein* Reinforcement Learning erhalten könnte, wenn es einen perfekt gestalteten Prompt gibt. wir wissen es einfach nicht und haben nicht die Werkzeuge, um effizient durch den Prompt-Raum zu suchen. Ich bin froh zu sehen, dass zumindest jemand es versucht.
Lakshya A Agrawal
Lakshya A Agrawal29. Juli 2025
Wie vergleicht sich die Optimierung von Eingabeaufforderungen mit RL-Algorithmen wie GRPO? GRPO benötigt Tausende von Rollouts, aber Menschen können aus wenigen Versuchen lernen – indem sie darüber nachdenken, was funktioniert hat und was nicht. Lernen Sie GEPA kennen: einen reflektierenden Eingabeaufforderungsoptimierer, der GRPO um bis zu 20 % übertreffen kann, mit 35-mal weniger Rollouts!🧵
38,32K