Hur står sig snabb optimering jämfört med RL-algoritmer som GRPO? GRPO behöver 1000-tals utrullningar, men människor kan lära sig av några försök – genom att reflektera över vad som fungerade och vad som inte fungerade. Möt GEPA: en reflekterande promptoptimerare som kan överträffa GRPO med upp till 20 % med 35 gånger färre utrullningar! 🧵
231,49K