Det här verkar verkligen viktigt: det är helt troligt att en modell kan få IMO-guld utan *någon* förstärkningsinlärning, med tanke på en perfekt utformad prompt Vi vet helt enkelt inte och saknar verktyg för att effektivt söka igenom prompt space. Kul att se att åtminstone någon försöker
Lakshya A Agrawal
Lakshya A Agrawal29 juli 2025
Hur står sig snabb optimering jämfört med RL-algoritmer som GRPO? GRPO behöver 1000-tals utrullningar, men människor kan lära sig av några försök – genom att reflektera över vad som fungerade och vad som inte fungerade. Möt GEPA: en reflekterande promptoptimerare som kan överträffa GRPO med upp till 20 % med 35 gånger färre utrullningar! 🧵
38,48K