Acest lucru pare foarte important: este total plauzibil ca un model să poată obține aur IMO fără *niciuna* învățare prin întărire, având în vedere un prompt perfect realizat pur și simplu nu știm și ne lipsesc instrumentele pentru a căuta eficient prin spațiul prompt. Mă bucur să văd că măcar cineva încearcă
Lakshya A Agrawal
Lakshya A Agrawal29 iul. 2025
Cum se compară optimizarea promptă cu algoritmii RL precum GRPO? GRPO are nevoie de 1000 de lansări, dar oamenii pot învăța din câteva încercări – reflectând asupra a ceea ce a funcționat și a ceea ce nu. Faceți cunoștință cu GEPA: un optimizator de prompturi reflectorizante care poate depăși GRPO cu până la 20% cu 35 de ori mai puține lansări! 🧵
38,47K