Bagaimana pengoptimalan prompt dibandingkan dengan RL algos seperti GRPO? GRPO membutuhkan 1000-an peluncuran, tetapi manusia dapat belajar dari beberapa percobaan—dengan merefleksikan apa yang berhasil dan apa yang tidak. Temui GEPA: pengoptimal prompt reflektif yang dapat mengungguli GRPO hingga 20% dengan peluncuran 35x lebih sedikit! 🧵
231,41K