Tối ưu hóa prompt so với các thuật toán RL như GRPO thì như thế nào? GRPO cần hàng nghìn lần chạy thử, nhưng con người có thể học từ một vài lần thử—bằng cách suy ngẫm về những gì đã hiệu quả & những gì không. Gặp gỡ GEPA: một trình tối ưu hóa prompt phản chiếu có thể vượt trội hơn GRPO tới 20% với 35 lần chạy thử ít hơn!🧵
231,43K