一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

提示優化與像 GRPO 這樣的強化學習算法相比如何？ GRPO 需要數千次的回合，但人類可以從幾次試驗中學習——通過反思什麼有效和什麼無效。介紹 GEPA：一種反思性提示優化器，能夠以少達 35 倍的回合數超越 GRPO，最多可提高 20% 的表現！🧵

231.41K