一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

提示优化与像 GRPO 这样的强化学习算法相比如何？ GRPO 需要数千次的回合，但人类可以通过反思什么有效和什么无效，从少量的试验中学习。认识 GEPA：一种反思性提示优化器，可以在减少 35 倍回合的情况下，超越 GRPO 达到 20% 的提升！🧵

231.41K