热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
这似乎真的很重要:
在给定一个完美设计的提示的情况下,模型完全有可能在没有 *任何* 强化学习的情况下获得 IMO 金牌。
我们只是不知道,并且缺乏有效搜索提示空间的工具。很高兴看到至少有人在尝试。

2025年7月29日
提示优化与像 GRPO 这样的强化学习算法相比如何?
GRPO 需要数千次的回合,但人类可以通过反思什么有效和什么无效,从少量的试验中学习。
认识 GEPA:一种反思性提示优化器,可以在减少 35 倍回合的情况下,超越 GRPO 达到 20% 的提升!🧵

38.31K
热门
排行
收藏