熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
這似乎真的很重要:
在給定一個完美設計的提示的情況下,模型完全有可能在沒有 *任何* 強化學習的情況下獲得 IMO 金牌。
我們只是不知道,並且缺乏有效搜索提示空間的工具。很高興看到至少有人在嘗試。

2025年7月29日
提示優化與像 GRPO 這樣的強化學習算法相比如何?
GRPO 需要數千次的回合,但人類可以從幾次試驗中學習——通過反思什麼有效和什麼無效。
介紹 GEPA:一種反思性提示優化器,能夠以少達 35 倍的回合數超越 GRPO,最多可提高 20% 的表現!🧵

38.31K
熱門
排行
收藏