热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
如果你在 ICML 并对 RL 或多语言感兴趣,请向 @marafinkels 打个招呼!我们在过去几个月里紧密合作,推出了一种 RL 方法来解决一个关键的 Gemini 质量问题。她也有很棒的研究想法!希望 Gemini 和学术界保持联系。

2024年11月27日
LLMs are typically evaluated w/ automatic metrics on standard test sets, but metrics + test sets are developed independently. This raises a crucial question: Can we design automatic metrics specifically to excel on the test sets we prioritize? Answer: Yes!

5.87K
热门
排行
收藏