甚至连铜牌都没有:评估大型语言模型在2025年国际数学奥林匹克上的表现 🥉 来自MathArena团队的精彩博客文章:对大型语言模型在未受污染的数学竞赛中的表现进行独立分析()。
看起来这是一个高级版的Gemini,Deep Think刚刚解决了6个IMO问题中的5个,获得了总共35分,正式达到了金牌级别的表现。 恭喜@lmthang取得这一成就❗️迫不及待想要玩这个模型
42.46K