世界上最难的高中数学考试,2025年国际数学奥林匹克(IMO),本周举行。 人工智能模型表现不佳。 Gemini 2.5 Pro得分最高,仅为13/42,成本为431.97美元,在32个评估中表现最佳。铜牌分数线为19。 人工智能在解决困难数学问题上还有很长的路要走。
这是对MathArena上模型性能更美观的可视化
P6无疑是最难且最有趣的问题。大多数人可以理解它,但很少有人能解决它。 所有模型的得分都是0/7。
小修正:
Alexander Wei
Alexander Wei17 小时前
1/N 我很高兴地分享,我们最新的 @OpenAI 实验性推理 LLM 在人工智能领域实现了一个长期以来的重大挑战:在世界上最负盛名的数学竞赛——国际数学奥林匹克(IMO)中达到了金牌级别的表现。
76.37K