GPT 5.4 Pro 刚刚以 38% 的成绩击败了最难的数学基准测试 FrontierMath Tier 4。 这 50 道研究级数学题可能需要数学家们几周才能解决。 一年前,最好的成绩是 2%(o3)。最佳开源模型是 4.2%(Kimi K2.5) 令人难以置信的出色。