🚨GROK 在 "人类的最后考试" 中以 26.9% 的成绩完成,没有任何工具 这个缩放图表讲述了这个故事:更多的计算 = 更好的表现。 Grok 仅凭纯粹的推理就击败了全球最难的学术基准,超过四分之一。 没有计算器,没有外部帮助。 只有原始的 AI 智力在处理 2,500 道人类知识各个领域的问题。 大多数人即使有工具也会在这个测试中失败。 Grok 是在蒙着眼睛完成的。 来源:@xai @elonmusk
Mario Nawfal
Mario Nawfal7月10日 12:14
🚨"HUMANITY'S LAST EXAM" DROPPED: 2,500 QUESTIONS TO SEPARATE REAL AI FROM PRETENDERS X just unveiled the ultimate academic gauntlet - a benchmark so comprehensive it's meant to be the final test ever needed. Math dominates at 41%, followed by sciences and humanities. The name says it all: this is the exam to end all exams. Once AI aces this, what's left to prove? We're building the test that determines when machines officially outsmart us. Source: @xai @elonmusk
89.58K