热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
🧠 Grok 4 由 @xai 在推理基准测试中取得了进展,但情况比分数所暗示的要复杂得多。
以下是它的表现——以及我们可以从其结果中真正学到的东西 🧵
📊 完整评估:
1️⃣ Grok 4 分数:
• AI2 推理挑战(简单):98%
• AIME 2025(数学):89%
• 会计审计:84%
• MMLU-Plus:64%
• Data4Health:55%
这些是总体分数——但让我们深入了解哪些方面表现良好,哪些方面仍然存在问题。
2️⃣ AIME 2025
✅ 处理代数、几何、数论
✅ 遵循 LaTeX 格式规则
❌ 在多步骤逻辑上表现不佳
❌ 组合数学中出现错误
❌ 格式精确性问题(例如,缺少 °)
3️⃣ 会计审计
✅ 在伦理和报告方面表现强劲
✅ 对审计原则有扎实的理解
❌ 误解类似程序
❌ 无法识别细微的答案差异
❌ 在将理论应用于现实案例时遇到困难
4️⃣ 真正的洞察?
即使在某些任务上得分达到 98% 的模型,在模糊或格式压力下也可能表现不佳。
像 AIME 和审计这样的基准显示了它的失败,而不仅仅是它的得分。
5️⃣ 这为什么重要:
我们需要透明的逐任务评估——而不仅仅是排行榜。
#Grok4 功能强大,但在高风险的现实世界领域仍然脆弱。
🧪 探索完整的分析:
#AI #LLMs #基准测试

1.02K
热门
排行
收藏