一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

🧠 Grok 4 由 @xai 在推理基准测试中取得了进展，但情况比分数所暗示的要复杂得多。以下是它的表现——以及我们可以从其结果中真正学到的东西 🧵 📊 完整评估： 1️⃣ Grok 4 分数： • AI2 推理挑战（简单）：98% • AIME 2025（数学）：89% • 会计审计：84% • MMLU-Plus：64% • Data4Health：55% 这些是总体分数——但让我们深入了解哪些方面表现良好，哪些方面仍然存在问题。 2️⃣ AIME 2025 ✅ 处理代数、几何、数论 ✅ 遵循 LaTeX 格式规则 ❌ 在多步骤逻辑上表现不佳 ❌ 组合数学中出现错误 ❌ 格式精确性问题（例如，缺少 °） 3️⃣ 会计审计 ✅ 在伦理和报告方面表现强劲 ✅ 对审计原则有扎实的理解 ❌ 误解类似程序 ❌ 无法识别细微的答案差异 ❌ 在将理论应用于现实案例时遇到困难 4️⃣ 真正的洞察？即使在某些任务上得分达到 98% 的模型，在模糊或格式压力下也可能表现不佳。像 AIME 和审计这样的基准显示了它的失败，而不仅仅是它的得分。 5️⃣ 这为什么重要：我们需要透明的逐任务评估——而不仅仅是排行榜。 #Grok4 功能强大，但在高风险的现实世界领域仍然脆弱。 🧪 探索完整的分析： #AI #LLMs #基准测试

1.02K