@openclaw 最佳 LLM 的基准测试结果非常有趣 测试内容: 在标准化的 OpenClaw 代理测试中成功完成任务的百分比 对我来说,令人惊讶的结果是,kimi 2.5 超过了 Anthopic Minimax 2.1 排名第三 Al Qwen 模型表现相当糟糕