一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

我想指出，对于现实世界的任务（而非基准测试），Kimi K2 的表现优于 Gemini。这是所有 @cline 用户的遥测数据，显示了不同的编辑失败率。注意 Kimi 的失败率约为 6%，这明显优于 Gemini 的 ~ 10% 错误率。值得注意的是，Kimi 在本周的大部分时间里甚至超过了 Claude 4，达到了低于 4% 的失败率！

在我们内部的“硬”差异编辑基准测试中，对于之前在差异编辑中失败的前沿模型（在我们更新差异算法之前），Kimi 超过了 Claude 3.5。在接下来的几周内，看到我们“噩梦难度”基准测试的结果将会很有趣。

160.67K

热门

排行

收藏

链上热点

X 热门榜

近期融资

最受认可