我想指出,对于现实世界的任务(而非基准测试),Kimi K2 的表现优于 Gemini。 这是所有 @cline 用户的遥测数据,显示了不同的编辑失败率。注意 Kimi 的失败率约为 6%,这明显优于 Gemini 的 ~ 10% 错误率。 值得注意的是,Kimi 在本周的大部分时间里甚至超过了 Claude 4,达到了低于 4% 的失败率!
Paul Gauthier
Paul Gauthier7月18日 19:09
Kimi K2 在 aider polyglot 编码基准测试中得分 59%。 完整排行榜:
在我们内部的“硬”差异编辑基准测试中,对于之前在差异编辑中失败的前沿模型(在我们更新差异算法之前),Kimi 超过了 Claude 3.5。 在接下来的几周内,看到我们“噩梦难度”基准测试的结果将会很有趣。
160.67K