热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我想指出,对于现实世界的任务(而非基准测试),Kimi K2 的表现优于 Gemini。
这是所有 @cline 用户的遥测数据,显示了不同的编辑失败率。注意 Kimi 的失败率约为 6%,这明显优于 Gemini 的 ~ 10% 错误率。
值得注意的是,Kimi 在本周的大部分时间里甚至超过了 Claude 4,达到了低于 4% 的失败率!

在我们内部的“硬”差异编辑基准测试中,对于之前在差异编辑中失败的前沿模型(在我们更新差异算法之前),Kimi 超过了 Claude 3.5。
在接下来的几周内,看到我们“噩梦难度”基准测试的结果将会很有趣。

160.67K
热门
排行
收藏