Ich möchte darauf hinweisen, dass Kimi K2 bei realen Aufgaben (nicht Benchmarks) besser abschneidet als Gemini. Dies ist die Telemetrie aller @cline-Nutzer, die die Fehlerrate bei der Bearbeitung zeigt. Beachten Sie, dass Kimi eine Fehlerrate von etwa 6 % hat, was deutlich besser ist als die Fehlerquote von Gemini von ~ 10 %. Bemerkenswerterweise hat Kimi sogar Claude 4 in den meisten dieser Woche übertroffen und eine Fehlerrate von unter 4 % erreicht!
Paul Gauthier
Paul Gauthier18. Juli, 19:09
Kimi K2 erzielte 59 % beim Aider Polyglot Coding Benchmark. Vollständige Rangliste:
In unserem internen Benchmark für "Hard"-Diff-Bearbeitung, in Fällen, in denen ein Frontier-Modell zuvor einen Diff-Edit nicht bestanden hat (vor unseren Updates des Diff-Algorithmus), hat Kimi Claude 3.5 übertroffen. Es wird interessant sein, die Ergebnisse unserer Benchmarks zur "Nightmare Difficulty" in den nächsten Wochen zu sehen.
161,35K