Me gustaría señalar que para las tareas del mundo real (no benchmarks), Kimi K2 supera a Gemini. Esta es la telemetría de todos los usuarios de @cline, mostrando la tasa de fallos en la edición. Observa cómo Kimi tiene aproximadamente un 6% de tasa de fallos, lo cual es significativamente mejor que la tasa de error de ~ 10% de Gemini. Notablemente, Kimi incluso superó a Claude 4 durante la mayor parte de esta semana, logrando una tasa de fallos por debajo del 4%!.
Paul Gauthier
Paul Gauthier18 jul, 19:09
Kimi K2 obtuvo un 59% en el benchmark de codificación de polyglot aider. Tabla de clasificación completa:
En nuestro benchmark interno de edición de "Hard" diff para casos donde un modelo frontera falló previamente en una edición diff (antes de nuestras actualizaciones del algoritmo diff), Kimi superó a Claude 3.5. Será interesante ver los resultados de nuestros benchmarks de "Dificultad Pesadilla" en las próximas semanas.
160,68K