Me gustaría señalar que para las tareas del mundo real (no los puntos de referencia), Kimi K2 supera a Gemini. Se trata de telemetría en todos los usuarios @cline, que muestra la tasa de errores de edición de diferencias. Observe cómo Kimi tiene una tasa de falla de aproximadamente el 6%, que es significativamente mejor que la tasa de error de ~ 10% de Gemini. Sorprendentemente, Kimi incluso superó a Claude 4 durante la mayor parte de esta semana, ¡logrando una tasa de fracaso inferior al 4%!
Paul Gauthier
Paul Gauthier18 jul, 19:09
Kimi K2 obtuvo un 59% en el punto de referencia de codificación políglota auxiliar. Tabla de clasificación completa:
En nuestro punto de referencia interno de edición de diferencias "Duro" para los casos en los que un modelo de frontera falló previamente en una edición de diferencias (antes de las actualizaciones de nuestro algoritmo de diferencias), Kimi superó a Claude 3.5. Será interesante ver los resultados de nuestros puntos de referencia de "Dificultad de pesadilla" en las próximas semanas.
160.68K