Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Me gustaría señalar que para las tareas del mundo real (no los puntos de referencia), Kimi K2 supera a Gemini.
Se trata de telemetría en todos los usuarios @cline, que muestra la tasa de errores de edición de diferencias. Observe cómo Kimi tiene una tasa de falla de aproximadamente el 6%, que es significativamente mejor que la tasa de error de ~ 10% de Gemini.
Sorprendentemente, Kimi incluso superó a Claude 4 durante la mayor parte de esta semana, ¡logrando una tasa de fracaso inferior al 4%!


18 jul, 19:09
Kimi K2 obtuvo un 59% en el punto de referencia de codificación políglota auxiliar.
Tabla de clasificación completa:

En nuestro punto de referencia interno de edición de diferencias "Duro" para los casos en los que un modelo de frontera falló previamente en una edición de diferencias (antes de las actualizaciones de nuestro algoritmo de diferencias), Kimi superó a Claude 3.5.
Será interesante ver los resultados de nuestros puntos de referencia de "Dificultad de pesadilla" en las próximas semanas.

160.68K
Populares
Ranking
Favoritas