Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Me gustaría señalar que para las tareas del mundo real (no benchmarks), Kimi K2 supera a Gemini.
Esta es la telemetría de todos los usuarios de @cline, mostrando la tasa de fallos en la edición. Observa cómo Kimi tiene aproximadamente un 6% de tasa de fallos, lo cual es significativamente mejor que la tasa de error de ~ 10% de Gemini.
Notablemente, Kimi incluso superó a Claude 4 durante la mayor parte de esta semana, logrando una tasa de fallos por debajo del 4%!.


18 jul, 19:09
Kimi K2 obtuvo un 59% en el benchmark de codificación de polyglot aider.
Tabla de clasificación completa:

En nuestro benchmark interno de edición de "Hard" diff para casos donde un modelo frontera falló previamente en una edición diff (antes de nuestras actualizaciones del algoritmo diff), Kimi superó a Claude 3.5.
Será interesante ver los resultados de nuestros benchmarks de "Dificultad Pesadilla" en las próximas semanas.

160,68K
Parte superior
Clasificación
Favoritos