Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Я хотел бы отметить, что для реальных задач (не бенчмарков) Kimi K2 превосходит Gemini.
Это телеметрия по всем пользователям @cline, показывающая разницу в уровне ошибок редактирования. Обратите внимание, что у Kimi примерно 6% уровень ошибок, что значительно лучше, чем у Gemini с ~ 10%.
Удивительно, но Kimi даже обошел Claude 4 на протяжении большей части этой недели, достигнув уровня ошибок менее 4%!.

В нашем внутреннем бенчмарке редактирования "Hard" diff для случаев, когда модель frontier ранее не справлялась с редактированием diff (до обновлений нашего алгоритма diff), Кими превзошла Claude 3.5.
Будет интересно увидеть результаты наших бенчмарков "Nightmare Difficulty" в ближайшие несколько недель.

160,68K
Топ
Рейтинг
Избранное