V spent på å se hvor vi går herfra med OS-modeller
pash
pash19. juli, 09:58
Jeg vil påpeke at for de virkelige oppgavene (ikke benchmarks), overgår Kimi K2 Gemini. Dette er telemetri på tvers av alle @cline brukere, og viser feilfrekvens for diffredigering. Legg merke til hvordan Kimi har omtrent 6 % feilrate, som er betydelig bedre enn Geminis ~ 10 % feilrate. Bemerkelsesverdig nok overgikk Kimi til og med Claude 4 i det meste av denne uken, og oppnådde en feilrate på under 4 %!
7,2K