Medan Moonshot AI:s Kimi k2 är den ledande icke-resonerande modellen med öppna vikter i Artificial Analysis Intelligence Index, matar den ut ~3x fler tokens än andra icke-resonerande modeller, vilket suddar ut gränserna mellan resonemang och icke-resonemang Kimi k2 är den största stora modellen med öppna vikter hittills - 1T totala parametrar med 32B aktiv (detta kräver massiva 1 TB minne vid inbyggd FP8 för att hålla vikterna). Vi har k2 på 57 i Artificial Analysis Intelligence Index, en imponerande poäng som placerar den över modeller som GPT-4.1 och DeepSeek V3, men bakom ledande resonemangsmodeller. Fram tills nu har det funnits en tydlig skillnad mellan resonemangsmodeller och icke-resonerande modeller i våra utvärderingar - definierade inte bara av om modellen använder <reasoning> taggar, utan främst av tokenanvändning. Medianantalet tokens som används för att svara på alla evals i Artificial Analysis Intelligence Index är ~10 gånger högre för resonemangsmodeller än för icke-resonerande modeller. @Kimi_Moonshot:s Kimi k2 använder ~3x antalet tokens som medianmodellen för icke-resonemang använder. Dess tokenanvändning är bara upp till 30 % lägre än Claude 4 Sonnet och Opus när de körs i sitt maximala budget för utökat tänkande, och är nästan tre gånger så stor som tokenanvändningen för både Claude 4 Sonnet och Opus med resonemang avstängt. Vi rekommenderar därför att Kimi k2 jämförs med Claude 4 Sonnet och Opus i deras maximala budget utökade tankelägen, inte med de icke-resonerande poängen för Claude 4-modellerna. Kimi k2 är tillgängligt på @Kimi_Moonshot:s förstaparts-API samt @FireworksAI_HQ, @togethercompute, @novita_labs och @parasail_io. Se nedan och på Artificiell Analys för vidare analys 👇
60,62K