熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
雖然 Moonshot AI 的 Kimi k2 是人工分析智能指數中領先的開放權重非推理模型,但它輸出的標記數量約為其他非推理模型的 3 倍,模糊了推理與非推理之間的界限。
Kimi k2 是目前最大的主要開放權重模型 - 總參數達 1T,活躍參數為 32B(這需要大量的 1TB 記憶體以原生 FP8 存放權重)。我們在人工分析智能指數中將 k2 排在第 57 位,這是一個令人印象深刻的分數,將其置於 GPT-4.1 和 DeepSeek V3 等模型之上,但仍落後於領先的推理模型。
到目前為止,在我們的評估中,推理模型和非推理模型之間有明確的區別 - 不僅由模型是否使用 <reasoning> 標籤來定義,還主要由標記使用情況來定義。在人工分析智能指數中,回答所有評估所使用的標記的中位數數量對於推理模型來說約為非推理模型的 10 倍。
@Kimi_Moonshot 的 Kimi k2 使用的標記數量約為中位數非推理模型的 3 倍。當在其最大預算擴展思考模式下運行時,其標記使用量僅比 Claude 4 Sonnet 和 Opus 低 30%,並且在推理關閉的情況下,其標記使用量幾乎是 Claude 4 Sonnet 和 Opus 的三倍。
因此,我們建議將 Kimi k2 與 Claude 4 Sonnet 和 Opus 在其最大預算擴展思考模式下進行比較,而不是與 Claude 4 模型的非推理分數進行比較。
Kimi k2 可在 @Kimi_Moonshot 的第一方 API 以及 @FireworksAI_HQ、@togethercompute、@novita_labs 和 @parasail_io 上使用。
請參見下方和人工分析以獲取進一步分析 👇



60.46K
熱門
排行
收藏