热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
🧵按提供者排名的前10个开放模型
尽管专有模型通常位居榜首,但开放模型也在对战模式中并列,并在我们的公共排行榜上排名。
以下是按提供者排名的前10个开放模型。
- #1 Kimi K2(修改版MIT) @Kimi_Moonshot
- #2 DeepSeek R1 0528(MIT) @deepseek_ai
- #3 Qwen 235b a22b 无思考(Apache 2.0) @alibaba_qwen
- #4 MiniMax M1(MIT) @minimax_ai
- #5 Gemma 3 27b it(Gemma) @googledeepmind
- #6 Mistral Small Ultra(Apache 2.0) @mistral_ai
- #7 Llama 3.1 Nemotron Ultra 253b v1(Nvidia开放模型) @nvidia
- #8 Command A(Cohere) @cohere
- #9 Llama 4 Maverick Instruct(Llama 4) @aiatmeta
- #10 OLMo 2 32b Instruct(Apache 2.0) @allen_ai
查看线程以了解此列表中前5名的更多信息 👇

Kimi K2 - 在开放竞技场中排名第一!
如果你一直关注开源模型,这款来自新兴人工智能公司 Moonshot AI 的新模型正在引起轰动,成为迄今为止最令人印象深刻的开源 LLM 之一。我们的社区告诉我们,他们也喜欢 Kimi K2 的回应方式:Kimi 幽默而不显得过于机械。
Kimi K2 基于混合专家(MoE)架构构建,总共有 1 万亿个参数,其中 320 亿个在任何给定的推理过程中是活跃的。这种设计帮助模型在效率和按需性能之间取得平衡。
DeepSeek的顶级开放模型,DeepSeek R1-0528,排名第2
R1-0528是R1的精细指令调优版本,根据社区的反馈,它是第二最佳开放聊天模型。擅长多轮对话和推理任务。
R1(基线)是原始版本,仍然稳固,但现在略微落后于更新的调优变体。
V3-0324是一个MoE模型,具有236B的总参数,但每个提示仅激活少数专家。这使得它既强大又高效。它在指令、推理和多语言任务中表现良好,但提示格式在这里比R1-0528更为重要。
Qwen 235b a22b(无思考)是阿里巴巴的顶级开放模型,排名第3
235B-a22b-无思考是一个没有经过指令调优的原始模型(因此称为“无思考”)。
它在生成方面表现出色,并因其原始推理能力而在社区中排名靠前。
阿里巴巴与我们社区的其他一些顶级开放模型包括:
32B和30B-a3b变体是更小、更快的替代品,性能稳定,尽管它们落后于顶级模型。由于32B在两者中更为密集,社区更喜欢它的准确性而非30B-a3b。30B-a3b是一个MoE模型,使其速度稍快。
qwq-32b专门设计用于解决复杂的推理问题,旨在与像DeepSeek R1这样的大型模型的性能相匹配,但在实际测试中未能达到该标准。
MiniMax M1 以其顶级型号排名第 4 名而上榜。
M1 还因其独特的 MoE 架构与一种称为 "Lightning Attention" 的注意力形式相结合而脱颖而出,这是一种专为高效令牌处理而设计的线性机制。
这种方法确实引起了我们社区的关注,因为它在对话、推理和遵循指令方面表现得非常出色。
谷歌DeepMind以其顶级开放模型Gemma 3 27b位列第5
Gemma 3是一个开放权重的多模态语言模型。Gemma 3可以处理文本和图像输入,在推理、长上下文任务和视觉语言应用方面表现出色。我们的社区喜欢这个Gemma如何提高了内存效率,并增加了对比之前版本更大上下文的支持。
31.74K
热门
排行
收藏