通义千问首发混合推理模型Qwen3!推理大模型第一宝座该让座了?

大家好,我是喜欢研究AI的一枚产品经理,平时主要从事新能源汽车智能座舱、AI大模型应用等相关工作。另外,我超爱自驾游~

导语:

今天凌晨5点,阿里通义千问团队发布了全球首个“混合推理模型”Qwen3。并且,一口气发了8个模型,包括:2个MoE模型,和6个Dense密集模型。

大家可能对于这次命名有些疑问,解释下:Qwen3就是这次模型的版本,-xxB代表总参数量,-AxxB代表具体模型的激活参数量。


01 | Qwen3,究竟牛在哪?

我们提到推理模型,尤其是国内,大家公认的,或者认知度最高的可能就是DeepSeek的R1模型了,对吧。甚至,很多人,就是把它排在第一位。

但是,现在,第一的宝座,至少国内推理模型第一的宝座,可能(暂时)要换位了,新王就是Qwen3发布的这一众模型中的王中王→Qwen3-235B-A22B

而且,不同于之前刚发布的QwQ-32B等模型,这次阿里通义千问团队,相对来说也是比较高调的宣传新模型,看来的确有点东西。


先总的概述下,这次阿里通义千问发布的Qwen3到底牛在哪?

  1. 从全方位的评分对比看,Qwen3这次综合实力世界第一梯队毋庸置疑!
  2. Qwen3是第一个混合推理模型(推理和对话自动灵活调用)
  3. 一口气发了8个模型,覆盖手机、PC、云端等多设备应用场景
  4. 成本进一步大幅下降,235B满血版大概仅为DeepSeek R1的三分之一
  5. 支持Apache2.0和MCP协议,全部开源
  6. 支持119种语言(之前的Qwen2.5仅支持29种语言)
  7. 支持Agent能力,并且接下来重点提升的就是Agent能力

就从上面这7点看,就问大家牛不牛!


02 | 展开聊聊Qwen3,到底牛在哪?

首先,你可以在官网快速体验 https://chat.qwen.ai/

左上角默认就是最新的235B模型,你也可以下拉选择其他模型体验。

然后,对话框左下角可以手动选择思考长度。就是可以理解为,你可以手动设置它的“IQ值”,是不是有点意思。


再然后,通过上面两个评分对比图,可以看到几个比较有意思的结论:

  1. 这次发布的小模型Qwen3-4B,比上次的QwQ-23B,能力旗鼓相当
  2. 满血版235B与世界上主流顶级模型相比,综合能力旗鼓相当
  3. 而235B的参数量远低于其他模型,即使对比国内的DeepSeekR1,成本也仅为R1的三分之一!

对比当前DeepSeek R1-671B满血版,详细来看:

那么大模型的总参数和激活参数又是什么意思呢?在实际应用中又有什么作用呢?是如何工作的呢?

在大模型中,总参数和激活参数是两个重要的概念,它们在模型的设计和运行中扮演着不同的角色。

1. 总参数

总参数是指模型中所有可学习参数的总和,包括权重和偏置等。这些参数在训练过程中会被调整,以使模型能够学习到输入数据与输出数据之间的映射关系。总参数的数量通常反映了模型的容量和复杂度,参数越多,模型理论上能够学习到的模式就越复杂。

2. 激活参数

激活参数是指在模型的前向传播过程中,实际参与计算的参数数量。在某些架构(如MoE,即Mixture of Experts)中,模型会根据输入动态选择一部分参数进行计算,而不是每次都使用全部参数。这种方式可以显著降低计算成本,同时保持模型的高性能。

3. 区别

3-1. 参与计算的程度:

• 总参数是模型中所有参数的总和,无论是否参与每次的具体计算。

• 激活参数是实际参与每次计算的参数,数量通常少于总参数。

3-2. 对计算资源的影响:

• 总参数决定了模型的最大潜在计算需求。

• 激活参数直接影响每次计算的实际资源消耗。

3-3. 架构依赖性:

• 总参数是模型设计的固有属性。

• 激活参数的数量和选择方式依赖于具体的模型架构(如MoE)。

通过合理设计激活参数的机制,可以在保持模型高性能的同时,显著降低计算成本。因此,再结合上面的评分对比,就可以看出,Qwen3用了更低的参数量就实现了,甚至部分超越了R1的能力。因此,Qwen3在实际部署应用中,尤其是对于部署成本上,约等于用了R1的三分之一的投入,就实现了其百分百的能力!

这么说,可能大家体感不强,我再举个例子。

DeepSeek刚火的一个月,相信很多朋友都本地部署过DS的小模型对吧,尤其是在笔记本上部个7B或8B的模型。我就我自己的在8G内存、M1版的MacBook Air上部了一个7B模型,实际体验就是,整个笔记本卡的几乎无法使用。一个简单问题,卡老半天,稍微动一下电脑就卡死,更别说问复杂问题了。

大家知道这是为什么吗?

这是因为DS的小模型使用的不是MoE架构,它大概率用的就是Dense稠密模型,而且还不支持混合推理能力。意思就是说,你的每个问题,不论是简单的还是复杂的,模型会调用全参数量进行计算。所以本就在资源极限的前提下运行,当然会直接爆显存和内存。

而MoE的优点,就是它会根据具体问题,动态分析和分配“子网络”,动态调用和激活相应的参数进行计算即可,无需每次全负荷计算。

而对于Dense模型来说,Qwen3也因为具备了混合推理能力,它能够根据输入的问题,灵活判断是调用推理计算,还是直接简单计算后输出。

就类似于你问DeepSeek一个问题,需要手动选择R1推理模型还是V3对话模型。而在Qwen3中,你不用手动选择,它会自动根据你的输入,判断并选择调用哪个逻辑输出更优。

或者,你也可以在问题中直接说“仔细思考后回答”、“不用深度思考,直接给我答案”,类似这样的话术,也会触发Qwen3在推理和对话模型之间的选用,而不用手动设置开关。

所以,正是因为Qwen3这次的混合推理能力,使得它的实际体验会更好。同理,如果还是在我的MacBook Air上极限部署Qwen3小模型,当我问一个简单的问题时,因为它能够自动判断仅需调用简单参数参与计算,即可精准快速回答我的问题,而无需调用推理模型,所以实际体验会优于,同样极限部署下的DS小模型的体验。


03 | 让Qwen和DeepSeek,分别聊聊它俩的能力对比情况

最后呢,我直接调用Qwen3-235B-A22B和DeepSeek R1满血版,让它俩分别对比下它们之间的能力差异,看看它俩的回答是怎样的。

问题:“请对比下Qwen3-235B-A22B和DeepSeek R1-671B的差异性和优缺点,言简意赅抓重点概述,表格形式输出”

维度

Qwen3-235B-A22B

DeepSeek R1-671B

参数规模

总参数:2350亿(2.35T),激活参数:220亿(仅需约1%参数实现高性能)

总参数:6710亿(6.71T),激活参数:370亿(动态路由优化)

架构设计

MoE(混合专家)架构,显存占用仅为同性能模型的三分之一

MoE架构,单token计算效率较高,但整体算力需求显著

核心能力

数学、代码生成及逻辑推理能力强,接近Grok-3、Gemini-2.5-Pro

多语言支持广泛,长文本生成与复杂推理表现优异

部署成本

训练/推理成本较低,消费级显卡可运行小版本(如Qwen3-30B-A3B)

高端硬件依赖强(如H100集群),部署门槛高

应用场景

中文生态友好,适合企业级降本增效(如客服、电商、代码开发)

国际化研究场景(如科学建模、跨语言分析)

开源与适配性

开源且适配昇腾等国产算力,支持多模态扩展

闭源为主,依赖NVIDIA GPU等通用硬件

优劣势

✅ 高性价比、低资源消耗

❌ 国际化覆盖待加强

✅ 超大规模参数优势

❌ 硬件依赖高、成本昂贵

总结:

Qwen3-235B-A22B :适合追求高性价比、中文场景及快速商业化的用户,兼顾大模型性能与小模型成本。

DeepSeek R1-671B :面向对超大规模参数和复杂任务有极致需求的研究机构或技术团队,但需承担更高算力开销。


维度

Qwen3-235B-A22B

DeepSeek R1-671B

模型架构

MoE架构(总参数235B,激活22B),稀疏激活设计

超大规模稀疏激活MoE架构(总参数671B),专家分配策略优化

硬件需求

仅需4张H20 GPU(显存需求为DeepSeek R1的1/3),支持CPU/GPU混合推理

需双节点8卡A100或超大规模计算集群(显存超1300GB)

推理成本

6.2元/百万token(OpenRouter定价),支持量化部署至移动端

计算资源消耗无法估量,API调用成本显著高于Qwen3

核心优势

1. 混合推理模式(可切换快/慢思考)

1. 知识覆盖无限接近人类极限

2. 代码/数学任务超越同类模型

2. 创造性输出突破认知边界(如科研假设生成)

3. 企业级部署友好,支持多场景覆盖

3. 复杂多模态任务处理潜力更强

性能短板

1. 人类直觉类问题缺乏思路(依赖暴力求解)

1. 可控性风险高(输出不可预测性)

2. 多要求指令遵循率低于Sonnet系列

2. 部署门槛极高(仅限超算中心)


3. 多轮对话状态跟踪准确率待提升

典型应用场景

企业级代码生成、数学推理、混合思考Agent

前沿科研(如跨领域知识发现)

端侧部署(如手机/平板运行Q4量化版本)

超复杂决策支持(如国家级战略预测)

开源生态

Apache 2.0协议全开源,支持Hugging Face/ModelScope等多平台

仅部分版本开源,671B版本依赖专用计算集群

总结:

Qwen3-235B-A22B凭借更优的性价比、混合推理创新和灵活的部署能力,成为企业级应用的首选;而DeepSeek R1-671B在极限知识覆盖和创造性突破方面仍有不可替代性,但需承担极高的部署成本和不可控风险。两者分别代表了当前开源大模型的实用化标杆与科研探索极限。


怎么样,以上Qwen和DS各自的分析对比和总结,大家觉得如何?是否客观合理,你是否还有什么要补充的?欢迎一起交流讨论


※ 原文链接 →「链接」

35岁+|AI产品经理|智能座舱产品经理|奶爸|自驾游爱好者|科技数码爱好者|给自己打工!

✏️体验分享AI前沿技术和产品|记录分享个人生活和趣事|情绪价值传播|链接同行者!

展开阅读全文

更新时间:2025-05-04

标签:科技   模型   宝座   参数   成本   能力   架构   极限   显存   企业级   场景   数量

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top