阿里每年最重要的活动之一,2025云栖大会今天正式开始。大会之前的几天,阿里Qwen团队接连甩出一大堆重磅开源为大会预热。
2025年9月22日,阿里Qwen团队发布了突破性多模态AI模型Qwen3-Omni,实现了在文本、图像、音频、视频等所有模态上的无性能退化表现。系统采用创新的"思考者-说话者"架构,支持119种文字语言和19种语音理解,实现了234毫秒的极低语音交互延迟,在36个基准测试中创造了32项开源最佳纪录。
过去的多模态AI就像是一个样样都会但样样不精的人。当你让它同时处理文字、图片和声音时,它可能在某个方面表现不错,但在其他方面就会明显退步。
这项研究的突破在于证明了一个AI系统确实可以在所有模态上都保持顶级水准,而不需要为了全面发展而牺牲专业能力。以往的AI要么专注于某一个领域做到极致,要么试图全面发展但每个方面都不够出色。Qwen3-Omni证明了鱼和熊掌确实可以兼得。
重新定义AI助手的"思考者-说话者"大脑架构
传统的多模态模型就像一个人用一个脑区同时处理所有任务,结果往往顾此失彼。Qwen3-Omni采用了一种全新的架构设计,将AI的"大脑"分成了两个相互协作但各有专长的部分:思考者(Thinker)和说话者(Talker)。
这种设计就像现实中一个博学的学者和一个口才出众的演讲家的完美合作。在Qwen3-Omni中,思考者专门处理文本生成,负责理解用户的各种输入(文字、图片、视频、音频)并形成回应的内容;说话者则专注于将这些内容转化为自然流畅的语音。
这种分工带来了显著的优势。思考者可以专注于复杂的推理和内容生成,不需要分心处理语音合成的细节问题。而说话者则可以专心优化语音质量,确保声音听起来自然亲切,语调恰当。更重要的是,两者可以并行工作:当思考者还在处理用户问题的后半部分时,说话者就可以开始将前半部分的答案转化为语音输出,大大提高了响应速度。
在技术实现上,两个模块都采用了混合专家(MoE)架构。当遇到不同类型的问题时,系统会自动选择最合适的专家来处理。这样不仅提高了处理能力,还能在高并发情况下保持稳定的性能。
特别值得一提的是,思考者和说话者可以使用不同的系统提示,这意味着用户可以独立控制AI的思维风格和说话风格。比如,你可以让思考者保持严谨的学术风格来分析问题,同时让说话者用轻松幽默的语调来表达结果。这种设计给用户提供了前所未有的个性化控制能力。
AuT音频编码器:从零开始的2000万小时训练
在音频处理方面,Qwen3-Omni开发了全新的AuT(Audio Transformer)音频编码器,这个编码器是从零开始,用2000万小时的音频数据训练出来的。如果一个人不停地听音频,需要连续听2283年才能听完这些训练数据。
AuT编码器的设计就像一个超级敏锐的"听觉专家"。它不仅能准确识别语音内容,还能理解音频中的各种细微信息:说话人的情绪状态、语音的音调变化、背景音乐的风格,甚至是音频录制环境的声学特点。这种全方位的音频理解能力为后续的多模态处理提供了丰富的信息基础。
训练数据的构成也经过精心设计:80%是中英文的伪标签语音识别数据,10%是其他语言的语音识别数据,还有10%是音频理解任务的数据。这种配比确保了编码器既有强大的基础语音识别能力,又具备深层的音频理解能力。
AuT编码器还采用了动态注意力窗口技术,这就像给它配备了一个可调节的"听觉焦点"。处理实时音频时,它可以专注于当前的短时间窗口,确保快速响应;处理长音频时,它又可以扩大注意力范围,理解更完整的上下文信息。这种灵活的注意力机制让AuT在各种音频任务中都能保持优秀表现。
多模态位置编码:让AI理解时间和空间的关系
Qwen3-Omni引入了TM-RoPE技术,也就是时间对齐多模态旋转位置编码。这个技术听起来很复杂,但它解决的问题很容易理解。
当你看一个视频时,你的大脑会自动将看到的画面和听到的声音按照时间顺序对应起来。比如,你会知道演员说话时嘴唇的动作和声音是同步的,背景音乐和画面中的情节也是配合的。这种时空对应能力对人类来说很自然,但对AI来说却是个挑战。
TM-RoPE就像给AI装上了一个精确的"时空GPS系统"。它将传统的位置编码分解为三个维度:时间、高度和宽度。这样,当AI处理一个视频时,它不仅知道每个画面在视频中的时间位置,还知道画面中每个像素的空间位置,以及音频中每个片段对应的时间点。
这种编码方式的巧妙之处在于它的通用性和灵活性。处理纯文本时,三个维度共享相同的位置标识符,就退化为传统的文本位置编码。处理音频时,系统会为每80毫秒的音频片段分配一个时间ID。处理图片时,每个像素都有自己的行列位置。而处理视频时,系统会综合时间、高度、宽度三个维度,确保每个视频帧和对应的音频片段都能精确对应。
这种设计让Qwen3-Omni能够处理任意长度的音视频输入,突破了以往系统只能处理固定长度片段的限制。现在它可以一次性理解长达40分钟的音频或视频内容,就像人类可以完整理解一部电影的情节发展一样。
多码本语音生成:让AI说话更像真人
在语音合成方面,Qwen3-Omni采用了多码本(multi-codebook)的创新技术。传统的语音合成就像用一支画笔画画,只能表现有限的细节和色彩。而多码本技术就像给AI配备了一整套专业画笔,每支画笔都有不同的功能:有的专门画轮廓,有的专门上色,有的专门处理细节纹理。
具体来说,多码本系统将语音信息分解为多个层次。第一层码本处理基本的语音内容,确保说出的话在语义上正确。第二层码本处理声音的音调和语调变化,让声音听起来有情感表达。第三层码本处理更细致的声学特征,比如说话人的音色特点、呼吸声、口音等细节。
这种分层处理的好处是每一层都可以独立优化。当系统需要快速响应时,可以先输出基本的语音内容,然后逐层添加更多细节。这就像画家先画草图,再逐步添加色彩和细节一样。用户可以立即听到回应,而语音质量会在短时间内快速提升到最佳状态。
多码本技术还支持极低延迟的实时语音合成。系统可以在生成第一帧音频后立即开始播放,不需要等待整个句子生成完毕。这种"边生成边播放"的能力让人机对话变得更加自然流畅,就像真人对话那样。
工业级部署优化:234毫秒的极速响应
Qwen3-Omni不只是实验室里的技术演示,它专门针对实际应用场景进行了全面优化。整个系统的设计目标是在保证质量的前提下,实现工业级的部署性能。
系统采用了分块预填充技术,就像一个高效的工厂流水线。当用户输入一段较长的音频或视频时,系统不会等待全部内容处理完毕才开始回应,而是将输入分成小块,每处理完一块就立即开始生成对应的回应。这样,用户感受到的响应时间大大缩短。
在硬件优化方面,Qwen3-Omni的各个组件都针对现代GPU的并行计算能力进行了特别设计。MTP模块和编解码器都支持批量处理,可以同时为多个用户提供服务。
系统还采用了轻量级的卷积神经网络来替代传统的复杂扩散模型,大大降低了计算成本。同时,音频编解码的频率也从传统的50Hz降低到12.5Hz,在保证质量的前提下进一步提高了处理速度。
在不同并发级别下,系统都能保持稳定的性能表现。即使在6个用户同时使用的高并发情况下,首包延迟也不超过1.2秒,完全满足实际应用的需求。这种可扩展性确保了Qwen3-Omni可以部署到真实的商业环境中。
训练策略:三阶段渐进式学习
Qwen3-Omni的训练过程就像培养一个博学的学者,分为三个渐进的阶段,每个阶段都有明确的学习目标。
第一阶段是"感知对齐阶段",系统的核心语言模型参数被固定,只训练视觉和音频编码器。这就好比先让孩子学会看图识物、听声辨音,建立对世界的基本感知能力。研究团队特别避免了传统方法中编码器和适配器联合训练的做法,因为这会导致编码器为了迎合固定的语言模型而牺牲自己的感知能力。
第二阶段是"综合学习阶段",所有参数都参与训练,使用包含约2万亿token的大规模数据集。这些数据涵盖了文本、音频、图像、视频和音视频等各种模态,数据分布为:文本0.57万亿,音频0.77万亿,图像0.82万亿,视频0.05万亿,音视频0.05万亿。这种丰富多样的训练让系统学会了跨模态的理解和交互能力。
第三阶段是"长上下文扩展阶段",系统的最大token长度从8192扩展到32768,同时增加了长音频和长视频在训练数据中的比例。这个阶段的训练让Qwen3-Omni获得了理解长达40分钟音频内容的能力,这在以前是难以想象的。
每个训练阶段都有其独特的价值和必要性。第一阶段确保了基础感知能力的质量,第二阶段实现了多模态能力的整合,第三阶段则突破了长序列处理的限制。这种渐进式的训练策略让Qwen3-Omni既有扎实的基础,又有强大的综合能力。
后训练优化:让AI更懂人类需求
在基础训练完成后,Qwen3-Omni还经历了精细的后训练过程。
思考者模块的后训练分为三个步骤。首先是监督微调阶段,使用ChatML格式的对话数据来训练模型的指令遵循能力。这就像教导学生如何理解老师的要求并给出合适的回答。接着是强弱蒸馏阶段,通过更强大的教师模型来指导Qwen3-Omni的学习,就像让经验丰富的老教师来指导年轻教师的成长。最后是GSPO优化阶段,通过奖励机制来进一步提升模型在各种任务上的表现。
说话者模块的后训练更加专注于语音质量的提升。第一阶段使用数亿条语音数据建立多模态表示到语音的映射关系。第二阶段通过高质量数据的持续预训练来减少噪声数据带来的幻觉问题,同时进行长上下文训练以提升处理能力。第三阶段使用直接偏好优化技术,通过多语言语音样本的偏好对比来提升生成质量和系统稳定性。最后一个阶段是说话人微调,让AI能够采用特定的声音风格,提升语音的自然度和可控性。
这种精心设计的后训练过程确保了Qwen3-Omni不仅在技术指标上表现优秀,更重要的是真正理解人类的交流习惯和偏好,能够提供更加自然、贴心的交互体验。
性能评测:在36个基准测试中创造新纪录
Qwen3-Omni的性能表现就像一个全科优等生,在几乎所有科目上都取得了顶尖成绩。研究团队对其进行了全面的性能评测,覆盖了文本理解、音频处理、视觉识别、视频理解和跨模态推理等各个方面。
纯文本任务方面,Qwen3-Omni在MMLU-Redux、GPQA、AIME25等权威测试中,它的表现不仅超越了同等规模的开源模型,甚至在某些任务上超过了参数量更大的模型。特别在数学推理和代码编写方面,它展现出了突出的能力。
音频处理能力更是Qwen3-Omni的强项。在36个音频和音视频基准测试中,它在32个测试中达到了开源模型的最佳表现,在22个测试中创造了整体最佳纪录。无论是语音识别、语音翻译,还是音乐理解、音频推理,Qwen3-Omni都展现出了卓越的能力。特别值得一提的是,它在VoiceBench语音交互测试中获得了89.5分的高分,几乎与强大的Gemini-2.5-Pro持平。
在视觉理解方面,Qwen3-Omni在数学和科学相关的视觉推理任务中表现尤为出色,在MathVision、MMMU-Pro等测试中取得了优异成绩。这表明它不仅能看懂图片,还能进行基于视觉信息的复杂推理。
跨模态能力的测试结果更加证明了Qwen3-Omni设计理念的成功。在需要同时理解音频和视觉信息的复杂任务中,它展现出了远超传统单一模态模型的理解能力。这种跨模态的协同理解能力是未来AI助手的关键特征。
语音生成:多语言实时对话的新标准
Qwen3-Omni的语音生成能力堪称技术艺术的完美结合。它不仅能够生成清晰自然的语音,还具备多语言支持和实时交互的能力。
在零样本语音生成测试中,Qwen3-Omni在SEED测试集上的表现超越了多个知名的文本转语音系统。更重要的是,通过强化学习优化后,它在英文测试集上实现了最佳的内容一致性表现。这意味着AI生成的语音不仅听起来自然,内容也完全准确。
多语言语音生成是Qwen3-Omni的另一个亮点。它支持10种语言的语音生成,在中文、英文、法文等主要语言上的表现尤为突出,内容准确性和说话人相似度都超过了其他多语言语音系统。这种多语言能力让它可以真正成为一个全球化的AI助手。
跨语言语音克隆功能更是展现了Qwen3-Omni的技术深度。它可以用一种语言的声音特征来生成另一种语言的语音,就像一个多语言主持人可以用同样的声音说不同的语言。在多个跨语言测试中,Qwen3-Omni都取得了最佳或接近最佳的表现。
实时语音交互是Qwen3-Omni最重要的功能之一。234毫秒的端到端延迟让人机对话变得异常流畅,几乎感觉不到任何等待时间。这种流畅度让用户可以像和真人聊天一样自然地与AI交流。
无退化多模态:打破技术发展的传统限制
Qwen3-Omni最重要的贡献在于证明了多模态AI系统可以实现真正的"无退化"发展。研究团队通过严格的对比实验证明了这一点,这个发现对整个AI领域具有重要意义。
传统观念认为,当AI系统试图同时掌握多种能力时,必然会在某些方面有所牺牲,这就像一个人精力有限,样样都学就会样样都不精。但Qwen3-Omni的实验结果彻底颠覆了这种观念。
研究团队设计了一个严格的对比实验:使用完全相同的参数规模分别训练纯文本模型、纯视觉模型和多模态模型,除了多模态模型额外包含音频和音视频数据外,其他所有训练条件都完全一致。实验结果显示,多模态模型在文本和视觉任务上的表现不仅没有退化,甚至在某些任务上还有提升。
这种"无退化"现象的原因在于不同模态之间的相互促进作用。文本训练提供了强大的语言理解基础,视觉训练增强了空间推理能力,音频训练则加强了序列建模能力。当这些能力结合在一起时,它们相互补充,形成了比单一模态更强大的整体能力。
音频数据的加入显著提升了模型在视觉任务上的表现,特别是在MMMU基准测试和OCR相关任务中。这种跨模态的能力迁移表明,不同感官通道的信息处理在深层次上是相互关联的,就像人类的多感官整合能力一样。
当你下次与AI对话时,如果它能够流畅地理解你的语音,准确地识别你展示的图片,自然地回应你的问题,并且整个过程毫无停顿,那么你就体验到了Qwen3-Omni所代表的技术革命。
项目地址:
https://github.com/QwenLM/Qwen3-Omni
模型地址:
https://modelscope.cn/collections/Qwen3-Omni-867aef131e7d4f
END
本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。
Q&A
Q1:Qwen3-Omni支持哪些语言?
A:Qwen3-Omni支持119种文本语言、19种语音输入语言(包括中文、英语、阿拉伯语等)和10种语音输出语言(如中文、英语、日语等)。其多语言能力覆盖了语音识别、翻译和生成任务,尤其在中文和英语ASR任务上达到开源SOTA水平。
Q2:Qwen3-Omni的延迟性能如何?
A:在冷启动场景下,Qwen3-Omni的理论端到端首包延迟为234毫秒(音频)和547毫秒(视频)。通过MoE架构、流式多码本生成和轻量化ConvNet设计,模型支持高并发流式交互,实时生成因子(RTF)始终低于1,确保流畅的实时响应。
Q3:Qwen3-Omni在多模态任务上的表现如何?
A:Qwen3-Omni在36个音频和视听基准测试中,32项达到开源SOTA,22项实现总体SOTA,超越Gemini-2.5-Pro等闭源模型。它在文本和视觉任务上保持与同规模单模态模型相当的性能,同时在音频理解、音乐标签识别和视听推理(如WorldSense基准)中表现突出。
更新时间:2025-09-25
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号