显存使用骤降50%!阿里发布开源旗舰级多模态模型,GPU资源优化利

国内开源大模型领域竞争愈发激烈。就在五一假期前夕,先是小米在上午九点左右发布并开源了MiMo-7B模型;随后晚上六点,DeepSeek推出了其V2版本;紧接着晚上十点半,阿里再次带来了轻量级多模态模型Qwen2.5-Omni-3B。

相比于Qwen2.5-Omni-7B,3B版本在处理长上下文时,显存消耗降低了超过一半。同时,这款3B模型能够在24GB的消费级GPU上实现长达30秒的音视频交互,且保留了超过7B版本90%的多模态理解能力,语音输出的准确性和稳定性也基本持平。

值得注意的是,阿里在4月29日刚刚开源了Qwen-3模型,短短一天时间就紧接推出了量化版多模态模型,显示出其在大模型领域持续加大投入和技术攻坚的决心。


github地址:
https://github.com/QwenLM/Qwen2.5-Omni

笑脸:
https://huggingface.co/collections/Qwen/qwen25-omni-67de1e5f0f9464dc6314b36e

在线体验:
https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

用户反馈非常积极,这款多模态模型终于解决了显卡资源紧张的问题,表现更加稳定可靠。

哇,这真的太酷了。让人们使用起来更便捷是向前迈出的一大步。祝贺!

通义千问将是GPT的终结者。

通义千问总是喜欢在不断取得成功的道路上不知疲倦。

游戏规则改变者。

Qwen2.5-Omni是一款集成多种模态感知能力的端到端模型,能够处理文本、图像、音频和视频等多种信息形式,并支持以流式方式同时输出文本和语音响应。该模型采用了创新的“Thinker-Talker”架构,利用时间同步的多模态RoPE位置编码,将视频的时间戳与音频进行精准对齐,确保多模态数据的高效融合与交互体验。


Qwen2.5-Omni的最大亮点在于其支持完全实时的语音和视频聊天,能够处理分段输入并即时反馈响应。在语音生成方面,它的表现优于许多现有流式和非流式模型,展现出极强的稳定性与自然流畅度。

该模型在多模态任务中表现尤为突出,无论是单一模态的语音识别、翻译、音频理解、图像推理或视频解析,还是涉及多模态融合的综合任务如OmniBench,Qwen2.5-Omni均展现出卓越的能力。

从性能评测来看,Qwen2.5-Omni在与同等规模的单模态模型(如Qwen2.5-VL-7B和Qwen2-Audio)以及闭源模型Gemini-1.5-pro的比较中均表现优异。它不仅在音频处理上优于Qwen2-Audio,同时在图像和视频任务中也达到了与Qwen2.5-VL-7B相当的效果。



·


我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。


欢迎关注“福大大架构师每日一题”,让AI助力您的未来发展。

·

展开阅读全文

更新时间:2025-05-05

标签:科技   阿里   显存   模型   资源   语音   视频   图像   音频   能力   版本   时间   在线

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top