AI应用掀起春节大战的同时,基础大模型也在加速上架“春节档”。

2月10日,阿里云发布新一代图像生成基础模型Qwen-Image-2.0,而千问的新一代基座模型Qwen3.5也已经在路上。同一天,字节跳动旗下剪映宣布上线新一代图像生成模型——Seedream 5.0预览版,距离上一代模型(Seedream 4.5)发布仅两个多月。
临近春节,图像生成大模型发布按下加速键,事实上,伴随着AIGC落地加速,在图像生成领域,谁能从“生成好看的图” 率先转向 “高效解决实际问题”,正在成为模型竞争的关键。

Qwen-Image-2.0和Seedream 5.0

尽管同日发布,两款模型在技术路径和生成效果上有着一定的差异。
具体来看,字节跳动文生图模型主要升级点为首次支持检索生图,对提示词的理解准确性增强、支持更细节、精细纹理的图像生成,允许用户精确调整图像。而阿里的Qwen-Image-2.0则是Qwen-Image项目自2025年5月启动后,首次将生图和编辑两条支线迭代的模型能力统一整合到单一模型架构中,提升了中文汉字渲染方面能力,并输入提示词扩展到1K token,优化了对超长文字和复杂指令的渲染。
第一财经记者分别对Qwen-Image-2.0和Seedream 5.0进行了同题测试,以相同的提示词分别请Qwen-Image-2.0和Seedream 5.0生成了《清晨雾中的瑞士阿尔卑斯山》和《无厘头美食番<三国演义>》两张图片,Qwen-Image-2.0和Seedream 5.0分别作答如下:

从生成效果来看,两大模型在生成图片的清晰度和细致度上都有了较大的提升,对于薄雾的层次、水中倒影、兵器造型的餐具等都能够准确理解和生成,总体上,Qwen-Image-2.0的画风更偏写实,而Seedream 5.0则更具美感。但在具体指令的理解准确度上,模型仍存在一定的偏差,例如Seedream 5.0对兵器造型的餐具理解停留在西餐而非火锅餐具,而Qwen-Image-2.0对关羽的“红脸”的体现不足。

记者将两道测试分别给了豆包和kimi评判“谁更符合原提示词的需求?”发现豆包和kimi做出了同样的判断。在《清晨雾中的瑞士阿尔卑斯山》中,它们选择了Qwen-Image-2.0胜出,在《无厘头美食番<三国演义>》中选择Seedream 5.0胜出。

kimi认为,阿尔卑斯山场景(写实风景)中,Qwen-Image-2.0的细节精度拉满、纹理清晰,而Seedream 5.0更重氛围感营造,朦胧诗意,偏印象派,但偏“油画感”,细节被柔化。而三国演义场景(卡通萌系)中,kimi认为,Qwen-Image-2.0漏读关键词“举起”而更像“围坐”,Seedream 5.0更体现出了热血欢乐氛围,无厘头解构感强。最终,kimi给出的判词是:“Qwen-Image-2.0像严谨的工程师,Seedream 5.0像懂流量的设计师——没有绝对优劣,只有场景适配。”
图像编辑方面,记者实测过程中发现,在剪映平台通过Seedream 5.0 Preview生图后,图片可调整范围包括裁剪、画质、像素等,但无法在生成过程中或完成进行局部调整。Qwen-Image-2.0则可在对话中直接根据指令调整图片,不过,图像编辑的准确度仍有待提升。记者尝试让Qwen-Image-2.0在《无厘头美食番<三国演义>》图中加入一个碗,Qwen-Image-2.0选择直接将火锅的外壳换成了碗,再次追加指令后,Qwen-Image-2.0成功加上了碗,甚至自主加上了桌子,展现了一定的逻辑推理能力,但碗内的食物又与火锅场景有一定脱离。

总体来看,比起会“画图”,步入2026年,图像生成模型都在往真正解读用户意图、准确理解语义、具备可控编辑能力、根据真实场景及需求智能推理的方向去。换句话说,比起“能不能画”,大模型们转向了“画得是否符合使用场景”。但在复杂且非专业指令的理解以及图像可控编辑的“深水区”,头部厂商的真正较量才刚刚开始。
来源 第一财经
编辑 杜海锋 审核 蒋波 陈洁
更新时间:2026-02-12
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034844号