发布仅一周,北京智源人工智能研究院(以下简称智源)新一代统一图像生成模型OmniGen2的GitHub星标数突破2000,海外社交平台相关话题浏览量达数十万次,在AI图像生成领域掀起巨响。
2024年9月,智源研究院发布了统一图像生成模型 OmniGen,凭借高度通用性与简洁架构获得国际技术社区广泛赞誉。OmniGen以单一架构支持文本生成图像(Text-to-Image Generation)、图像编辑(Image Editing)、主题驱动图像生成(Subject-driven Image Generation)等多种任务,用户仅需使用多模态自然语言指令,即可灵活实现上述功能,无需借助额外的上下文提示、插件或预处理模块。随着之后 Gemini 2.0 Flash 和 GPT-4o 等闭源多模态模型的相继发布,构建统一图像生成模型成为当前最受关注的研究与应用方向之一。
在这一背景下,OmniGen迎来重大技术升级,全新的OmniGen2正式发布。4B版OmniGen2在延续简洁架构优势的基础上,进一步强化了上下文理解与指令遵循能力,图像生成质量实现大幅跃升。模型全面继承基座多模态大模型在上下文理解与生成方面的能力,支持图像和文字生成,进一步打通多模态技术生态。科研体验版链接(https://genai.baai.ac.cn)已向公众开放试用。
三大技术突破:让 AI 更懂图也更聪明
OmniGen2 有三大核心突破:
架构更聪明:用 “分离式设计” 把文字和图像处理分开,搭配两种专业编码器,让生成的图片更贴合文字指令,还不耽误文字处理能力。
数据更优质:针对开源数据集质量差的问题,团队开发了一个从视频数据和图像数据中生成图像编辑和上下文参考数据的构造流程。
会反思的 AI:生成图片后,模型会自我检查哪里没做好(包含原始指令是否有缺陷、是否满足要求和前一幅图像是否有局限性两方面),并思考改进方案,未来还会更智能。
三大实用功能:普通人也能当 “AI 画师”
OmniGen2 的操作门槛极低,只需输入文字就能解锁三大能力:
文字一键改图:基于自然语言指令,可实现局部修改操作,包括物体增删、颜色调整、人物表情修改、背景替换等。
生成新图像:可从输入图像中提取指定元素,并基于这些元素生成新图像。例如,将物品或人物置于新的场景中。当前OmniGen2更擅长保持物体相似度而不是人脸相似度。
任意比例文生图:可生成1:1、2:1、3:2等任意比例的图片。
目前,OmniGen2已实现32%的推理效率提升,大幅缩短响应时间并强化服务效能。同时,框架支持一键式跨机多实例弹性部署,有效提升集群资源整体利用率。团队将持续推进软硬协同优化,构建高效推理部署能力体系。
据悉,OmniGen2的模型权重、训练代码及训练数据将全面开源,为开发者提供优化与扩展的新基础,推动统一图像生成模型从构想加速迈向现实。
来源:智源研究院
更新时间:2025-07-05
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号