谷歌推出新的文本生成图像模型 “Muse”，声称性能为同类最佳

出品|开源中国

自 2021 年初以来，AI 领域推出大量基于文本到图像的模型（例如 DALL-E-2、Stable Diffusion 和 Midjourney 等）。近日，谷歌也公开了一款名为 “Muse” 的基于文本生成图像的模型，声称可以实现最先进的图像生成性能。

下图均为 Muse 的基于文本生成的图像

一群鱼在海里拼成 “MUSE” 字样
嘴里叼着 “MUSE” 牌子的威尔士柯基
带有 “Muse” 的拿铁咖啡
壁炉中的火焰呈现 “MUSE” 字样

Muse 在离散标记空间中接受掩蔽建模任务的训练：给定从预训练的大型语言模型 (LLM) 中提取的文本嵌入，训练 Muse 以预测随机掩蔽的图像标记。使用预训练的 LLM 可以实现细粒度的语言理解，转化为高保真图像生成以及对视觉概念（例如对象）的理解，比如空间关系、姿势、基数等。

总体来说，MUSE 的优势在于其 FID 和 CLIP 分数更高、生成效率比其他同类模型快得多，且支持开箱即用的蒙版编辑功能（即支持通过蒙版继续编辑已生成的图片）。

分数更高：MUSE 模型获得了出色的 FID 和 CLIP 分数，可定量衡量图像生成质量、多样性和与文本的对齐情况。数据方面，MUSE 的 900M 参数模型在 CC3M 上实现了新的 SOTA，FID 得分为 6.06。Muse 3B 参数模型在零样本 COCO 评估中实现了 7.88 的 FID，以及 0.32 的 CLIP 分数。

生成效率：由于使用压缩的、离散的潜在空间和并行解码，MUSE 模型比其他同类模型快得多。与 Imagen 和 DALL-E 2 等像素空间扩散模型相比，Muse 使用离散标记，且需要的采样迭代更少，因此生成效率显著提高；与谷歌自己的 Parti 等自回归模型相比，Muse 使用了并行解码，生成效率也更高。

编辑功能： MUSE 支持基于蒙版的编辑功能，比如下图，通过在左图创建蒙版并输入 “热气球”，便可生成右边的新图片。

另外，Muse 团队指出，当今语言和图像人工智能系统的用例存在一些 “潜在的危害”，例如社会偏见或传播错误信息。出于这个原因，该团队并未发布 MUSE 的源代码和任何公开的 Demo 演示。

在 MUSE 主页可以看到更多基于 MUSE 的图像作品，下图为部分 MUSE 作品预览：

展开阅读全文

页面更新：2024-03-20

标签：模型图像文本掩蔽标记分数同类效率性能编辑语言空间

1 2 3 4 5

谷歌推出新的文本生成图像模型 “Muse”，声称性能为同类最佳

能让家人安心的电动车到底怎么选

酷睿迷你主机中的卷王：零刻SEi12 Pro深度评测

Visual Studio配置C++ OpenCV库的方法

推特2.35亿账号泄漏？

从混动汽车到机械键盘，谈谈近年来国货的科技创新

“由于这台计算机没有终端服务器客户端访问许可证”解决方案

硬核！腾讯大佬最新手打的Spring Boot笔记，从原理到实战再到源码

哈弗H-DOG在海口车展首发特斯拉Model 3和Model Y价格降至新低

一代传奇落幕还是准备东山再起？

英特尔发布全新U300系列处理器：1大核4小核，基础功耗15W

熊猫mini正式上市，外观呆萌造型方正，被称为微型“硬派越野”

2023年，用大白话说科学思维常识（2）

摊牌了？苹果被曝性能升级“非常小”，网友：小米11还能再战3年

30万元纯电中大型轿车谁更强？比亚迪汉EV对比极氪001

9位院士12位专家联合撰文：智能计算的新进展、挑战与未来

摊牌了？苹果被曝性能升级“非常小”，网友：小米11还能再战

福建农林大学材料工程学院绿色光电器件与储能电池研究

英伟达RTX 40笔记本GPU性能爆料：4050略强于3060

MoO2/MoS2的双界面协同设计用于提升钠/锂离子电池的电

中国科技研发，迎来变革！联想超强高性能计算方案，引发效率

WiFi 6 +企业级智能组网，蒲公英X5路由器玩法超多，性能超

「更新」小白测评数据库3.0实测新增一加11性能和续航

AMD最大芯片发布：13个小芯片，1460亿个晶体管，AI性能提升8

ChatGPT封杀潮,AI顶会特意改规则,LeCun:要不咱把小模

上货！针对不同类型皮肤的护肤品介绍-油性皮肤篇（超详细）