终结扩散模型：OpenAI开源新模型代码，一步成图，1秒18张｜洞见

在 AI 画图的领域，人们一直关注的是扩散模型，例如Stable Diffusion、Midjourney、DALL-E等技术，并在其基础上构建应用。不过最近，OpenAI 提出的全新生成模型看起来要让这一领域经历一场革命。

与高调推出ChatGPT 、GPT-4不同，这次OpenAI在上个月偷偷上传了一篇论文《Consistency Models》，也不能说是偷偷，只是这次没有媒体大张旗鼓的报道，就显得这项研究有些低调。论文内容主要是关于图像生成领域的。

作者阵容也非常强大，一作是本科毕业于清华大学数理基础科学班、目前在 OpenAI 担任研究员的宋飏。宋飏将于2024年1月加入加州理工学院电子系和计算数学科学系担任助理教授。其他作者还包括OpenAI联合创始人、首席科学家Ilya Sutskever，OpenAI多模态和前沿研究部门的负责人Mark Chen，以及OpenAI研究科学家Prafulla Dhariwal。

扩散模型的时代即将结束？

前我们已经提到，OpenAI的这项研究主要是图像生成方面的，大家或多或少的都听过这项技术，例如最近热门的Midjourney和Stable Diffusion，它们大都采用扩散模型，由于其生成的图片效果惊艳，很多人都将其视为最好的工具。但扩散模型依赖于迭代生成过程，这导致此类方法采样速度缓慢，进而限制了它们在实时应用中的潜力。

OpenAI的这项研究就是为了克服这个限制，提出了Consistency Models，这是一类新的生成模型，无需对抗训练即可快速获得高质量样本。与此同时，OpenAI还发布了Consistency Models实现以及权重。

论文地址：

https://arxiv.org/pdf/2303.01469.pdf

代码地址：

https://github.com/openai/consistency_models

具体而言，Consistency Models支持快速one-step生成，同时仍然允许 few-step采样，以权衡计算量和样本质量。它们还支持零样本（zero-shot）数据编辑，例如图像修复、着色和超分辨率，而无需针对这些任务进行具体训练。Consistency Models可以用蒸馏预训练扩散模型的方式进行训练，也可以作为独立的生成模型进行训练。

研究团队通过实验证明Consistency Models在one-step和few-step生成中优于现有的扩散模型蒸馏方法。例如，在one-step生成方面，Consistency Models在CIFAR-10上实现了新的SOTA FID 3.55，在ImageNet 64 x 64 上为6.20。当作为独立生成模型进行训练时，Consistency Models在 CIFAR-10、ImageNet 64 x 64和LSUN 256 x 256等标准基准上的表现也优于single-step、非对抗生成模型。

有网友将其视为扩散模型的有力竞争者！并表示Consistency Models无需对抗性训练，这使得它们更容易训练，不容易出现模式崩溃。

还有网友认为扩散模型的时代即将结束。

更有网友测试了生成速度，3.5秒生成了64张分辨率256 256的图片，平均一秒生成18张。

接下来我们看看Consistency Model零样本图像编辑能力：

图6a展示了Consistency Model可以在测试时对灰度卧室图像进行着色，即使它从未接受过着色任务的训练，可以看出，Consistency Model的着色效果非常自然，很逼真；图6b展示了Consistency Model可以从低分辨率输入生成高分辨率图像，Consistency Model将32x32分辨率图像转成 256x256高分辨率图像，和真值图像（最右边）看起来没什么区别。图6c证明了Consistency Model可以根据人类要求生成图像（生成了有床和柜子的卧室）。

Consistency Model图像修复功能：左边是经过掩码的图像，中间是Consistency Model修复的图像，最右边是参考图像：

Consistency Model生成高分辨率图像：左侧为分辨率32 x 32的下采样图像、中间为Consistency Model生成的256 x 256图像，右边为分辨率为256x 256的真值图像。相比于初始图像，Consistency Model生成的图像更清晰。

模型介绍

Consistency Models作为一种生成模型，核心设计思想是支持single-step生成，同时仍然允许迭代生成，支持零样本（zero-shot）数据编辑，权衡了样本质量与计算量。

我们来看一下Consistency Models的定义、参数化和采样。

首先Consistency Models建立在连续时间扩散模型中的概率流 (PF) 常微分方程 (ODE) 之上。如下图 1 所示，给定一个将数据平滑地转换为噪声的 PF ODE，Consistency Models 学会在任何时间步（time step）将任意点映射成轨迹的初始点以进行生成式建模。Consistency Models一个显著的特性是自洽性（self-consistency）：同一轨迹上的点会映射到相同的初始点。这也是模型被命名为 Consistency Models（一致性模型）的原因。

Consistency Models允许通过仅使用one network评估转换随机噪声向量（ODE 轨迹的端点，例如图 1 中的 x_T）来生成数据样本（ODE 轨迹的初始点，例如图 1 中的 x_0）。更重要的是，通过在多个时间步链接 Consistency Models 模型的输出，该方法可以提高样本质量，并以更多计算为代价执行零样本数据编辑，类似于扩散模型的迭代优化。

在训练方面，研究团队为 Consistency Models 提供了两种基于自洽性的方法。第一种方法依赖于使用数值 ODE 求解器和预训练扩散模型来生成 PF ODE 轨迹上的相邻点对。通过最小化这些点对的模型输出之间的差异，该研究有效地将扩散模型蒸馏为Consistency Models，从而允许通过one network评估生成高质量样本。

第二种方法则是完全消除了对预训练扩散模型的依赖，可独立训练 Consistency Models。这种方法将Consistency Models定位为一类独立的生成模型。

值得注意的是，这两种训练方法都不需要对抗训练，并且都允许Consistency Models灵活采用神经网络架构。

实验及结果

实验数据集包括CIFAR-10 、ImageNet 64x 64 、LSUN Bedroom 256 x 256 、 LSUN Cat 256 x 256。首先该研究在 CIFAR-10 上进行了一系列实验。结果图 3 所示。

Few-Step图像生成

接着该研究在ImageNet 64x 64、LSUN Bedroom 256 x 256数据集上进行实验，结果如图 4 所示。

表1表明，CD（ consistency distillation ）优于Knowledge Distillation、DFNO等方法。

表1和表2表明 CT（ consistency training ）在CIFAR-10上的表现优于所有single-step、非对抗性生成模型，即VAE和归一化流。此外，CT在不依赖蒸馏的情况下获得与PD （ progressive distillation ）相当的质量，用于 single-step生成。

图5提供了EDM (Karras et al., 2022) 样本（顶部）、single-step CT样本（中）和two-step CT样本（底部）。

作者介绍

论文一作宋飏

宋飏目前是OpenAI的研究科学家。他14岁时，曾以17位评委全票通过的成绩，入选“清华大学新百年领军计划”。2016年，宋飏从清华大学数理基础科学班毕业，此后赴斯坦福深造。2022年，宋飏获斯坦福计算机科学博士学位，而后加入OpenAI。

根据其个人主页信息，从2024年1月开始，宋飏将正式加入加州理工学院电子系和计算数学科学系，担任助理教授。

Ilya Sutskever

Ilya Sutskever是OpenAI的联合创始人和首席科学家，其背景大家应该已经熟悉，不再赘述。其实在今年2月份，Sutskever曾发布了一条推文暗示:

许多人认为，伟大的人工智能进步必须包含一个新的“理念”。但实际上并非如此：许多人工智能最重要的进展形式是“哦，原来这个熟悉而不起眼的想法，在正确的情况下，实际上是非常惊人的”。

而现在发表的最新研究正好证明了这一点，基于旧概念的微调可以改变一切。

Mark Chen

Mark Chen是OpenAI多模态和前沿研究部门的负责人，同时也是美国计算机奥林匹克队的教练。

此前，他在麻省理工学院获得了数学与计算机科学学士学位，并曾在几家自营交易公司（包括Jane Street Capital）担任量化交易员，为股票和期货交易构建机器学习算法。

加入OpenAI后，他带领团队开发了DALL-E 2，并将视觉引入到GPT-4中。此外，他还领导了Codex的开发，参与了GPT-3项目，并创建了Image GPT。

Prafulla Dhariwal

Prafulla Dhariwal是OpenAI的一名研究科学家，从事生成模型和无监督学习

。在此之前，他是麻省理工学院的一名本科生，学习计算机、数学和物理学。

有趣的是，扩散模型可以在图像生成领域吊打GAN，正是他在2021年的NeurIPS论文中提出的。

本文转载自机器之心。

阿尔法公社是行业领先的天使投资基金，以发现非凡创业者为愿景，由曾经带领公司在纳斯达克上市的连续创业者于2015年创立。我们的三大特点是聚焦早期投资，协同产业力量，助力公司起步。从产业需求和科技前沿出发，我们系统性地寻找高成长性的大机会。阿尔法公社发现并投资非凡创业者，像早期联合创始人一样共同探索创业之路，协同广泛的产业力量，助力他们成为世界级的行业领袖。

展开阅读全文

页面更新：2024-05-09

标签：麻省理工学院阿尔法斯坦福模型样本轨迹科学家图像代码方法数据

1 2 3 4 5

终结扩散模型：OpenAI开源新模型代码，一步成图，1秒18张｜洞见

Mark Chen

Prafulla Dhariwal

AI作画咒语分享

购机建议:没有特殊要求，“8+256G”完全够用，性价比堪称最高

苹果 iOS 16.4 正式版停止签名验证，iOS 16.4.1 后无法再降级

中国电子学会成立绿色计算机标准工作组

游戏行业专题报告：游戏的AI革命，StableDiffusion到Nerf

服装行业升级获客方式，客易云获客系统智能引领未来数字化营销！

Serverless功能可选亚马逊云科技补上大数据分析最后一块拼图

为什么越来越多人买手机只买贵的，不再看配置，这4点原因想不到

周黑鸭2023年目标：新开门店1000家实现2亿元以上净利润

欧盟计划对俄罗斯实施第11轮制裁

7条精品采摘线路！成都东部新区“恩桃儿”熟了，快去品尝春天的味道

北京户口正式启动！燕郊这些人机会来了！

直击股东大会丨沪电股份：不会在5G相关产品领域打价格战

医药行业十倍潜力方向，生物创新药！

「深度」被假Polo抢走风头多年，拉夫劳伦能靠什么追回错失时光？

Serverless功能可选亚马逊云科技补上大数据分析最后

实力悬殊最大系列赛，七项数据领先，第一个横扫出现？

Python数据科学快速入门系列Matplotlib数据分布图表应

AI“猛料曝光”，数据安全不可或缺，5家企业有望站上风口

结合chatGPT几行代码实现去中心化web3打造自己专属存

浅谈机器人编程方法及力控编程特点

Qt多线程的三种方法QThread

经济日报携手京东发布数据-跨境电商进口额强劲增长

爱因斯坦等科学家相信命运吗？他们的宿命观与宗教观是怎

华为AI开发平台的三大根技术：盘古大模型、天筹求解器和