一文读懂扩散模型（Diffusion Models）

背景：图像生成领域最常见生成模型有Generative Adversarial Network (GAN)和Variational Autoencoder (VAE)。2020年，DDPM (Denoising Diffusion Probabilistic Model)被提出，被称为扩散模型（Diffusion Model），同样可用于图像生成。近年扩散模型大热，Stability AI、OpenAI、Google Brain等相继基于扩散模型提出的以文生图，图像生成视频生成等模型。

原理介绍：扩散模型的主要机理主要是实现噪音样本（从简单的分布中，e.g., 高斯分布中进行采样）到目标数据的生成。扩散模型包括两个过程：前向过程（forward process）和反向过程（reverse process），其中前向过程又称为扩散过程（diffusion process）。无论是前向过程还是反向过程都是一个参数化的马尔可夫链（Markov chain），其中反向过程可用于生成数据样本（反向生成的过程中数据的维度与原图大小一致，这导致模型的计算量很高，而计算效率较低）。前向过程是加噪的过程，前向过程中图像只和上一时刻的有关, 该过程可以视为马尔科夫过程,并且通过重参化技术将随机性转移到上。逆向过程是去噪的过程，如果得到逆向过程，就可以通过随机噪声逐步还原出一张图像。DDPM使用神经网络拟合逆向过程。

算法流程：

从数据中抽取一个样本，
从中随机选取一个时间t
将和传给GaussionDiffusion，GaussionDiffusion采样一个随机噪声，加到，形成，然后将和t放入神经网络中，神经网络根据t生成正弦位置编码和结合，模型预测加的这个噪声，并返回噪声，GaussionDiffusion计算该噪声和随机噪声的损失
将神经网络预测的噪声与之前GaussionDiffusion采样的随机噪声求L2损失，计算梯度，更新权重。
重复以上步骤，直到网络训练完成。

Latent Diffusion Models

Latent Diffusion Models通过在一个潜在表示空间中迭代“去噪”数据来生成图像，然后将表示结果解码为完整的图像，让文图生成能够在消费级GPU上，在10秒级别时间生成图片，大大降低了落地门槛，也带来了文图生成领域的大火。

论文贡献：

Diffusion model相比GAN可以取得更好的图片生成效果，然而该模型是一种自回归模型，需要反复迭代计算，因此训练和推理代价都很高。论文提出一种在潜在表示空间（latent space）上进行diffusion过程的方法，从而能够大大减少计算复杂度，同时也能达到十分不错的图片生成效果。
相比于其它空间压缩方法（如），论文提出的方法可以生成更细致的图像，并且在高分辨率图片生成任务（如风景图生成，百万像素图像）上表现得也很好。
论文将该模型在无条件图片生成（unconditional image synthesis）, 图片修复（inpainting）,图片超分（super-resolution）任务上进行了实验，都取得了不错的效果。
论文还提出了cross-attention的方法来实现多模态训练，使得条件图片生成任务也可以实现。论文中提到的条件图片生成任务包括类别条件图片生成（class-condition）, 文图生成（text-to-image）, 布局条件图片生成（layout-to-image）。这也为日后Stable Diffusion的开发奠定了基础。

Latent Diffusion Models整体框架如图，首先需要训练好一个自编码模型（AutoEncoder，包括一个编码器和一个解码器）。这样一来，我们就可以利用编码器对图片进行压缩，然后在潜在表示空间上做diffusion操作，最后我们再用解码器恢复到原始像素空间即可，论文将这个方法称之为感知压缩（Perceptual Compression）。有一个重要的地方是论文为diffusion操作引入了条件机制（Conditioning Mechanisms），通过cross-attention的方式来实现多模态训练，使得条件图片生成任务也可以实现。

Denoising Diffusion GAN

本文提出了一种结合Diffusion和GAN的生成模型, 在CIFAR-10数据集上能够比DDPM快2000倍, 同时与传统的GAN相比, 又可以生成质量相近又具有多样性的结果. 作者指出DiffusionGAN是第一个可以把Diffusion采样步骤降低到可以被应用到实际当中的模型.

本文提出了一种比较贴切的说法叫做:生成学习的三元悖论(The Generative Learning Trilemma). 现有的各种各样的生成模型都需要满足三个方面的需求:

生成的样本的质量要高 high-quality sampling.
模态覆盖率要高/多样性 mode coverage/persity.
快速高效的采样 fast and computational inexpensive sampling.

为了能在数据的边缘分布不是高斯分布的情况下, 也能减少采样的步数, 这种情况下既然真实的去噪过程的分布不再服从高斯分布的形式, 那么将反向过程的分布也不再建模为高斯分布的形式, 而是通过Conditional GAN来使得两个分布对齐, 而不是显式地去学习高斯分布的均值和方差。

展开阅读全文

页面更新：2024-03-04

标签：模型神经网络噪声样本图像条件过程数据论文图片

1 2 3 4 5

一文读懂扩散模型（Diffusion Models）

Latent Diffusion Models

Denoising Diffusion GAN

移动支付激发亚运生活魅力

最全分析总结3W字我是怎样从0开始学会TypeScript的

快讯！张勇卸任阿里中国公司董事长

三大运营商总部会否搬离北京？分析：有走有留

图知道｜广深港高铁开通五周年

2023年全国科普日暨八桂科普大行动百色系列活动启动

北京打造未来产业策源高地布局未来信息等六大领域

专家学者热议地理标志产业发展

从mate60到问界M7-华为的逆袭，也是中美金融战的拐点

国产猫三联疫苗即将获批，谁能拔得头筹？

央媒眼中的乌鲁木齐

豪掷280亿美元赌AI！思科收购大数据巨头Splunk，今年最大软件市场并购 - 焦点分析

华为智慧PC有望成为轻薄本市场份额第一创新科技获得市场认可

北京丰台累计记录动植物超1000种探索绿色高质量发展创新路径

儿童隐私保护不到位！欧盟对TikTok罚款3.45亿欧元

豪掷280亿美元赌AI！思科收购大数据巨头Splunk，今年最大

人民热评：科研论文“量质齐升” 自主创新之路越走越宽

曝光警察用科技抓嫖的全过程，看你喜欢的嫖娼，多令人作呕

李沈飞：在所有的场馆建设过程中牢牢把握节约资源和保

林乐怡：16岁和金庸拍拖，为逼走朱玫上位，答应了一个残忍的

文商旅融合加速“狂飙”打造“百千万工程”样本

瑞幸酱香拿铁首日销售数据出炉：销量542万杯，销售额破1亿

重塑数据价值探索大模型重要方向指向“飞轮”

实拍新疆美食“馕坑四宝”制作全过程

各地为夜间旅游推出了哪些热门产品？数据显示：夜游经济向