深度学习:读论文《Generative Adversarial Nets(GAN)》-2014年

hello,大家好,我是小孟,欢迎来到我的频道,如果喜欢,请三连:关注、点赞、转发。您的支持是我创作的动力源泉。今天我们来读一篇论文《Generative Adversarial Nets》,即对抗生成网络,它由一个生成网络G,和一个鉴别网络D组成,生成网络G的目标就是骗过网络D,使之不知道输入的真是的还是生成的。

一、作者简介

论文的第一作者是Ian J. Goodfellow,他是一位加拿大计算机科学家,主要研究领域为深度学习和机器学习。他于2014年在加州大学伯克利分校获得博士学位,导师为Yoshua Bengio。在读博期间,他发明了一种名为生成对抗网络,就是我们今天要读的这篇论文的深度学习模型,这个模型在计算机视觉、自然语言处理等领域都取得了显著的成果,被认为是深度学习领域最具创新性的成果之一。

在获得博士学位后,Goodfellow曾在魁北克大学、斯坦福大学和谷歌等机构从事研究工作。他还曾担任OpenAI的研究员和Google Brain的高级研究员。他在深度学习领域的贡献得到了广泛的认可,曾获得过斯隆研究奖、加拿大皇家学会的Rutherford奖等多个奖项。除了GAN之外,Goodfellow还在深度学习理论、计算机视觉、机器学习安全等领域做出了重要的贡献。

论文的第二作者是Jean Pouget-Abadie,他是一位法国计算机科学家,他的研究兴趣主要集中在机器学习、计算机视觉和深度学习等领域。他在这些领域中做出了一些重要的贡献,特别是在深度学习的图像生成和转换方面。他于2011年获得法国高等电信学院的工程师学位,并于2016年获得法国国立电信学院的博士学位。在攻读博士期间,他研究了图像风格转换的深度学习方法,并在这一领域做出了重要的贡献。他提出的“神经风格转移”(Neural Style Transfer)算法通过将图像内容和风格分别表示为卷积神经网络中的特征图,并通过最小化内容图像与目标图像在特征空间中的距离,最大化风格图像与目标图像在特征空间中的距离,从而实现了图像风格转换。这个算法被广泛应用于计算机视觉、图像处理等领域,并受到了业界和学术界的广泛关注。

二、摘要

我们提出了一个新的框架,通过对抗过程来估计生成模型,在这个过程中,我们同时训练两个模型:一个生成模型G,用于捕捉数据分布,和一个判别模型D,用于估计一个样本来自训练数据还是来自G的概率。G的训练过程是最大化D犯错误的概率。这个框架对应于一个极小极大的二人博弈。在任意函数G和D的空间中,存在一个唯一的解,其中G恢复了训练数据分布,而D则在任何地方均等于1/2。在G和D由多层感知机定义的情况下,整个系统可以通过反向传播进行训练。在训练或生成样本时,不需要任何马尔可夫链或展开的近似推理网络。实验证明了这个框架的潜力,通过生成样本的定性和定量评估。

三、引言

深度学习的期望是发现富有层次的模型,这些模型代表了在人工智能应用中遇到的数据类型的概率分布,例如自然图像、包含语音的音频波形和自然语言语料库中的符号。到目前为止,在深度学习中最引人注目的成功主要涉及判别模型,通常是将高维、丰富的感官输入映射到类别标签的模型。这些引人注目的成功主要是基于反向传播和dropout算法,使用具有特别良好梯度的分段线性单元。深度生成模型的影响较小,因为在最大似然估计和相关策略中出现了许多难以处理的概率计算,并且在生成上下文中难以利用分段线性单元的好处。我们提出了一种新的生成模型估计过程,避开了这些困难。

在提出的对抗生成网络框架中,生成模型被对手挑战:一种判别模型,它学习确定样本是来自模型分布还是数据分布。可以将生成模型视为类似于一组伪造者,试图制造假币并在不被发现的情况下使用它,而判别模型则类似于警察,试图检测伪造的货币。这个游戏中的竞争推动着两个团队改进其方法,直到伪造品与真品难以区分。

这个框架可以为许多种类的模型和优化算法提供具体的训练算法。在本文中,我们探讨了一种特殊情况,即生成模型通过将随机噪声通过多层感知机生成样本,而判别模型也是一个多层感知机。我们将这种特殊情况称为对抗网络。在这种情况下,我们可以仅使用高度成功的反向传播和dropout算法来训练两个模型,并仅使用正向传播从生成模型中进行采样。不需要使用近似推理或马尔可夫链。

三、相关工作

有一种含有潜在变量的无向图模型,称为受限玻尔兹曼机(RBM)、深度玻尔兹曼机(DBM)及其许多变体,可以作为有向图模型的替代品。在这些模型中,相互作用被表示为未归一化势函数的乘积,通过所有随机变量的状态的全局求和/积分进行归一化。除了最简单的情况外,这个量(分区函数)及其梯度都是不可计算的,尽管它们可以通过马尔可夫链蒙特卡罗(MCMC)方法进行估计。对于依赖于MCMC的学习算法来说,混合是一个显著的问题。

深度信念网络(DBN)是一种混合模型,包含一个无向层和多个有向层。虽然存在快速的近似逐层训练准则,但DBN面临着与有向和无向模型相关的计算困难。

曾提出了一些不需要近似或界定对数似然的替代标准,例如得分匹配和噪声对比估计(NCE)。这两者都需要解析地指定学习到的概率密度函数,直到规范化常数。请注意,对于许多具有多层潜在变量(例如DBNs和DBMs)的有趣生成模型,甚至不可能得出可处理的非规范化概率密度。一些模型,如去噪自编码器和收缩自编码器,具有非常类似于应用于RBMs的得分匹配的学习规则。在NCE中,与本文相似,采用了判别式训练标准来拟合生成模型。然而,与其拟合一个单独的判别模型不同,生成模型本身被用于将生成的数据与来自固定噪声分布的样本进行区分。由于NCE使用了固定的噪声分布,在模型学习了一小部分观测变量的近似正确分布之后,学习速度会显著减慢。

最后,还有一些技术并不涉及明确定义概率分布,而是训练一个生成式机器以从所需分布中抽取样本。这种方法的优点在于,这些机器可以被设计成通过反向传播进行训练。在这个领域的最新研究包括生成式随机网络(GSN)框架,它扩展了广义去噪自编码器:两者都可以看作是定义了一个参数化马尔可夫链,即学习一个执行一步生成式马尔可夫链的机器的参数。与 GSN 不同,对抗网络框架不需要用马尔可夫链进行采样。因为对抗网络在生成过程中不需要反馈循环,所以它们更能充分利用分段线性单元,这些单元改善了反向传播的性能,但在反馈循环中使用时会有无界激活的问题。最近的一些通过反向传播来训练生成式机器的例子包括自编码变分贝叶斯和随机反向传播的最新工作。

四、对抗网络

对于模型都是多层感知器的情况,对抗建模框架最容易应用。为了学习生成器对数据 x 的分布 ,我们对输入的噪声变量 定义一个先验分布,并将映射到数据空间的函数表示为,其中 G 是一个可微函数,由参数的多层感知器表示。我们还定义了第二个多层感知器,它输出一个标量。D(x) 表示 x 来自数据而不是 的概率。我们训练 D 来最大化分配正确标签给训练样例和从 G 生成的样本的概率。我们同时训练 G 来最小化 log(1 D(G(z))):

换句话说,D和G在以下两人零和博弈中扮演着不同的角色,其中价值函数为V(G, D):

在下一节中,我们将展示对对抗网络的理论分析(这一部分我跳过了,最好去读原文),基本上表明训练准则允许我们在非参数限制下,只要G和D的能力足够,就能恢复数据生成分布。更具体地,可以参考图1,这是一个不太正式但更易于理解的方法说明。在实践中,我们必须使用迭代的数值方法来实现这个游戏。在内部循环中,将D优化到完美的状态是计算上不可行的,并且在有限的数据集上会导致过度拟合。相反,我们在优化D k步的同时优化G一步。这导致D保持在其最优解附近,只要G变化得足够缓慢即可。这种策略类似于SML / PCD训练的方式,即在学习的内部循环中,保持一个马尔可夫链的样本,以避免将一个马尔可夫链烧成内部循环的一部分。该过程在算法1中正式呈现。

在实践中,方程1可能不提供足够的梯度让G学习得好。在学习早期,当G效果不佳时,D可以高度自信地拒绝样本,因为它们明显与训练数据不同。在这种情况下,log(1-D(G(z)))会饱和。我们可以训练G最大化log D(G(z))而不是最小化log(1 D(G(z)))。该目标函数在G和D动态的相同固定点上结果一致,但在学习早期提供了更强的梯度。


图2

图2,生成对抗网络是通过同时更新判别分布(D,蓝色,虚线)使其区分数据生成分布(黑色,点线)和生成分布(G)(绿色,实线)的样本来进行训练的。下方的水平线是从中采样z的域,本例中是均匀分布。上方的水平线是x的域。向上箭头显示了映射x=G(z)如何在转换样本上施加非均匀分布。在(a)中考虑接近收敛的对抗性对:类似于,D是部分准确的分类器。在算法的内循环中,D被训练以区分数据样本,收敛到D (x)=(x)/[(x)+(x)]。在更新G后,D的梯度引导G(z)流向更有可能被分类为数据的区域。经过多次训练,如果G和D具有足够的容量,它们将达到一个点,此时两者都无法改进,因为 = 。鉴别器无法区分这两个分布,即D(x)=1/2。请参见图1以获得一个不那么正式,更易于理解这种方法的解释。

五、实验

我们在多个数据集上训练了对抗网络,包括MNIST、多伦多人脸数据库(TFD)和CIFAR-10。生成器网络使用了混合的整流线性激活和Sigmoid激活,而判别器网络使用了maxout激活。在训练判别器网络时,我们应用了dropout。虽然我们的理论框架允许在生成器的中间层中使用dropout和其他噪声,但我们只将噪声作为输入到生成器网络的最底层。

表1

我们通过将G生成的样本拟合高斯帕森窗口来估计测试集数据在pg下的概率,并报告在该分布下的对数似然。高斯函数的σ参数是在验证集上进行交叉验证得到的。这种方法最初由Breuleux等人提出,并用于各种不可计算精确似然的生成模型。结果如表1所示。这种估计似然的方法具有相当高的方差,在高维空间中表现不佳,但据我们所知,这是目前最好的方法。能够生成样本但无法直接估计似然的生成模型的进展,促使我们进一步研究如何评估这些模型。

在图3中,我们展示了在训练后从生成器网络中抽取的样本。虽然我们并不声称这些样本比现有方法生成的样本更好,但我们认为这些样本至少与文献中更好的生成模型相媲美,并突显了对抗性框架的潜力。

图3 图像的可视化样本

最右侧的列显示相邻样本的最近训练示例,以证明模型没有记忆训练集。这些样本是公平的随机抽样,而不是精心挑选的。与大多数其他深度生成模型的可视化不同,这些图像显示了来自模型分布的实际样本,而不是给定隐藏单元样本的条件均值。此外,这些样本是不相关的,因为抽样过程不依赖于马尔可夫链混合。a) MNIST b) TFD c) CIFAR-10(全连接模型)d) CIFAR-10(卷积鉴别器和“反卷积”生成器)

六、优势和劣势

这种新的框架相对于以前的建模框架有优缺点。缺点主要在于没有显式表示(x),并且在训练过程中D必须与G同步良好(特别是G不能过多地训练而不更新D,以避免“Helvetica情景”,即G将太多的z值折叠为x的同一值,导致不足多样性以建模),这与Boltzmann机的负链在学习步骤之间必须保持更新的情况类似。优点在于从不需要马尔可夫链,只需要使用反向传播获得梯度,在学习过程中不需要推理,并且可以将各种函数合并到模型中。

上述的优点主要是计算上的。对抗模型还可能从生成器网络不直接使用数据样本进行更新(而是只用通过鉴别器传递的梯度)中获得一些统计优势。这意味着输入的组成部分不会直接复制到生成器的参数中。对抗网络的另一个优点是,它们可以表示非常尖锐,甚至是退化的分布,而基于马尔科夫链的方法要求分布有些模糊,以便链能够在不同模式之间进行混合。

论文地址:https://arxiv.org/abs/1406.2661

展开阅读全文

页面更新:2024-03-06

标签:深度   梯度   生成器   样本   概率   函数   框架   模型   数据   论文   网络

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top