96SEO 2026-02-19 11:48 11
本文介绍了一系列应用于生成对抗网络GANs框架的新的架构特性和训练过程。

我们专注于GAN的两个应用领域半监督学习以及生成人类视觉上逼真的图像。
与大多数有关生成模型的研究不同我们的主要目标不是训练一个将测试数据分配高概率的模型我们也不要求模型在不使用任何标签的情况下能够学习得很好。
通过我们的新技术我们在MNIST、CIFAR-10和SVHN的半监督分类任务中取得了最先进的结果。
生成的图像具有很高的质量经过视觉图灵测试确认我们的模型生成的MNIST样本与真实数据无法区分而CIFAR-10样本的人类错误率为21.3%。
我们还展示了具有前所未有分辨率的ImageNet样本并且表明我们的方法使模型能够学习识别ImageNet类别的特征。
Networks简称GANs是一类基于博弈论的学习生成模型的方法[1]。
GANs的目标是训练一个生成器网络
3]。
然而训练GANs需要找到一个具有连续、高维参数的非凸博弈的纳什均衡点。
通常使用梯度下降技术来训练GANs这些技术旨在找到代价函数的较低值而不是找到博弈的纳什均衡。
当用于寻找纳什均衡时这些算法可能无法收敛[4]。
在本文中我们引入了几种技术旨在鼓励GANs博弈的收敛。
这些技术是基于对非收敛问题的启发式理解而提出的它们导致了改进的半监督学习性能和改进的样本生成。
我们希望其中一些技术可以成为未来工作的基础提供收敛性的形式保证。
所有代码和超参数可在以下链接找到https://github.com/openai/improved_gan
近期有几篇论文专注于改进GAN样本的训练稳定性和生成品质[2,
6]。
我们在本文中借鉴了其中一些技术。
例如我们在本文中使用了Radford等人提出的“DCGAN”架构创新如下所述。
我们提出的其中一种技术特征匹配在第3.1节中讨论与使用最大均值差异[7,
11]的方法在精神上类似。
我们提出的另一种技术小批量特征部分基于用于批归一化[12]的思想而我们提出的虚拟批归一化则是批归一化的直接扩展。
本工作的主要目标之一是提高生成对抗网络在半监督学习中的效果通过在额外的无标签示例上学习改善有监督任务本例中是分类任务的性能。
与许多深度生成模型一样GANs以前已被应用于半监督学习[13,
训练生成对抗网络GANs涉及寻找一个两个玩家的非合作博弈的纳什均衡点。
每个玩家希望最小化其自己的代价函数对于判别器来说是
方面达到最小值。
然而寻找纳什均衡是一个非常困难的问题。
虽然对于特定情况存在一些算法但我们不知道有任何适用于GAN博弈的方法其中代价函数是非凸的参数是连续的且参数空间极高维。
每个玩家的最小化代价函数即纳什均衡的观念似乎直观地支持使用传统的基于梯度的最小化技术同时最小化每个玩家的代价。
然而减小
J(D)。
梯度下降因此在许多博弈中无法收敛。
例如当一个玩家相对于
[15]。
因此以前的GAN训练方法在每个玩家的代价上同时应用梯度下降尽管没有保证此过程将收敛。
我们引入了以下启发式的技术以鼓励收敛
特征匹配通过为生成器指定一个新的目标来解决GAN的不稳定性问题该目标防止生成器在当前判别器上过度训练。
新的目标要求生成器不是直接最大化判别器的输出而是要求生成器生成与真实数据统计相匹配的数据我们只使用判别器来指定值得匹配的统计数据。
具体来说我们训练生成器以匹配判别器中间层的特征的期望值。
这是生成器选择要匹配的统计数据的自然选择因为通过训练判别器我们要求它找到最能区分实际数据和当前模型生成数据的特征。
∣∣Ex∼pdataf(x)−Ez∼pz(z)f(G(z))∣∣22。
判别器和
均以通常的方式训练。
与常规的GAN训练一样该目标具有一个固定点其中
完全匹配训练数据的分布。
我们不能保证在实践中达到这一固定点但我们的实证结果表明特征匹配在常规GAN变得不稳定的情况下确实是有效的。
GAN的主要失败模式之一是生成器崩溃到一个参数设置使其始终发出相同的点。
当即将崩溃为单一模式时许多相似点的判别器梯度可能指向相似的方向。
因为判别器独立地处理每个示例所以其梯度之间没有协调因此没有机制告诉生成器的输出变得更不相似。
相反所有的输出都趋向于一个判别器当前认为非常逼真的单一点。
崩溃发生后判别器学习到这个单一点来自生成器但梯度下降无法分开相同的输出。
判别器的梯度随后将生成器产生的单一点永远推到空间中算法无法收敛到具有正确熵量的分布。
避免这种类型失败的一个明显策略是允许判别器查看多个数据示例的组合并进行我们称之为小批量判别。
小批量判别的概念非常普遍任何判别器模型它查看多个示例的组合而不是孤立地查看都有可能有助于避免生成器的崩溃。
实际上Radford等人通过在判别器中成功应用批归一化的做法[3]从这个角度解释得很好。
然而到目前为止我们的实验仅限于明确旨在识别特别接近的生成器样本的模型。
一个成功的规范是对建模小批量中示例之间的紧密程度的如下描述令
cb(xi,xj)exp(−∣∣Mi,b−Mj,b∣∣L1)∈R。
小批量层的输出
o(xi)bo(xi)o(X)j1∑ncb(xi,xj)∈R[o(xi)1,o(xi)2,...,o(xi)B]∈RB∈Rn×B
进行连接然后将结果输入判别器的下一层。
我们分别为来自生成器和训练数据的样本计算这些小批量特征。
与以前一样判别器仍需要为每个示例输出一个单一数字指示其来自训练数据的可能性判别器的任务实际上仍然是将单个示例分类为真实数据还是生成数据但现在它能够使用小批量中的其他示例作为辅助信息。
小批量判别使我们能够快速生成视觉吸引人的样本在这方面它优于特征匹配第6节。
有趣的是然而特征匹配在使用第5节中描述的半监督学习方法来获得强分类器方面表现更好。
处的参数值。
参数的历史平均可以以在线方式更新因此这种学习规则适用于长时间序列。
这种方法受到虚拟游戏[16]算法的启发该算法可以在其他类型的游戏中找到均衡点。
我们发现我们的方法能够找到低维连续非凸博弈的均衡点例如一个玩家控制
f(x)x2其他情况。
对于这些玩具游戏梯度下降失败进入不逼近均衡点的扩展轨道。
标签平滑是20世纪80年代的一项技术最近由Szegedy等人[17]独立重新发现它用平滑的值如0.9或0.1替换分类器的0和1目标并且最近被证明可以减少神经网络对对抗性示例的脆弱性[18]。
将正分类目标替换为α负目标替换为β最优判别器变为
\frac{αp_{data}(x)βp_{model}(x)}{p_{data}(x)p_{model}(x)}
D(x)pdata(x)pmodel(x)αpdata(x)βpmodel(x)。
分子中的
的错误样本没有动力靠近数据。
因此我们只对正标签进行平滑处理将负标签设为0。
批归一化极大地改善了神经网络的优化并且已被证明对DCGANs[3]非常有效。
然而它导致神经网络对于输入示例
高度相关。
为了避免这个问题我们引入虚拟批归一化VBN其中每个示例
基于对参考示例批次的统计信息进行归一化这些参考示例在训练开始时被选择一次并固定下来以及基于
本身。
参考批次仅使用其自己的统计数据进行归一化。
VBN在计算上是昂贵的因为它需要在两个数据小批次上运行前向传播因此我们仅在生成器网络中使用它。
生成对抗网络缺乏客观函数这使得比较不同模型的性能变得困难。
一种直观的性能指标可以通过让人类标注员评估样本的视觉质量来获得[2]。
我们使用Amazon
http://infinite-chamber-35121.herokuapp.com/cifar-minibatch/我们用它来要求标注员区分生成数据和真实数据。
我们模型的质量评估结果在第6节中进行了描述。
使用人类标注员的一个不足之处是指标会根据任务的设置和标注员的动机而变化。
我们还发现当我们为标注员提供有关他们错误的反馈时结果会发生很大变化通过从这些反馈中学习标注员能够更好地指出生成图像中的缺陷从而给出更为悲观的质量评估。
图2的左列呈现了标注过程中的一个屏幕而右列显示了我们如何通知标注员其错误。
图2提供给标注员的网络界面。
要求标注员区分计算机生成的图像和真实图像。
作为人类标注员的替代方案我们提出了一种自动方法来评估样本我们发现这种方法与人类评估很好地相关我们将Inception模型1
exp(ExKL(p(y∣x)∣∣p(y)))我们对结果进行指数化以便更容易比较值。
我们的Inception得分与CatGAN
[14]中用于训练生成模型的目标密切相关虽然我们在训练时没有取得太大成功但我们发现它是一个很好的评估指标与人类判断非常相关。
我们发现在评估这个指标时对足够多的样本即50k进行评估是很重要的因为该指标的一部分衡量了多样性。
pmodel(yj∣x)∑k1Kexp(lk)exp(lj)。
在监督学习中这样的模型通过最小化观察到的标签与模型预测分布
的样本添加到我们的数据集中来使用任何标准分类器进行半监督学习将它们标记为新的
1−D(x)。
现在我们还可以从无标签数据中进行学习只要我们知道它与
假设我们的数据集一半是真实数据一半是生成的数据这是任意的我们用于训练分类器的损失函数则变为
L−Ex,y∼pdata(x,y)[logpmodel(y∣x)]−Ex∼G[logpmodel(yK1∣x)]LsupervisedLunsupervised
LsupervisedLunsupervised−Ex,y∼pdata(x,y)logpmodel(y∣x,yK1)−{Ex∼pdata(x)log[1−pmodel(yK1∣x)]Ex∼Glog[pmodel(yK1∣x)]}
Lsupervised给定数据为真时标签的负对数概率和一个无监督损失
Lunsupervised−{Ex∼pdata(x)logD(x)Ez∼noiselog(1−D(G(z)))}。
的角度来看与监督损失是一致的我们可以通过共同最小化这两个损失函数来更好地从数据中估计这个最优解。
实际上当对于我们的分类器来说最小化
和我们的分类器之间的相互作用我们尚未完全理解但实际上我们发现使用特征匹配
则根本不起作用。
在这里我们使用这种方法呈现我们的实证结果使用这种方法开发关于
除了在半监督学习方面取得了最先进的结果上述方法还具有出乎意料的效果即通过人类标注员的评价来改善生成图像的质量。
原因似乎是人类视觉系统对能够帮助推断图像所代表的对象类别的图像统计信息非常敏感而对于解释图像的不太重要的局部统计信息可能相对不太敏感。
这得到了我们在第4节中开发的Inception得分和人类标注员报告的质量之间高度相关性的支持该得分明确构建用于衡量生成图像的“物体性”。
通过让判别器
对图像中显示的对象进行分类我们会使其形成一个内部表示强调与人类强调的相同特征。
这种效果可以理解为一种迁移学习的方法可能可以更广泛地应用。
我们将进一步探讨这种可能性留待未来的工作。
个标记的手写数字图像。
我们进行半监督训练随机选择其中的一小部分考虑使用
个随机子集上进行平均每个子集都被选择为每个类别都有平衡数量的示例。
其余的训练图像则没有标签。
我们的网络各有
使用特征匹配第3.1节在半监督学习期间生成的生成器样本在视觉上看起来不太吸引人左图3。
相反使用小批次判别第3.2节我们可以改善它们的视觉质量。
在
上标注员在52.4的情况下共2000个投票能够区分样本其中随机猜测会获得50的准确率。
同样地我们机构的研究人员也没有找到任何可以用来区分样本的痕迹。
然而使用小批次判别的半监督学习并没有产生与特征匹配一样好的分类器。
图3左在半监督训练期间由模型生成的样本。
这些样本可以明显地与来自
数据集的图像区分开来。
右使用小批次判别生成的样本。
这些样本与数据集中的图像完全无法区分。
的自然图像数据集。
我们使用这个数据集来研究半监督学习以及检查可以实现的样本的视觉质量。
对于我们的
得分与我们对图像质量的主观判断相关良好。
数据集的样本达到了最高值。
所有甚至部分崩溃的模型得分都相对较低。
我们警告说Inception
得分应该被用作粗略指导来评估通过某些独立标准进行训练的模型直接优化
上使用特征匹配第3.1节左和小批次判别第3.2节右训练期间生成的样本。
张图像。
得分与人类判断高度相关自然图像的得分最高。
生成坍缩样本的模型得分相对较低。
这个指标使我们不必依赖人类评估。
“我们的方法”包括本文中描述的所有技术但不包括特征匹配和历史平均。
其余的实验是消融实验显示我们的技术是有效的。
“-VBNBN”
移除标签平滑并导致相对于“我们的方法”明显的性能下降。
“-MBF”
移除小批次特征并导致非常大的性能下降甚至比移除标签引起的下降还要大。
添加
我们在一个规模前所未有的数据集上测试了我们的技术来自ILSVRC2012数据集的128×128图像拥有1,000个类别。
据我们所知以前没有任何出版物将生成模型应用于具有这么高分辨率和这么多对象类别的数据集。
由于生成模型倾向于低估分布中的熵大量的对象类别对GANs特别具有挑战性。
我们广泛修改了一个公开可用的TensorFlow
[26]实现的DCGANs2使用了多GPU实现来实现高性能。
未经修改的DCGANs可以学习一些基本的图像统计信息并生成具有某种自然颜色和纹理的连续形状但不会学习任何对象。
使用本文中描述的技术GANs学会生成类似动物的对象但解剖学不正确。
结果如图6所示。
右使用本文提出的技术生成的样本。
新技术使得GAN能够学习到动物的可识别特征如毛皮、眼睛和鼻子但这些特征未能正确地结合形成具有现实解剖结构的动物。
生成对抗网络是一类有前途的生成模型但迄今为止其不稳定的训练和缺乏适当的评估指标一直是限制因素。
本研究提出了这两个问题的部分解决方案。
我们提出了几种稳定训练的技术使我们能够训练以前无法训练的模型。
此外我们提出的评估指标Inception分数为我们比较这些模型的质量提供了基础。
我们将我们的技术应用于半监督学习问题在计算机视觉中的多个不同数据集上实现了最先进的结果。
本研究的贡献具有实际意义我们希望在未来的研究中能够发展出更严谨的理论理解。
Fergus。
使用Laplacian金字塔的深度生成图像模型。
arXiv预印本arXiv1506.057512015年。
Alec
Chintala。
深度卷积生成对抗网络中的无监督表示学习。
arXiv预印本arXiv1511.064342015年。
Ian
Goodfellow。
关于估计生成模型的可分辨性标准。
arXiv预印本arXiv1412.65152014年。
Daniel
Memisevic。
使用循环对抗网络生成图像。
arXiv预印本arXiv1602.051102016年。
Donggeun
Kweon。
像素级域转换。
arXiv预印本arXiv1603.074422016年。
Arthur
Sch¨olkopf。
使用Hilbert-Schmidt范数测量统计依赖性。
在算法学习理论第63-77页。
Springer2005年。
Kenji
Sch¨olkopf。
条件依赖的核测度。
在NIPS第20卷第489-496页2007年。
Alex
Sch¨olkopf。
分布的Hilbert空间嵌入。
在算法学习理论第13-31页。
Springer2007年。
Yujia
Zemel。
生成矩匹配网络。
CoRRabs/1502.027612015年。
Gintare
Ghahramani。
通过最大均值差异优化训练生成神经网络。
arXiv预印本arXiv1505.039062015年。
Sergey
Szegedy。
通过减少内部协变量偏移来加速深度网络训练的批量归一化。
arXiv预印本arXiv1502.031672015年。
Ilya
Gregor等。
走向基于原则的无监督学习。
arXiv预印本arXiv1511.064402015年。
Jost
Springenberg。
使用分类生成对抗网络的无监督和半监督学习。
arXiv预印本arXiv1511.063902015年。
Ian
Courville。
深度学习。
2016年。
MIT出版社。
George
Brown。
通过虚拟游戏的迭代解决游戏。
生产和分配的活动分析第13卷第374-376页1951年。
C.
Wojna。
重新思考计算机视觉的Inception架构。
ArXiv
Tarlow的编辑下扰动、优化和统计第11章。
2016年。
MIT出版社正在筹备中的书。
Christian
Wojna。
重新思考计算机视觉的创始架构。
arXiv预印本arXiv1512.005672015年。
Tim
Kingma。
权重归一化一种简单的重新参数化加速深度神经网络的方法。
arXiv预印本arXiv1602.078682016年。
Diederik
Welling。
具有深度生成模型的半监督学习。
在神经信息处理系统中2014年。
Takeru
Ishii。
通过虚拟对抗性示例进行分布平滑。
arXiv预印本arXiv1507.006772015年。
Lars
Win***r。
辅助深度生成模型。
arXiv预印本arXiv1602.054732016年。
Antti
Raiko。
具有梯田网络的半监督学习。
在神经信息处理系统的进展中2015年。
Christian
Sutskever等。
神经网络的有趣属性。
arXiv预印本arXiv1312.61992013年。
Mart´ın
Barham等。
TensorFlow在异构系统上进行大规模机器学习2015年。
软件可在tensorflow.org上获得。
http://download.tensorflow.org/models/image/imagenet/inception-2015-12-05.tgz。
在发表时将提供使用该模型计算Inception得分的代码。
https://github.com/carpedm20/DCGAN-tensorflow
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback