到底用forfigure后面用of还是forof阿

为方便我们排查错误请您详细描述本题错误,例如:

(注意:纠错非提问如果是有疑问需解答请点击题目下方嘚提问按钮)

}

为改善质量稳定性和可变性的GANS的渐进增长

摘要:我们为GAN描述了一个新的训练方法。方法的关键创新点就是渐进的让生成器和判別器增长:从一个低分辨率开始随着训练发展,我们不断添加新层使模型增加更好的细节这个方法既加速了训练又使训练更加稳定,苼成的图片质量史无前例的好例如:大小的CELEBA图片。我们也提出了一个简单的在生成图片的过程中增加变量的方法并且在无监督数据集CIFAR10仩获得了8.80分的记录。另外我们描述了若干实现细节,这对打压生成器和判别器之间的非健康竞争是非常重要的最后,我们为评估GAN的图爿质量和可变性两项的结果提出了一个新的度量因为增加项的贡献,我们构建了一个更高质量版本的CELEBA数据集

2014)。目前他们都有显著的优势和劣势自动回归模型–例如PixelCNN–会产生锐化的图片但是评估缓慢并且不具备一个潜在的代表性,因为他们是直接在像素上模型化條件分布潜在的限制了他们的适用性。VAEs方法训练简单但是由于模型的限制倾向于产生模糊的结果虽然最近的工作正在改善这个缺点(Kingma et al.,

典型的,一个GAN模型包括两个网络:生成式网络和判别式网络(aka critic)生成式网络生成一个样本,例如:从一个潜在的代码中生成一副图片這些生成的图片分布和训练的图片分布是不可分辨的。因为通过创建一个函数来辨别是生成样本figure后面用of还是for训练样本一般是不可能的所鉯一个判别器网络被训练去做这样一个评估,因为网络是可区分的所以我们也可以得到一个梯度用来引导网络走到正确的方向。典型的生成器是主要兴趣方–判别器就是一个适应性的损失函数,即一旦生成器被训练后这个函数就要被丢弃。

这个公式存在多种潜在的问題例如:当我们测量训练分布和生成分布之间的距离时,如果分布之间没有大量的很容易分辨的重叠那么梯度可能指出或多或少的随机方向 (Arjovsky& Bottou, 2017)原来, Jensen-Shannon散度被用作距离度量(Goodfellow et al., 2014)最近这个公式已经被改善(Hjelm et al., 2017)。我们的贡献和目前正在进行的讨论大部分是正交的并且我们基本使用改善的Wasserstein 损失,但是也有基于least-squares损失的实验

高分辨率图片的生成是困难的因为更高的分辨率使得判别器更容易分辨是生成的图片figure后面用of還是for训练图片(Odena et al., 2017),因此彻底放大了这个梯度问题由于内存的限制,大分辨率使用更小的minibatches也是需要的所以要和训练稳定性进行折中。峩们的关键亮点在于我们可以同时渐进促进生产器和判别器增长从比较简单的低分辨率开始,随着训练的发展不断添加新的层引进更高分辨率细节。这个很大程度上加速了训练并且改善了在高分辨率图片上的稳定性正如我们在Section 2中讨论的。

GAN公式没有明确要求所有的训练數据分布都由生成的生成式模型来表述传统方法会在图片质量和可变性之间有一个折中,但是这个观点最近已经改变 (Odena et al., 2017)保留的可变性的程度目前受到关注并且提出了多种方法去测量可变性,包括初始分数 (Salimans et al., 2016)多尺度结构相似性 (MS-SSIM) (Odena et al., 2017;

Section 4.1中对网络的初始化讨论了一个细小的修改,使得鈈同层的学习速度更加平衡更进一步,我们观察到在十几个minibatches的过程中GAN会更快速的发生令人讨厌的传统的模式崩塌现象,通常当判别器處理过度时模式崩塌开始导致梯度过大,并且会在两个网络信号幅度增大的地方伴随着一个不健康的竞争我们提出了一个机制去阻止苼成器参与这样的升级,以克服这个问题 (Section

我们使用CELEBA, LSUN, CIFAR10数据集去评估我们的贡献对于 CIFAR10我们改善了已经公布的最好的初始分数。因为通常被用於评量标准的生成方法的数据集对于相当低的分辨率来说是受限制的所以我们已经创建了一个更高质量版本的CELEBA数据集,允许输出分辨率高达 1024 × 1024像素的实验我们正准备发布这个数据集。我们成果的全部实现在网址可以获得带有结果图片的训练网络在  获得,补充的vidio说明数據集额外的结果,隐藏的空间插值都在

我们的主要贡献就是GANs的训练方法:从低分辨率图片开始,然后通过向网络中添加层逐渐的增加分辨率正如Figure 1所示。这个增加的本质使得训练首先发现大尺度结构的图片分布然后将关注点逐渐的转移到更好尺度细节上,洏不是必须同时学习所有的尺度

我们使用生成器网络和判别器网络作为相互的镜子并且同步促进两者的增长。同时在两个网络中的所有現存的层通过训练进程保持可训练性当新的层被添加到网络中时,我们平滑的减弱它们正如Fig2中所解释的。这样就避免了给已经训练好嘚更小分辨率的层带来突然的打击附录A从细节上描述生成器网络和判别器网络的结构,并附有其他的训练参数

我们观察到渐进训练有若干好处。早期更小图像的生成非常稳定因为分类信息较少而且模式也少(Odena et al.,2017)。通过一点一点的增加分辨率我们正不断的寻找一个更簡单的问题,即:和最终目标进行比较最终目标:从潜在向量中(例如的图片)发现一个匹配。这个方法在概念上类似于最近Chen&Koltun(2017)的工莋在实践上,对于我们来说它使训练充分稳点,因此在利用WGANGP损失(Gulrajani et al., 2017 )甚至LSGAN损失(

另外一个好处是减少了训练时间随着GANs网络的渐进增长,大蔀分的迭代都在较低分辨率下完成对比结果质量加快了2-6倍的速度,这都依赖最后的输出分辨率

Figure1:我们的训练开始于有着一个4*4像素的低空間分辨率的生成器和判别器。随着训练的改善我们逐渐的向生成器和判别器网络中添加层,因此增加生成图片的空间分辨率所有现存嘚层通过进程保持可训练性。这里N×N是指卷积层在N×N的空间分辨率上进行操作这个方法使得在高分辨率上稳定合成并且加快了训练速度。右图我们展示了六张通过使用在1024 × 1024空间分辨率上渐进增长的方法生成的样例图片

Figure 2:当把生成器和判别器的分辨率加倍时,我们会平滑的增强新的层这个样例解释了如何从16 × 16像素的图片转换到32 × 32像素的图片。在转换(b)过程中我们把在更高分辨率上操作的层视为一个残缺块,权重α从0到1线性增长这里的2× 和 0.5× 指利用最近邻滤波和平均池化分别对图片分辨率加倍和折半。toRGB表示将一个层中的特征向量投射箌RGB颜色空间中fromRGB正好是相反的过程;这两个过程都是利用1 × 1卷积。当训练判别器时我们插入下采样后的真实图片去匹配网络中的当前分辨率。在分辨率转换过程中我们在两张真实图片的分辨率之间插值,类似于如何将两个分辨率结合到一起用生产器输出

这个渐进增长嘚GANs想法是和课程GANs(无名)相关的,这个想法就是:把多个在不同空间分辨率上操作的判别器和一个单一的生成器连接进一步的把调整两個分辨率之间的平衡作为训练时间的一个函数。这个想法按照两个方法轮流工作即Durugkar et al. (2016)提出的同时使用一个生成器和多个判别器的方法以及Ghosh et al. (2017)提出的相反的使用多个生成器和一个判别器的方法。和早期的自适应增长型网络相比例如:使网络贪婪增长的增长型神经气(Fritzke, 1995)以及增强型拓扑结构的神经进化(Stanley & Miikkulainen, 2002),我们简单的推迟了预配置层的介入这种情况下,我们的方法和自动编码的智能层训练(Bengio et al., 2007)相像

3 使用小批量标准偏差增加可变性

discrimination”作为解决方案。他们不仅从单个图片中而且还从小批量图片中计算特征统计因此促进了生荿的小批量图片和训练图片展示出了相似的统计。这是通过向判别器末端增加一个小批量层来实施这个层学习一个大的张量将输入激活投射到一个统计数组中。在一个小批量中的每个样例会产生一个独立的统计集并且和输出层连接以至于判别器可以从本质上使用这个统計。我们大大简化了这个方法同时提高了可变性

我们的简化的解决方案既没有可学习的参数也没有新的超参数。我们首先计算基于小批量的每个空间位置的每个特征的标准偏差然后对所有特征和空间位置的评估平均化到一个单一的值。我们复制这个值并且将它连接到所囿空间位置以及小批量上服从一个额外的(不变的)特征映射。这个层可以在网络中的任何地方插入但是我们发现最好是插入到末端(see Appendix A.1 for details)。我们用一个丰富的统计集做实验但是不能进一步提高可变性。

针对可变性这个问题另一个解决方案包括:展开判别器(Metz et al., 2016)去正则化它的更噺以及一个 “repelling regularizer” (Zhao et al., 2017)方法,即向生成器中添加一个新的损失项,尝试促进它与一个小批量中的特征向量正交化Ghosh et al. (2017)提出的多个生成器也满足这樣一个相似的目标。我们承认这些解决方案可能会增加可变性甚至比我们的解决方案更多–或者可能与它正交–但是后面留有一个细节性嘚比较

4 在生成器和判别器中规范化

由于两个网络之间的不健康的一个竞争结果,GANs往往会有信号幅度升级情况大多数早期的解决方案并不鼓励这种在生成器以及在判别器中使用批处理正则化的一个变量 (Ioffe & Szegedy, 2015; Salimans & Kingma, 2016; Ba et al., 2016)的方式。这些正则化方法原来是消除协变量偏移的然而,我们没有观察到在GANs中存在这个问题因此相信在GANs中需要的是制约信号幅度以及竞争问题。我们使用两个因素且都不包含可學习参数的不同方法

我们脱离了当前谨慎的权重初始化趋势,使用了一个数学上最简单的正太分布N (0; 1)初始化然后在运行阶段显示缩放权重。为了更精确我们设置,wi是权重c是来自于He等的初始化方法 (He et al., 2015)的前一层正则化常量。在初始化过程中动态做这种操作的好處是有一些微妙的它关系到常规的使用自适应随机梯度下降法例如RMSProp (Tieleman & Hinton, 2015)方法保持的尺度不变性。这些方法通过评估标准差正则化一个梯度更噺因此使更新不依赖于参数的变化。结果如果一些参数相比较其他参数而言有一个更大范围的动态变化,他们将花费更长的时间去调整这是一个现在初始化问题面临的场景,因此有可能出现在同一时间学习速率既是最大值也是最小值的情况我们的方法保证了动态范圍,因此对于所有权重学习速度都是一样 的。

由于竞争的结果为了防止出现在生成器和判别器中的量级逐漸脱离控制的场景,我们对每个像素中的特征向量进行归一化使每个卷积层之后的生成器中的长度可以单位化我们只用一个“局部相应囸则化” (Krizhevsky et al., 2012)变量,按照公式 配置其中 N表示特征匹配的数量,ax,y和bx,y分别表示像素(x,y)中的原始和归一化特征向量我们惊喜的发现这个粗率的限制在任何方式下看起来都不会危害到这个生成器并且对于大多数数据集,它也不会改变太多结果但是它却在有需要的时候有效的防止叻信号幅度的增大。

5 评估GAN结果的多尺度统计相似性

为了把一个GAN的结果和另一个做比较需要调查大量的图片,这可能是乏味的困难的并且主观性的。因此依赖自动化方法–从大量的收集图片中计算一些指示性指标 是可取的我们注意到现存的方法例如MS-SSIM (Odena et al., 2017)在发现大尺度模式的崩塌很可靠,但是对比较小的影响没有反应例如在颜色或者纹理上的损失变化而且它们也不能直接对训练集相似的图片质量进行评估。

我们的直觉是一个成功的生成器会基于所有尺度产生局部图像结构和训练集是相似的样例。我们建议通过栲虑两个分别来自于生成样例和目标图片的 Laplacian金字塔表示的局部图片匹配分布的多尺度统计相似性并从 16 × 16像素的低通过分辨率开始,进行學习随着每一个标准的训练,这个金字塔双倍的渐增知道获得全部分辨率每个连续的水平的编码都不同于它先前的上采样版本。

一个單一的拉普拉斯金字塔等级对应着一个特定空间频率带我们随机采样16384 张图片并从拉普拉斯金字塔中的每一级中提取出128个描述符,每一级給我们2.1M描述符每一个描述符都是带有3个颜色通道的 7 × 7相邻像素,通过 来指定我们把训练集和生成集中的l级的匹配分别指定为 我们首先標准化 w.r.t.每个颜色通道的均值和标准差,然后通过计算他们的(sliced Wasserstein distance)值评估统计相似性这是一种有效的使用512个映射 (Rabin et al., 2011)计算随机近似的EMD值(earthmovers

直观仩,一个小的Wasserstein距离表示了块儿间的分布是相似的意味着训练样例和生成样例在外貌以及空间分辨率的变化上都是相似的。特别是从最低的分辨率 16 × 16的图片上提取出的块儿集之间的距离表明在大尺度图像结构方面是相似的,然而finest-level的块儿编码了关于像素级属性的信息例如边堺的尖锐性和噪声

这部分我们讨论了一系列的实验来评估我们结果的质量。我们的网络结构以及训练编译的细节描述请参考附件A峩们也邀请读着去参阅另外的结果图片的附带视频() 以及隐藏的空间插值。这部分我们将区分网络结构 (e.g.,

6.1 僦统计相似性而言本人贡献的重要性

(Gulrajani et al., 2017)CELEBA 数据集特别适合这样的比较因为这些图片包含 了显著的伪迹(混叠,压缩模糊),这些伪迹对于苼成器来说重新准确的生成式很困难的在这个测试中,我们通过选择一个相关的低容量网络结构(附件A.2)并且一旦判别器已经展示了总囲10M的真实图片时就终止训练的方式来训练配置并放大训练配置间的差异这样结果就不会全部相同(相似)。

Table 1列出了在若干训练配置中的SWD囷MS-SSIM的数值表明了我们的个人贡献逐渐的使基线的顶部(Gulrajani et al., 2017)一个接一个的成为可能。MS-SSIM个数是平均来自于10000对生成图片SWD值计算在第5部分描述。Figure 3展礻了来自于这些配置的生成的CELEBA图片由于空间限制,这个图片仅仅展示了每行桌子的一小部分样例但是在附近H中可以获得一个更广的集匼。从直觉上说一个好的评估标准应该奖励展示出的在颜色,纹理以及角度的大量变量中很相似的图片然而,这并没有被MS-SSIM捕捉到:我們可以立刻看到配置(h)生成了比配置(a)更好的图片但是MS-SSIM值保持近似不变因为它仅仅测量输出的变化而不测量输出与训练集的相似性。另一方面SWD就有一个明显的改善。 
Table 1:生成样例和训练样例之间的SWD值( Sliced Wasserstein distance) (Section 5)和针对设置为 128 × 128分辨率的若干训练集的生成样例之间的多尺度结构楿似性 (MS-SSIM)对于SWD,每一列展示了拉普拉斯金字塔的一个层级最后一列给出了苏哥距离的平均值。

Figure 3: (a) – (g) CELEBA样例对应Table 1中的行这些是有意不收敛的。(h)我们的收敛结果注意有些图片是混叠的并且有些图片是非尖锐的–这是一个数据集的缺陷,这种模型会学习如实的复制

第一个訓练配置(a)对应方法Gulrajani et al. (2017),特征化生成器中的批处理正则化判别器中的层正则化,并且小批量大小为64(b)能够使网络渐进增长,导致输出图片更加尖锐更加可信SWD正确的发现了生成图片的分布于训练集更加相似。

我们的主要目标是输出高分辨率这就要求减少小批量大小来保证运荇在可获得的存储空间预算之内。在(c)中我们说明了将批处理有64降到16时遇到的挑战在两个度量中可以清楚的看到生成的图片是不自然嘚。在(d)中我们通过调整超参数以及移动批处理正则化和层正则化使训练进程稳定。 
作为中间的一个测试(e?)我们能够小批量的判别 (Salimans et al., 2016),有時也不能改善任何度量包括测量输出变量的MS-SSIM值。相反我们的小批量标准差 (e) 改善了SWD的平均得分还有图片。然后我们将我们的贡献用于 (f) 和(g)Φ导致了在SWD以及主管视觉质量方面的总体改进。最后在(h)中,我们使用一个非残疾网络以及更长时间的训练–我们认为生成图片的质量鈳以和目前最好的结果想媲美

6.2 收敛性以及训练速度

Figure 4 说明了SWD度量的渐进增长的影响以及原始图像的吞吐率。前两个图對应Gulrajani et al. (2017)的带有和不带有渐进增长的训练配置我们观察到渐进变量提供了两个主要优点:它收敛到一个非常好的最佳值并且总共的训练时间夶概减少了一倍。改进的收敛值由课程学习的一个隐形格式来解释这个课程学习有逐渐增长的网络容量决定。没有渐进增长情况下生荿器和判别器的所有层都要求同时找到简洁的大尺度变化和小尺度细节的中间展示。然而渐进增长下,现存的低分辨率层可能在早期就巳经收敛了所以网络仅仅要求随着新层的加入,通过增加更小尺度影响得到更精炼的展示确实,我们在Figure 4(b)中可以看到最大尺度的统计相姒性曲线(16)很快的到达了它的优化值并且穿过训练的间断时间保持连续更小尺度的曲线(32, 64, 128)随着分辨率的增加逐个的趋于平稳,但是每条曲线嘚收敛性是非常一致的正如所料,非渐进训练的 
Figure 4: 在训练速度和收敛性方面渐进增长的影响使用了一个NVIDIA Tesla P100 GPU测量时间。 (a) 关于Gulrajani et al. (2017)方法提到的挂钟使用128 × 128分辨率的CELEBA数据集统计相似性。每个曲线都展示了拉普拉斯金字塔每一级的SWD值垂直的线指示我们在Table 1中停止训练的点。(b)能够渐進增长的相同曲线短的垂直线指示我们在G和D中双倍增加分别率的点。(c)在1024 × 1024分辨率以原训练速度渐进增长的影响

为了证明我们的结果是高输出分辨率,我们需要一个变化充分的高质量数据集然而,以前在GaN文献中使用的几乎所有公开可用嘚数据集都局限于相对较低的从32*32 到480*480的分辨率范围文中末尾,我们创建了一个高质量版本的CELEBA数据集包含30000张1024 × 1024分辨率的图片。关于数据集苼成的进一步细节参考附件C

我们的贡献允许我们以一个稳健高效的方式处理高分辨率的输出。Figure 5选择了我们的网络生成的1024 × 1024分辨的图片嘫而在另一个数据集上 (Marchesi, 2017),兆像素的GAN结果已经在这之前展示出来了但我们的结果更加多样化,感知质量也更高一个更大的结果图像集以忣从训练数据中找到的最近邻图像集请参考附件F。附带的视频显示了潜在的空间插值和可视化的循序渐进的训练插值使我们首先随机化┅个每一帧的潜在编码(来自于正太分布N (0; 1)的512个独立的样例组件),然后我们用一个高斯函数 (σ = 45 frames @ 60Hz)跨越时间模糊化潜在特征最后归一化每个姠量到一个单位超球面上。

我们在一块NVIDIA Tesla P100 GPU上训练了20天的网络直到我们观察不到连续的训练迭代结果之间的质量差异。我们的实施方法被用茬一个依赖于当前输出分辨率的自适应小批量大小的网络上使可获得的内存预算被最佳利用

为了证明我们的贡献在很大程度上和损失函數的选择是正交的,我们也使用 LSGAN 损失来替代WGAN-GP损失训练 了相同的网络Figure 1展示了使用我们方法和使用 LSGAN方法产生的 分辨率的图片中的六个样例,設置的详细细节在附件B中给出 
Figure 5:使用CELEBA-HQ 数据集生成的1024 × 1024分辨率的图片。附件F有更大的结果集以及潜在空间插值的附带视频。右边是由Marchesi (2017) 提絀的一个更早期的兆像素GAN生成的两幅图片,展示限制的细节以及变化

Figure 6展示了一个纯粹的我们的解决方案和在 LSUN BEDROOM数据集上的早期结果的視觉比较。Figure 7给了被选择的7个不同的LSUN种类的256*256分辨率的样例附件G中可以获得一个更大的,没有组织的所有30个LSUN种类的结果集视频证明插值。峩们不知道这些种类的早期结果虽然有些种类比其它的要好,但是我们感觉整体质量是高的

我们知道的CIFAR10(10 categories of 32 × 32 RGB images) 的最好初始得分是:非监督数据集7.9分,带标签条件设置的数据集8.87分(Grinblat et al., 2017)这两个数字之间的最大差异主要是由 “ghosts”导致的,在非监督环境中它必然出现茬类之间然而在有标签条件时可以移除很多这样的转换。

当我们的所有贡献都成功的时候我们在非监督环境中会有8.8的得分。附录D显示叻一组有代表性的结果图像以及从早期方法得到的更全面的结果列表。网络和训练设置对CELEBA数据集要求是一样的当然进程限制为32*32分辨率。仅有的用户化就是WGAN-GP的正则化项 Gulrajani et al. (2017)使用γ = 1.0,对应1-Lipschitz但是我们注意到事实上最小化ghosts会使转换 (γ = 750)更好更快。我们还没有用其他数据集尝试这个方法

我们的结果质量普遍高于先前的在GANs上的质量,并且在大分辨率上的训练稳定对于真正的真实照片来说还有好长的路。对依赖數据的限制的语义敏感性和理解还有很多需要提高例如确定的目标是直接可得的而不是间接得到的。图像的微观结构还有改进的余地僦是说,我们觉得 convincing realism现在是可能实现的特别是CELEBA-HQ。

}

我要回帖

更多关于 for of with怎么用 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信