英伟达最新公布StyleGAN2,生成传神完美图像,GitHub趋势榜第一

作者:im电竞app官网发布时间:2022-07-01 00:52

本文摘要:【导读】StyleGAN是现在最先进的高分辨率图像合成方法。它所发生的面部照片曾经被认为是“很是完美”。 今天,NVIDIA的研究人员公布了一个升级版StyleGAN2,它着重于修复特征伪影,并进一步提高了生成图像的质量。StyleGAN是NVIDIA去年公布的一种新的图像生成方法,今年2月开放源码。 StyleGAN生成的图像很是传神,它是一步一步地生成人工图像,从很是低的分辨率开始,一直到高分辨率(1024×1024)。

im电竞app官网

【导读】StyleGAN是现在最先进的高分辨率图像合成方法。它所发生的面部照片曾经被认为是“很是完美”。

今天,NVIDIA的研究人员公布了一个升级版StyleGAN2,它着重于修复特征伪影,并进一步提高了生成图像的质量。StyleGAN是NVIDIA去年公布的一种新的图像生成方法,今年2月开放源码。

StyleGAN生成的图像很是传神,它是一步一步地生成人工图像,从很是低的分辨率开始,一直到高分辨率(1024×1024)。通太过别修改网络中每个级此外输入,它可以控制该级别中表现的视觉特征,从粗拙特征(姿势、脸型)到精致细节(头发颜色),而不影响其他级别。StyleGAN生成的人脸StyleGAN是现在最先进的高分辨率图像合成方法,已经被证明可以在种种数据集上可靠地事情。

除了写实的肖像,StyleGAN还可以用来制作其他动物、汽车甚至房间。然而,StyleGAN并不完美。

最显着的缺陷是生成的图像有时包罗黑点状的伪影,而这个缺陷今天已经完全解决了!今天,NVIDIA的研究人员公布了一个升级版StyleGAN22,它着重于修复伪影,并进一步提高生成图像的质量。StyleGAN2生成的图像主要革新包罗:生成的图像质量显着更好(更高的FID分数和更少的伪影)提出一种新的方法来取代逐渐生长、越发完美的牙齿、眼睛等细节革新型混淆平滑插值(分外正则化)更快的训练重新设计StyleGAN图像合成网络StyleGAN的奇特之处在于其非传统的生成器结构。映射网络f不仅将输入的潜码z∈z输入到网络的开头,还将其转换为中间潜码w∈w,仿射变换生成样式,合成网络g的层由自适应实例规范化(AdaIN)控制。

在本研究中,我们将所有的分析都集中在W上,因为从合成网络的角度来看,W是相关的潜在空间。许多人已经注意到StyleGAN生成的图像中的特征伪影。本研究确定了这些工件的两个原因,并形貌了如何通过改变体系结构和训练方法来消除它们。图1:实例规范化导致StyleGAN生成的图像中泛起黑点状伪影首先,我们研究了常见黑点伪影的起源,发现生成器建立它们是为了规避其体系结构中的设计缺陷。

我们重新设计了生成器中使用的规范化,它移除了工件。其次,我们分析了与渐进生长相关的伪影,这对于稳定高分辨率GAN训练是很是乐成的。我们提出了一种新的设计方案,可以在训练开始时对低分辨率图像举行聚焦,然后在训练历程中逐渐将注意力转移到越来越高的分辨率上,而不会改变网络拓扑结构。

这种新的设计也使我们能够对生成的图像的有效分辨率举行推理,效果低于预期,从而激励我们设计更大的模型。图2:重新设计了StyleGAN图像合成网络如图2所示,(a)是原始StyleGAN,其中a表现从W学习的仿射变换,从而生成样式;(b)显示原始StyleGAN体系结构的细节。

在这里,我们将AdaIN剖析为一个显式的归一化,然后是调制模式,并对每个特征映射的平均值和尺度差举行运算。我们还注释了学习的权重(w)、偏差(b)和常量输入(c),并重新绘制灰色框,以便每个框都激活一个样式。激活函数(leaky ReLU)总是在添加偏置后立刻应用。

如(c)所示,我们对原始架构举行了一些更改,包罗在开始时删除一些冗余操作,将b和b的添加移到样式的运动区域之外,而且只调整每个特征映射的尺度偏差。(d)是一种革新的体系结构,使我们能够用“解调”操作来取代实例规范化。

我们将解调操作应用于与每个卷积层相关联的权重。图3:用demodulation替代instance normalization,可以去除图像和激活中的特征伪影。如图3所示,重新设计的StyleGAN2体系结构在保持完全可控性的同时消除了特性工件。

GAN图像质量的定量分析仍然是一个具有挑战性的课题。Frechet初始距离(FID)丈量了初始v3分类器高维特征空间中两个漫衍密度之间的差异。准确性和召回(P&R)通过明确量化生成的与训练数据相似的图像百分比和可生成的训练数据百分比,提供了分外的可见性。

我们使用这些怀抱来量化StyleGAN2的革新。表1:主要效果FID基本上不受影响(表1,A、B行),但从精度到FID有显著变化。

FID和P&R都是基于分类器网络的。最近的研究讲明,分类器网络关注的是纹理而不是形状,因此这些指标不能准确地反映图像质量的各个方面。我们使用知觉路径长度(PPL)指数来评估潜在空间插值的质量,这与形状的一致性和稳定性有关。

在此基础上,我们对合成网络举行正则化,以支持平滑映射,并获得显著的质量革新。为了抵消盘算开销,我们还建议淘汰执行所有正则化的频率,因为这样做不会影响效率。新方法取代了逐渐增长的完美细节渐进增长在稳定高分辨率图像合成方面很是乐成,但它会发生自己的特征伪影。关键问题是,看起来具有渐进式增长的生成器在细节上似乎具有很强的位置偏好,例如,当牙齿或眼睛等特征在图像上平滑移动时,它们可能保持在原始位置,然后跳到下一个首选位置。

图6显示了一个相关的工件。我们认为问题是,在渐进式生长中,每个分辨率暂时充当输出分辨率,迫使它发生最大频率细节,这使得训练过的网络在中间层频率中太高,牺牲平移稳定性。

图6:渐进式增长导致“阶段”工件。在这个例子中,牙齿没有追随姿势的变化,脸转向一边,牙齿仍然朝正前方,如蓝线所示。为相识决这些问题,我们提出了一种在保留渐进式增长优势的同时消除缺陷的替代方法。

只管StyleGAN在生成器(合成网络)和判别器中使用简朴的前馈设计,但仍有大量事情致力于研究更好的网络结构。特别地,skip connections [34,22]、残差网络[17,16,31]和分层方法[7,46,47],这些方法被证明是很是乐成的。因此,我们决议重新评估StyleGAN的网络设计,寻找一种可以生成高质量图像而无需逐步增长的架构。

图7:三个生成器(在虚线上方)和判别器架构。图7a显示MSG-GAN[22],它使用多个跳跃毗连来毗连生成器和判别器的匹配分辨率。在图7b中,我们通过对对应于差别分辨率的RGB输出举行上采样和求和来简化此设计。

在判别器中,我们还向判别器的每个分辨率块提供下采样图像。我们在所有的上采样和下采样操作中都使用双线性滤波。在图7c中,我们进一步修改了设计以使用剩余毗连。

这种设计类似于拉普根[7]。表2比力了三种生成器和判别器结构:StyleGAN的原始前馈网络、跳过毗连和剩余网络,它们都经由训练,但没有接纳渐进增长。表2:无渐进生长的发生器和判别器结构的比力。对于这九个组合,每个组合都提供FID和PPL效果。

我们可以看到两大趋势:发电机的跳接大大提高了所有设置的PPL,而剩余判别器网络显着有利于FID。StyleGAN2使用跳过生成器和剩余判别器,但不使用渐进增长。这与表1中的设置E相对应,从表中可以看出,切换到该设置显著改善了FID和PPL。最后,我们发现使用新的路径长度正则化生成器将图像投影到潜在空间W上,显着优于原始样式。

论文地址:https://arxiv.org/pdf/1912.04958.pdf。


本文关键词:im电竞,英伟,达,最新,公布,StyleGAN2,生成,传神,完美,【

本文来源:im电竞-www.boyatianrun.com