【新智元导读】YannLecun曾赞誉GAN为“近十年来机器学习领域最有趣的想法”,一经提出便受万众瞩目。伴随着研究的逐步深入,GAN已然衍生出了多种多样的形态。Crazymuse AI近期在Youtube中推出一个视频,介绍了十大GAN背后的数学原理。本文便带领读者盘点一下这些各具特色的GAN。
具体案例:
成功分解了MNIST数据集中数字形状的手写风格特征;
在一个3D人脸数据集中,使用多个连续的编码,得到一些不同的特征:人脸的转向、人脸的仰角、人脸的宽窄以及图片亮度;
在SVHN数据集中,得到不同特征可以分解数字在图像中的亮度以及区分图像中不同的数字;
在CelebA数据集中,同样的可以通过不同的编码获取一些特征,比如人脸不同的转向角度,是否带了眼镜,发型的不同,情绪的变化。
InfoGANs最大的好处就是不需要监督学习以及大量额外的计算花销就能得到可解释的特征。
相对的力量—Relativistic GANs
具体案例:
在含有2011张(256x256)图片的小样本集上进行实验,SGAN和LSGAN根本无法完成训练(它们在产生噪声的时候就停滞了),Spectral GAN和WGAN-GP的表现性能也是较差。而Relativistic GANs的实验结果是非常理想的。
因此relativism不仅能够提高GAN的稳定性,还能输出更高质量的数据样本。
看我七十二变—CycleGANs
具体案例:
将莫奈的画作转换为照片;
将照片转换为名家(莫奈、梵高、塞尚、浮世绘)风格图片;
目标物体纹理互换;
图像季节转换;
照片增强:景深狭窄。
最后与以往的几种方法做了比较,证明了CycleGANs的优越性。
你需要“注意力”—SAGANs
具体案例:
将目前最好的Inception分数从36.8分提高到了52.52分;将ImageNet数据集的Frechet Inception距离从27.62降低到18.65。
SAGANs将实验结果提到了一个新高度。
一步一个脚印—Progressive GANs
具体案例:
在无人监督的CIFAR10数据集中实现8.80的记录初始得分。
该方法加速了训练速度,并且提高了稳定性。
我用CNN—DCGANs
具体案例:
在Large-scale Scene Understanding (LSUN) 卧室数据集上训练了一个包含300多万个训练样例的模型。展示了一个训练期间、模拟在线学习以及收敛后的样本,证明模型不是通过简单过度拟合/记忆训练来产生高质量样本的。
在人脸数据集(包含10K个人,3M张图像)上进行实验,运行OpenCV人脸检测器,并保持足够高分辨率。
使用Imagenet-1k作为无人监督训练的自然图像的来源。 用32×32
min-resized crps进行训练。
利用DCGANs对上述各种图像数据集进行训练,并展示了数据,证明我们的深度卷积对抗可以替代生成器和判别器。 此外,将学习的特征用于其它新任务 ,结果证明该方法具有适用性。
我很稳定—WGANs
具体案例:
生成图像实验。学习的目标分布是LSUN卧室数据集。用DCGAN作为基准进行比较。生成的图像是64x64的3-channel图像。
实验证明,“损失”对WGANs是非常重要的,并且WGANs能够提高稳定性。
再创新高—BEGANs
具体案例:
实验采用360K个名人的面部图像数据集代替CelebA数据集。使用Adam训练我们的模型,初始学习率(learning rate)为0.0001,当收敛的度量停止时,衰减2倍。 实验训练了从32到256的不同分辨率的模型,并添加或删除卷积层以调整图像大小,保持恒定的最终下采样图像大小为8×8。
该方法至少部分地解决了一些突出的GAN问题,例如测量收敛、控制分布多样性以及维持判别器和发生器之间的平衡等。
自动编码大法好—VAEGANs
具体案例:
将的方法应用于面部图像,并用VAEGANs在CelebA的面部图像上进行训练。 该数据集由202,599个图像组成,注释有40个二进制属性,如眼镜,刘海,苍白皮肤等。
训练后的结果表明,普通的VAE能够清晰地绘制脸部的正面部分,但偏离中心的图像变得模糊;VAEDisl甚至偏离中心产生更清晰的图像,因为重建误差被提升到像素之外。相比之下,VAE / GAN可以产生更清晰的图像。表明它在视觉保真度方面较优,具有元素相似性度量。 此外,该方法可以使用简单的算法来修改高级抽象视觉特征(例如,佩戴眼镜)。
处理序列我最强—SeqGANs
具体案例:
分别与一种随机表征生成模型、MLE、scheduled sampling以及Policy Gradient with BLEU (PG-BLEU)四种方法做比较。
文本生成:使用了16,394个中文绝句的语料库(每个绝句包含四行,共20个字符),创作诗歌;使用了一个奥巴马政治演说的语料库(11,092段),来生成政治演讲。
音乐创作:使用诺丁汉(Nottingham)数据集作为训练数据(695个midi文件格式的民间音乐集合)。使用88个数字来表示88个音高(对应于钢琴上的88个音符)。 通过每0.4s的音高采样,我们将midi文件转换为1到88的数字序列,长度为32。
根据对合成数据和实际广泛的实验证明,Seq GANs与强基线(strong base-line)相比有了显着的改进。
本文首发于微信公众号:新智元。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。