TransGAN公司 swMATH ID: 42447 软件作者: 蒋一凡、张世玉、王章扬 描述: TransGAN:两个纯粹的变形金刚可以打造一个强大的GAN,并且可以扩大规模。最近对变压器的爆炸性兴趣表明,它们有潜力成为计算机视觉任务的强大“通用”模型,例如分类、检测和分割。虽然这些尝试主要研究区分模型,但我们探索了一些更为困难的视觉任务中的变形金刚,例如生成性对抗网络(GAN)。我们的目标是进行第一次初步研究,只使用纯基于变压器的架构来构建完全无卷积的GAN。我们的普通GAN架构被称为TransGAN,它由一个基于记忆友好的转换器的生成器组成,该生成器可以逐步提高特征分辨率,相应地,还包括一个多尺度鉴别器,可以同时捕获语义上下文和低层纹理。在此基础上,我们引入了新的网格自关注模块,以进一步缓解内存瓶颈,从而将TransGAN扩展到高分辨率发电。我们还开发了一种独特的训练方法,包括一系列可以缓解TransGAN训练不稳定性问题的技术,例如数据增强、修改的归一化和相对位置编码。与使用卷积主干的当前最先进的GAN相比,我们最好的架构实现了极具竞争力的性能。具体而言,TransGAN在STL-10上的最新最先进初始分数为10.43,FID为18.28,优于StyleGAN-V2。当涉及到更高分辨率(例如256 x 256)的生成任务时,例如在CelebA-HQ和LSUN-Church上,TransGAN继续制作具有高保真度和令人印象深刻的纹理细节的各种视觉示例。此外,通过可视化训练动力学,我们深入研究了基于变压器的生成模型,以了解它们的行为与卷积模型的不同之处。该代码可在https://github.com/VITA集团/TransGAN 主页: https://arxiv.org/abs/1202.07074 源代码: https://github.com/VITA集团/TransGAN 依赖项: 蟒蛇 关键词: TransGAN公司;蟒蛇;生成性对抗网络;GAN公司;变压器;计算机视觉;模式识别;arXiv_cs。个人简历 相关软件: ImageNet公司;PyTorch公司;蟒蛇;密度(DensePose);LoFTR公司;面2面;FBNetV2型;MobileNetV2手机;Swin变压器;斯塔根;着色变压器;德布尔甘;InfoGAN公司;DARTS公司;BERT(误码率);卡费;打开CV;CIFAR公司;BossNAS公司;CASIA步态 引用于: 1文件 标准条款 1出版物描述软件 年份 TransGAN:两个纯粹的变形金刚可以打造一个强大的GAN,并且可以扩大规模arXiv公司蒋一凡、张世玉、王章扬 2021 1位作者引用 1 Richard Szeliski,理查德 连载1篇 1 计算机科学中的文本 在1个字段中引用 1 计算机科学(68至XX) 按年份列出的引文