×

TransGAN公司

swMATH ID: 42447
软件作者: 蒋一凡、张世玉、王章扬
描述: TransGAN:两个纯粹的变形金刚可以打造一个强大的GAN,并且可以扩大规模。最近对变压器的爆炸性兴趣表明,它们有潜力成为计算机视觉任务的强大“通用”模型,例如分类、检测和分割。虽然这些尝试主要研究区分模型,但我们探索了一些更为困难的视觉任务中的变形金刚,例如生成性对抗网络(GAN)。我们的目标是进行第一次初步研究,只使用纯基于变压器的架构来构建完全无卷积的GAN。我们的普通GAN架构被称为TransGAN,它由一个基于记忆友好的转换器的生成器组成,该生成器可以逐步提高特征分辨率,相应地,还包括一个多尺度鉴别器,可以同时捕获语义上下文和低层纹理。在此基础上,我们引入了新的网格自关注模块,以进一步缓解内存瓶颈,从而将TransGAN扩展到高分辨率发电。我们还开发了一种独特的训练方法,包括一系列可以缓解TransGAN训练不稳定性问题的技术,例如数据增强、修改的归一化和相对位置编码。与使用卷积主干的当前最先进的GAN相比,我们最好的架构实现了极具竞争力的性能。具体而言,TransGAN在STL-10上的最新最先进初始分数为10.43,FID为18.28,优于StyleGAN-V2。当涉及到更高分辨率(例如256 x 256)的生成任务时,例如在CelebA-HQ和LSUN-Church上,TransGAN继续制作具有高保真度和令人印象深刻的纹理细节的各种视觉示例。此外,通过可视化训练动力学,我们深入研究了基于变压器的生成模型,以了解它们的行为与卷积模型的不同之处。该代码可在https://github.com/VITA集团/TransGAN
主页: https://arxiv.org/abs/1202.07074
源代码:  https://github.com/VITA集团/TransGAN
依赖项: 蟒蛇
关键词: TransGAN公司蟒蛇生成性对抗网络GAN公司变压器计算机视觉模式识别arXiv_cs。个人简历
相关软件: ImageNet公司PyTorch公司蟒蛇密度(DensePose)LoFTR公司面2面FBNetV2型MobileNetV2手机Swin变压器斯塔根着色变压器德布尔甘InfoGAN公司DARTS公司BERT(误码率)卡费打开CVCIFAR公司BossNAS公司CASIA步态
引用于: 1文件

标准条款

1出版物描述软件 年份
TransGAN:两个纯粹的变形金刚可以打造一个强大的GAN,并且可以扩大规模arXiv公司
蒋一凡、张世玉、王章扬
2021

在1个字段中引用

1 计算机科学(68至XX)

按年份列出的引文