高分辨率GAN用改进型变压器

的一部分神经信息处理系统34的进展(NeurIPS 2021)

Biptex公司 纸类 评论和公众评论» 补充的

作者

Long Zhao、Zizhao Zhang、Ting Chen、Dimitris Metaxas、Han Zhang

摘要

以Transformer为例,基于注意的模型可以有效地建模远程相关性,但存在自注意操作的二次复杂性,使得它们难以用于基于生成对抗网络(GAN)的高分辨率图像生成。在本文中,我们介绍了Transformer的两个关键要素来解决这一挑战。首先,在生成过程的低分辨率阶段,标准的全局自我关注被提议的多轴阻塞式自我关注所取代,该自我关注允许局部和全局注意力的有效混合。其次,在高分辨率阶段,我们放弃了自我关注,而只保留多层感知器,让人联想到隐含的神经功能。为了进一步提高性能,我们引入了一个额外的基于交叉注意的自调制组件。生成的模型表示为HiT,相对于图像大小而言具有近似线性的计算复杂性,因此可以直接缩放到合成高清晰度图像。我们在实验中表明,在合理的吞吐量下,所提出的HiT在无条件ImageNet 128美元乘以128美元和FFHQ 256美元乘以256美元上分别达到了30.83和2.95的最新FID分数。我们认为,所提出的HiT对于完全没有卷积的GAN中的发电机来说是一个重要的里程碑。我们的代码在以下网址公开https://github.com/google-research/hit-gan。