结合混合注意力的双判别生成对抗网络

doi:10.3778/j.issn.1002-8331.2211-0196

摘要/摘要

摘要：图像生成任务中，如何提升生成图片的质量是一个关键问题。当前，生成对抗网络采用的多层卷积结构存在局部性归纳偏置的问题，无法准确聚焦关键信息，导致图像特征丢失严重，生成图像效果较差。为此，提出了结合混合注意力的双判别生成对抗网络（DDMA-GAN）设计了一种混合注意力机制，利用通道注意力和空间注意力模块，从两个维度充分捕获图像特征信息；为解决单判别器存在判别误差的问题，提出一种双判别器结构，使用融合系数将判定结果融合，使回传参数更具客观性，并嵌入数据增强模块，进一步提升模型鲁棒性；采用铰链损失作为模型损失函数，最大化真假样本间的距离，明确决策边界。模型在公开数据集LSUN和CelebA上进行验证，实验结果表明，DDMA-GAN公司生成的图像更加真实，纹理细节更加丰富，其FID和MMD值均显著降低且优于其他常见模型，证明了模型的有效性。

关键词: 图像生成, 卷积神经网络, 混合注意力, 双判别器, 数据增强, 生成对抗网络

摘要：在图像生成任务中，如何提高生成图像的质量是一个关键问题。目前，GAN采用的多层卷积结构存在局部诱导偏差的问题，无法集中于关键信息，导致在训练过程中丢失图像特征。本文提出了一种具有双重鉴别器和混合注意力的生成性对抗网络模型，称为DDMA-GAN。首先，DDMA-GAN设计了一种混合注意力机制，利用通道注意力和空间注意力来充分捕捉图像特征信息。其次，为了解决单鉴频器的鉴频误差问题，提出了一种双鉴频器结构。融合系数用于融合判断结果，使返回的参数更加客观，并嵌入数据增强模块，进一步提高模型的鲁棒性。最后，利用铰链损失作为损失函数，最大化真假样本之间的距离。该模型在公共数据集LSUN和CelebA上进行了验证。实验结果表明，DDMA-GAN在经典数据集上生成的图像更真实。DDMA-GAN的FID和MMD显著降低，充分说明了模型的有效性。

关键词： 图像生成，卷积神经网络（CNN），注意力混合，双重鉴别器，数据增强，生成性对抗网络

王磊, 杨军, 张驰宇, 代在燕. 结合混合注意力的双判别生成对抗网络[J] ●●●●。计算机工程与应用, 2024, 60(7): 212-221.

王磊、杨军、张驰宇、戴再燕。具有双重鉴别器和混合注意的生成性对抗网络[J]。计算机工程与应用，2024，60（7）：212-221。

参考文献

[1] 刘Z，胡H，林毅，等.Swin transformer v2:放大容量和分辨率[C]//IEEE/CVF计算机视觉和模式识别会议论文集，2022:12009-12019。
[2] 戴震，刘辉，LE Q V，等.Coatnet：将卷积和注意力结合到所有数据大小中[C]//神经信息处理系统的进展，2021:3965-3977。
[3] KOTOVENKO D，WRIGHT M，HEIMBRECHT A，et al.重新思考风格转换：从像素到参数化笔画[C]//IEEE/CVF计算机视觉与模式识别会议论文集，2021:12196-12205。
[4] SALAKHUTDINOV R，MNIH A，HINTON G.协作过滤用受限Boltzmann机器[C]//第24届机器学习国际会议论文集，2007:791-798。
[5] KINGMA D P，WELLING M.自动编码变分贝叶斯[J]。arXiv:1312.61142013年。
[6] GOODFELLOW I，POUGET-ABADIE J，MIRZA M，等.生成性对抗网络[C]//神经信息处理系统进展，2014:2672-2680。
[7] RADFORD A，METZ L，CHINTALA S.深卷积生成对抗网络的无监督表示学习[J]。arXiv:1511.064342015年。
[8] ARJOVSKY M，CHINTALA S，BOTTOU L.Wasserstein GAN【J】。arXiv:1701.078752017年。
[9] GULRAJANI I，AHMED F，ARJOVSKY M等。Wasserstein GANs的改进训练[C]//神经信息处理系统进展论文集30:神经信息处理系统年会，长滩，2017年12月4-9日：5769-5779。
[10] 张华，古德费尔洛I，METAXAS D，等.自我注意生成对抗网络[C]//国际机器学习会议，2019:7354-7363。
[11] 武随烁, 杨金福, 单义, 等. 使用孪生注意力机制的生成对抗网络的研究[J] ●●●●。计算机科学与探索, 2020, 14(5): 833-840.
吴思思，杨继发，尚毅，等.基于双注意机制的生成性对抗网络研究[J]。计算机科学与技术前沿杂志，2020，14（5）：833-840。
[12] 于峰，SEFF A，ZHANG Y，等。LSUN：利用人在回路中的深度学习构建大规模图像数据集[J]。arXiv:1506.033652015年。
[13] 刘Z，罗平，王霞，等.野外深度学习人脸属性[C]//IEEE国际计算机视觉会议论文集，2015:3730-3738。
[14] WOO S，PARK J，LEE J Y，等.CBAM:卷积块注意模块[C]//欧洲计算机视觉会议论文集，2018:3-19。
[15] HEUSEL M，RAMSAUER H，UNTERTHINER T，et al.由两个时间尺度更新规则训练的GAN收敛到局部Nash均衡[C]//2017年长滩神经信息处理系统年会论文集，2017年12月4-9日：6626-6637。
[16] B？HM V，SELJAK U。概率自动编码器[J]。arXiv:2006.054792020年。
[17] 王X，GIRSHICK R，GUPTA A，等.非局部神经网络[C]//IEEE计算机视觉与模式识别会议论文集，2018:7794-7803。
[18] 胡杰，沈力，孙刚.挤压与激励网络[C]//IEEE计算机视觉与模式识别会议论文集，2018:7132-7141。
[19] HOU Q，ZHOU D，FENG J.高效移动网络设计的协调关注[C]//IEEE/CVF计算机视觉和模式识别会议论文集，2021:13713-13722。