基于跨模态信息过滤的视觉问答网络

doi:10.11896/jsjkx.230300202

摘要

摘要：视觉问答作为一种多模态任务，其瓶颈在于解决不同模式之间的融合问题。它不仅需要对图像中的视觉和文本有充分的理解，还需要能够对齐跨模式表示。注意机制的引入为多模式融合提供了有效途径。然而，以往的方法通常直接计算提取的图像特征，忽略了图像特征中包含的噪声和错误信息，并且大多数方法仅限于模式之间的浅层交互，没有考虑模式之间的深层语义信息。为了解决这个问题，提出了一种跨模式信息过滤网络（CIFN）。首先，将问题的特征作为监控信号，设计信息过滤模块对图像的特征信息进行过滤，使其更适合问题的表示。然后将图像特征和问题特征发送到跨模态交互层，分别对自注意和引导注意作用下的模态内和模态间关系进行建模，从而获得更细粒度的多模态特征。在VQA2.0数据集上进行了广泛的实验，实验结果表明，信息过滤模型的引入有效地提高了模型的精度，测试集的总体精度达到71.51%，与最先进的方法相比具有良好的性能。

关键词： 可视问答，深度学习，注意机制，多模融合，信息过滤

CLC编号：

TP391型

何世阳、王朝辉、龚盛荣、钟山。基于交叉模式信息过滤的可视化问答网络[J]。计算机科学，2024，51（5）：85-91。

工具书类

[1] YAN F，MIKOLAJCZYK K。图像和文本匹配的深度相关性[C]//IEEE计算机视觉和模式识别会议论文集。纽约：IEEE出版社，2015:3441-3450。
[2] 王毅，杨华，钱X，等.基于位置聚焦的图文匹配注意力网络[C]//第二十八届国际人工智能联合会议论文集。旧金山：Morgan Kaufmann，2019:3792-3798。
[3] 尤清，金赫，王泽，等.语义注意下的图像字幕[C]//计算机视觉与模式识别IEEE会议论文集。纽约：IEEE出版社，2016:4651-4659。
[4] LI G，ZHU L，LIU P，et al.用于图像字幕的纠缠变换器[C]//IEEE/CFF国际计算机视觉会议论文集。纽约：IEEE出版社，2019:8928-8937。
[5] NGUYEN K，TRIPATHI S，DU B，et al.为图像字幕的场景图辩护[C]//IEEE/CVF国际计算机视觉会议论文集。纽约：IEEE出版社，2021:1407-1416。
[6] ANTOL S，AGRAWAL A，LU J，et al.Vqa:可视化问答[C]//IEEE计算机视觉国际会议论文集。纽约：IEEE出版社，2015:2425-2433。
[7] ANDERSON P，HE X，BUEHLER C，et al.图像字幕和视觉问题的自下而上和自上而下关注[C]//IEEE计算机视觉和模式识别会议论文集。纽约：IEEE出版社，2018:6077-6086。
[8] 于泽，于杰，崔英，等。用于视觉问答的深度模块化共同注意网络[C]//IEEE/CVF计算机视觉与模式识别会议论文集。纽约：IEEE出版社，2019:6281-6290。
[9] MALINOWSKI M，ROHRBACH M，FRITZ M。问你的神经元：一种基于神经的方法来回答有关图像的问题[C]//IEEE计算机视觉国际会议论文集。纽约：IEEE出版社，2015:1-9。
[10] SHIH K J，SINGH S，HOIEM D。看哪里：视觉问答的焦点区域[C]//IEEE计算机视觉和模式识别会议论文集。纽约：IEEE出版社，2016:4613-4621。
[11] REN S，HE K，GIRSHICK R，et al.Faster rcnn:Towards real-time object detection with region proposition networks[C]//Advances in Neural Information Processing Systems 28.剑桥：麻省理工学院出版社，2015:91-99。
[12] KIM J H，JUN J，ZHANG B T.双线性注意网络[C]//神经信息处理系统进展31.剑桥：麻省理工学院出版社，2018:1571-1581。
[13] VASWANI A，SHAZEER N，PARMAR N，et al.Attention is all you need[C]//Advances in Neural Information Processing Systems 30.剑桥：麻省理工学院出版社，2017:5998-6008。
[14] 杨Z，何X，高J，等。用于图像问题回答的堆叠注意网络[C]//IEEE计算机视觉和模式识别会议论文集。纽约：IEEE出版社，2016:21-29。
[15] 吕鹏，李华，张伟，等。参加基于多模态乘性特征嵌入的自由形式区域和检测，用于视觉问答[C]//美国人工智能学会人工智能会议论文集。门罗公园：AAAI出版社，2018:7218-7225。
[16] YU Z，YU J，FAN J，et al.基于多模态分解双线性池和共同注意学习的可视化问答[C]//IEEE计算机视觉国际会议论文集。纽约：IEEE出版社，2017:1839-1848。
[17] 周斌，田毅，苏克巴塔尔，等.可视化问答的简单基线[J].arXiv，20151512.02167。
[18] SCHWARTZ I，SCHWING A，HAZAN T.视觉问答的高阶注意模型[C]//神经信息处理系统进展30.剑桥：麻省理工学院出版社，2017:3664-3674。
[19] BENYOUNES H，CADENE R，CORD M，et al.Mutan:多模态塔克融合视觉问答[C]//IEEE国际计算机视觉会议进程.2017:2612-262。
[20] NAM H，HA J W，KIM J.用于多模式推理和匹配的双注意网络[C]//IEEE会议论文集计算机视觉和模式识别。纽约：IEEE出版社，2017:299-307。
[21]NGUYEN D K，OKATANI T.通过密集的对称共同关注来改进视觉和语言表征的融合，以回答六对一问题[C]//IEEE计算机视觉和模式识别会议记录。纽约：IEEE出版社，2018:6087-6096。
[22]傅宝珠，杨刚，刘晓明，等.基于空间关系和频率特征的可视化问答模型[J]。计算机工程，2022,48（9）：96-104。
[23]彭磊，杨毅，宾毅，等.视觉问答的区域注意网络[J]。多媒体工具和应用，2019,78:3843-3858。
[24]关伟，吴忠，平伟.面向问题的跨模式视觉问答共同关注网络[C]//2022第二届消费电子与计算机工程国际会议.纽约：IEEE出版社，2022:401-407。
[25]HOCHREITER S，SCHMIDHUBER J.长短期记忆[J]。神经计算，1997,9（8）：1735-1780。
[26]LI C，LI L，QI J.一种带有门机制的口语理解自注意模型[C]//2018年自然语言过程实证方法会议论文集。斯特劳德斯堡：ACL，2018:3824-3833。
[27]RAHMAN T，CHOU S H，SIGAL L等。提高对视觉问答的关注[C]//IEEE/CFF计算机视觉和模式识别会议论文集。纽约：IEEE出版社，2021:1653-1662。
[28]KRISHNA R，ZHU Y，GROTH O，等.视觉基因组：使用众包密集图像注释连接语言和视觉[J]。国际计算机视觉杂志，2017123:32-73。
[29]RUSSAKOVSKY O，DENG J，SU H，等.Imagenet大规模视觉识别挑战[J]。国际计算机视觉杂志，2015115:211-252。
[30]何凯，张X，任S，等.图像识别的深度剩余学习[C]//IEEE计算机视觉与模式识别会议论文集。纽约：IEEE出版社，2016:770-778。
[31]彭宁顿J，SOCHER R，MANNING C D.Glove:单词表征的全局向量[C]//2014年自然语言过程实证方法会议论文集。斯特劳德斯堡：ACL，2014:1532-1543。
[32]NGUYEN B X，DO T，TRAN H，et al.可视化问答的定向精细推理[C]//IEEE/CVF计算机视觉与模式识别会议论文集。纽约：IEEE出版社，2022:4558-4566。
[33]GOYAL Y，KHOT T，SUMMERS-STAY D，et al.使vqa中的v变得重要：提升图像理解在虚拟问题回答中的作用[C]//IEEE计算机视觉和模式识别会议记录。纽约：IEEE出版社，2017:6904-6913。
[34]LIN T Y，MAIRE M，BELONGIE S，et al.微软coco:Common objects in context[C]//计算机视觉ECCV 2014:13第三届欧洲会议。柏林：施普林格出版社，2014:740-755。
[35]KINGMA D P，BA J.Adam:一种随机优化方法[C]//第三届学习表征国际会议。伊萨卡，2015年。
[36]KIM W，SON B，KIM I.维尔特：没有卷积或区域监督的视觉和语言转换器[C]//国际机器学习会议。纽约：ACM，2021:5583-5594。
[37]钱毅，胡毅，王荣，等.面向可视问答的问题驱动图融合网络[C]//2022 IEEE多媒体与博览会国际会议。纽约：IEEE出版社，2022:1-6。

相关文章15

[1]	鲍开南、张俊波、宋丽、李天瑞。ST-WaveMLP：用于交通流预测的时空全球软件网络[J] ●●●●。计算机科学，2024，51（5）：27-34。
[2]	张建良、李阳、朱青山、薛红玲、马俊伟、张丽霞、毕生。基于双域稀疏变压器的变电站设备故障报警算法[J] ●●●●。计算机科学，2024，51（5）：62-69。
[3]	宋建峰、张文英、韩璐、胡国正、迈克奇光。黑白电影的多阶段智能色彩恢复算法[J] ●●●●。计算机科学，2024，51（5）：92-99。
[4]	尚新新、李凯、温颖。融合全尺度特征融合和RNN的医学图像分割网络[J] ●●●●。计算机科学，2024，51（5）：100-107。
[5]	周瑜、陈志华、盛斌、梁磊。用于图像去叠的多尺度累进变换器[J] ●●●●。计算机科学，2024，51（5）：117-124。
[6]	白雪飞、沈武成、王文健。基于特征注意净化的显著目标检测[J] ●●●●。计算机科学，2024，51（5）：125-133。
[7]	何晓辉、周涛、李潘乐、常静、李家棉。基于多尺度注意的遥感图像建筑物提取研究[J] ●●●●。计算机科学，2024，51（5）：134-142。
[8]	徐学杰、王宝辉。基于文本和历史数据的多标签专利分类[J] ●●●●。计算机科学，2024，51（5）：172-178。
[9]	兰永奇，何兴兴，李英芳，李天瑞。一种新的图约简表示和用于前提选择的图神经网络模型[J] ●●●●。计算机科学，2024，51（5）：193-199。
[10]	李自晨、易修文、陈顺、张俊波、李天瑞。基于深度多视网络的政府事件调度方法[J] ●●●●。计算机科学，2024，51（5）：216-222。
[11]	洪体静、刘登峰、刘毅。基于多尺度全卷积神经网络和GRU的雷达有源干扰识别[J] ●●●●。计算机科学，2024，51（5）：306-312。
[12]	孙静、王晓霞。基于云边缘协同子类提取的卷积神经网络模型压缩方法[J] ●●●●。计算机科学，2024，51（5）：313-320。
[13]	陈润环、戴华、郑贵能、李辉、杨庚。基于差异补偿和短时采样对比损耗的城市电力负荷预测方法[J] ●●●●。计算机科学，2024，51（4）：158-164。
[14]	林斌伟、余志勇、黄芳婉、郭显伟。基于Transformer的街道停车位数据完善与预测[J] ●●●●。计算机科学，2024，51（4）：165-173。
[15]	王瑞平、吴世宏、张美航、王小平。基于视觉的神经网络三维动态手势识别方法综述[J] ●●●●。计算机科学，2024，51（4）：193-208。

韵律学

已查看

全文

摘要

引用

共享

讨论

基于交叉模式信息过滤的可视问答网络

PDF（PC）

摘要

引用这篇文章

分享这篇文章

工具书类

相关文章15

韵律学

评论

推荐0