计算机科学››2024,第51卷››问题(5): 85-91.数字对象标识:10.11896/jsjkx.230300202

•计算机图形和多媒体• 以前的文章   下一篇文章

基于交叉模式信息过滤的可视问答网络

何世阳1,王朝晖2、龚盛荣1,3、中山  

  1. 1苏州大学计算机科学与技术学院,中国江苏苏州215008
    中国江苏省苏州市苏州大学苏州学院2号,邮编:215006
    3常熟工学院计算机科学与工程学院,江苏省苏州市,邮编:215500
  • 收到:2023-03-26 修订过的:2023-08-09 在线:2024-05-15 出版:2024-05-08
  • 关于作者:何世阳,1995年生,研究生。他的主要研究兴趣包括机器学习和计算机视觉。
    龚盛荣,1966年生,博士,教授,博士生导师。他的主要研究兴趣包括图像和视频处理、模式识别和计算机视觉。
  • 支持单位:
    国家自然科学基金项目(6197205942071438)、江苏省自然科学基金(BK20191474、BK201191475)、吉林大学教育部符号计算与知识工程重点实验室(93K172021K01)。

摘要:视觉问答作为一种多模态任务,其瓶颈在于解决不同模式之间的融合问题。它不仅需要对图像中的视觉和文本有充分的理解,还需要能够对齐跨模式表示。注意机制的引入为多模式融合提供了有效途径。然而,以往的方法通常直接计算提取的图像特征,忽略了图像特征中包含的噪声和错误信息,并且大多数方法仅限于模式之间的浅层交互,没有考虑模式之间的深层语义信息。为了解决这个问题,提出了一种跨模式信息过滤网络(CIFN)。首先,将问题的特征作为监控信号,设计信息过滤模块对图像的特征信息进行过滤,使其更适合问题的表示。然后将图像特征和问题特征发送到跨模态交互层,分别对自注意和引导注意作用下的模态内和模态间关系进行建模,从而获得更细粒度的多模态特征。在VQA2.0数据集上进行了广泛的实验,实验结果表明,信息过滤模型的引入有效地提高了模型的精度,测试集的总体精度达到71.51%,与最先进的方法相比具有良好的性能。

关键词: 可视问答, 深度学习, 注意机制, 多模融合, 信息过滤

CLC编号:

  • TP391型
[1] YAN F,MIKOLAJCZYK K。图像和文本匹配的深度相关性[C]//IEEE计算机视觉和模式识别会议论文集。纽约:IEEE出版社,2015:3441-3450。
[2] 王毅,杨华,钱X,等.基于位置聚焦的图文匹配注意力网络[C]//第二十八届国际人工智能联合会议论文集。旧金山:Morgan Kaufmann,2019:3792-3798。
[3] 尤清,金赫,王泽,等.语义注意下的图像字幕[C]//计算机视觉与模式识别IEEE会议论文集。纽约:IEEE出版社,2016:4651-4659。
[4] LI G,ZHU L,LIU P,et al.用于图像字幕的纠缠变换器[C]//IEEE/CFF国际计算机视觉会议论文集。纽约:IEEE出版社,2019:8928-8937。
[5] NGUYEN K,TRIPATHI S,DU B,et al.为图像字幕的场景图辩护[C]//IEEE/CVF国际计算机视觉会议论文集。纽约:IEEE出版社,2021:1407-1416。
[6] ANTOL S,AGRAWAL A,LU J,et al.Vqa:可视化问答[C]//IEEE计算机视觉国际会议论文集。纽约:IEEE出版社,2015:2425-2433。
[7] ANDERSON P,HE X,BUEHLER C,et al.图像字幕和视觉问题的自下而上和自上而下关注[C]//IEEE计算机视觉和模式识别会议论文集。纽约:IEEE出版社,2018:6077-6086。
[8] 于泽,于杰,崔英,等。用于视觉问答的深度模块化共同注意网络[C]//IEEE/CVF计算机视觉与模式识别会议论文集。纽约:IEEE出版社,2019:6281-6290。
[9] MALINOWSKI M,ROHRBACH M,FRITZ M。问你的神经元:一种基于神经的方法来回答有关图像的问题[C]//IEEE计算机视觉国际会议论文集。纽约:IEEE出版社,2015:1-9。
[10] SHIH K J,SINGH S,HOIEM D。看哪里:视觉问答的焦点区域[C]//IEEE计算机视觉和模式识别会议论文集。纽约:IEEE出版社,2016:4613-4621。
[11] REN S,HE K,GIRSHICK R,et al.Faster rcnn:Towards real-time object detection with region proposition networks[C]//Advances in Neural Information Processing Systems 28.剑桥:麻省理工学院出版社,2015:91-99。
[12] KIM J H,JUN J,ZHANG B T.双线性注意网络[C]//神经信息处理系统进展31.剑桥:麻省理工学院出版社,2018:1571-1581。
[13] VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[C]//Advances in Neural Information Processing Systems 30.剑桥:麻省理工学院出版社,2017:5998-6008。
[14] 杨Z,何X,高J,等。用于图像问题回答的堆叠注意网络[C]//IEEE计算机视觉和模式识别会议论文集。纽约:IEEE出版社,2016:21-29。
[15] 吕鹏,李华,张伟,等。参加基于多模态乘性特征嵌入的自由形式区域和检测,用于视觉问答[C]//美国人工智能学会人工智能会议论文集。门罗公园:AAAI出版社,2018:7218-7225。
[16] YU Z,YU J,FAN J,et al.基于多模态分解双线性池和共同注意学习的可视化问答[C]//IEEE计算机视觉国际会议论文集。纽约:IEEE出版社,2017:1839-1848。
[17] 周斌,田毅,苏克巴塔尔,等.可视化问答的简单基线[J].arXiv,20151512.02167。
[18] SCHWARTZ I,SCHWING A,HAZAN T.视觉问答的高阶注意模型[C]//神经信息处理系统进展30.剑桥:麻省理工学院出版社,2017:3664-3674。
[19] BENYOUNES H,CADENE R,CORD M,et al.Mutan:多模态塔克融合视觉问答[C]//IEEE国际计算机视觉会议进程.2017:2612-262。
[20] NAM H,HA J W,KIM J.用于多模式推理和匹配的双注意网络[C]//IEEE会议论文集计算机视觉和模式识别。纽约:IEEE出版社,2017:299-307。
[21]NGUYEN D K,OKATANI T.通过密集的对称共同关注来改进视觉和语言表征的融合,以回答六对一问题[C]//IEEE计算机视觉和模式识别会议记录。纽约:IEEE出版社,2018:6087-6096。
[22]傅宝珠,杨刚,刘晓明,等.基于空间关系和频率特征的可视化问答模型[J]。计算机工程,2022,48(9):96-104。
[23]彭磊,杨毅,宾毅,等.视觉问答的区域注意网络[J]。多媒体工具和应用,2019,78:3843-3858。
[24]关伟,吴忠,平伟.面向问题的跨模式视觉问答共同关注网络[C]//2022第二届消费电子与计算机工程国际会议.纽约:IEEE出版社,2022:401-407。
[25]HOCHREITER S,SCHMIDHUBER J.长短期记忆[J]。神经计算,1997,9(8):1735-1780。
[26]LI C,LI L,QI J.一种带有门机制的口语理解自注意模型[C]//2018年自然语言过程实证方法会议论文集。斯特劳德斯堡:ACL,2018:3824-3833。
[27]RAHMAN T,CHOU S H,SIGAL L等。提高对视觉问答的关注[C]//IEEE/CFF计算机视觉和模式识别会议论文集。纽约:IEEE出版社,2021:1653-1662。
[28]KRISHNA R,ZHU Y,GROTH O,等.视觉基因组:使用众包密集图像注释连接语言和视觉[J]。国际计算机视觉杂志,2017123:32-73。
[29]RUSSAKOVSKY O,DENG J,SU H,等.Imagenet大规模视觉识别挑战[J]。国际计算机视觉杂志,2015115:211-252。
[30]何凯,张X,任S,等.图像识别的深度剩余学习[C]//IEEE计算机视觉与模式识别会议论文集。纽约:IEEE出版社,2016:770-778。
[31]彭宁顿J,SOCHER R,MANNING C D.Glove:单词表征的全局向量[C]//2014年自然语言过程实证方法会议论文集。斯特劳德斯堡:ACL,2014:1532-1543。
[32]NGUYEN B X,DO T,TRAN H,et al.可视化问答的定向精细推理[C]//IEEE/CVF计算机视觉与模式识别会议论文集。纽约:IEEE出版社,2022:4558-4566。
[33]GOYAL Y,KHOT T,SUMMERS-STAY D,et al.使vqa中的v变得重要:提升图像理解在虚拟问题回答中的作用[C]//IEEE计算机视觉和模式识别会议记录。纽约:IEEE出版社,2017:6904-6913。
[34]LIN T Y,MAIRE M,BELONGIE S,et al.微软coco:Common objects in context[C]//计算机视觉ECCV 2014:13第三届欧洲会议。柏林:施普林格出版社,2014:740-755。
[35]KINGMA D P,BA J.Adam:一种随机优化方法[C]//第三届学习表征国际会议。伊萨卡,2015年。
[36]KIM W,SON B,KIM I.维尔特:没有卷积或区域监督的视觉和语言转换器[C]//国际机器学习会议。纽约:ACM,2021:5583-5594。
[37]钱毅,胡毅,王荣,等.面向可视问答的问题驱动图融合网络[C]//2022 IEEE多媒体与博览会国际会议。纽约:IEEE出版社,2022:1-6。
[1] 鲍开南、张俊波、宋丽、李天瑞。ST-WaveMLP:用于交通流预测的时空全球软件网络[J] ●●●●。计算机科学,2024,51(5):27-34。
[2] 张建良、李阳、朱青山、薛红玲、马俊伟、张丽霞、毕生。基于双域稀疏变压器的变电站设备故障报警算法[J] ●●●●。计算机科学,2024,51(5):62-69。
[3] 宋建峰、张文英、韩璐、胡国正、迈克奇光。黑白电影的多阶段智能色彩恢复算法[J] ●●●●。计算机科学,2024,51(5):92-99。
[4] 尚新新、李凯、温颖。融合全尺度特征融合和RNN的医学图像分割网络[J] ●●●●。计算机科学,2024,51(5):100-107。
[5] 周瑜、陈志华、盛斌、梁磊。用于图像去叠的多尺度累进变换器[J] ●●●●。计算机科学,2024,51(5):117-124。
[6] 白雪飞、沈武成、王文健。基于特征注意净化的显著目标检测[J] ●●●●。计算机科学,2024,51(5):125-133。
[7] 何晓辉、周涛、李潘乐、常静、李家棉。基于多尺度注意的遥感图像建筑物提取研究[J] ●●●●。计算机科学,2024,51(5):134-142。
[8] 徐学杰、王宝辉。基于文本和历史数据的多标签专利分类[J] ●●●●。计算机科学,2024,51(5):172-178。
[9] 兰永奇,何兴兴,李英芳,李天瑞。一种新的图约简表示和用于前提选择的图神经网络模型[J] ●●●●。计算机科学,2024,51(5):193-199。
[10] 李自晨、易修文、陈顺、张俊波、李天瑞。基于深度多视网络的政府事件调度方法[J] ●●●●。计算机科学,2024,51(5):216-222。
[11] 洪体静、刘登峰、刘毅。基于多尺度全卷积神经网络和GRU的雷达有源干扰识别[J] ●●●●。计算机科学,2024,51(5):306-312。
[12] 孙静、王晓霞。基于云边缘协同子类提取的卷积神经网络模型压缩方法[J] ●●●●。计算机科学,2024,51(5):313-320。
[13] 陈润环、戴华、郑贵能、李辉、杨庚。基于差异补偿和短时采样对比损耗的城市电力负荷预测方法[J] ●●●●。计算机科学,2024,51(4):158-164。
[14] 林斌伟、余志勇、黄芳婉、郭显伟。基于Transformer的街道停车位数据完善与预测[J] ●●●●。计算机科学,2024,51(4):165-173。
[15] 王瑞平、吴世宏、张美航、王小平。基于视觉的神经网络三维动态手势识别方法综述[J] ●●●●。计算机科学,2024,51(4):193-208。
已查看
全文


摘要

引用

  共享   
  讨论   
找不到建议阅读的文章!