联合知识和视觉信息推理的视觉问答研究

doi:10.3778/j.issn.1002-8331.2209-0456

摘要/摘要

摘要：视觉问答作为多模态领域中的一项任务，需要对不同模态的特征进行融合推理，具有重要的应用价值。在传统视觉问答中，只需依靠图像的视觉信息，便能很好地推理出问题答案，但纯视觉信息无法满足现实场景中多样化的问答需求。知识在视觉问答中发挥着重要的作用，能够很好地辅助问答。基于知识的开放性视觉问答需要关联外部知识，才能实现跨模态的场景理解。为了更好地融合视觉信息和相关联的外部知识，提出联合知识和视觉信息推理双线性结构，设计了图像特征联合问题特征，对知识表征进行双引导的注意力模块。该模型利用预训练的视觉-语言模型获取问题和图像的特征表示以及视觉推理信息；利用相似性矩阵计算问题语义对齐下的图像对象区域；问题特征联合对齐后的区域特征，对知识表征进行协同引导获得知识推理信息；视觉推理信息和知识推理信息进行融合得到最终的答案。在开放的OK-VQA公司数据集上的实验结果表明，该模型的准确率相比两种基线方法分别有1.97个百分点和4.82个百分点的提升，从而验证了该模型的有效性。

关键词: 视觉问答, 注意力机制, 特征融合, 多模态对齐, 外部知识

摘要：视觉问答作为多模态领域的一项任务，需要对不同模态的特征进行融合和推理，具有重要的应用价值。在传统的视觉问答中，只有依靠图像的视觉信息才能很好地推理出问题的答案。然而，纯视觉信息无法满足现实场景中的各种问题解答需求。知识在可视问答中起着重要作用，可以很好地辅助问答。基于知识的开放式可视问答需要将外部知识关联起来，以实现跨模式场景理解。为了更好地集成视觉信息和相关外部知识，提出了一种用于联合知识和视觉信息推理的双线性结构，并设计了一个用于通过图像特征和问题特征表示知识的双重引导注意模块。首先，该模型使用预先训练好的视觉语言模型获取问题和图像的特征表示和视觉推理信息，其次，使用相似度矩阵计算问题语义对齐下的图像对象面积，然后将问题特征联合对齐后的区域特征联合引导知识表示，获取知识推理信息。最后，将视觉推理信息和知识推理信息进行融合，得到最终答案。在OK-VQA数据集上的实验结果表明，该模型的准确率分别比两种基线方法高1.97个百分点和4.82个百分点，验证了该模型的有效性。

关键词： 可视问答，注意机制，特征融合，多模对准，外部知识

苏振强, 苟刚. 联合知识和视觉信息推理的视觉问答研究[J] ●●●●。计算机工程与应用, 2024, 60(5): 95-102.

苏振强、郭刚。联合知识与视觉信息推理的可视化问答研究[J]。计算机工程与应用，2024，60（5）：95-102。

参考文献

[1] ANTOL S，AGRAWAL A，LU J，et al.VQA:可视化问答[C]//IEEE计算机视觉国际会议论文集，2015:2425-2433。
[2] MIKOLOV T，CHEN K，CORRADO G，等.向量空间中单词表征的有效估计[C]//第一届学习表征国际会议论文集。美国斯科茨代尔：ICLR，2013:1-12。
[3] 彭宁顿J，SOCHER R，MANNING C D.Glove:单词表示的全局向量[C]//2014年自然语言处理经验方法会议论文集，2014:1532-1543。
[4] KENTON J D M W C，TOUTANOVA L K.BERT:语言理解深度双向变换器预培训[C]//NAACL-HLT会议记录，2019:4171-4186。
[5] SIMONYAN K，ZISSERMAN A.用于大规模图像识别的非常深卷积网络[C]//第三届学习表征国际会议论文集。美国圣地亚哥：ICLR，2015:1-14。
[6] HE K，ZHANG X，REN S，et al.用于图像识别的深度残差学习[C]//IEEE计算机视觉与模式识别会议论文集，2016:770-78。
[7] REN S，HE K，Girshick R，et al.Faster R-CNN:towards real-time object detection with region proposition networks[C]//Advances in Neural Information Processing Systems，2017:1137-1149.雷恩·S，赫克，吉希克·R，等.更快的R-CNN：利用区域提议网络实现实时目标检测[C]//神经信息处理系统。
[8] MALINOWSKI M，ROHRBACH M，FRITZ M。问你的神经元：基于神经的方法来回答有关图像的问题[C]//IEEE计算机视觉国际会议论文集，2015:1-9。
[9] GRAVES A.长期短期记忆[J]。递归神经网络监督序列标记，2012:37-45。
[10] REN M，KIROS R，ZEMEL R.图像问答：视觉语义嵌入模型和新数据集[C]//神经信息处理系统进展，2015。
[11] 陈凯，王杰，陈立中，等.基于注意的卷积神经网络在视觉问答中的应用[J]。arXiv:1511.059602015。
[12] FUKUI A，PARK D H，YANG D，et al.基于多模态紧致双线性池的可视化问答和可视化基础[C]//自然语言处理实证方法会议，2016:457-468。
[13] BEN-YOUNES H，CADENE R，CORD M，et al.Mutan:多模态塔克融合视觉问答[C]//IEEE国际计算机视觉会议论文集，2017:2612-262。
[14] 安德森·P，HE X，BUEHLER C，等.图像字幕和视觉问答的自下而上和自上而下关注[C]//IEEE计算机视觉和模式识别会议论文集，2018:6077-6086。
[15] KIM J H，JUN J，ZHANG B T.双线性注意网络[C]//神经信息处理系统进展，2018:1571-1581。
[16] 于泽，于杰，崔英，等.用于视觉问答的深度模块化共同关注网络[C]//IEEE/CVF计算机视觉与模式识别会议论文集，2019:6281-6290。
[17] 朱泽，余杰，王毅，等.Mucko:基于事实的可视化问答多层交叉模式知识推理[C]//第二十届国际人工智能联合会议论文集，2021:1097-1103。
[18] 王屹超, 朱慕华, 许晨, 等. 利用图像描述与知识图谱增强表示的视觉问答[J] ●●●●。清华大学学报 (自然科学版), 2022, 62(5): 900-907.
王永川，朱敏华，许聪，等.利用图像字幕和外部知识作为VQA的表示增强[J]。清华大学学报（自然科学版），2022，62（5）：900-907。
[19] TAN H，BANSAL M.LXMERT：从变压器中学习跨模态编码器表示法[C]//2019年自然语言处理经验方法会议和第九届国际自然语言处理联合会议（EMNLP-IJCNLP）会议记录，2019:5100-5111。
[20] SHAW P，USZKOREIT J，VASWANI A.相对位置表示的自我关注[C]//NAACL-HLT 2018年会议记录，2018。
[21]DING Y，YU J，LIU B，et al.MuKEA:基于知识的视觉问答的多模态知识提取和积累[C]//IEEE/CFF计算机视觉和模式识别会议论文集，2022:5089-5098。
[22]万兰达？我？D、韩国？TZSCH M.Wikidata:一个免费的协作知识库[J]。ACM通讯，2014，57（10）：78-85。
[23]RADFORD A，KIM J W，HALLACY C，et al.从自然语言监控中学习可转换的视觉模型[C]//国际机器学习会议，2021:8748-8763。
[24]REIMERS N，GUREVYCH I.句子-BERT：使用暹罗BERT-网络进行句子嵌入[C]//2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议论文集，2019:3982-3992。
[25]王平，吴强，沈C，等.FVQA：基于事实的可视化问答[J]。IEEE模式分析和机器智能汇刊，2017，40（10）：2413-2427。
[26]王平，吴强，沈C，等.基于显式知识推理的可视化问答[C]//第26届国际人工智能联合会议论文集，2017:1290-1296。
[27]MARINO K，RASTEGARI M，FARHADI A等。OK-VQA：一种需要外部知识的视觉问答基准[C]//IEEE/CFF计算机视觉和模式识别会议论文集，2019：3195-3204。
[28]LIN T Y，MAIRE M，BELONGIE S，et al.微软coco:common objects in context[C]//欧洲计算机视觉会议论文集，2014:740-755。
[29]于杰，朱泽，王毅，等.基于知识的可视化问答的交叉模式知识推理[J]。模式识别，2020，108:107563。
[30]LU J，BATRA D，PARIKH D，et al.VILBERT:视觉和语言任务的任务认知视觉语言表征预训练[C]//神经信息处理系统进展，2019。
[31]MARINO K，CHEN X，PARIKH D等。KRISP：将隐式和符号知识集成到基于开放域的VQA[C]//IEEE/CFF计算机视觉和模式识别会议论文集，2021:14111-14121。
[32]GARDèRES F，ZIAEEFARD M，ABELOOS B，et al.概念伯特：可视化问答的概念软件表示[C]//计算语言学协会学报，2020：489-498。