计算机工程与应用››2024,第60卷››问题(5): 95-102.内政部:10.3778/j.issn.1002-8331.2209-0456

模式识别与人工智能 • 上一篇   下一篇

联合知识和视觉信息推理的视觉问答研究

苏振强,苟刚  

  1. 贵州大学 计算机科学与技术学院 公共大数据国家重点实验室,贵阳 550025
  • 出版日期:2024-03-01 发布日期:2024-03-01

基于联合知识和视觉信息推理的可视化问答研究

苏振强、郭刚  

  1. 贵州大学计算机科学与技术学院公共大数据国家重点实验室,贵阳550025
  • 在线:2024-03-01 出版:2024-03-01

摘要:视觉问答作为多模态领域中的一项任务,需要对不同模态的特征进行融合推理,具有重要的应用价值。在传统视觉问答中,只需依靠图像的视觉信息,便能很好地推理出问题答案,但纯视觉信息无法满足现实场景中多样化的问答需求。知识在视觉问答中发挥着重要的作用,能够很好地辅助问答。基于知识的开放性视觉问答需要关联外部知识,才能实现跨模态的场景理解。为了更好地融合视觉信息和相关联的外部知识,提出联合知识和视觉信息推理双线性结构,设计了图像特征联合问题特征,对知识表征进行双引导的注意力模块。该模型利用预训练的视觉-语言模型获取问题和图像的特征表示以及视觉推理信息;利用相似性矩阵计算问题语义对齐下的图像对象区域;问题特征联合对齐后的区域特征,对知识表征进行协同引导获得知识推理信息;视觉推理信息和知识推理信息进行融合得到最终的答案。在开放的OK-VQA公司数据集上的实验结果表明,该模型的准确率相比两种基线方法分别有1.97个百分点和4.82个百分点的提升,从而验证了该模型的有效性。

关键词: 视觉问答, 注意力机制, 特征融合, 多模态对齐, 外部知识

摘要:视觉问答作为多模态领域的一项任务,需要对不同模态的特征进行融合和推理,具有重要的应用价值。在传统的视觉问答中,只有依靠图像的视觉信息才能很好地推理出问题的答案。然而,纯视觉信息无法满足现实场景中的各种问题解答需求。知识在可视问答中起着重要作用,可以很好地辅助问答。基于知识的开放式可视问答需要将外部知识关联起来,以实现跨模式场景理解。为了更好地集成视觉信息和相关外部知识,提出了一种用于联合知识和视觉信息推理的双线性结构,并设计了一个用于通过图像特征和问题特征表示知识的双重引导注意模块。首先,该模型使用预先训练好的视觉语言模型获取问题和图像的特征表示和视觉推理信息,其次,使用相似度矩阵计算问题语义对齐下的图像对象面积,然后将问题特征联合对齐后的区域特征联合引导知识表示,获取知识推理信息。最后,将视觉推理信息和知识推理信息进行融合,得到最终答案。在OK-VQA数据集上的实验结果表明,该模型的准确率分别比两种基线方法高1.97个百分点和4.82个百分点,验证了该模型的有效性。

关键词: 可视问答, 注意机制, 特征融合, 多模对准, 外部知识