计算机科学››2024,第51卷››问题(5): 85-91.数字对象标识:10.11896/jsjkx.230300202
•计算机图形和多媒体• 以前的文章 下一篇文章
何世阳1,王朝晖2、龚盛荣1,3、中山三
收到:
修订过的:
在线:
出版:
关于作者:
支持单位:
摘要:视觉问答作为一种多模态任务,其瓶颈在于解决不同模式之间的融合问题。它不仅需要对图像中的视觉和文本有充分的理解,还需要能够对齐跨模式表示。注意机制的引入为多模式融合提供了有效途径。然而,以往的方法通常直接计算提取的图像特征,忽略了图像特征中包含的噪声和错误信息,并且大多数方法仅限于模式之间的浅层交互,没有考虑模式之间的深层语义信息。为了解决这个问题,提出了一种跨模式信息过滤网络(CIFN)。首先,将问题的特征作为监控信号,设计信息过滤模块对图像的特征信息进行过滤,使其更适合问题的表示。然后将图像特征和问题特征发送到跨模态交互层,分别对自注意和引导注意作用下的模态内和模态间关系进行建模,从而获得更细粒度的多模态特征。在VQA2.0数据集上进行了广泛的实验,实验结果表明,信息过滤模型的引入有效地提高了模型的精度,测试集的总体精度达到71.51%,与最先进的方法相比具有良好的性能。
关键词: 可视问答, 深度学习, 注意机制, 多模融合, 信息过滤
CLC编号:
何世阳、王朝辉、龚盛荣、钟山。基于交叉模式信息过滤的可视化问答网络[J]。计算机科学,2024,51(5):85-91。
0 / / 推荐
添加到引文管理器 尾注|样板客户经理|项目|BibTeX公司|参考Works
网址: https://www.jsjkx.com/EN/10.11896/jsjkx-230300202
https://www.jsjkx.com/EN/Y2024/V51/I5/85
引用