计算机工程与应用››2024,第60卷››问题(4): 1-20.内政部:10.3778/j.issn.1002-8331.2306-0382

• 热点与综述 • 上一篇   下一篇

视频文本跨模态检索研究综述

陈磊,习怡萌,刘立波  

  1. 宁夏大学 信息工程学院,银川 750021
  • 出版日期:2024-02-15 发布日期:2024-02-15

视频文本跨模式检索综述

陈雷、奚一萌、刘立波  

  1. 宁夏大学信息工程学院,银川750021
  • 在线:2024-02-15 出版:2024-02-15

摘要:模态代表着数据特定的存在形式,不同模态数据的快速增长,使得多模态学习受到广泛关注。跨模态检索作为多模态学习的一个重要分支,在图文方面已得到显著发展。然而视频相对于图像而言承载了更多模态的数据,也包含更广泛的信息,能够满足用户对信息检索全面性、灵活性的要求,近年来逐渐成为跨模态检索的研究热点。为全面认识和理解视频文本跨模态检索及其前沿工作,对现有代表性方法进行了梳理和综述。首先归纳分析了当前基于深度学习的单向、双向视频文本跨模态检索方法,对每类方法中的经典工作进行了详细分析并阐述了优缺点。接着从实验的角度给出视频文本跨模态检索的基准数据集和评价指标,并在多个常用基准数据集上比较了一些典型方法的性能。最后讨论了视频文本跨模态检索的应用前景、待解决问题及未来研究挑战。

关键词: 多模态, 跨模态检索, 深度学习, 特征提取

摘要:模式定义了数据存在的具体形式。各种模态数据类型的迅速扩展使多模态学习成为人们关注的焦点。作为该领域的一个重要分支,跨模式检索取得了显著进步,尤其是在图像和文本的集成方面。然而,与图像相反,视频封装了更丰富的模态数据数组,并提供了更广泛的信息范围。这种丰富性与不断增长的用户对全面且适应性强的信息检索解决方案的需求非常吻合。因此,近年来,视频文本跨模式检索已成为一个新兴的研究领域。为了深入理解视频文本跨模式检索及其最新发展,对现有的代表性方法进行了系统的回顾和总结。首先,重点分析了当前基于深度学习的单向和双向视频文本跨模式检索方法。这项分析包括对每个类别中的开创性作品进行深入探索,突出其优势和劣势。随后,讨论转向实验观点,介绍了特定于视频文本跨模式检索的基准数据集和评估指标。比较了几种标准方法在基准数据集中的性能。最后,讨论了视频文本跨模式检索的应用前景和未来的研究挑战。

关键词: 多模态, 跨模式检索, 深度学习, 特征提取