基于Transformer紧凑编码的局部近重复视频检测算法

doi:10.11896/jsjkx.230300232

日本››2024,第51卷››问题（5）: 108-116.数字对象标识：10.11896/jsjkx.230300232

• 计算机图形学&多媒体 • 上一篇下一篇

基于变压器紧凑编码的局部近重复视频检测算法

王萍, 余圳煌, 鲁磊

西安交通大学信息与通信工程学院西安 710049

收稿日期:2023-03-30 修回日期:2023-10-07 出版日期:2015年5月24日 发布日期:2024-05-08
通讯作者:鲁磊(lu.lei@xjtu.edu.cn)
作者简介:(ping.fu@xjtu.edu.cn)

基于变压器低维压缩编码的部分近重复视频检测算法

王平、于振煌、卢磊

西安交通大学信息与通信工程学院，西安710049

收到：2023-03-30 修订过的：2023-10-07 在线：2015年5月24日 出版：2024-05-08
关于作者：王平，1976年出生，博士，副教授。她的主要研究方向包括图像处理和视频分析。
陆磊，1988年生，博士，讲师，中共党员（编号：J5150M）。他的主要研究兴趣包括图像处理、深度学习和信号分析。

美国/摘要

摘要：针对现有局部近重复视频检测算法特征存储消耗大、整体查询效率低、提取特征时并未考虑近重复帧之间细微的语义差异等问题,文中提出了一种基于变压器紧凑编码的局部近重复视频检测算法。首先,提出了一个基于变压器的特征编码器,其学习了大量近重复帧之间细微的语义差异,可以在编码帧特征时对各个区域特征图引入自注意力机制,在有效降低帧特征维度的同时也提高了编码后特征的表示性。该特征编码器通过孪生网络训练得到,该网络不需要负样本就可以有效学习近重复帧之间的相似语义信息,因此无需沉重和困难的难负样本标注工作,使得训练过程更加简易和高效。其次,提出了一个基于视频自相似度矩阵的关键帧提取方法,可以从视频中提取丰富但不冗余的关键帧,从而使关键帧特征序列能够更全面地描述原视频内容,提升算法的性能,同时也大幅减少了存储和计算冗余关键帧带来的开销。最后,基于关键帧的低维紧凑编码特征,采用基于图网络的时间对齐算法,实现局部近重复视频片段的检测和定位。该算法在公开的局部近重复视频检测数据集VCDB公司上取得了优于现有算法的实验性能。

关键词: 局部近重复视频检测, 变压器，视频自相似度矩阵, 关键帧提取

摘要：针对现有部分近重复视频检测算法存在的存储消耗高、查询效率低、特征提取模块没有考虑近重复帧之间细微的语义差异等问题，提出了一种基于Transformer的部分近重复检测算法。首先，提出了一种基于变换器的特征编码器，它可以学习大量近重复帧之间细微的语义差异。在帧特征编码过程中，引入了具有自注意机制的帧区域特征图，有效地降低了特征的维数，同时增强了特征的表示能力。使用siam网络训练特征编码器，可以有效地学习无负样本的近重复帧之间的语义相似性。这样就不需要进行繁重而困难的负面示例注释工作，从而使培训过程更简单、更高效。其次，提出了一种基于视频自相似矩阵的关键帧提取方法。该方法可以从视频中提取丰富的、非冗余的关键帧，从而能够更全面地描述原始视频内容并改进算法性能。此外，这种方法大大减少了与存储和计算冗余关键帧相关的开销。最后，基于关键帧的低维、紧凑编码特征，使用基于图网络的时间对齐算法检测和定位部分近重复视频片段。该算法在公开的部分近重复视频检测数据集VCDB上取得了令人印象深刻的实验结果，并优于现有算法。

关键词： 部分近重复视频检测，变压器，视频自相似矩阵，关键帧提取

中图分类号:

TP391.4标准

王萍, 余圳煌, 鲁磊.基于变压器紧凑编码的局部近重复视频检测算法[J] ●●●●。计算机科学, 2024, 51(5): 108-116. https://doi.org/10.11896/jsjkx.230300232

王平，于振煌，卢磊。基于Transformer低维压缩编码的部分近重复视频检测算法[J] ●●●●。计算机科学，2024，51（5）：108-116。https://doi.org/10.11896/jsjkx.230300232

参考文献

[1] 中国互联网络信息中心。第50次中国互联网发展统计报告[EB/OL]。http://www.cnnic.net.cn/NMediaFile/2022/0916/MAIN1663313008837KWI782STQL.pdf。
[2] HE S F，YANG X，JIANG C，等.用于分段视频拷贝检测的大规模综合数据集和拷贝覆盖感知评估协议[C]//IEEE/CVF计算机视觉和模式识别会议论文集。皮斯卡塔韦：IEEE出版社，2022:21086-21095。
[3] KORDOPATIS-ZILOS G，PAPADOPOULOS S，PATRAS I，et al.视觉：精细时空视频相似性学习[C]//IEEE/CVF计算机视觉国际会议论文集。皮斯卡塔韦：IEEE出版社，2019:6351-6360。
[4] GORDO A，ALMAZAN J，REVAUD J，等.图像检索中深度视觉表征的端到端学习[J]。国际计算机视觉杂志，2017124（2）：237-254。
[5] 埃尔·努比A，内华罗娃N，拉普泰夫I，等.图像检索用视觉变换器的训练[J].arXiv:2102.056442021。
[6] CARON M，TOUVRON H，MISRA I，等。自监督视觉变换器的新兴特性[C]//IEEE/CVF国际计算机视觉会议论文集。皮斯卡塔韦：IEEE出版社，2021:9650-9660。
[7] 王坤，陈春川，陈永乐，等.基于注意的深度度量学习在近重复视频检索中的应用[C]//IEEE/CVF模式识别国际会议论文集。皮斯卡塔韦：IEEE出版社，2021:5360-5367。
[8] 韩忠，何晓天，唐敏秋，等。部分视频拷贝检测中的视频相似性和对齐学习[C]//第29届ACM多媒体国际会议论文集。纽约：ACM，2021:4165-4173。
[9] 蒋C，黄金明，何素福，等.大规模基于内容的视频检索中的学习片段相似性和对齐[C]//第29届ACM国际多媒体会议论文集。纽约：ACM，2021:1618-1626。
[10] DOUZE M，JEGOU H，SCHMID C.一种基于图像的时空后滤波视频拷贝检测方法[J]。IEEE多媒体汇刊，2010:12（4）：257-266。
[11] 姜永光，姜永德，王俊杰。视频部分拷贝检测的大型数据库[C]//欧洲计算机视觉会议论文集。柏林：施普林格，2014:357-371。
[12] TAN H K，NGO C W，HONG R，et al.基于视觉时间一致性的部分近重复视频可伸缩检测[C]//ACM多媒体国际会议论文集。纽约：ACM，2009:145-154。
[13] POULLOT S，TSUKATANI S，NGUYEN A P，等.具有显式特征映射的时间匹配内核[C]//美国计算机学会多媒体国际会议论文集。纽约：ACM，2015:381-390。
[14] BARALDI L，DOUZE M，CUCCHIARA R，et al.Lamv:学习将视频与核心时间层对齐和匹配[C]//IEEE/CVF计算机视觉和模式识别会议论文集。皮斯卡塔韦：IEEE出版社，2018:7804-7813。
[15] SIMONYAN K，ZISSERMAN A.用于大规模图像识别的超深度卷积网络[C]//国际学习表征会议论文集。2015:1-14。
[16] KORDOPATIS-ZILOS G，PAPADOPOULOS S，PATRAS I，et al.具有深度度量学习的耳朵重复视频检索[C]//IEEE计算机视觉研讨会论文集。皮斯卡塔韦：IEEE出版社，2017:347-356。
[17] DOSOVITSKIY A，BEYER L，KOLESNIKOV A，et al.动画价值16x16个单词：变形金刚用于大规模图像识别[C]//学习表征国际会议论文集.2021:1-21。
[18] VASWANI A，SHAZEER N，PARMAR N，et al.注意你所需要的一切[C]//神经信息处理系统国际会议论文集。剑桥：麻省理工学院出版社，2017:5998-6008。
[19] CHEN X L，HE K M。探索简单连词表示学习[C]//IEEE/CVF计算机视觉和模式识别会议论文集。皮斯卡塔韦：IEEE出版社，2021:15750-15758。
[20] GRILL J B，STRUB F，ALTCH EF，et al.引导你自己的潜能：自我监督学习的新方法[C]//国际会议神经信息处理系统会议记录。剑桥：麻省理工学院出版社，2020:21271-21284。
[21]姜永光，王俊杰.视频中的部分视频拷贝检测：一种常用方法的基准和评估[J]。IEEE大数据汇刊，2016,2（1）：32-42。
[22]黄X，王X，LV W，等.PPYOLOv2：一种实用的目标检测器[J].arXiv:2104194192021。
[23]DOUZE M，REVAUD J，VERBEEK J，et al.视频检索和时间对齐的循环时间编码[J]。国际计算机视觉杂志，2015119:291-306。

韵律学

已查看

全文

摘要

引用

共享

讨论

基于变压器紧凑编码的局部近重复视频检测算法

基于变压器低维压缩编码的部分近重复视频检测算法

PDF（PC）

美国/摘要

引用本文

文

参考文献

相关文章0

韵律学

本文评价

推荐阅读0