基于Transformer紧凑编码的局部近重复视频检测算法

doi:10.11896/jsjkx.230300232

摘要

摘要：针对现有部分近重复视频检测算法存储消耗大、查询效率低、特征提取模块不考虑近重复帧之间细微的语义差异等问题，本文提出了一种基于Transformer的部分近重复视频检测算法。首先，提出了一种基于变换器的特征编码器，它可以学习大量近重复帧之间细微的语义差异。在帧特征编码过程中，通过自关注机制引入了帧区域的特征映射，有效地降低了特征的维数，同时增强了特征的表示能力。使用siam网络训练特征编码器，可以有效地学习无负样本的近重复帧之间的语义相似性。这样就不需要进行繁重而困难的负面示例注释工作，从而使培训过程更简单、更高效。其次，提出了一种基于视频自相似矩阵的关键帧提取方法。该方法可以从视频中提取丰富的、非冗余的关键帧，从而能够更全面地描述原始视频内容并改进算法性能。此外，这种方法大大减少了与存储和计算冗余关键帧相关的开销。最后，基于关键帧的低维、紧凑编码特征，使用基于图网络的时间对齐算法检测和定位部分近重复视频片段。该算法在公开的部分近重复视频检测数据集VCDB上取得了令人印象深刻的实验结果，并优于现有算法。

关键词： 部分近重复视频检测，变压器，视频自相似矩阵，关键帧提取

CLC编号：

TP391.4标准

王平、于振煌、卢磊。基于变压器低维压缩编码的部分近重复视频检测算法[J]。计算机科学，2024，51（5）：108-116。

工具书类

[1] 中国互联网络信息中心。第50次中国互联网发展统计报告[EB/OL]。http://www.cnnic.net.cn/NMediaFile/2022/0916/MAIN1663313008837KWI782STQL.pdf。
[2] HE S F，YANG X，JIANG C，等.用于分段视频拷贝检测的大规模综合数据集和拷贝覆盖感知评估协议[C]//IEEE/CVF计算机视觉和模式识别会议论文集。皮斯卡塔韦：IEEE出版社，2022:21086-21095。
[3] KORDOPATIS-ZILOS G，PAPADOPOULOS S，PATRAS I，et al.视觉：精细时空视频相似性学习[C]//IEEE/CVF计算机视觉国际会议论文集。皮斯卡塔韦：IEEE出版社，2019:6351-6360。
[4] GORDO A，ALMAZAN J，REVAUD J，等.图像检索中深度视觉表征的端到端学习[J]。国际计算机视觉杂志，2017124（2）：237-254。
[5] 埃尔·努比A，内华罗娃N，拉普泰夫I，等.图像检索用视觉变换器的训练[J].arXiv:2102.056442021。
[6] CARON M，TOUVRON H，MISRA I，等。自监督视觉变换器的新兴特性[C]//IEEE/CVF国际计算机视觉会议论文集。皮斯卡塔韦：IEEE出版社，2021:9650-9660。
[7] 王坤，陈春川，陈永乐，等.基于注意的深度度量学习在近重复视频检索中的应用[C]//IEEE/CVF模式识别国际会议论文集。皮斯卡塔韦：IEEE出版社，2021:5360-5367。
[8] HAN Z，HE X T，TANG M Q等。部分视频拷贝检测的视频相似性和对齐学习[C]//第29届ACM国际多媒体会议论文集。纽约：ACM，2021:4165-4173。
[9] 蒋C，黄金明，何素福，等.大规模基于内容的视频检索中的学习片段相似性和对齐[C]//第29届ACM国际多媒体会议论文集。纽约：ACM，2021:1618-1626。
[10] DOUZE M，JEGOU H，SCHMID C.一种基于图像的时空后滤波视频拷贝检测方法[J]。IEEE多媒体汇刊，2010:12（4）：257-266。
[11] 姜永光，姜永德，王俊杰。视频部分拷贝检测的大型数据库[C]//欧洲计算机视觉会议论文集。柏林：施普林格，2014:357-371。
[12] TAN H K，NGO C W，HONG R，et al.基于视觉时间一致性的部分近重复视频可伸缩检测[C]//ACM多媒体国际会议论文集。纽约：ACM，2009:145-154。
[13] POULLOT S，TSUKATANI S，NGUYEN A P，等.具有显式特征映射的时间匹配内核[C]//美国计算机学会多媒体国际会议论文集。纽约：ACM，2015:381-390。
[14] BARALDI L，DOUZE M，CUCCHIARA R，et al.Lamv:学习将视频与核心时间层对齐和匹配[C]//IEEE/CVF计算机视觉和模式识别会议论文集。皮斯卡塔韦：IEEE出版社，2018:7804-7813。
[15] SIMONYAN K，ZISSERMAN A.用于大规模图像识别的超深卷积网络[C]//学习表征国际会议论文集.2015:1-14。
[16] KORDOPATIS-ZILOS G，PAPADOPOULOS S，PATRAS I等。带深度度量学习的音频重复视频检索[C]//IEEE国际计算机视觉研讨会论文集。皮斯卡塔韦：IEEE出版社，2017:347-356。
[17] DOSOVITSKIY A，BEYER L，KOLESNIKOV A，et al.动画价值16x16个单词：变形金刚用于大规模图像识别[C]//学习表征国际会议论文集.2021:1-21。
[18] VASWANI A，SHAZEER N，PARMAR N，et al.注意你所需要的一切[C]//神经信息处理系统国际会议论文集。剑桥：麻省理工学院出版社，2017:5998-6008。
[19] CHEN X L，HE K M。探索简单连词表示学习[C]//IEEE/CVF计算机视觉和模式识别会议论文集。皮斯卡塔韦：IEEE出版社，2021:15750-15758。
[20] GRILL J B，STRUB F，ALTCH EF，et al.引导你自己的潜能：自我监督学习的新方法[C]//国际会议神经信息处理系统会议记录。剑桥：麻省理工学院出版社，2020:21271-21284。
[21]姜永光，王俊杰.视频中的部分视频拷贝检测：一种常用方法的基准和评估[J]。IEEE大数据汇刊，2016,2（1）：32-42。
[22]黄X，王X，LV W，等.PPYOLOv2：一种实用的目标检测器[J].arXiv:2104194192021。
[23]DOUZE M，REVAUD J，VERBEEK J，et al.视频检索和时间对齐的循环时间编码[J]。国际计算机视觉杂志，2015119:291-306。

相关文章15

[1]	张建良、李阳、朱青山、薛红玲、马俊伟、张丽霞、毕生。基于双域稀疏变压器的变电站设备故障报警算法[J] ●●●●。计算机科学，2024，51（5）：62-69。
[2]	周瑜、陈志华、盛斌、梁磊。用于图像去叠的多尺度累进变换器[J] ●●●●。计算机科学，2024，51（5）：117-124。
[3]	奚莹，吴雪萌，崔晓辉。基于变压器的节点影响排序模型[J] ●●●●。计算机科学，2024，51（4）：106-116。
[4]	王文杰、杨燕、景丽丽、王杰、刘燕。LNG-Transformer：一种基于多尺度信息交互的图像分类网络[J] ●●●●。计算机科学，2024，51（2）：189-195。
[5]	张峰、黄世新、华强、董春如。基于深度卷积神经网络和视觉变换的新型图像分类模型[J] ●●●●。计算机科学，2024，51（2）：196-204。
[6]	黄汉强、邢云兵、沈建飞、范飞毅。基于LpTransformer网络的手语动画拼接模型[J] ●●●●。计算机科学，2023，50（9）：184-191。
[7]	滕思航，王烈，李亚。结合发音-字符表示转换的非自回归变换汉语语音识别[J] ●●●●。计算机科学，2023，50（8）：111-117。
[8]	朱玉英、郭燕、万一钊、田凯。基于分支熵分割概率模型的新词检测[J] ●●●●。计算机科学，2023，50（7）：221-228。
[9]	白正尧、范胜兰、卢千杰、周雪。基于CT图像语义的COVID-19实例分割与分类网络[J] ●●●●。计算机科学，2023，50（6A）：220600142-9。
[10]	杨京毅、李芳、康晓东、王晓天、刘汉清、韩俊玲。基于SegFormer的超声图像分割[J] ●●●●。计算机科学，2023，50（6A）：220400273-6。
[11]	杨晓宇、李超、陈顺耀、李浩亮、尹广强。基于Transformer的文本图像跨模式检索[J] ●●●●。计算机科学，2023，50（4）：141-148。
[12]	梁伟良，李跃，王鹏飞。基于TransEditor的轻量级人脸生成方法及其应用规范[J] ●●●●。计算机科学，2023，50（2）：221-230。
[13]	曹金娟、钱忠、李培峰。基于联合模型的端到端事件真实性识别[J] ●●●●。计算机科学，2023，50（2）：292-299。
[14]	段梦萌、金成。用于时间序列分类的变压器特征融合网络[J] ●●●●。计算机科学，2023，50（12）：97-103。
[15]	陈罗轩、林成创、郑兆良、莫泽峰、黄新毅、赵甘森。计算机视觉中的变压器综述[J] ●●●●。计算机科学，2023，50（12）：130-147。

韵律学

已查看

全文

摘要

引用

共享

讨论

基于变压器低维压缩编码的部分近重复视频检测算法

PDF（PC）

摘要

引用这篇文章

分享这篇文章

工具书类

相关文章15

韵律学

评论

推荐0