本材料旨在确保学术和技术工作的及时传播。版权及其所有权利由作者或其他版权所有者保留。 所有复制此信息的人都应遵守每个作者的版权所引用的条款和限制。 在大多数情况下,未经版权所有者明确许可,不得转载这些作品。
用于长期视频的时间对准网络
2022年IEEE计算机视觉和模式识别会议
下载出版物:
本文的目标是建立一个时间对齐网络,该网络接收长期视频序列和相关文本句子,以便:(1)确定句子是否与视频对齐;和(2)如果它是对齐的,则确定其对齐。面临的挑战是从大规模数据集训练此类网络,例如HowTo100M,其中相关的文本句子具有显著噪声,并且只有在相关时才弱对齐。 除了提出对齐网络之外,我们还做出了四个贡献:(i)我们描述了一种新的联合训练方法,该方法能够在原始教学视频上进行去噪和训练,而无需使用手动注释,尽管存在相当大的噪声;(ii)为了对对齐性能进行基准测试,我们手动策划了一个10小时的HowTo100M子集,总共80个视频,并进行了稀疏的时间描述。我们提出的模型经过HowTo100M训练,在该比对数据集上表现出明显优于强基线(CLIP,MIL-NCE);(iii)我们将训练好的零快照模型应用于多个下游视频理解任务,并取得了最新的结果,包括YouCook2上的文本视频检索和Breakfast action上的弱监督视频动作分割;(iv)我们使用自动对齐的HowTo100M注释对主干模型进行端到端微调,并在下游动作识别任务上获得改进的性能。
链接:
BibTex参考:
@诉讼中{Han22a,author=“Tengda Han、Weidi Xie和Andrew Zisserman”,title=“长期视频的时间对准网络”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2022”,}
数据库中的其他出版物: