本材料旨在确保学术和技术工作的及时传播。版权及其所有权利由作者或其他版权所有者保留。所有复制此信息的人都应遵守每个作者的版权所引用的条款和限制。在大多数情况下,未经版权所有者明确许可,不得转载这些作品。



时间冻结:一种用于端到端检索的视频和图像联合编码器

2021年IEEE国际计算机视觉会议
下载出版物:贝恩21.pdf[4.2Mo] 
我们在这项工作中的目标是视频-文本检索,特别是实现高效文本-视频检索的联合嵌入。这一领域的挑战包括可视化体系结构的设计和训练数据的性质,因为可用的大规模视频文本训练数据集(如HowTo100M)具有噪声,因此只有通过大量计算才能实现大规模的竞争性能。我们将在本文中解决这两个挑战。我们提出了一个端到端可训练模型,该模型旨在利用大规模图像和视频字幕数据集。我们的模型是对最近的ViT和Timesformer架构的改编和扩展,包含了空间和时间上的注意力。该模型具有灵活性,可以独立或结合图像和视频文本数据集进行训练。它通过课程学习时间表进行训练,首先将图像视为视频的“冻结”快照,然后在视频数据集上进行训练时,逐渐学会关注时间上下文的增加。我们还提供了一个新的视频文本预处理数据集WebVid-2M,由200多万个视频组成,这些视频带有从互联网上刮来的弱字幕。尽管对较小数量级的数据集进行了培训,但我们表明,该方法在标准下游视频检索基准(包括MSR-VTT、DiDeMo和MSVD)上产生了最先进的结果。

BibTex参考:

@诉讼中{Bain21,author=“Max Bain和Arsha Nagrani以及G{”u}l Varol和Andrew Zisserman“,title=“时间冻结:用于端到端检索的联合视频和图像编码器”,booktitle=“IEEE计算机视觉国际会议”,年=“2021”,}

数据库中的其他出版物: