提供这些材料是为了确保学术和技术工作的及时传播。版权及其所有权利由作者或其他版权所有者保留。所有复制此信息的人都应遵守每个作者的版权所引用的条款和限制。在大多数情况下,未经版权所有者明确许可,不得转载这些作品。



个性化剪辑或:如何查找假期视频

B.科尔巴,A.齐瑟曼
2022年英国机器视觉会议
下载出版物:korbar22.pdf[12.1Mo] 
在本文中,我们的目标是一个能够检索图像或视频对应于来自大量图像集的个性化复合查询或视频。具体来说,给定一个由人脸图像和文本组成的查询场景描述或动作描述,我们检索相应的图像或视频片段到此复合查询。我们做出了三个贡献:(1)我们提出CLIP-PAD该模型能够在给定个性化复合查询的情况下检索图像/视频。我们通过建立在预先训练的CLIP视觉文本模型上实现这一点,但具有通用的查询功能,并提供一种针对目标进行个性化设置的机制由他们的脸指定的人;(2) 我们共享一个新的名人行动(CiA)数据集带有自动生成的标识、位置和动作注释的电影可用于评估复合检索任务;(3) 我们评估我们的模型两个数据集上的性能:名人在地点中对名人进行复合查询和场景描述;以及我们的新CiA,用于对名人和动作描述。我们用自由形式的查询演示了模型的灵活性并与以前的方法进行比较。

BibTex参考:

@诉讼中{Korbar22,author=“Bruno Korbar和Andrew Zisserman”,title=“个性化剪辑或:如何查找度假视频”,booktitle=“英国机器视觉会议”,年=“2022”,}

数据库中的其他出版物: