2022年英国机器视觉会议
@诉讼中{Korbar22,author=“Bruno Korbar和Andrew Zisserman”,title=“个性化剪辑或:如何查找假期视频”,booktitle=“英国机器视觉会议”,年份=“2022”,}
在本文中,我们的目标是一个能够检索图像或视频对应于来自大量图像集的个性化复合查询或视频。具体来说,给定一个由人脸图像和文本组成的查询场景描述或动作描述,我们检索相应的图像或视频片段到此复合查询。我们做出了三个贡献:(1)我们提出CLIP-PAD该模型能够在给定个性化复合查询的情况下检索图像/视频。我们通过建立一个预训练的CLIP视文本模型来实现这一点,该模型具有复合,但通用的查询功能,并提供了一种机制来针对目标进行个性化设置由他们的脸指定的人;(2) 我们共享一个新的名人行动(CiA)数据集带有自动生成的标识、位置和动作注释的电影可用于评估复合检索任务;(3) 我们评估我们的模型两个数据集上的性能:名人在地点中对名人进行复合查询和场景描述;以及我们的新CiA,用于对名人和动作描述。我们用自由形式的查询演示了模型的灵活性并与以前的方法进行比较。