欢迎参加首届浓缩电影挑战赛!

集中:这一挑战的焦点是对电影中高层叙事结构的长期理解。

概述:在挑战中,参与者被邀请构建一个系统,使用相应的高级自然语言描述和多个预训练专家模型的大量预先计算的视觉特征,从电影中检索2-3分钟的视频片段。每个2-3分钟的剪辑都是电影中的关键场景,每个都代表了故事情节中的重要部分。每个剪辑都附有描述故事情节的高级语义描述。这包括动机角色、动作、场景、对象、交互和关系。参与者将使用新的挑战版本的压缩电影数据集(CMD)对其检索系统进行培训和测试。

动机:社区中越来越多的人致力于开发视频理解技术,这些技术超越了从裁剪的短时间片段[1,2,3]中进行动作分类,并朝着从更长期、更复杂的片段中学习的方向发展视频,具有更高层次的抽象[4,5,6]。然而,这项艰巨任务的进展相对缓慢。这在一定程度上是由于没有合适的数据集,但也由于任务框架的困难什么我们对某种高级抽象感兴趣,在哪里可以找到相关的注释?

电影和电视剧为通过理解故事情节来测试这种视频理解提供了理想的数据来源,故事情节涉及角色关系、动机和互动等高级概念[7,8,9,10]。这个压缩电影数据集[10] 通过几个关键场景以及附带的高级语义描述,提供电影整个故事情节的浓缩快照,并将长格式视频理解的挑战设定为文本到视频检索任务。这是这项挑战的重点。

对于更广泛的社区来说,研究长格式视频理解的另一个障碍是直接从原始数据输入进行训练的计算成本。为了减轻这一成本,从而将这一挑战扩大到广大研究人员面临的挑战是,要训练检索系统完全从预计算的视觉特征,从各种预训练的专家模型中提取。



获胜者将被邀请在第四次视觉与语言闭环研讨会,与ICCV 2021年

这个CodaLab提交服务器现在可以提交测试结果了!

时间表

这是挑战的大致时间表。

8月初--发布数据集的挑战版本,包括新的训练和验证分割,以及评估代码。
8月初--发布测试数据,并打开提交服务器以提交测试集上的结果以进行评估。
10月10日--正在关闭质询提交服务器。
10月17日--获奖者在CLVL车间(全天),ICCV 2021。

数据和预计算特征

数据和预计算要素的详细信息和链接

数据

用于此挑战的数据集是一个新的压缩电影数据集的挑战版。这与原始数据集在三个方面不同:1) 它得到了扩展,增加了新的列车、val和测试路段。2) 以较低的帧速率提取预计算特征,以降低参与者的下载负担。3) 挑战中不考虑面部ID特征。数据集的挑战版本包含大约35000个来自3700部电影的视频剪辑。有关压缩电影数据集的更多信息,请参阅在这里.

预计算特征和元数据

在检索系统中,与处理原始视频输入相关的计算成本很大。因此,这一挑战的焦点是使用来自几个预训练专家模型的预计算特征学习检索系统。我们希望,计算成本的降低有助于更广泛地参与这一挑战。我们从各种不同的预训练模型中提供预计算特征,供挑战参与者使用。每个视频剪辑此外,还附带了元数据,如流派、演员名单和剪辑来源的电影名称。可以找到提供的功能和元数据列表在这里.

下载数据集

有关下载数据集的链接,请发送电子邮件这个地址,将授予从OneDrive下载的权限。在一个tar.gz文件中,数据集的总容量为117GB。有关数据集结构的更多详细信息和示例数据加载器可以在官方压缩电影挑战库。

预览数据集

示例剪辑和相关元数据

“尽管眼镜蛇Kai非法行动…”
《空手道小子》(1984)
“用骨头做武器,猿会打……”
2001:太空漫游(1968)
“科纳和凯坎巴斯帮助迈尔斯投球……”
硬球(2001)

基线模型和代码

基线存储库的详细信息和链接。

基线代码在官方压缩电影挑战库。此存储库包含使用嵌入式专家组合检索方法。此存储库还包含用于生成结果文件以提交给CodaLab服务器的代码。


韵律学

对于挑战的每一项,我们都会衡量检索系统的性能。使用的性能度量是几何平均值。具体来说,对于具有N个样本的评估集,我们计算每个样本:


这里\({右}_{i,k}\in[0,1]\)是召回@k对于评估集中的第i个样本,当在顶部检索到正确的视频时,该值等于1k排名结果。

正在提交

隐藏测试集的提交详细信息,以及获取公共验证集结果的详细信息。

验证:向参与者提供视频和描述之间的基本事实对应。评估代码可用在这里用于评估检索性能。

测试:视频和测试集描述之间的基本事实对应被隐藏。检索结果将提交给公共CodaLab服务器有关如何准备提交结果的详细信息,请参见CodaLab和Github页面。


常见问题解答

Q: 我可以使用数据集的非挑战版本吗?
A: 否,您必须使用数据集的质询版本(在这里). 数据集的非挑战版本(与论文一起发布)包含不允许在本挑战中使用的功能。

Q: 谁可以参与挑战?
A: 我们邀请任何研究人员参与挑战(无论是学术界还是工业界)。我们只请求与机构关联的有效官方电子邮件地址,以便在提交服务器上注册。这样我们可以限制每个团队的提交数量。不要使用您的个人电子邮件进行注册。

Q: 我可以接受外部数据培训吗?
A: 不可以。在这个挑战中,只允许对Condensed Movies数据集中的功能进行培训。提供的功能将与从不同数据中提取的其他外部功能不兼容。

Q: 我可以增加功能吗?
A: 是的。我们邀请并鼓励增加所提供的功能。

Q: 我可以提取自己的文本特征吗?
A: 是的。我们为文本描述和字幕提供原始文本。您可以使用任何预训练模型来提取文本特征,但您不能提取自己的视觉特征。

Q: 如果我对挑战有疑问怎么办?
A: 有关挑战的问题,请通过电子邮件联系组织者(在这里).

Q: 我们可以从原始视频帧中进行端到端的学习吗?
A: 在这个挑战中,我们专注于从预先提取的特征中学习。您无法提取自己的特征,也无法从端到端的视频帧中学习。我们不提供带有数据集的视频帧。

Q: 我们应该比较一下浓缩电影纸作为基线?
A: 不,论文中的数字不是用挑战版本的数据集计算的,因此不要使用这些数字进行比较。

工具书类

[1]Kay,W.、Carreira,J.、Simonyan,K.、Zhang,B.、Hillier,C.、Vijayanarasimhan,S.、Viola,F.、Green,T.、Back,T.,Natsev,P.、Suleyman,M.、Zisserman,A.:动力学人类行为视频数据集。2017年CoRR

[2]Gu,C.、Sun,C.、Ross,D.A.、Vondrick,C.、Pantofaru,C.,Li,Y.、Vijayanarasimhan,S.、Toderici,G.、Ricco,S.,Sukthankar,R.、Schmid,C.、Malik,J.:{AVA}:时空局部化原子视觉行为的视频数据集。2018年CVPR

[3]Monfort,M.,Andonian,A.,Zhou,B.,Ramakrishnan,K.,Bargal,S.A.,Yan,Y.,Brown,L.,Fan,Q.,Gutfreund,D.,Vondrick,C.,其他:时刻数据集:用于事件理解的100万视频。2019年PAMI

[4]Sener,O.,Zamir,A.R.,Savarese,S.,Saxena,A.:视频集的无监督语义分析。2015年ICCV

[5]Alayrac,J.B.,Bojanowski,P.,Agrawal,N.,Sivic,J.,Laptev,I.,Lacoste-Julien,S.:无监督学习叙事教学视频。2016年CVPR

[6]Miech,A.,Zhukov,D.,Alayrac,J.B.,Tapaswi,M.,Laptev,I.,Sivic,J.:HowTo100M:通过观看亿万个有声视频剪辑学习文本视频嵌入。2019年ICCV

[7]Tapaswi,M.、Bauml,M.和Stiefelhagen,R.:故事图:将角色交互可视化为时间轴。2014年CVPR

[8]Rohrbach,A.,Torabi,A.,Rohrback,M.,Tandon,N.,Pal,C.,Larochelle,H.,Courville,A.,Schiele,B.:电影描述。2017国际JCV

[9]Tapaswi,M.,Zhu,Y.,Stiefelhagen,R.,Torralba,A.,Urtasun,R.,Fidler,S.:电影质量保证:通过问答理解电影中的故事。CVPR 2016

[10]Bain,M.,Nagrani,A.,Brown,A.,Zisserman,A.:浓缩电影:基于故事的检索与上下文嵌入。ACCV 2020


联系人

有关挑战的任何问题,请联系安德鲁·布朗马克斯·贝恩.

致谢

这项工作得到了EPSRC计划拨款的支持参见bibyte EP/M013774/1。Max由一家尼尔森学生身份,Arsha由谷歌博士奖学金,Andrew Brown由EPSRC公司DTA学生资格。我们很感激塞缪尔·奥尔巴尼感谢他在特征提取方面的帮助。