摘要
本文的目标是一个时间对准网络接收长期视频序列和相关文本句子,为了:(1)确定句子是否与视频对齐;(2)如果它是可对齐的,则确定其对齐方式。挑战在于训练大规模数据集的网络,如HowTo100M,关联的文本句子有明显的噪音,和仅在相关时弱对齐。
除了提出线形网络外,我们还做出四点贡献:(i)我们描述了一个一种新的协同训练方法,能够进行去噪和训练未使用手动注释的原始教学视频,尽管噪音很大;(ii)定线基准性能,我们手动管理一个10小时的子集HowTo100M,总共80个视频,带有稀疏的时间描述。我们提出的模型在HowTo100M上训练,在这方面优于强大的基线(CLIP、MIL-NCE)大幅度校准数据集;(iii)我们适用在零快照设置到多个下游的训练模型视频理解任务并达到最新水平结果,包括YouCook2上的文本视频检索,以及基于Breakfast-action的弱监督视频动作分割;(iv)我们使用自动对齐的HowTo100M注释进行端到端微调并在下游动作识别任务上获得改进的性能。
出版物
|
用于长期视频的时间对准网络。
腾达·韩,谢伟迪,安德鲁·齐瑟曼
[口服]CVPR,2022年
@诉讼中{Han22,author=“Tengda Han、Weidi Xie和Andrew Zisserman”,title=“长期视频的时间对准网络”,booktitle=“CVPR”,年=“2022”,}
|
数据集摘要¶
- 评估数据集:
- 培训数据集:
活动类别 |
判刑HTM |
HTM-AA型 |
食物和娱乐 |
HTM-370K[✔] |
- |
全部 |
HTM-1.2M[✔] |
HTM-AA-v1(25%子集)[✔] |
HTM-AA-v2(全套)[✔] |
- 元数据:
-
HowTo100M视频标题(77MB json)[下载]
数据集:HTM-Align¶
HTM-对齐是一个手动添加注释HowTo100M(HTM)数据集的80视频子集,以评估对准性能。这是从HTM食品和娱乐类别中随机抽样的测试集。这些视频不用于任何培训。
对于来自HTM数据集的视频,注释器
- (1) 如果ASR中的句子在视觉上与视频一致,请进行注释,
- (2) 如果可以对齐,请更改句子的开始和结束时间戳以与视觉内容对齐。
下载HTM Align(616KB json)|说明
数据集:HTM-AA¶
HTM-AA型指HowTo100M(HTM)数据集的自动对齐(AA)版本。这是我们时间校准网络的输出,也是本项目的最终目标。HTM-AA是一个大型成对视频文本数据集,自动获取,无需任何人工注释。在我们的论文表4中,我们表明它可以改进主干视觉表示。
对于HowTo100M数据集的视频,HTM-AA提供:
- (1) 取自YouTube ASR的可视对齐句子,
- (2) 它们相应的视频时间戳(以秒为单位)。
我们提供HTM-AA版本-1其中包含247564个HTM视频(约占整个HTM的25%)。我们的论文表4和附录D.1中使用了该子集。
[新增]我们提供HTM-AA版本2其中包含1187123个HTM视频(约占整个HTM的99%)。此外,我们还提供了完整的模型输出,包括所有句子用于未来研究。
下载:HTM-AA-v2(2.9GB csv)|HTM-AA-v2(全输出,7.5GB焦油)|HTM-AA-v1(329MB csv)
统计|说明
数据集:判刑HTM¶
判刑HTM是原件吗如何达到100M(HTM)数据集,除了YouTube ASR(自动语音识别)文本被转换为完整的句子使用该方法在这里.
对于来自HowTo100M数据集的视频,判刑HTM提供:
- (1) 所有ASR句子YouTube上的,
- (2) 起初的每个句子的开始和结束时间戳(以秒为单位)。
我们提供了两个版本,一个子集和完整集:
下载HTM-1.2M(9.9GB json)|下载HTM-1.2M视频ID(14.3MB txt)|统计
致谢
本研究的资金由EPSRC提供VisualAI计划拨款EP/T028572/1,皇家学会研究教授RP\R1\191132和Google-DepMind研究生奖学金。我们感谢Charig Yang、Guanqi Zhan和Chuhan Zhang的校对。
网页模板修改自张曦轲.