用于长期视频的时间对准网络

本文的目标是一个时间对准网络接收长期视频序列和相关文本句子，为了：（1）确定句子是否与视频对齐；（2）如果它是可对齐的，则确定其对齐方式。挑战在于训练大规模数据集的网络，如HowTo100M，关联的文本句子有明显的噪音，和仅在相关时弱对齐。

除了提出线形网络外，我们还做出四点贡献：（i）我们描述了一个一种新的协同训练方法，能够进行去噪和训练未使用手动注释的原始教学视频，尽管噪音很大；（ii）定线基准性能，我们手动管理一个10小时的子集HowTo100M，总共80个视频，带有稀疏的时间描述。我们提出的模型在HowTo100M上训练，在这方面优于强大的基线（CLIP、MIL-NCE）大幅度校准数据集；（iii）我们适用在零快照设置到多个下游的训练模型视频理解任务并达到最新水平结果，包括YouCook2上的文本视频检索，以及基于Breakfast-action的弱监督视频动作分割；（iv）我们使用自动对齐的HowTo100M注释进行端到端微调并在下游动作识别任务上获得改进的性能。

HTM-对齐是一个手动添加注释HowTo100M（HTM）数据集的80视频子集，以评估对准性能。这是从HTM食品和娱乐类别中随机抽样的测试集。这些视频不用于任何培训。

HTM-AA型指HowTo100M（HTM）数据集的自动对齐（AA）版本。这是我们时间校准网络的输出，也是本项目的最终目标。HTM-AA是一个大型成对视频文本数据集，自动获取，无需任何人工注释。在我们的论文表4中，我们表明它可以改进主干视觉表示。

我们提供HTM-AA版本-1其中包含247564个HTM视频（约占整个HTM的25%）。我们的论文表4和附录D.1中使用了该子集。

[新增]我们提供HTM-AA版本2其中包含1187123个HTM视频（约占整个HTM的99%）。此外，我们还提供了完整的模型输出，包括所有句子用于未来研究。

判刑HTM是原件吗如何达到100M（HTM）数据集，除了YouTube ASR（自动语音识别）文本被转换为完整的句子使用该方法在这里.

活动类别	判刑HTM	HTM-AA型
食物和娱乐	HTM-370K[&#x2714]	-
全部	HTM-1.2M[&#x2714]	HTM-AA-v1（25%子集）[&#x2714]
全部	HTM-1.2M[&#x2714]	HTM-AA-v2（全套）[&#x2714]

摘要

出版物

数据集摘要¶

数据集：HTM-Align¶

数据集：HTM-AA¶

数据集：判刑HTM¶

致谢