A.Nagrani,C.太阳,D.罗斯,R.Suthankar,C.施密德,A.齐瑟曼
2020年计算机视觉和模式识别会议
@进行中{Nagrani20c,author=“Arsha Nagrani、Chen Sun、David Ross、Rahul Sukthankar、Cordelia Schmid和Andrew Zisserman”,title=“Speech2Action:行动识别的跨模式监督”,booktitle=“CVPR”,年=“2020”,}
单凭对话就可以猜测人类的行为吗?在这项工作中,我们调查了电影中口语和动作之间的联系。我们注意到电影剧本描述了动作,也包含了人物的言语,因此可以在没有额外监督的情况下学习这种关联。我们训练基于BERT的演讲2行动对一千多部电影剧本进行分类,从转录的语音片段中预测动作标签。然后,我们将该模型应用于大型未标记电影语料库的语音片段(288K部电影中的188M个语音片段)。利用该模型的预测,我们获得了800K以上视频片段的弱动作标签。通过对这些视频片段的培训,我们在标准动作识别基准上展示了卓越的动作识别性能,而无需使用单个手动标记的动作示例。