2024年IEEE计算机视觉和模式识别会议
@诉讼中{Han24,author=“Tengda Han和Max Bain以及Arsha Nagrani和G{”u}l Varol和Weidi Xie以及Andrew Zisserman“,title=“{AutoAD III}:前传——回到像素”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2024”,}
为电影生成音频描述(AD)是一项具有挑战性的任务,需要细粒度的视觉理解以及对角色及其名称的认识。目前,由于缺乏合适的训练数据,用于生成AD的可视化语言模型受到了限制,并且由于使用了非AD领域专用的性能度量,这些模型的评估也受到了阻碍。在本文中,我们做出了三点贡献:(i) 我们提出了两种使用对齐视频数据构建AD数据集的方法,并使用这些方法构建训练和评估数据集。这些数据集将公开发布;(ii)我们开发了一种基于Q-form的架构,该架构使用冻结的预处理视觉编码器和大型语言模型,接收原始视频并生成AD;以及(iii)我们提供了新的评估指标,以对与人的绩效匹配良好的AD质量进行基准测试。总之,我们改进了AD生成的最新技术。
2023年IEEE计算机视觉和模式识别会议
@诉讼程序{Han23,author=“Tengda Han和Max Bain以及Arsha Nagrani和G{”u}l Varol和Weidi Xie以及Andrew Zisserman“,title=“AutoAD:上下文中的电影描述”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2023”,}
本文的目标是一个自动音频描述(AD)模型,该模型在文本形式。由于描述依赖于上下文,并且可用的训练数据数量有限,因此生成高质量的电影广告具有挑战性。在这项工作中,我们利用预处理基础模型(如GPT和CLIP)的强大功能,只训练一个映射网络,将这两个模型连接起来,用于可视化条件下的文本生成。为了获得高质量的广告,我们做出了以下四个贡献:(i)我们结合了电影剪辑的上下文、之前剪辑的广告以及字幕;(ii)我们通过对大型数据集进行预训练来解决训练数据不足的问题,在这些数据集中,视觉或上下文信息是不可用的,例如,没有电影的纯文本AD或没有上下文的视觉字幕数据集;(iii)通过去除MAD数据集中的标签噪声,并添加字符命名信息,我们改进了当前可用的AD数据集;与以前的方法相比,我们在电影广告任务上取得了很好的结果。
2023年IEEE国际计算机视觉会议
@诉讼中{Han23a,author=“Tengda Han和Max Bain以及Arsha Nagrani和G{”u}l Varol和Weidi Xie以及Andrew Zisserman“,title=“{AutoAD II}:续集——电影音频描述中的人物、时间和内容”,booktitle=“IEEE国际计算机视觉会议”,年=“2023”,}
音频描述(AD)的任务是以适当的时间间隔为视障观众生成视觉内容的描述。对于电影来说,这是一个显著的挑战——广告必须只出现在对话中现有的停顿期间,应该通过名字来指代角色,并且应该有助于理解整个故事情节。为此,我们开发了一个新的自动生成电影广告的模型,给出了帧的CLIP视觉特征、演员名单和语音的时间位置;解决所有三个“谁”、“什么时候”和“什么”问题:(i)谁——我们为每部电影的主要演员介绍一个由角色的名字、扮演该角色的演员和他们脸上的CLIP特征组成的角色库,并演示如何利用这一点改进生成的AD中的命名;(ii)何时——我们研究了几种模型,根据区间及其相邻区域的视觉内容来确定是否应生成某个时段的AD;以及(iii)什么——我们为这项任务实现了一个新的视觉语言模型,该模型可以从字符库中吸收建议,同时使用交叉注意力来调节视觉特征,并在苹果对苹果的比较中展示了这是如何比以前的AD文本生成架构有所改进的。
2022年欧洲计算机视觉会议
@诉讼中{莫梅尼22,author=“莉莲·莫梅尼(Liliane Momeni)、汉娜·布尔(Hannah Bull)、K·R·普拉杰瓦尔(K R Prajwal)、塞缪尔·阿尔巴尼(Samuel Albanie)和G{“u}l Varol和安德鲁·齐瑟曼(Andrew Zisserman)”,title=“大型手语视频的自动密集注释”,booktitle=“欧洲计算机视觉会议”,年=“2022”,}
摘要。最近,手语研究人员转向手语翻译电视广播,包括(i)连续签名视频和(ii)与音频内容相对应的字幕,作为随时可用的大规模培训数据来源。此类数据可用性的一个关键挑战是缺少符号注释。以前利用这种弱对齐数据的工作只发现字幕中的关键字与单个符号之间存在稀疏的对应关系。在这项工作中,我们提出了一个简单、可扩展的框架,以大大提高自动注释的密度。我们的贡献如下:(1)通过使用同义词和字幕对齐,显著改进了以前的注释方法;(2) 我们展示了符号识别模型中伪拉贝尔作为一种识别符号的方法的价值;(3) 我们提出了一种基于领域内样本增加已知和未知类注释的新方法;(4) 在BOBSL BSL手语语料库中,我们将自信自动标注的数量从670K增加到5M。我们公开这些注释,以支持手语研究社区。
2022年英国机器视觉大会
@会议记录{Prajwal22a,author=“K R Prajwal和Hannah Bull以及Liliane Momeni和Samuel Albanie以及G{”u}l Varol和Andrew Zisserman“,title=“英国手语视频中的弱监督指纹拼写识别”,booktitle=“英国机器视觉会议”,年=“2022”,keywords=“手语,拼写,bsl,bobsl”,}
这项工作的目标是检测和识别在英国手语(BSL)中使用手指拼写签名的字母序列。以前的指纹识别方法并没有将重点放在BSL上,BSL与美国手语(ASL)有着非常不同的手语字母表(例如,双手而非单手)。他们还使用手动注释进行培训。与以前的方法相比,我们的方法只使用字幕中的弱注释进行训练。我们使用一种简单的特征相似度方法定位潜在的指纹拼写实例,然后通过查询字幕词并从签名者处搜索相应的发音线索来自动标注这些实例。我们提出了一种适用于此任务的Transformer体系结构,具有多假设CTC损失函数,以学习其他注释可能性。我们采用多阶段训练方法,在重新训练之前,我们利用训练模型的初始版本来扩展和增强训练数据,以获得更好的性能。通过广泛的评估,我们验证了我们的自动注释方法和模型体系结构。此外,我们还提供了一个由人类专家注释的5K视频片段测试集,用于评估BSL指纹拼写识别方法,以支持手语研究。
国际计算机视觉杂志,2022年
@第{Varol22a条,author=“G{\”u}l Varol、Liliane Momeni、Samuel Albanie、Triantafyllos Afouras和Andrew Zisserman”,title=“通过手语词典扩大标识识别”,journal=“国际计算机视觉杂志”,年=“2022”,}
这项工作的重点是识别手势——给定一个孤立手势的视频,我们的任务是在一个连续的、共同表达的手势语言视频中识别它是否被签署以及在哪里被签署。为了完成这项识别标志的任务,我们使用多种可用的监督方式训练了一个模型:(1)观看现有的视频,这些视频很少使用发音提示进行标记;(2) 阅读提供额外弱监督的相关字幕(签名内容的现成翻译);(3) 在可视手语词典中查找单词(没有共同表达的标签示例),以便发现新的符号。利用噪声对比估计和多实例学习的原理,将这三个任务集成到一个统一的学习框架中。我们验证了我们的方法在低空信号识别基准上的有效性。此外,我们贡献了一个机器可读的孤立符号英国手语(BSL)词典数据集BslDict,以促进这项任务的研究。数据集、模型和代码可在我们的项目页面上找到。
2021年技术报告
@诉讼{Albanie21a,author=“塞缪尔·阿尔巴尼和G{”u}l Varol、Liliane Momeni、Triantafyllos Afouras、Andrew Brown、Chuhan Zhang、Ernesto Coto、Necati Cihan Camgöz、Ben Saunders、Abhishek Dutta、Neil Fox、Richard Bowden、Bencie Woll和Andrew Zisserman“,title=“签名者野外日记”,booktitle=“技术报告”,年份=“2021”,keywords=“签名者日记”,}
在这项工作中,我们提出了一个框架,可以收集大规模、多样的手语数据集,用于训练自动手语识别模型。这项工作的第一个贡献是SDTRACK,这是一种在野外跟踪和记录签名者的通用方法。我们的第二个贡献是展示如何使用SDTRACK自动标注90小时的英国手语(BSL)内容,包括访谈、独白和辩论,内容涵盖范围广泛的签名者。使用SDTRACK,此数据由35K个活动签名轨迹、相应的视频级签名者标识符和字幕以及40K个自动本地化的签名标签进行注释。
2021年IEEE国际计算机视觉会议
@诉讼中{Bain21,author=“Max Bain和Arsha Nagrani以及G{\“u}l Varol和Andrew Zisserman”,title=“时间冻结:用于端到端检索的联合视频和图像编码器”,booktitle=“IEEE国际计算机视觉会议”,年=“2021”,}
我们在这项工作中的目标是视频-文本检索,特别是实现高效文本-视频检索的联合嵌入。这一领域的挑战包括可视化体系结构的设计和训练数据的性质,因为可用的大规模视频文本训练数据集(如HowTo100M)具有噪声,因此只有通过大量计算才能实现大规模的竞争性能。我们将在本文中解决这两个挑战。我们提出了一个端到端可训练模型,该模型旨在利用大规模图像和视频字幕数据集。我们的模型是对最近的ViT和Timesformer架构的改编和扩展,包括空间和时间方面的关注。该模型具有灵活性,可以独立或结合图像和视频文本数据集进行训练。它通过课程学习时间表进行训练,首先将图像视为视频的“冻结”快照,然后在视频数据集上进行训练时,逐渐学会关注时间上下文的增加。我们还提供了一个新的视频文本预处理数据集WebVid-2M,由200多万个视频组成,这些视频带有从互联网上刮来的弱字幕。尽管对较小数量级的数据集进行了培训,但我们表明,该方法在标准下游视频检索基准(包括MSR-VTT、DiDeMo和MSVD)上产生了最先进的结果。
2021年IEEE国际计算机视觉会议
@诉讼{Bull21,author=“Hannah Bull和Triantafyllos Afouras以及G{\”u}l Varol和Samuel Albanie以及Liliane Momeni和Andrew Zisserman“,title=“对齐手语视频中的字幕”,booktitle=“IEEE国际计算机视觉会议”,年份=“2021”,publisher=“IEEE”,}
这项工作的目标是在手语视频中暂时对齐异步字幕。特别是,我们关注的是由(i)连续签名视频和(ii)与音频内容相对应的字幕组成的手语解释电视广播数据。以前利用这种弱对齐数据的工作只考虑了查找关键字-符号对应,而我们的目标是在连续签名中定位完整的字幕文本。我们提出了一种为该任务量身定制的Transformer架构,我们对其进行了手动注释对齐训练,覆盖了超过15K个字幕,跨越17.7小时的视频。我们使用BERT字幕嵌入和学习用于符号识别的CNN视频表示对两个信号进行编码,这两个信号通过一系列注意层进行交互。我们的模型输出帧级预测,即对于每个视频帧,无论它是否属于查询的字幕。通过广泛的评估,我们发现,与现有的未使用字幕文本嵌入进行学习的对齐基线相比,我们有了实质性的改进。我们的自动对齐模型通过提供连续同步的视频文本数据,为推进手语的机器翻译开辟了可能性。
ChaLearn在野外观察人类手语识别研讨会,CVPR,2021
@诉讼中{Renz21b,author=“凯特琳·伦兹(Katrin Renz)、尼古拉·斯塔奇(Nicolaj Stache)、尼尔·福克斯(Neil Fox)和G{”u}l Varol和塞缪尔·阿尔巴尼(Samuel Albanie)”,title=“使用Changepoint-Modulated Pseudo-Labelling进行符号分割”,booktitle=“ChaLearn在野外观察人类手语识别研讨会,CVPR”,年=“2021”,publisher=“IEEE”,}
这项工作的目的是找出连续手语中符号之间的时间界限。由于这项任务缺少可用的注释,我们提出了一种简单而有效的算法来提高感兴趣领域中未标记签名镜头的分割性能。我们做出了以下贡献:(1)我们推动并引入了手语分割的无源域适配任务,其中标记的源数据在初始训练阶段可用,但在适配期间不可用。(2) 我们提出了变点调制伪标签(CMPL)算法,以利用运动敏感特征空间中突然变化的线索来提高适应的伪标签质量。(3) 我们展示了我们的类别识别符号分割方法的有效性,该方法从BSLCORPUS传输到BSL-1K和RWTH-PHOENIX-Weather 2014数据集,在这些数据集中,我们的性能优于现有技术。