2024年声学、语音和信号处理国际会议
@诉讼中{Oncescu24,author=“安德烈亚·马里亚·昂塞斯库(Andreea-Maria Oncescu)和若奥·F·亨利克斯(Joao~F.Henriques)、安德鲁·齐瑟曼(Andrew Zisserman)、塞缪尔·阿尔巴尼(Samuel Albanie)和A.索菲亚·科普克(,title=“声音方法:使用大型语言模型生成音频描述,用于以自我为中心的文本音频检索”,booktitle=“声学、语音和信号处理国际会议”,年=“2024”,}
来自互联网的视频数据库是文本音频检索数据集的宝贵来源。然而,考虑到声音和视觉流代表不同的数据“视图”,将视觉描述视为音频描述远不是最佳的。即使存在音频类标签,它们通常也不是很详细,这使得它们不适合文本音频检索。为了利用视频文本数据集中的相关音频信息,我们引入了一种使用大型语言模型(LLM)生成以音频为中心的描述的方法。在这项工作中,我们考虑了以自我为中心的视频设置,并基于EpicMIR和EgoMCQ任务以及EpicSounds数据集提出了三个新的文本音频检索基准。与使用原始的以视觉为中心的描述相比,我们获得以音频为中心的描述性描述的方法具有明显更高的零快照性能。此外,我们还表明,与使用数据集的原始音频类标签相比,使用相同的提示,我们可以成功地使用LLM改进EpicSounds上的检索。最后,我们确认LLM可用于确定识别与声音相关的动作的难度。
利用有限标签数据学习图像和视频理解研讨会,CVPR,2023年
@诉讼中{Shin23,author=“Gyungin Shin和Weidi Xie以及Samuel Albanie”,title=“NamedMask:从补充基础模型中提取分段”,booktitle=“使用有限标签数据学习图像和视频理解研讨会,CVPR”,年=“2023”,keywords=“无监督语义分割”,}
这项工作的目标是在训练期间分割和命名图像区域,而无需访问像素级标签。为了解决这个问题,我们通过提取两个基础模型的互补优势来构建分段器。第一种是CLIP,它能够为图像内容指定名称,但缺少对象结构的可访问表示。第二个是DINO,它捕捉对象的空间范围,但不知道对象名称。我们的方法称为NamedMask,首先使用CLIP构建特定类别的图像存档。这些图像使用从DINO引导的类别识别显著对象检测器进行伪标记,然后由类别特定的分段器使用CLIP存档标签进行细化。由于改进后的掩模具有较高的质量,我们表明,在这些档案上训练的标准分割体系结构,通过适当的数据增强,可以对单对象和多对象图像实现令人印象深刻的语义分割能力。因此,我们提出的NamedMask在五个基准测试(包括VOC2012、COCO和大型ImageNet-S数据集)上的一系列先前工作中表现良好。
利用有限标签数据学习图像和视频理解研讨会,CVPR,2023年
@诉讼中{Shin23a,author=“Gyungin Shin和Samuel Albanie以及Weidi Xie”,title=“零炮无监督传输实例分段”,booktitle=“使用有限标签数据学习图像和视频理解研讨会,CVPR”,年=“2023”,keywords=“无监督实例分割”,}
分割是一项核心的计算机视觉能力,其应用范围涉及广泛的科学和经济价值领域。然而,迄今为止,注释的高昂成本限制了灵活分段模型的部署。在这项工作中,我们提出了零击无监督传输实例分割(ZUTIS),这是一个旨在应对这一挑战的框架。ZUTIS的主要优点是:(i)不需要实例级或像素级注释;(ii)零快照传输能力,即不假设访问目标数据分布;(iii)语义和实例分割的统一框架,与最先进的无监督方法相比,在这两项任务上都表现良好。与之前的工作相比,我们显示ZUTIS在COCO-20K上获得了2.2个掩码AP,在ImageNet-S上获得了14.5 mIoU,分别具有919个类别的实例和语义分段。代码已公开。
IEEE多媒体汇刊,2022年
@第{Oncescu22条,author=“A.Sophia Koepke和Andreea-Maria Oncescu以及Joao~F.Henriques和Samuel Albanie”,title=“带自然语言查询的音频检索:基准研究”,journal=“IEEE多媒体汇刊”,年=“2022”,}
这项工作的目标是跨模式文本音频和音频文本检索,其目标是从与给定书面描述最匹配的候选库中检索音频内容,反之亦然。文本音频检索使用户能够通过直观的界面搜索大型数据库:他们只需对自己想听的声音发布自由形式的自然语言描述。为了研究在现有文献中受到有限关注的文本音频和音频文本检索任务,我们引入了三个具有挑战性的新基准。我们首先从AudioCaps和Cloto音频字幕数据集构建文本音频和音频文本检索基准。此外,我们还介绍了SoundDescs基准测试,它包括对各种声音集合的音频和自然语言描述,这些声音集合与AudioCaps和Cloto中的声音集合是互补的。我们使用这三个基准来建立跨模式文本音频和音频文本检索的基准,在这两个基准中,我们展示了对不同音频任务进行预培训的好处。我们希望我们的基准测试将激发对自由形式文本查询的音频检索的进一步研究。所有使用的数据集的代码、音频功能以及SoundDescs数据集都可以在这个https URL上公开获得。
2022年欧洲计算机视觉会议
@诉讼中{莫梅尼22,author=“莉莲·莫梅尼(Liliane Momeni)、汉娜·布尔(Hannah Bull)、K·R·普拉杰瓦尔(K R Prajwal)、塞缪尔·阿尔巴尼(Samuel Albanie)和G{“u}l Varol和安德鲁·齐瑟曼(Andrew Zisserman)”,title=“大型手语视频的自动密集注释”,booktitle=“欧洲计算机视觉会议”,年=“2022”,}
摘要。最近,手语研究人员转向手语翻译电视广播,包括(i)连续签名视频和(ii)与音频内容相对应的字幕,作为随时可用的大规模培训数据来源。此类数据可用性的一个关键挑战是缺少符号注释。以前利用这种弱对齐数据的工作只发现字幕中的关键字与单个符号之间存在稀疏的对应关系。在这项工作中,我们提出了一个简单、可扩展的框架,以大大提高自动注释的密度。我们的贡献如下:(1)通过使用同义词和字幕对齐,显著改进了以前的注释方法;(2) 我们展示了符号识别模型中伪拉贝尔作为一种识别符号的方法的价值;(3) 我们提出了一种新的方法来增加基于领域内样本的已知和未知类的注释;(4) 在BOBSL BSL手语语料库中,我们将自信自动标注的数量从670K增加到5M。我们公开这些注释,以支持手语研究社区。
2022年英国机器视觉会议
@会议记录{Prajwal22a,author=“K R Prajwal和Hannah Bull以及Liliane Momeni和Samuel Albanie以及G{”u}l Varol和Andrew Zisserman“,title=“英国手语视频中的弱监督指纹拼写识别”,booktitle=“英国机器视觉会议”,年=“2022”,keywords=“手语,拼写,bsl,bobsl”,}
这项工作的目标是检测和识别在英国手语(BSL)中使用手指拼写签名的字母序列。以前的指纹识别方法并没有将重点放在BSL上,BSL与美国手语(ASL)有着非常不同的手语字母表(例如,双手而非单手)。他们还使用手动注释进行培训。与以前的方法相比,我们的方法只使用字幕中的弱注释进行训练。我们使用一种简单的特征相似度方法定位潜在的指纹拼写实例,然后通过查询字幕词并从签名者处搜索相应的发音线索来自动标注这些实例。我们提出了一种适用于此任务的Transformer体系结构,具有多假设CTC损失函数,以学习其他注释可能性。我们采用多阶段训练方法,在重新训练之前,我们利用训练模型的初始版本来扩展和增强训练数据,以获得更好的性能。通过广泛的评估,我们验证了我们的自动注释方法和模型体系结构。此外,我们还提供了一个由人类专家注释的5K视频片段测试集,用于评估BSL指纹拼写识别方法,以支持手语研究。
2022年神经信息处理系统进展
@诉讼中{Shin22a,author=“Gyungin Shin和Weidi Xie以及Samuel Albanie”,title=“ReCo:检索和Co-segment for Zero-shot Transfer”,booktitle=“神经信息处理系统的进展”,年=“2022”,}
语义分割有广泛的应用,但其实际影响受到了部署所需的高昂注释成本的极大限制。放弃监督的细分方法可以降低这些成本,但需要提供目标分布中的标签示例来为预测指定概念名称,这很不方便。语言-图像预训练的另一项工作最近证明,有潜力生成一种模型,这种模型既可以跨大量概念词汇分配名称,也可以实现零快照转移以进行分类,但不能证明相应的分割能力。我们利用一种这样的语言——图像预处理模型CLIP的检索能力,从未标记的图像中动态地管理任意概念名称集合的训练集,并利用现代图像表示提供的健壮对应关系,在生成的集合中对实体进行共分。然后使用合成片段集合构建一个分段模型(无需像素标签),该模型的概念知识继承自CLIP的可扩展预训练过程。我们证明了我们的方法,称为Retrieve and Co-segment(ReCo),在继承可命名预测和零快照传输的便利性的同时,其性能优于传统的无监督分割方法。我们还展示了ReCo为极其罕见的物体生成专业分段器的能力。
利用有限标签数据学习图像和视频理解研讨会,CVPR,2022年
@诉讼中{Shin22,author=“Gyungin Shin和Samuel Albanie以及Weidi Xie”,title=“带光谱聚类投票的无监督显著目标检测”,booktitle=“使用有限标签数据学习图像和视频理解研讨会,CVPR”,年=“2022”,}
在本文中,我们利用自监督特征的谱聚类来解决无监督显著目标检测(SOD)的挑战性任务。我们做出了以下贡献:(i)我们重新审视了光谱聚类,并展示了它在各种自我监督特征(如MoCov2、SwAV和DINO)中对显著对象的像素进行分组的潜力;(ii)考虑到光谱聚类在不同自监督模型计算的图像特征上的多种应用提出的遮罩方案,我们提出了一种简单但有效的双赢全胜的投票机制,用于选择突出的遮罩,利用基于框架和显著性的对象先验;(iii)使用选定的对象分割作为伪背景真值掩码,我们训练了一个名为SelfMask的显著对象检测器,该检测器在三个无监督SOD基准上优于以前的方法。代码可在以下网址公开获取:https://github.com/NoelShin/selfmask。
国际计算机视觉杂志,2022年
@第{Varol22a条,author=“G{\”u}l Varol、Liliane Momeni、Samuel Albanie、Triantafyllos Afouras和Andrew Zisserman”,title=“通过手语词典扩大手语识别”,journal=“国际计算机视觉杂志”,年=“2022”,}
这项工作的重点是识别手势——给定一个孤立手势的视频,我们的任务是在一个连续的、共同表达的手势语言视频中识别它是否被签署以及在哪里被签署。为了完成这项识别标志的任务,我们使用多种可用的监督方式训练了一个模型:(1)观看现有的视频,这些视频很少使用发音提示进行标记;(2) 阅读提供额外弱监督的相关字幕(签名内容的现成翻译);(3) 在可视手语词典中查找单词(没有共同表达的标签示例),以便发现新的符号。利用噪声对比估计和多实例学习的原理,将这三个任务集成到一个统一的学习框架中。我们验证了我们的方法在低空信号识别基准上的有效性。此外,我们贡献了一个机器可读的孤立符号英国手语(BSL)词典数据集BslDict,以促进这项任务的研究。数据集、模型和代码可在我们的项目页面上找到。
2021年技术报告
@诉讼{Albanie21a,author=“塞缪尔·阿尔巴尼和G{”u}l Varol、Liliane Momeni、Triantafyllos Afouras、Andrew Brown、Chuhan Zhang、Ernesto Coto、Necati Cihan Camgöz、Ben Saunders、Abhishek Dutta、Neil Fox、Richard Bowden、Bencie Woll和Andrew Zisserman“,title=“签名者野外日记”,booktitle=“技术报告”,年=“2021”,keywords=“签名者日记”,}
在这项工作中,我们提出了一个框架,可以收集大规模、多样的手语数据集,用于训练自动手语识别模型。这项工作的第一个贡献是SDTRACK,这是一种在野外跟踪和记录签名者的通用方法。我们的第二个贡献是展示如何使用SDTRACK自动标注90小时的英国手语(BSL)内容,包括访谈、独白和辩论,内容涵盖范围广泛的签名者。使用SDTRACK,该数据用35K个活动签名轨道、相应的视频级签名者标识符和字幕以及40K个自动本地化的签名标签进行注释。