2024年IEEE计算机视觉和模式识别会议
@诉讼中{Han24,author=“Tengda Han和Max Bain以及Arsha Nagrani和G{”u}l Varol和Weidi Xie以及Andrew Zisserman“,title=“{AutoAD III}:前传--回到像素”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2024”,}
为电影生成音频描述(AD)是一项具有挑战性的任务,需要细粒度的视觉理解以及对角色及其名称的认识。目前,由于缺乏合适的训练数据,用于生成AD的可视化语言模型受到了限制,并且由于使用了非AD领域专用的性能度量,这些模型的评估也受到了阻碍。在本文中,我们做出了三点贡献:(i) 我们提出了两种使用对齐视频数据构建AD数据集的方法,并使用这些方法构建训练和评估数据集。这些数据集将公开发布;(ii)我们开发了一种基于Q-form的架构,该架构使用冻结的预处理视觉编码器和大型语言模型,接收原始视频并生成AD;以及(iii)我们提供了新的评估指标,以对与人的绩效匹配良好的AD质量进行基准测试。总之,我们改进了AD生成的最新技术。
2024年声学、语音和信号处理国际会议
@诉讼中{Iashin24a,author=“Vladimir Iashin和Weidi Xie以及Esa Rahtu和Andrew Zisserman”,title=“Synchformer:从稀疏提示进行高效同步”,booktitle=“声学、语音和信号处理国际会议”,年=“2024”,组织=“IEEE”,}
我们的目标是视听同步,重点放在“现场”视频上,例如YouTube上的视频,其中同步提示可以稀疏的我们的贡献包括一种新颖的视听同步模型,以及通过多模态分段级对比预训练将特征提取与同步建模解耦的训练。这种方法在两方面都达到了最先进的性能稠密的和稀疏的设置。我们还将同步模型训练扩展到了AudioSet上,这是一个百万级的“世界范围内”数据集,研究了可解释性的证据归因技术,并探索了同步模型的一种新功能:视听同步。
2024年IEEE计算机视觉和模式识别会议
@诉讼程序{Zhan2024,author=“关其战、郑传霞、谢伟迪和安德鲁·齐瑟曼”,title=“Amodal地面真相和野外完成”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2024”,}
本文研究非对称图像分割:预测包括可见和不可见(遮挡)部分的整个对象分割掩模。在以往的工作中,真实图像的非对称分割背景真实性通常是通过人工注释来预测的,因此具有主观性。相比之下,我们使用3D数据建立一个自动管道,以确定真实图像中部分遮挡对象的真实地面真相。该管道用于构建一个由各种对象类别和标签组成的非对称完井评估基准MP3D-amodal。为了更好地处理野外的非对称完成任务,我们探索了两种架构变体:一个两阶段模型,首先推断封堵器,然后是非对称掩模完成;以及一个单阶段模型,该模型利用稳定扩散的表示能力跨多个类别进行非对称分割。在没有铃声和口哨声的情况下,我们的方法在Amodal分割数据集上实现了新的最先进的性能,这些数据集涵盖了各种各样的对象,包括COCOA和我们新的MP3D Amodal数据集。数据集、模型和代码位于https://www.robots.ox.ac.uk/~vgg/research/amodal/。
2023年IEEE计算机视觉和模式识别会议
@诉讼中{Han23,author=“Tengda Han和Max Bain以及Arsha Nagrani和G{”u}l Varol和Weidi Xie以及Andrew Zisserman“,title=“AutoAD:上下文中的电影描述”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2023”,}
本文的目标是一个自动音频描述(AD)模型,该模型在文本形式。由于描述对上下文的依赖性,以及可用的训练数据量有限,生成高质量的电影AD具有挑战性。在这项工作中,我们利用预处理基础模型(如GPT和CLIP)的强大功能,只训练一个映射网络,将这两个模型连接起来,用于可视化条件下的文本生成。为了获得高质量的广告,我们做出了以下四个贡献:(i)我们结合了电影剪辑的上下文、之前剪辑的广告以及字幕;(ii)我们通过对大型数据集进行预训练来解决训练数据不足的问题,在这些数据集中,视觉或上下文信息是不可用的,例如,没有电影的纯文本AD或没有上下文的视觉字幕数据集;(iii)通过去除MAD数据集中的标签噪声,并添加字符命名信息,我们改进了当前可用的AD数据集;与以前的方法相比,我们在电影广告任务上取得了很好的结果。
2023年IEEE国际计算机视觉会议
@诉讼中{Han23a,author=“Tengda Han和Max Bain以及Arsha Nagrani和G{”u}l Varol和Weidi Xie以及Andrew Zisserman“,title=“{AutoAD II}:The Sequel–Who,When,and What in Movie Audio Description”,booktitle=“IEEE计算机视觉国际会议”,年份=“2023”,}
音频描述(AD)的任务是以适当的时间间隔为视障观众生成视觉内容的描述。对于电影来说,这是一个显著的挑战——广告必须只出现在对话中现有的停顿期间,应该通过名字来指代角色,并且应该有助于理解整个故事情节。为此,我们开发了一个新的自动生成电影广告的模型,给出了帧的CLIP视觉特征、演员名单和语音的时间位置;解决所有三个“谁”、“什么时候”和“什么”问题:(i)谁——我们为每部电影的主要演员介绍一个由角色的名字、扮演该角色的演员和他们脸上的CLIP特征组成的角色库,并演示如何利用这一点改进生成的AD中的命名;(ii)何时——我们研究了几种模型,根据区间及其相邻区域的视觉内容来确定是否应生成某个时段的AD;以及(iii)是什么——我们为这项任务实现了一个新的视觉语言模型,它可以接收来自字符库的建议,同时使用交叉注意力来调节视觉特征,并通过apples-to-apples的比较演示了这与以前的AD文本生成架构相比是如何改进的。
2023年国际机器学习会议
@诉讼中{考尔23,author=“Prannay Kaul、Weidi Xie和Andrew Zisserman”,title=“用于开放空间目标检测的多模式分类器”,booktitle=“机器学习国际会议”,年=“2023”,}
本文的目标是开放词汇表对象检测(OVOD)——构建一个模型,该模型可以检测训练中所见类别集以外的对象,从而使用户能够在推理时指定感兴趣的类别,而无需进行模型再培训。我们采用标准的两级对象检测器架构,并探索三种指定新类别的方法:通过语言描述、通过图像样本或通过两者的组合。我们有三个贡献:首先,我们提出了一个大型语言模型(LLM)来生成对象类的信息语言描述,并构造了功能强大的基于文本的分类器;其次,我们在图像样本上使用一个可视聚合器,它可以摄取任意数量的图像作为输入,形成基于视觉的分类器;第三,我们提供了一种简单的方法来融合来自语言描述和图像样本的信息,从而生成多模态分类器。在对具有挑战性的LVIS开放词汇基准进行评估时,我们证明:(i)我们的基于文本的分类器优于所有以前的OVOD作品;(ii)我们基于视觉的分类器与基于文本的分类器在之前的工作中表现一样好;(iii)使用多模态分类器比单独使用任一模态分类器表现更好;最后,(iv)我们的基于文本的多模态分类器比全监督检测器产生更好的性能。
2023年IEEE国际计算机视觉会议
@在诉讼中{Lamdouar23,author=“Hala Lamdouar、Weidi Xie和Andrew Zisserman”,title=“伪装的制造与破解”,booktitle=“IEEE计算机视觉国际会议”,年=“2023”,}
并不是所有的伪装都同样有效,因为即使是部分可见的轮廓或轻微的色差也能使动物脱颖而出,并打破其伪装。在本文中,我们通过提出三个自动评估伪装效果的分数来解决伪装成功的原因。特别是,我们表明伪装可以通过背景和前景特征之间的相似性以及边界可见性来衡量。我们使用这些伪装分数来评估和比较所有可用的伪装数据集。我们还将提出的伪装分数合并到生成模型中作为辅助损失,并表明可以以可伸缩的方式合成有效的伪装图像或视频。生成的合成数据集用于训练基于变压器的模型,用于分割视频中的伪装动物。在实验上,我们在公共MoCA-Mask基准上演示了最先进的伪装破解性能。
利用有限标签数据学习图像和视频理解研讨会,CVPR,2023年
@诉讼中{Shin23,author=“Gyungin Shin和Weidi Xie以及Samuel Albanie”,title=“NamedMask:从补充基础模型中提取分段”,booktitle=“使用有限标签数据学习图像和视频理解研讨会,CVPR”,年份=“2023”,keywords=“无监督语义分割”,}
这项工作的目标是在训练期间分割和命名图像区域,而无需访问像素级标签。为了解决这个问题,我们通过提取两个基础模型的互补优势来构建分段器。第一种是CLIP,它能够为图像内容指定名称,但缺少对象结构的可访问表示。第二种是DINO,它捕获对象的空间范围,但不知道对象名称。我们的方法称为NamedMask,首先使用CLIP构建特定类别的图像存档。这些图像使用从DINO引导的类别识别显著对象检测器进行伪标记,然后由类别特定的分段器使用CLIP存档标签进行细化。由于改进后的掩模具有较高的质量,我们表明,在这些档案上训练的标准分割体系结构,通过适当的数据增强,可以对单对象和多对象图像实现令人印象深刻的语义分割能力。因此,我们提出的NamedMask在五个基准测试(包括VOC2012、COCO和大型ImageNet-S数据集)上的一系列先前工作中表现良好。
利用有限标签数据学习图像和视频理解研讨会,CVPR,2023年
@诉讼中{Shin23a,author=“Gyungin Shin和Samuel Albanie以及Weidi Xie”,title=“零炮无监督传输实例分段”,booktitle=“使用有限标签数据学习图像和视频理解研讨会,CVPR”,年=“2023”,keywords=“无监督实例分割”,}
分割是计算机视觉的核心能力,其应用范围广泛,具有科学和经济价值。然而,迄今为止,注释的高昂成本限制了灵活分段模型的部署。在这项工作中,我们提出了零击无监督传输实例分割(ZUTIS),这是一个旨在应对这一挑战的框架。ZUTIS的主要优点是:(i)不需要实例级或像素级注释;(ii)零快照传输能力,即不假设访问目标数据分布;(iii)语义和实例分割的统一框架,与最先进的无监督方法相比,在这两项任务上都表现良好。与之前的工作相比,我们显示ZUTIS在COCO-20K上获得了2.2个掩码AP,在ImageNet-S上获得了14.5 mIoU,分别具有919个类别的实例和语义分段。代码已公开。
牛津大学VGG技术报告,2023年
@技术报告{Zhan2023,author=“关其战、郑传霞、谢伟迪和安德鲁·齐瑟曼”,title=“稳定扩散对3D场景了解多少?”,institution=“VGG,牛津大学”,年=“2023”,}
生成模型(如稳定扩散)的最新进展可以生成高度真实的照片。我们在本文中的目标是探索扩散网络,以确定它在多大程度上“理解”图像中描述的3D场景的不同属性。为此,我们做出了以下贡献:(i)我们引入了一个协议,通过对区分分类器进行这些属性的特征训练,来评估非自助扩散模型的特征是否编码了3D场景的许多物理“属性”。探针应用于带有属性注释的真实图像数据集。(ii)我们将此协议应用于包含场景几何体、场景材质、支持关系、照明和视图相关度量的属性。(iii)我们发现,稳定扩散的特征有助于区分学习许多属性,包括场景几何、支持关系、阴影和深度,但对遮挡和材质的性能较差。(iv)我们还将探针应用于其他大规模训练的网络,包括DINO、CLIP和VQGAN,并发现DINOv2具有与稳定扩散相似的性能,同时优于DINOv1、CLIP及VQGAN。