2024年声学、语音和信号处理国际会议
@诉讼中{Iashin24a,author=“弗拉基米尔·拉欣(Vladimir Iashin)、谢伟迪(Weidi Xie)、埃萨·拉图(Esa Rahtu)和安德鲁·齐瑟曼(Andrew Zisserman)”,title=“Synchformer:从稀疏提示进行高效同步”,booktitle=“声学、语音和信号处理国际会议”,年=“2024”,组织=“IEEE”,}
我们的目标是视听同步,重点放在“现场”视频上,例如YouTube上的视频,其中同步提示可以稀疏的我们的贡献包括一种新颖的视听同步模型,以及通过多模态分段级对比预训练将特征提取与同步建模解耦的训练。这种方法在两方面都达到了最先进的性能稠密的和稀疏的设置。我们还将同步模型训练扩展到了AudioSet上,这是一个百万级的“世界范围内”数据集,研究了可解释性的证据归因技术,并探索了同步模型的一种新功能:视听同步。
2024年声学、语音和信号处理国际会议
@诉讼中{Korbar24,author=“Bruno Korbar和Jaesung Huh以及Andrew Zisserman”,title=“看、听和识别:角色感知视听字幕”,booktitle=“声学、语音和信号处理国际会议”,年=“2024”,}
本文的目标是自动生成具有字符意识的字幕。给定一段视频和最少的元数据,我们提出了一种视听方法,该方法可以生成对话的完整文本,并带有精确的语音时间戳和识别的说话角色。其关键思想是首先使用视听线索为每个字符选择一组高精度的音频样本,然后使用这些样本根据说话人身份对所有语音片段进行分类。值得注意的是,该方法不需要人脸检测或跟踪。我们对包括《宋飞正传》、《弗雷泽》和《Scrubs》在内的多种电视情景喜剧进行了评估。我们设想该系统可用于自动生成字幕,以提高现代流媒体服务上大量视频的可访问性。
2024年声学、语音和信号处理国际会议
@诉讼中{Oncescu24,author=“安德烈亚·马里亚·昂塞斯库(Andreea-Maria Oncescu)和若奥·F·亨利克斯(Joao~F.Henriques)、安德鲁·齐瑟曼(Andrew Zisserman)、塞缪尔·阿尔巴尼(Samuel Albanie)和A.索菲亚·科普克(,title=“声音方法:使用大型语言模型生成音频描述,用于以自我为中心的文本音频检索”,booktitle=“声学、语音和信号处理国际会议”,年=“2024”,}
来自互联网的视频数据库是文本音频检索数据集的宝贵来源。然而,考虑到声音和视觉流代表不同的数据“视图”,将视觉描述视为音频描述远不是最佳的。即使有音频类标签,它们通常也不是很详细,因此不适合文本音频检索。为了利用视频文本数据集中的相关音频信息,我们引入了一种使用大型语言模型(LLM)生成以音频为中心的描述的方法。在这项工作中,我们考虑了以自我为中心的视频设置,并基于EpicMIR和EgoMCQ任务以及EpicSounds数据集提出了三个新的文本音频检索基准。与使用原始的以视觉为中心的描述相比,我们获得以音频为中心的描述性描述的方法具有明显更高的零快照性能。此外,我们还表明,与使用数据集的原始音频类标签相比,使用相同的提示,我们可以成功地使用LLM改进EpicSounds上的检索。最后,我们确认LLM可用于确定识别与声音相关的动作的难度。
2023年英国机器视觉会议
@诉讼中{AminiNaieni23,author=“Niki Amini-Naieni和Kiana Amini-Naeeni以及Tengda Han和Andrew Zisserman”,title=“开放世界文本指定对象计数”,booktitle=“英国机器视觉会议”,年=“2023”,organization=“英国机器视觉协会”,address=“英国达勒姆DH1 3LE南路达勒姆大学计算机科学系”,doi=“10.48550/2306.01851”,}
我们的目标是在图像中计算开放世界对象,其中目标对象类由文本描述指定。为此,我们提出了CounTX,这是一个类识别的单级模型,在预训练的联合文本图像表示之上使用了一个变压器-解码器计数头。CounTX能够计算仅给定目标对象类的图像和文本描述的任何类的实例数,并且可以进行端到端的训练。除此模型外,我们还做出了以下贡献:(i)我们将CounTX的性能与之前在开放世界对象计数方面的工作进行了比较,并表明我们的方法在使用文本指定任务的方法的FSC-147基准的所有度量方面都超过了最新技术;(ii)我们提出并发布了FSC-147-D,它是FSC-147的一个增强版本,带有文本描述,因此可以用比简单类名更详细的语言描述对象类。
2023年国际演讲
@诉讼中{Bain23,author=“Max Bain和Jaesung Huh以及Tengda Han和Andrew Zisserman”,title=“WhisperX:长格式音频的时间准确语音转录”,booktitle=“INTERSPEECH”,年=“2023”,}
大规模、弱监督的语音识别模型,如Whisper,在跨领域和跨语言的语音识别方面取得了令人印象深刻的结果。然而,他们预测的与每个话语相对应的时间戳很容易不准确,而且单词级的时间戳也不可用——即时可用。此外,由于其顺序性,它们通过缓冲转录应用于长音频时禁止批量推理。为了克服这些挑战,我们提出了WhisperX,这是一种时间准确的语音识别系统,它利用语音活动检测和强制音素对齐来获得单词级时间戳。在这样做的过程中,我们展示了长形式转录和分词基准测试的最先进性能。此外,我们还表明,使用我们提出的VAD剪切与合并策略对音频进行预分割可以提高转录质量,并通过批处理推理实现12倍的转录加速。
2023年IEEE计算机视觉和模式识别会议
@会议记录{Bhalgat23,author=“Yash Bhalgat and Joao~F.Henriques and Andrew Zisserman”,title=“教授变形金刚多视角几何的轻触法”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2023”,keywords=“变形金刚,极线损耗,目标检索”,}
变形金刚是强大的视觉学习者,很大程度上是因为他们明显缺乏人工指定的先验。这种灵活性在涉及多视图几何的任务中可能会有问题,因为3D形状和视点可能会有近无限的变化(需要灵活性),而射影几何的精确性质(遵循刚性定律)。为了解决这个难题,我们提出了一种“轻触”的方法,指导视觉变形金刚学习多视图几何,但允许他们在需要时自由发挥。我们通过使用极线来引导Transformer的交叉注意力图,惩罚极线之外的注意力值,并鼓励沿着这些线给予更高的关注,因为它们包含几何上合理的匹配。与以前的方法不同,我们的方案在测试时不需要任何相机姿势信息。我们重点关注位置不变的对象实例检索,由于查询和检索图像之间的视点差异很大,标准Transformer网络很难实现这一点。在实验上,我们的方法在对象检索方面优于最先进的方法,在测试时不需要姿势信息。
2023年神经信息处理系统进展
@会议记录{Bhalgat23a,author=“Yash Bhalgat and Iro Laina and Joao ~ F.Henriques and Andrew Zisserman and Andrea Vedaldi”,title=“对比提升:通过慢速对比融合分割三维对象实例”,booktitle=“神经信息处理系统的进展”,年=“2023”,keywords=“神经辐射场、实例分割、度量学习、聚类、3D计算机视觉”,}
由于缺乏大规模注释数据集,3D中的实例分割是一项具有挑战性的任务。在本文中,我们表明,利用2D预训练模型进行实例分割可以有效地解决这一问题。我们提出了一种新的方法,将2D片段提升到3D,并通过神经场表示将其融合,从而鼓励跨帧的多视图一致性。我们的方法的核心是一个慢速聚类目标函数,它具有可伸缩性,非常适合具有大量对象的场景。与以前的方法不同,我们的方法不需要对象数量的上限或跨帧的对象跟踪。为了演示慢速聚类的可伸缩性,我们创建了一个新的称为“杂乱房间”的半真实数据集,该数据集以每个场景最多包含500个对象的场景为特征。我们的方法在ScanNet、Hypersim和Replica数据集的具有挑战性的场景以及我们新创建的Messy Rooms数据集上优于最先进的方法,这证明了我们的慢速聚类方法的有效性和可扩展性。
E.布里高,A.贾马卢丁,E.克拉克,J.Fairbank,T.卡迪尔,A.齐瑟曼
2023年医学影像形状MICCAI研讨会
@诉讼中{布利加特23,author=“Emmanuelle Bourigault和Amir Jamaludin以及Emma Clark和Jeremy Fairbank以及Timber Kadir和Andrew Zisserman”,title=“脊柱侧凸的三维形状分析”,booktitle=“医学成像中的形状MICCAI研讨会”,年=“2023”,publisher=“Springer”,keywords=“MRI·脊柱几何学·3D/2D通信”,}
虽然脊柱侧弯是一种三维(3D)疾病,但通常在冠状面二维测量。我们在这项工作中的目标是分析脊柱的三维几何结构及其与椎管的关系。为此,我们做出了三个贡献:首先,我们从低分辨率全身Dixon MRI中自动提取脊柱的三维空间曲线,并获得不同程度脊柱侧凸的冠状、矢状和轴向投影;其次,我们还从核磁共振成像中提取椎管作为3D曲线,并检查两条3D曲线之间的关系;第三,我们测量脊椎的旋转角度,并检查此3D测量与冠状投影的2D曲率之间的相关性。在本研究中,我们使用了来自英国生物银行的48384个核磁共振成像仪。
R.S.卡瓦略,A.Pais,F.卡布拉尔,A.直径,G.贝格尔,A.杜塔,A.齐瑟曼,R.A.科埃略
国际摄影测量、遥感和空间信息科学档案,第XLVIII-M-2-2023卷,第379-384页,2023年
@第{Carvalho23条,author=“Ros\'ario Salema Carvalho、Alexandre Pais、Fernando Cabral、Armindo Dias、Giles Bergel、Abhishek Dutta、Andrew Zisserman和Rui Avelans Coelho”,title=“重塑葡萄牙Azulejo模式的未来”,journal=“摄影测量、遥感和空间信息科学国际档案”,volume=“XLVIII-M-2-2023”,pages=“379--384”,年=“2023”,doi=“10.5194/isprs-archives-XLVII-M-2-2023-379-2023”,}
本文介绍了一种新的方法来清点和编目葡萄牙建筑中发现的azulejo图案。它使用基于计算机视觉的软件工具自动搜索和匹配azulejo模式,从而提高了现有编目方法的可扩展性和速度。azulejo模式的在线目录称为Az Infinitum(azulejo参考和索引系统),这是一个可公开访问的在线门户网站,适合研究人员和对探索和理解葡萄牙这一文化遗产感兴趣的公众。本目录作为研究支持工具的有效性通过基于Marvila模式(即P-17-00999)的案例研究进行了证明。在线目录激发了开发一个吸引人的应用程序Azulejar的灵感,它允许人们创建新的模式或理解现有azulejos模式背后的数学过程。这个应用程序有可能成为一个有效的教育工具,激励每个人探索和理解azulejo模式之美背后的科学。
2023年IEEE计算机视觉和模式识别会议
@诉讼中{Han23,author=“Tengda Han和Max Bain以及Arsha Nagrani和G{”u}l Varol和Weidi Xie以及Andrew Zisserman“,title=“AutoAD:上下文中的电影描述”,booktitle=“IEEE计算机视觉与模式识别会议”,年=“2023”,}
本文的目标是一个自动音频描述(AD)模型,该模型在文本形式。由于描述对上下文的依赖性,以及可用的训练数据量有限,生成高质量的电影AD具有挑战性。在这项工作中,我们利用预处理基础模型(如GPT和CLIP)的强大功能,只训练一个映射网络,将这两个模型连接起来,用于可视化条件下的文本生成。为了获得高质量的广告,我们做出了以下四个贡献:(i)我们结合了电影剪辑的上下文、之前剪辑的广告以及字幕;(ii)我们通过在大规模数据集上预训练来解决训练数据的缺乏问题,在大规模数据集上,视觉或上下文信息不可用,例如没有电影的纯文本AD或没有上下文的视觉字幕数据集;(iii)通过去除MAD数据集中的标签噪声,并添加字符命名信息,我们改进了当前可用的AD数据集;与以前的方法相比,我们在电影广告任务上取得了很好的结果。