2024年IEEE计算机视觉和模式识别会议
@诉讼中{Han24,author=“Tengda Han和Max Bain以及Arsha Nagrani和G{”u}l Varol和Weidi Xie以及Andrew Zisserman“,title=“{AutoAD III}:前传--回到像素”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2024”,}
为电影生成音频描述(AD)是一项具有挑战性的任务,需要精细的视觉理解以及对角色及其名称的认识。目前,由于缺乏合适的训练数据,用于生成AD的可视化语言模型受到了限制,并且由于使用了非AD领域专用的性能度量,这些模型的评估也受到了阻碍。在本文中,我们做出了三点贡献:(i) 我们提出了两种使用对齐视频数据构建AD数据集的方法,并使用这些方法构建训练和评估数据集。这些数据集将公开发布;(ii)我们开发了一种基于Q-form的架构,该架构使用冻结的预处理视觉编码器和大型语言模型,接收原始视频并生成AD;以及(iii)我们提供了新的评估方法来衡量AD质量,这些评估方法与人类表现非常匹配。总之,我们改进了AD生成的最新技术。
2023年英国机器视觉会议
@诉讼中{AminiNaieni23,author=“Niki Amini-Naieni和Kiana Amini-Naeeni以及Tengda Han和Andrew Zisserman”,title=“Open-world文本特定对象计数”,booktitle=“英国机器视觉会议”,年=“2023”,organization=“英国机器视觉协会”,address=“英国DH1 3LE达勒姆南路达勒姆大学计算机科学系”,doi=“10.48550/2306.01851”,}
我们的目标是在图像中计算开放世界对象,其中目标对象类由文本描述指定。为此,我们提出了CounTX,这是一个类识别的单级模型,在预训练的联合文本图像表示之上使用了一个变压器-解码器计数头。CounTX能够计算仅给定目标对象类的图像和文本描述的任何类的实例数,并且可以进行端到端的训练。除此模型外,我们还做出了以下贡献:(i)我们将CounTX的性能与之前在开放世界对象计数方面的工作进行了比较,并表明我们的方法在使用文本指定任务的方法的FSC-147基准的所有度量方面都超过了最新技术;(ii)我们提出并发布了FSC-147-D,它是FSC-147的一个增强版本,带有文本描述,因此可以用比简单类名更详细的语言描述对象类。
2023年国际演讲
@诉讼中{Bain23,author=“Max Bain和Jaesung Huh以及Tengda Han和Andrew Zisserman”,title=“WhisperX:长格式音频的时间准确语音转录”,booktitle=“INTERSPEECH”,年=“2023”,}
大规模、弱监督的语音识别模型,如Whisper,在跨领域和跨语言的语音识别方面取得了令人印象深刻的结果。然而,他们预测的与每个话语相对应的时间戳很容易不准确,而且单词级的时间戳也不可用——即时可用。此外,由于其顺序性,它们通过缓冲转录应用于长音频时禁止批量推理。为了克服这些挑战,我们提出了WhisperX,这是一种时间准确的语音识别系统,具有单词级时间戳,利用语音活动检测和强制音素对齐。在这样做的过程中,我们展示了长形式转录和分词基准测试的最先进性能。此外,我们还表明,使用我们提出的VAD剪切与合并策略对音频进行预分割可以提高转录质量,并通过批处理推理实现12倍的转录加速。
2023年IEEE计算机视觉和模式识别会议
@诉讼中{Han23,author=“Tengda Han和Max Bain以及Arsha Nagrani和G{”u}l Varol和Weidi Xie以及Andrew Zisserman“,title=“AutoAD:上下文中的电影描述”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2023”,}
本文的目标是一个自动音频描述(AD)模型,该模型在文本形式。由于描述依赖于上下文,并且可用的训练数据数量有限,因此生成高质量的电影广告具有挑战性。在这项工作中,我们利用预处理基础模型(如GPT和CLIP)的强大功能,只训练一个映射网络,将这两个模型连接起来,用于可视化条件下的文本生成。为了获得高质量的广告,我们做出了以下四个贡献:(i)我们结合了电影剪辑的上下文、之前剪辑的广告以及字幕;(ii)我们通过对大型数据集进行预训练来解决训练数据不足的问题,在这些数据集中,视觉或上下文信息是不可用的,例如,没有电影的纯文本AD或没有上下文的视觉字幕数据集;(iii)通过去除MAD数据集中的标签噪声,并添加字符命名信息,我们改进了当前可用的AD数据集;以及(iv)与以前的方法相比,我们在电影AD任务上获得了强有力的结果。
2023年IEEE国际计算机视觉会议
@诉讼中{Han23a,author=“Tengda Han和Max Bain以及Arsha Nagrani和G{”u}l Varol和Weidi Xie以及Andrew Zisserman“,title=“{AutoAD II}:The Sequel–Who,When,and What in Movie Audio Description”,booktitle=“IEEE计算机视觉国际会议”,年=“2023”,}
音频描述(AD)的任务是以适当的时间间隔为视障观众生成视觉内容的描述。对于电影来说,这带来了显著的挑战——广告必须只在对话中现有的停顿期间出现,应该按名字指代角色,并且应该有助于理解整个故事情节。为此,我们开发了一个新的自动生成电影广告的模型,给出了帧的CLIP视觉特征、演员名单和语音的时间位置;解决所有三个“谁”、“什么时候”和“什么”问题:(i)谁——我们为每部电影的主要演员介绍一个由角色的名字、扮演该角色的演员和他们脸上的CLIP特征组成的角色库,并演示如何利用这一点改进生成的AD中的命名;(ii)何时——我们研究了几种模型,根据区间及其相邻区域的视觉内容来确定是否应生成某个时段的AD;以及(iii)是什么——我们为这项任务实现了一个新的视觉语言模型,它可以接收来自字符库的建议,同时使用交叉注意力来调节视觉特征,并通过apples-to-apples的比较演示了这与以前的AD文本生成架构相比是如何改进的。
牛津大学博士论文,2022年10月
@博士论文{Han22,author=“腾达汉”,title=“自我监督视频表现学习”,school=“牛津大学”,月=“十月”,年=“2022”,注=“视频理解、深度学习、自我监督、高效学习”,}
视频是训练计算机视觉模型的一个吸引人的数据源。在线视频几乎有无限的供应,但详尽的手动注释是不可行的。本文的目标是通过自我监督学习有效地学习强视频表示:这是一种从数据而不是人类注释中学习的方法。本论文围绕三个主题展开:(1)短期视频的自我监督学习,(2)有效的视频表征学习,以及(3)长期视频的自我指导学习。对于只持续几秒钟的短期视频,我们表明预测未来的视频是一个大规模的强大学习信号。我们进一步表明,通过采用两种互补的模式,即RGB和光流,并使用它们相互教学,可以学习强大的视频表示。对于高效的视频表示学习,我们表明,大规模预训练视觉语言模型可以通过快速调整技术有效地进行调整。我们还表明,丢弃图像补丁可以加快分类任务的微调和视频语言模型的预训练。对于持续时间超过几分钟的长期视频,我们表明可以从教学视频中的弱视觉-文本对应中训练时间对齐网络。由此产生的网络可以自动清理自然视频,以进行有效的视觉语言训练。此外,我们还表明,可以利用预先训练的视觉语言模型来训练电影描述模型。
2022年IEEE计算机视觉和模式识别会议
@诉讼中{Han22a,author=“Tengda Han、Weidi Xie和Andrew Zisserman”,title=“用于长期视频的时间对准网络”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2022”,}
本文的目标是建立一个时间对齐网络,该网络接收长期视频序列和相关文本句子,以便:(1)确定句子是否与视频对齐;和(2)如果它是对齐的,则确定其对齐。面临的挑战是从大规模数据集训练此类网络,例如HowTo100M,其中相关的文本句子具有显著噪声,并且只有在相关时才弱对齐。除了提出对齐网络之外,我们还做出了四个贡献:(i)我们描述了一种新的联合训练方法,该方法能够在原始教学视频上进行去噪和训练,而无需使用手动注释,尽管存在相当大的噪声;(ii)为了对对齐性能进行基准测试,我们手动策划了一个10小时的HowTo100M子集,总共80个视频,并进行了稀疏的时间描述。我们提出的模型,经过HowTo100M训练,在该比对数据集上表现出显著优于强基线(CLIP,MIL-NCE);(iii)我们将零镜头设置中的训练模型应用于多个下游视频理解任务,并实现了最先进的结果,包括YouCook2上的文本视频检索,以及Breakfast action上的弱监督视频动作分割;(iv)我们使用自动对齐的HowTo100M注释对主干模型进行端到端微调,并在下游动作识别任务上获得改进的性能。
2022年英国机器视觉会议
@诉讼中{Han22b,author=“Tengda Han、Weidi Xie和Andrew Zisserman”,title=“放弃代币的Turbo训练”,booktitle=“英国机器视觉会议”,年=“2022”,}
本文的目的是为视频任务提供一种有效的训练方法。我们做出了三个贡献:(1)我们提出了Turbo训练,这是一种针对变形金刚的多视频任务的简单而通用的训练范式。(2) 我们举例说明了Turbo训练在动作分类、视频语言表示学习和长视频活动分类方面的优势,表明Turbo训练可以在很大程度上保持竞争性能的同时实现近4倍的加速,并显著减少内存消耗。(3) Turbo培训支持长时间的视频语言培训和端到端的长视频培训,与以前的工作相比,提供了竞争性或优越的性能,而这些工作在有限的资源下是不可行的。
2020年欧洲计算机视觉会议
@诉讼中{Han20,author=“Tengda Han、Weidi Xie和Andrew Zisserman”,title=“用于视频表示学习的记忆增强密集预测编码”,booktitle=“欧洲计算机视觉会议”,年=“2020”,}
本文的目的是从视频中进行自我监督学习,特别是用于动作识别的表示。我们做出了以下贡献:(i)我们为该任务提出了一种新的体系结构和学习框架Memory-augmented Dense Predictive Coding(MemDPC)。它通过压缩记忆集上的预测注意机制进行训练,这样,任何未来状态都可以通过浓缩表示的凸组合来构建,从而可以有效地进行多个假设。(ii)我们研究了从RGB帧或从无监督光流或两者中学习的视觉自监督视频表示。(iii)我们彻底评估了四个不同下游任务的学习表征质量:动作识别、视频检索、少注释学习和无意动作分类。在所有情况下,我们都展示了最先进的或可比的性能,而其他方法的训练数据要少几个数量级。
2020年神经信息处理系统进展
@诉讼中{Han20b,author=“Tengda Han、Weidi Xie和Andrew Zisserman”,title=“视频表现学习的自我监督协同训练”,booktitle=“神经信息处理系统的进展”,年=“2020”,}
本文的目标是视觉上的自导视频表征学习。我们做出了以下贡献:(i)我们研究了在基于实例的信息噪声对比估计(InfoNCE)训练中添加语义类阳性词的好处,表明这种形式的监督对比学习可以显著提高性能;(ii)我们提出了一种新的自监督协同训练方案来改善流行的infoNCE损失,通过使用一个视图来获得另一个视图的正类样本,利用来自同一数据源的不同视图、RGB流和光流的互补信息;(iii)我们在两个不同的下游任务(动作识别和视频检索)上彻底评估所学表征的质量。在这两种情况下,拟议的方法都显示出最先进的或与其他自我监督方法相当的性能,同时培训效率显著提高,即需要更少的培训数据才能实现类似的性能。