2024年声学、语音和信号处理国际会议
@诉讼中{Oncescu24,author=“安德烈亚·马里亚·昂塞斯库(Andreea-Maria Oncescu)和若奥·F·亨利克斯(Joao~F.Henriques)、安德鲁·齐瑟曼(Andrew Zisserman)、塞缪尔·阿尔巴尼(Samuel Albanie)和A.索菲亚·科普克(,title=“声音方法:使用大型语言模型生成音频描述,用于以自我为中心的文本音频检索”,booktitle=“声学、语音和信号处理国际会议”,年=“2024”,}
来自互联网的视频数据库是文本音频检索数据集的宝贵来源。然而,考虑到声音和视觉流代表不同的数据“视图”,将视觉描述视为音频描述远不是最佳的。即使存在音频类标签,它们通常也不是很详细,这使得它们不适合文本音频检索。为了利用视频文本数据集中的相关音频信息,我们引入了一种使用大型语言模型(LLM)生成以音频为中心的描述的方法。在这项工作中,我们考虑了以自我为中心的视频设置,并基于EpicMIR和EgoMCQ任务以及EpicSounds数据集提出了三个新的文本音频检索基准。与使用原始的以视觉为中心的描述相比,我们获得以音频为中心的描述性描述的方法具有明显更高的零快照性能。此外,我们还表明,与使用数据集的原始音频类标签相比,使用相同的提示,我们可以成功地使用LLM改进EpicSounds上的检索。最后,我们确认LLM可用于确定识别与声音相关的动作的难度。
IEEE多媒体汇刊,2022年
@第{Oncescu22条,author=“A.Sophia Koepke和Andreea-Maria Oncescu以及Joao~F.Henriques和Samuel Albanie”,title=“带自然语言查询的音频检索:基准研究”,journal=“IEEE多媒体汇刊”,年=“2022”,}
这项工作的目标是跨模式文本音频和音频文本检索,其目标是从与给定书面描述最匹配的候选库中检索音频内容,反之亦然。文本音频检索使用户能够通过直观的界面搜索大型数据库:他们只需对自己想听的声音发布自由形式的自然语言描述。为了研究在现有文献中受到有限关注的文本音频和音频文本检索任务,我们引入了三个具有挑战性的新基准。我们首先从AudioCaps和Cloto音频字幕数据集构建文本音频和音频文本检索基准。此外,我们还介绍了SoundDescs基准测试,它包括对各种声音集合的音频和自然语言描述,这些声音集合与AudioCaps和Cloto中的声音集合是互补的。我们使用这三个基准来建立跨模式文本音频和音频文本检索的基准,在这两个基准中,我们展示了对不同音频任务进行预培训的好处。我们希望我们的基准测试将激发对自由形式文本查询的音频检索的进一步研究。所有使用的数据集的代码、音频功能以及SoundDescs数据集都可以在这个https URL上公开获得。
INTERSPEECH,第2411-2415页,2021年6月
@在诉讼中{Oncescu21b,author=“安德烈亚·马里亚·昂塞斯库(Andreea-Maria Oncescu)、A.索菲亚·科普克(A.Sophia Koepke)、Joao~F.亨利克斯(F.Henriques)、泽尼普·阿卡塔(Zeynep Akata)和塞缪尔·奥尔巴尼(Sam,title=“带自然语言查询的音频检索”,booktitle=“INTERSPEECH”,series=“年度会议系列”,pages=“2411--2415”,month=“六月”,年=“2021”,publisher=“isca-speech”,}
我们考虑使用自由形式的自然语言查询检索音频的任务。为了研究这个在现有文献中受到有限关注的问题,我们引入了具有挑战性的新基准测试,用于使用来自AUDIOCAPS和CLOTHO数据集的文本注释进行基于文本的音频检索。然后,我们使用这些基准来建立跨模式音频检索的基线,在这里我们演示了对不同音频任务进行预训练的好处。我们希望,我们的基准测试将激发对基于自由形式文本查询的跨模式文本音频检索的进一步研究。
A.S.Koepke,O.怀尔斯,Y.摩西,A.齐瑟曼
2020年声学、语音和信号处理国际会议
@诉讼中{Koepke20,author=“A.Sophia Koepke和Olivia Wiles以及Yael Moses和Andrew Zisserman”,title=“视觉到声音:视觉钢琴转录的端到端方法”,booktitle=“声学、语音和信号处理国际会议”,年=“2020”,}
自动音乐转录主要侧重于将音频转录为符号音乐表示(例如MIDI或乐谱)。然而,只有音频的方法经常与复音乐器和背景噪音作斗争。相反,视觉信息(例如正在播放的乐器的视频)没有这种模糊性。在这项工作中,我们解决了仅从视觉数据转录钢琴音乐的问题。我们提出了一个端到端的深度学习框架,该框架学习自动预测一个人弹奏钢琴的视频中出现的音符事件。由此,我们能够以MIDI数据的形式转录播放的音乐。我们发现,我们的方法在各种复杂的情况下都出人意料地有效,尤其是在那些仅从音频转录音乐是不可能的情况下。我们还表明,结合音频和视频数据可以提高仅从每个模态获得的转录。
A.S.Koepke,O.怀尔斯,A.齐瑟曼
2019年声音和音乐计算会议
@诉讼中{Koepke19,author=“A.Sophia Koepke、Olivia Wiles和Andrew Zisserman”,title=“视觉音调估计”,booktitle=“声音和音乐计算会议”,year=“2019”,}
在这项工作中,我们提出了仅使用视觉从小提琴演奏的视频帧中自动估计音高(基频)的任务。在这里,我们只考虑单声道小提琴演奏(一次只演奏一个音符)。为了研究这项任务,我们整理了一个新的单声道小提琴演奏数据集。我们提出了一种卷积神经网络(CNN)架构,该架构使用学生-教师策略进行训练,以将知识从音频域提取到视频域。在测试时,我们的网络将视频帧作为输入,并直接回归音高。我们在新数据集的不同子集上训练和测试这个体系结构。我们表明,这项任务(即从视觉预测音高)实际上是可行的。此外,我们验证了网络确实学会了关注图像的显著部分,例如小提琴手的左手被用作估计音高的视觉线索。
O.怀尔斯,A.S.Koepke,A.齐瑟曼
计算机视觉中紧凑高效的特征表示和学习研讨会,ICCV,2019年
@诉讼中{Wiles19,author=“Olivia Wiles和A.Sophia Koepke以及Andrew Zisserman”,title=“视频课堂嵌入的自我监督学习”,booktitle=“计算机视觉中紧凑高效的特征表示与学习研讨会,ICCV”,year=“2019”,}
这项工作探索了如何使用视频上的自我监督学习来学习对姿势和形状信息进行编码的特定类别图像嵌入。在训练时,提取一个对象类(例如人体上身)的同一视频的两个帧,每个帧编码为一个嵌入。在这些嵌入的条件下,解码器网络的任务是将一帧转换为另一帧。为了成功地执行长距离变换(例如,一幅图像中降低的手腕应映射到另一幅图像上升高的手腕),我们引入了一个分层概率网络解码器模型。经过训练后,嵌入可以用于各种下游任务和域。我们在三个不同的可变形对象类(人体全身、上身、面部)上定量地演示了我们的方法,并通过实验证明了所学的嵌入确实具有普遍性。与在相同数据集上训练的其他自监督方法相比,它们达到了最先进的性能,并且接近于完全监督方法的性能。
O.怀尔斯,A.S.Koepke,A.齐瑟曼
2018年英国机器视觉会议
@会议记录{Wiles18a,author=“Olivia Wiles和A.Sophia Koepke以及Andrew Zisserman”,title=“从视频中嵌入面部属性的自我监督学习”,booktitle=“英国机器视觉会议”,year=“2018”,}
我们提出了一个自我监督的框架,通过简单地观看人脸随时间说话、大笑和移动的视频来学习面部特征。为了完成这项任务,我们引入了一个网络Facial Attributes-Net(FAb-Net),该网络经过训练,可以将同一视频人脸跟踪中的多个帧嵌入到一个公共的低维空间中。利用这种方法,我们有三个贡献:首先,我们证明了网络可以通过预测每个帧的置信度/注意掩码来利用来自多个源帧的信息;其次,我们证明使用课程学习机制可以提高学习者的嵌入性;最后,我们证明了该网络学习了一个有意义的人脸嵌入,该嵌入对头部姿势、面部标志和面部表情(即面部属性)的信息进行编码,而无需使用任何标记数据进行监督。在这些任务上,我们可以与最先进的自我监督方法相媲美或优于,并接近监督方法的性能。
O.怀尔斯,A.S.Koepke,A.齐瑟曼
2018年欧洲计算机视觉会议
@诉讼程序{Wiles18,author=“Olivia Wiles和A.Sophia Koepke以及Andrew Zisserman”,title=“X2Face:通过使用图像、音频和姿势代码控制人脸生成的网络”,booktitle=“欧洲计算机视觉会议”,year=“2018”,}
本文的目的是建立一个神经网络模型使用另一张脸或模态(例如音频)控制给定脸的姿势和表情。该模型可以用于轻量级、复杂的视频和图像编辑。我们作出以下三项贡献。第一,我们引入了一个网络X2Face,它可以使用驱动帧中的另一个面来控制源面(由一个或多个帧指定),以生成具有源帧的身份,但姿势和表达式驱动架中的面。其次,我们建议一种训练网络完全自监督的方法使用大量视频数据。第三,我们证明了这一点生成过程可以由其他方式驱动,例如音频或姿势代码,而无需对网络进行任何进一步训练。这个将驱动一个面与另一个面的生成结果进行比较采用最先进的自我监督/监督方法。我们表明我们的方法比其他方法更稳健,因为它对输入数据的假设更少。我们还展示了使用我们的框架进行视频人脸编辑的示例。