2024年声学、语音和信号处理国际会议
@诉讼中{Oncescu24,author=“安德烈亚·马里亚·昂塞斯库(Andreea-Maria Oncescu)和若奥·F·亨利克斯(Joao~F.Henriques)、安德鲁·齐瑟曼(Andrew Zisserman)、塞缪尔·阿尔巴尼(Samuel Albanie)和A.索菲亚·科普克(,title=“声音方法:使用大型语言模型生成音频描述,用于以自我为中心的文本音频检索”,booktitle=“声学、语音和信号处理国际会议”,年=“2024”,}
来自互联网的视频数据库是文本音频检索数据集的宝贵来源。然而,考虑到声音和视觉流代表不同的数据“视图”,将视觉描述视为音频描述远不是最佳的。即使存在音频类标签,它们通常也不是很详细,这使得它们不适合文本音频检索。为了利用视频文本数据集中的相关音频信息,我们引入了一种使用大型语言模型(LLM)生成以音频为中心的描述的方法。在这项工作中,我们考虑了以自我为中心的视频设置,并基于EpicMIR和EgoMCQ任务以及EpicSounds数据集提出了三个新的文本音频检索基准。与使用原始的以视觉为中心的描述相比,我们获得以音频为中心的描述性描述的方法具有明显更高的零快照性能。此外,我们还表明,与使用数据集的原始音频类标签相比,使用相同的提示,我们可以成功地使用LLM改进EpicSounds上的检索。最后,我们确认LLM可用于确定识别与声音相关的动作的难度。
IEEE多媒体汇刊,2022年
@第{Oncescu22条,author=“A.Sophia Koepke和Andreea-Maria Oncescu以及Joao~F.Henriques和Samuel Albanie”,title=“带自然语言查询的音频检索:基准研究”,journal=“IEEE多媒体汇刊”,年=“2022”,}
这项工作的目标是跨模式文本音频和音频文本检索,其目标是从与给定书面描述最匹配的候选库中检索音频内容,反之亦然。文本音频检索使用户能够通过直观的界面搜索大型数据库:他们只需对自己想听的声音发布自由形式的自然语言描述。为了研究在现有文献中受到有限关注的文本音频和音频文本检索任务,我们引入了三个具有挑战性的新基准。我们首先从AudioCaps和Cloto音频字幕数据集构建文本音频和音频文本检索基准。此外,我们还介绍了SoundDescs基准测试,它包括对各种声音集合的音频和自然语言描述,这些声音集合与AudioCaps和Cloto中的声音集合是互补的。我们使用这三个基准来建立跨模式文本音频和音频文本检索的基准,在这两个基准中,我们展示了对不同音频任务进行预培训的好处。我们希望我们的基准测试将激发对自由形式文本查询的音频检索的进一步研究。所有使用的数据集的代码、音频功能以及SoundDescs数据集都可以在这个https URL上公开获得。
INTERSPEECH,第2411-2415页,2021年6月
@在诉讼中{Oncescu21b,author=“安德烈亚·马里亚·昂塞斯库(Andreea-Maria Oncescu)、A.索菲亚·科普克(A.Sophia Koepke)、Joao~F.亨利克斯(F.Henriques)、泽尼普·阿卡塔(Zeynep Akata)和塞缪尔·奥尔巴尼(Sam,title=“带自然语言查询的音频检索”,booktitle=“INTERSPEECH”,series=“年度会议系列”,pages=“2411--2415”,month=“六月”,年=“2021”,publisher=“isca-speech”,}
我们考虑使用自由形式的自然语言查询检索音频的任务。为了研究这个在现有文献中受到有限关注的问题,我们引入了具有挑战性的新基准测试,用于使用来自AUDIOCAPS和CLOTHO数据集的文本注释进行基于文本的音频检索。然后,我们使用这些基准来建立跨模式音频检索的基线,在这里我们演示了对不同音频任务进行预训练的好处。我们希望,我们的基准测试将激发对基于自由形式文本查询的跨模式文本音频检索的进一步研究。
国际声学、语音和信号处理会议,2021年1月
@诉讼中{Oncescu21,author=“安德烈亚·马里亚·昂塞斯库(Andreea-Maria Oncescu)和若奥·F·亨利克斯(Joao~F.Henriques)、杨柳(Yang Liu)、安德鲁·齐瑟曼(Andrew Zisserman)和塞缪尔·奥尔巴尼(Samuel Al,title=“QuerYD:具有高质量文本和音频解说的视频数据集”,booktitle=“声学、语音和信号处理国际会议”,month=“jan”,年=“2021”,组织=“IEEE”,keywords=“音频描述,检索”,}
我们引入了QuerYD,这是一个新的大规模数据集,用于视频检索和事件定位。我们数据集的一个独特功能是每个视频都有两个音频曲目:原始音频和视频内容的高质量口头描述。该数据集基于YouDescription,这是一个志愿者项目,通过在现有的YouTube视频中添加声音叙述来帮助受到视觉冲击的人。这个不断增长的视频集包含高度详细、时间对齐的音频和文本注释。内容描述比对话更具相关性,比之前的描述尝试更详细,可以观察到这些描述包含许多肤浅或无信息的描述。为了证明QuerYD数据集的实用性,我们展示了它可以用于训练和基准测试用于检索和事件定位的强模型。数据、代码和模型都已公开,我们希望QuerYD能够激发人们对使用书面和口头自然语言进行视频理解的进一步研究。