视觉几何组-牛津大学

一种可靠的方法：使用大型语言模型生成音频描述，用于以自我为中心的文本音频检索

A.昂塞斯库,J.F.亨里克,A.齐瑟曼，S.奥尔巴尼,A.S.科普克

2024年声学、语音和信号处理国际会议

下载出版物：

来自互联网的视频数据库是文本音频检索数据集的宝贵来源。然而，考虑到声音和视觉流代表不同的数据“视图”，将视觉描述视为音频描述远不是最佳的。即使有音频类标签，它们通常也不是很详细，因此不适合文本音频检索。为了利用视频文本数据集中的相关音频信息，我们引入了一种使用大型语言模型（LLM）生成以音频为中心的描述的方法。在这项工作中，我们考虑了以自我为中心的视频设置，并基于EpicMIR和EgoMCQ任务以及EpicSounds数据集提出了三个新的文本音频检索基准。与使用原始的以视觉为中心的描述相比，我们获得以音频为中心的描述性描述的方法具有明显更高的零快照性能。此外，我们还表明，与使用数据集的原始音频类标签相比，使用相同的提示，我们可以成功地使用LLM改进EpicSounds上的检索。最后，我们确认LLM可用于确定识别与声音相关的动作的难度。

BibTeX参考：

@诉讼中{Oncescu24，author=“Andreea Maria Oncescu和Joao ~ F.Henriques和Andrew Zisserman以及Samuel Albanie和A.Sophia Koepke”，title=“声音方法：使用大型语言模型生成音频描述，用于以自我为中心的文本音频检索”，booktitle=“声学、语音和信号处理国际会议”，年=“2024”，}

数据库中的其他出版物：

»安德烈亚·马里亚·昂塞斯库
»Joao F.Henriques
»安德鲁·齐瑟曼
»塞缪尔·奥尔巴尼
»A.Sophia Koepke