视觉几何组-牛津大学

看、听和识别：角色软件视听字幕

2024年声学、语音和信号处理国际会议

下载出版物：

本文的目标是自动生成角色软件字幕。给定一段视频和最少量的元数据，我们提出了一种视听方法，该方法可以生成对话的完整记录，带有精确的语音时间戳，并识别出说话的角色。其关键思想是首先使用视听线索为每个字符选择一组高精度的音频样本，然后使用这些样本根据说话人身份对所有语音片段进行分类。值得注意的是，该方法不需要人脸检测或跟踪。我们对包括《宋飞正传》、《弗雷泽》和《Scrubs》在内的多种电视情景喜剧进行了评估。我们设想该系统可用于自动生成字幕，以提高现代流媒体服务上大量视频的可访问性。

链接：

项目页面

BibTeX参考：

@诉讼中{Korbar24，author=“Bruno Korbar和Jaesung Huh以及Andrew Zisserman”，title=“看、听和识别：角色软件视听字幕”，booktitle=“声学、语音和信号处理国际会议”，年=“2024”，}

数据库中的其他出版物：

»布鲁诺·科尔巴
»Jaesung Huh
»安德鲁·齐瑟曼

出版物

看、听和识别：角色软件视听字幕

链接：

项目页面

BibTeX参考：

数据库中的其他出版物：