提供这些材料是为了确保学术和技术工作的及时传播。版权及其所有权利由作者或其他版权所有者保留。所有复制此信息的人都应遵守每个作者的版权所引用的条款和限制。在大多数情况下,未经版权所有者明确许可,不得转载这些作品。



看、听和识别:角色软件视听字幕

B.科尔巴,J.嗯,A.齐瑟曼
2024年声学、语音和信号处理国际会议
下载出版物:korbar24.pdf[4.5Mo] 
本文的目标是自动生成角色软件字幕。给定一段视频和最少量的元数据,我们提出了一种视听方法,该方法可以生成对话的完整记录,带有精确的语音时间戳,并识别出说话的角色。其关键思想是首先使用视听线索为每个字符选择一组高精度的音频样本,然后使用这些样本根据说话人身份对所有语音片段进行分类。值得注意的是,该方法不需要人脸检测或跟踪。我们对包括《宋飞正传》、《弗雷泽》和《Scrubs》在内的多种电视情景喜剧进行了评估。我们设想该系统可用于自动生成字幕,以提高现代流媒体服务上大量视频的可访问性。

链接:


BibTeX参考:

@诉讼中{Korbar24,author=“Bruno Korbar和Jaesung Huh以及Andrew Zisserman”,title=“看、听和识别:角色软件视听字幕”,booktitle=“声学、语音和信号处理国际会议”,年=“2024”,}

数据库中的其他出版物: