本材料旨在确保学术和技术工作的及时传播。版权及其所有权利由作者或其他版权所有者保留。所有复制此信息的人都应遵守每个作者的版权所引用的条款和限制。在大多数情况下,未经版权所有者明确许可,不得转载这些作品。



WhisperX:长格式音频的时间准确语音转录

M.贝恩,J.嗯,T.韩,A.齐瑟曼
2023年国际演讲
下载出版物:贝恩23.pdf[375Ko] 
大规模、弱监督的语音识别模型,如Whisper,在跨领域和跨语言的语音识别方面取得了令人印象深刻的结果。然而,他们预测的与每个话语相对应的时间戳容易不准确,并且单词级别的时间戳不可用——开箱即用。此外,由于其顺序性,它们通过缓冲转录应用于长音频时禁止批量推理。为了克服这些挑战,我们提出了WhisperX,这是一种时间准确的语音识别系统,它利用语音活动检测和强制音素对齐来获得单词级时间戳。在这样做的过程中,我们展示了长形式转录和分词基准测试的最先进性能。此外,我们还表明,使用我们提出的VAD剪切与合并策略对音频进行预分割可以提高转录质量,并通过批处理推理实现12倍的转录加速。

链接:


BibTex参考:

@诉讼中{Bain23,author=“Max Bain和Jaesung Huh以及Tengda Han和Andrew Zisserman”,title=“WhisperX:长格式音频的时间精确语音转录”,booktitle=“INTERSPEECH”,年=“2023”,}

数据库中的其他出版物: