视觉几何组-牛津大学

WhisperX：长格式音频的时间准确语音转录

2023年国际演讲

下载出版物：

大规模、弱监督的语音识别模型，如Whisper，在跨领域和跨语言的语音识别方面取得了令人印象深刻的结果。然而，他们预测的与每个话语相对应的时间戳容易不准确，并且单词级别的时间戳不可用——开箱即用。此外，由于其顺序性，它们通过缓冲转录应用于长音频时禁止批量推理。为了克服这些挑战，我们提出了WhisperX，这是一种时间准确的语音识别系统，它利用语音活动检测和强制音素对齐来获得单词级时间戳。在这样做的过程中，我们展示了长形式转录和分词基准测试的最先进性能。此外，我们还表明，使用我们提出的VAD剪切与合并策略对音频进行预分割可以提高转录质量，并通过批处理推理实现12倍的转录加速。

链接：

代码

BibTex参考：

@诉讼中{Bain23，author=“Max Bain和Jaesung Huh以及Tengda Han和Andrew Zisserman”，title=“WhisperX：长格式音频的时间精确语音转录”，booktitle=“INTERSPEECH”，年=“2023”，}

数据库中的其他出版物：

»马克斯·贝恩
»Jaesung Huh
»腾达汉
»安德鲁·齐瑟曼

出版物

WhisperX：长格式音频的时间准确语音转录

链接：

代码

BibTex参考：

数据库中的其他出版物：