Scaling Speech Technology to 1,000+ Languages

Vineel Pratap; Andros Tjandra; Bowen Shi; Paden Tomasello; Arun Babu; Sayani Kundu; Ali Elkahky; Zhaoheng Ni; Apoorv Vyas; Maryam Fazel-Zarandi; Alexei Baevski; Yossi Adi; Xiaohui Zhang; Wei-Ning Hsu; Alexis Conneau; Michael Auli

扩大语音技术的语言覆盖范围有可能改善更多人获得信息的机会。然而，目前的语音技术仅限于大约100种语言，这只是世界上7000多种语言中的一小部分。大规模多语言语音（MMS）项目将支持的语言数量增加了10-40倍，具体取决于任务，同时与之前的工作相比提高了准确性。主要成分是基于公开宗教文本阅读的新数据集，并有效利用了自导学习。我们构建了涵盖1406种语言的预训练wav2vec 2.0模型，1107种语言的单一多语言自动语音识别模型，相同数量语言的语音合成模型，以及4017种语言识别模型。实验表明，在FLEURS基准的54种语言上，我们的多语言语音识别模型在对少量标记数据进行训练时，其单词错误率为Whisper的一半以上。

将语音技术扩展到1000多种语言

摘要