主页

论文

提交文件

新闻

编辑委员会

特殊问题

开源软件

程序(PMLR)

数据(DMLR)

交易(TMLR)

搜索

统计

登录

常见问题解答

联系我们



RSS源

将语音技术扩展到1000多种语言

Vineel Pratap、Andros Tjandra、Bowen Shi、Paden Tomasello、Arun Babu、Sayani Kundu、Ali Elkahky、Zhaoheng Ni、Apoorv Vyas、Maryam Fazel-Zarandi、Alexei Baevski、Yossi Adi、Xiaohui Zhang、Wei-Ning Hsu、Alexis Conneau、Michael Auli; 25(97):1−52, 2024.

摘要

扩大语音技术的语言覆盖范围有可能改善更多人获得信息的机会。然而,目前的语音技术仅限于大约100种语言,这只是世界上7000多种语言中的一小部分。大规模多语言语音(MMS)项目将支持的语言数量增加了10-40倍,具体取决于任务,同时与之前的工作相比提高了准确性。主要成分是基于公开宗教文本阅读的新数据集,并有效利用了自导学习。我们构建了涵盖1406种语言的预训练wav2vec 2.0模型,1107种语言的单一多语言自动语音识别模型,相同数量语言的语音合成模型,以及4017种语言识别模型。实验表明,在FLEURS基准的54种语言上,我们的多语言语音识别模型在对少量标记数据进行训练时,其单词错误率为Whisper的一半以上。

[腹肌][pdf格式][围兜]      [代码]
©JMLR公司2024(编辑,贝塔)

乳臭虫