SQuId: Measuring Speech Naturalness in Many Languages

Sellam, Thibault; Bapna, Ankur; Camp, Joshua; Mackinnon, Diana; Parikh, Ankur P.; Riesa, Jason

doi:10.1109/ICASSP49357.2023.10094909

计算机科学>计算与语言

arXiv公司：2210.06324（cs）

【2022年10月12日提交(第1版)，上次修订日期：2023年6月1日（此版本，v2）]

标题：SKuId：测量多种语言的语音自然度

作者：蒂鲍特·塞勒姆,安库尔·巴纳,约书亚营地,戴安娜·麦金农,安库尔·帕里赫,杰森·里萨

查看PDF

摘要：许多文本到语音的研究都依赖于人工评估，这会带来巨大的成本并减缓开发过程。在大量使用多种语言的应用程序中，这个问题尤其严重，在这些应用程序中招募和投票法官可能需要数周时间。我们介绍了SQuId（语音质量识别），这是一个多语言自然度预测模型，在超过一百万个评级上进行了训练，并在65个地区进行了测试，这是迄今为止最大的此类工作。主要观点是，在许多地区培训一个模型始终优于单尺度基线。我们介绍了我们的任务和模型，并表明它比基于w2v-BERT和VoiceMOS的竞争基准强50.0%。然后，我们演示了微调期间跨区域传输的有效性，并强调了其对零快照区域设置（即没有微调数据的区域设置）的影响。通过一系列分析，我们强调了非语言效应（如声音伪影）在跨语言环境迁移中的作用。最后，我们通过几个消融实验展示了设计决策的影响，例如模型大小、预训练多样性和语言再平衡。

评论：	ICASSP 2023验收，附录中有其他材料
学科：	计算与语言（cs.CL）; 机器学习（cs.LG）；声音（cs.SD）；音频和语音处理（eess.AS）
引用为：	arXiv公司：2210.06324【cs.CL】
	（或 arXiv:2210.06324v2【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2210.06324
相关DOI以下为：	https://doi.org/10.109/ICASPSP49357.2023.10094909

提交历史记录

发件人：Thibault Sellam[查看电子邮件]
[第1版]2022年10月12日星期三15:43:09 UTC（457 KB）
[版本2]2023年6月1日星期四14:51:00 UTC（415 KB）

计算机科学>计算与语言

标题：SKuId：测量多种语言的语音自然度

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

标题：SKuId：测量多种语言的语音自然度

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目