计算机科学>计算与语言
标题: SKuId:测量多种语言的语音自然度
摘要: 许多文本到语音的研究都依赖于人工评估,这会带来巨大的成本并减缓开发过程。 在大量使用多种语言的应用程序中,这个问题尤其严重,在这些应用程序中招募和投票法官可能需要数周时间。 我们介绍了SQuId(语音质量识别),这是一个多语言自然度预测模型,在超过一百万个评级上进行了训练,并在65个地区进行了测试,这是迄今为止最大的此类工作。 主要观点是,在许多地区培训一个模型始终优于单尺度基线。 我们介绍了我们的任务和模型,并表明它比基于w2v-BERT和VoiceMOS的竞争基准强50.0%。 然后,我们演示了微调期间跨区域传输的有效性,并强调了其对零快照区域设置(即没有微调数据的区域设置)的影响。 通过一系列分析,我们强调了非语言效应(如声音伪影)在跨语言环境迁移中的作用。 最后,我们通过几个消融实验展示了设计决策的影响,例如模型大小、预训练多样性和语言再平衡。