×

快速演讲

swMATH ID: 35797
软件作者: Yi Ren、Chenxu Hu、Xu Tan、Tao Qin、Sheng Zhao、Zhou Zhao和Tie Yan Liu
描述: FastSpeech 2:快速高质量的端到端文本到语音。非自回归文本到语音(TTS)模型(如FastSpeech)合成语音的速度明显快于质量相当的以前的自回归模型。FastSpeech模型的训练依赖于用于持续时间预测(以提供更多信息作为输入)和知识提取(以简化输出中的数据分布)的自回归教师模型,这可以缓解TTS中的一对多映射问题(即多个语音变体对应同一文本)。然而,FastSpeech有几个缺点:1)师生蒸馏管道复杂且耗时,2)从教师模型中提取的持续时间不够准确,并且从教师模型提取的目标光谱图由于数据简化而遭受信息丢失,这两者都限制了语音质量。本文提出了FastSpeech 2,它解决了Fast语音中的问题,通过1)直接用地面目标训练模型,而不是教师的简化输出,以及2)引入更多的语音变化信息(例如音高、能量和更准确的持续时间),更好地解决了TTS中的一对多映射问题作为条件输入。具体来说,我们从语音波形中提取时长、基音和能量,并直接将其作为训练的条件输入,在推理中使用预测值。我们进一步设计了FastSpeech 2,这是第一次尝试从并行文本中直接生成语音波形,享受完全端到端推理的好处。实验结果表明:1)FastSpeech 2的训练速度比FastSpeach提高了3倍,而FastSpence 2的推理速度更快;2) FastSpeech 2和2s在语音质量上优于FastSpeach,而且FastSpence 2甚至可以超过自回归模型。音频示例可在此https URL上获得。
主页: https://arxiv.org/abs/2006.04558
源代码:  https://github.com/xcmyz/FastSpeech网站
关键词: 音频和语音处理(eess.AS);计算与语言(cs.CL);机器学习(cs.LG);声音(cs.SD)
相关软件: AlexNet公司;张紧器2传感器;WaveNet公司;ImageNet公司;快速俯仰;柯迪;句子片段;Conformer公司;变压器;BERT(误码率);ESPnet公司
引用于: 1文件

4位作者引用

1 陈伟
1 杜维涛
1 马志明
1 孟,齐

0连载引用

按年份列出的引文