软件搜索-zbMATH Open

×

快速演讲

swMATH ID:	35797
软件作者：	Yi Ren、Chenxu Hu、Xu Tan、Tao Qin、Sheng Zhao、Zhou Zhao和Tie Yan Liu
描述：	FastSpeech 2：快速高质量的端到端文本到语音。非自回归文本到语音（TTS）模型（如FastSpeech）合成语音的速度明显快于质量相当的以前的自回归模型。FastSpeech模型的训练依赖于用于持续时间预测（以提供更多信息作为输入）和知识提取（以简化输出中的数据分布）的自回归教师模型，这可以缓解TTS中的一对多映射问题（即多个语音变体对应同一文本）。然而，FastSpeech有几个缺点：1）师生蒸馏管道复杂且耗时，2）从教师模型中提取的持续时间不够准确，并且从教师模型提取的目标光谱图由于数据简化而遭受信息丢失，这两者都限制了语音质量。本文提出了FastSpeech 2，它解决了Fast语音中的问题，通过1）直接用地面目标训练模型，而不是教师的简化输出，以及2）引入更多的语音变化信息（例如音高、能量和更准确的持续时间），更好地解决了TTS中的一对多映射问题作为条件输入。具体来说，我们从语音波形中提取时长、基音和能量，并直接将其作为训练的条件输入，在推理中使用预测值。我们进一步设计了FastSpeech 2，这是第一次尝试从并行文本中直接生成语音波形，享受完全端到端推理的好处。实验结果表明：1）FastSpeech 2的训练速度比FastSpeach提高了3倍，而FastSpence 2的推理速度更快；2） FastSpeech 2和2s在语音质量上优于FastSpeach，而且FastSpence 2甚至可以超过自回归模型。音频示例可在此https URL上获得。
主页：	https://arxiv.org/abs/2006.04558
源代码：	https://github.com/xcmyz/FastSpeech网站
关键词：	音频和语音处理（eess.AS）;计算与语言（cs.CL）;机器学习（cs.LG）;声音（cs.SD）
相关软件：	AlexNet公司;张紧器2传感器;WaveNet公司;ImageNet公司;快速俯仰;柯迪;句子片段;Conformer公司;变压器;BERT（误码率）;ESPnet公司
引用于：	1文件

4位作者引用

1	陈伟
1	杜维涛
1	马志明
1	孟，齐

0连载引用

在2个字段中引用

1	概率论与随机过程（60-XX）
1	计算机科学（68至XX）

按年份列出的引文

© 2024FIZ卡尔斯鲁厄股份有限公司隐私政策法律声明条款和条件