JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to Speech

Lim, Dan; Jung, Sunghee; Kim, Eesung

doi:10.21437/Interspeech.2022-10294

JETS：联合培训FastSpeech2和HiFi-GAN以实现端到端的文本到语音转换

Dan Lim、Sunghee Jung、Eesung Kim

在神经文语转换（TTS）中，两阶段系统或级联的单独学习模型显示出接近人类语音的合成质量。例如，FastSpeech2将输入文本转换为mel-spectrogram，然后HiFi-GAN从mel-spectram生成原始波形，分别称为声学特征生成器和神经声码器。然而，他们的培训管道有点麻烦，因为它需要微调和准确的演讲文本对齐以获得最佳性能。在这项工作中，我们提出了端到端的文本到语音（E2E-TTS）模型，该模型具有简化的训练管道，性能优于级联的单独学习模型。具体来说，我们提出的模型是通过校准模块联合训练FastSpeech2和HiFi-GAN。由于训练和推理之间没有声学特征不匹配，因此不需要微调。此外，通过在我们的联合训练框架中采用对齐学习目标，我们消除了对外部语音-文本对齐工具的依赖性。在LJSpeech语料库上的实验表明，该模型在主观评估（MOS）方面优于公开可用的最新ESPNet2-TTS实现以及一些客观的评价。

doi:10.21437/Interspeech.2022-10294

引用：Lim，D.，Jung，S.，Kim，E.（2022）JETS:Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to Speech。程序。Interspeech 2022，21-25，doi:10.21437/Interspeech.2022-10294

@正在进行{lim22_interspeech，author={Dan Lim和Sunghee Jung以及Eesung Kim}，title={{JETS:联合训练FastSpeech2和HiFi-GAN以实现端到端的文本到语音}}，年=2022年，booktitle＝{Proc.Interspeech 2022}，页数={21--25}，doi={10.21437/Interspeech.2022-10294}，issn=｛2958-1796｝}