Spoken Content and Voice Factorization for Few-Shot Speaker Adaptation

Wang, Tao; Tao, Jianhua; Fu, Ruibo; Yi, Jiangyan; Wen, Zhengqi; Zhong, Rongxiu

doi:10.21437/Interspeech.2020-1745

针对少短音说话人自适应的口语内容和语音分解

王涛、陶建华、傅瑞波、易江燕、文正奇、钟荣秀

合成语音的低相似度和自然度仍然是一个挑战资源很少的说话人自适应问题。自从声学模型太复杂，无法解释，训练时会出现过拟合数据很少。为了防止模型过拟合，本文提出一种新的参数分解说话人自适应框架端到端声学模型的空间分为两部分，其中一部分口语内容预测与说话人建模声音。语音内容由电话后验图（PPG）表示它与说话人无关。通过分别调整这两个子模块，可以有效地缓解过盈现象。此外，我们建议基于数据是否有文本的两种不同的适应策略注释。这样，也可以在无需文本注释。实验结果证实了我们提出的分解口语内容和语音的方法。听测试表明，我们提出的方法可以获得更好的性能仅比Tacotron上进行的说话人改编多10句话在自然度和说话人相似性方面。

doi:10.21437/Interspeech.2020-1745

引用为：Wang，T.，Tao，J.，Fu，R.，Yi，J.、Wen，Z.、Zhong，R.（2020）《针对少数派说话人改编的口语内容和语音分解》。程序。Interspeech 2020，796-800，doi:10.21437/Interspeech.2020-1745

@正在进行{wang20g_interspeech，author={王涛、陶建华、傅瑞波、易建言、温正琪、钟荣秀}，title={{针对少数派演讲者改编的口语内容和语音分解}}，年=2020年，booktitle={Proc.Interspeech 2020}，页数={796--800}，doi={10.21437/Interspeech.2020-1745}，issn={2958-1796}}