计算机科学>声音
标题: UnifySpeech:一个用于零镜头文本到语音和语音转换的统一框架
摘要: 文本到语音(TTS)和语音转换(VC)是两个不同的任务,都是为了根据不同的输入方式生成高质量的说话声音。 由于两者的相似性,本文提出了UnifySpeech,首次将TTS和VC纳入了一个统一的框架。 该模型基于以下假设:语音可以解耦为三个独立的分量:内容信息、说话人信息和韵律信息。 TTS和VC都可以看作是从输入中挖掘这三部分信息,完成语音的重构。 对于TTS,语音内容信息来自文本,而在VC中,它来自源语音,因此除了两个任务中的语音内容提取模块外,其余所有单元都是共享的。 我们应用矢量量化和域约束来弥合TTS和VC内容域之间的差距。客观和主观评估表明,通过将这两个任务结合起来,TTS获得了更好的说话人建模能力,而VC获得了令人印象深刻的语音内容解耦能力。