Accent Conversion using Pre-trained Model and Synthesized Data from Voice Conversion

Nguyen, Tuan Nam; Pham, Ngoc-Quan; Waibel, Alexander

doi:10.21437/Interspeech.2022-10729

基于预训练模型和语音转换合成数据的口音转换

Tuan Nam Nguyen、Ngoc-Quan Pham、Alexander Waibel

重音转换（AC）旨在通过改变源说话人的发音模式和韵律来生成合成音频，同时保留语音质量和语言内容。目前还没有一个平行语料库包含相同内容但来自不同口音的同一说话人的成对音频，因此作者研究了一种合成一个音频作为训练输入的解决方案。培训流程分两步进行。首先，构建一个语音转换（VC）模型来合成一个训练数据集，其中包含两个不同口音的同一语音音频对。其次，使用合成数据训练AC模型，将源重音语音转换为目标重音语音。鉴于自监督学习语音表示（wav2vec 2.0）在某些语音问题上取得了公认的成功，例如VC、语音识别、语音翻译和语音转换，我们在第二步中采用了这种带有一些定制的架构来训练AC模型。仅用9小时的合成训练数据，由预训练wav2vec 2.0模型的权重初始化的编码器性能优于基于LSTM的编码器。

doi:10.21437/Interspeech.2022-10729

引用：Nguyen，T.N.，Pham，N.-Q.，Waibel，A.（2022）使用预训练模型和语音转换合成数据进行重音转换。程序。Interspeech 2022，2583-2587，doi:10.21437/Interspeech.2022-10729

@正在进行{nguyen22d_enterseech，作者={Tuan Nam Nguyen、Ngoc-Quan Pham和Alexander Waibel}，title={{使用预训练模型和语音转换合成数据进行重音转换}}，年=2022年，booktitle={Proc.Interspeech 2022}，页数={2583--2587}，doi＝{10.21437/Interspeech.2022-10729}，issn={2308-457X}}