NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband Excitation for Noise-Controllable Waveform Generation

Wang, Tao; Fu, Ruibo; Yi, Jiangyan; Tao, Jianhua; Wen, Zhengqi

doi:10.1109/TASLP.2022.3140480

计算机科学>声音

arXiv公司：2203.02678（cs）

【2022年3月5日提交】

标题：NeuralDPS：用于产生噪声可控波形的多频带激励神经确定性加随机模型

作者：王涛（音译）,傅瑞波,姜堰易,陶建华,郑琪文

查看PDF

摘要：传统声码器具有合成效率高、可解释性强、语音可编辑性好等优点，而神经声码器则具有合成质量高的优点。为了结合两种声码器的优点，受传统确定性加随机模型的启发，本文提出了一种新的神经声码器NeuralDPS，它可以保持高语音质量，获得高合成效率和噪声可控性。首先，该框架包含四个模块：确定性源模块、随机源模块、神经V/UV决策模块和神经滤波器模块。声码器所需的输入只是光谱参数，这避免了估计额外参数（如F0）所引起的误差。其次，为了解决不同频带中确定性分量和随机性分量的比例可能不同的问题，采用多频带激励策略来产生更准确的激励信号，并减少神经滤波器的负担。第三，提出了一种控制语音噪声成分的方法。这样，语音的信噪比（SNR）就可以很容易地调整。客观和主观实验结果表明，我们提出的NeuralDPS声码器可以获得与WaveNet相似的性能，并且其波形生成速度至少比WaveNetwork声码器快280倍。它在单个CPU内核上的合成效率也比WaveGAN快28%。我们还通过实验验证了该方法可以有效地控制预测语音中的噪声成分，调整语音的信噪比。生成的语音示例可以在此https URL.

评论：	15页，12幅图；接受TASLP。演示页此https URL.arXiv管理说明：文本与重叠arXiv:1906.09573其他作者
学科：	声音（cs.SD）; 计算与语言（cs.CL）；音频和语音处理（eess.AS）
引用为：	arXiv公司：2203.02678[cs.SD]
	（或 arX病毒：2203.02678v1[cs.SD]对于此版本）
	https://doi.org/10.48550/arXiv.2203.02678
相关DOI:	https://doi.org/10.109/TASLP.2022.3140480

提交历史记录

发件人：Tao Wang[查看电子邮件]
[第1版]2022年3月5日星期六08:15:29 UTC（11817 KB）

计算机科学>声音

标题：NeuralDPS：用于产生噪声可控波形的多频带激励神经确定性加随机模型

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>声音

标题：NeuralDPS：用于产生噪声可控波形的多频带激励神经确定性加随机模型

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目