计算机科学>声音
标题: NeuralDPS:用于产生噪声可控波形的多频带激励神经确定性加随机模型
摘要: 传统声码器具有合成效率高、可解释性强、语音可编辑性好等优点,而神经声码器则具有合成质量高的优点。 为了结合两种声码器的优点,受传统确定性加随机模型的启发,本文提出了一种新的神经声码器NeuralDPS,它可以保持高语音质量,获得高合成效率和噪声可控性。 首先,该框架包含四个模块:确定性源模块、随机源模块、神经V/UV决策模块和神经滤波器模块。 声码器所需的输入只是光谱参数,这避免了估计额外参数(如F0)所引起的误差。 其次,为了解决不同频带中确定性分量和随机性分量的比例可能不同的问题,采用多频带激励策略来产生更准确的激励信号,并减少神经滤波器的负担。 第三,提出了一种控制语音噪声成分的方法。 这样,语音的信噪比(SNR)就可以很容易地调整。 客观和主观实验结果表明,我们提出的NeuralDPS声码器可以获得与WaveNet相似的性能,并且其波形生成速度至少比WaveNetwork声码器快280倍。 它在单个CPU内核上的合成效率也比WaveGAN快28%。 我们还通过实验验证了该方法可以有效地控制预测语音中的噪声成分,调整语音的信噪比。 生成的语音示例可以在 此https URL .