国际标准协会 档案文件 2019年国际演讲
国际标准协会 档案文件 2019年国际演讲

基于谱减法的分叉生成对抗网络语音增强

Ju Lin、Sufeng Niu、Zice Wei、Xiang Lan、Adrian J.van Wijngaarden、Melissa C.Smith、Kuang-Ching Wang

使用生成对抗网络的语音增强技术(GAN)可以有效抑制噪声,同时允许对模型进行训练端到端。然而,这些技术直接在时域上运行波形,通常是高维的,需要广泛的计算。本文提出了一种新的基于GAN的语音增强方法该方法被称为S-ForkGAN,用于对数功率谱而不是在时域语音波形上,并使用分叉GAN结构来提取语音和噪声信息。通过操作在对数功率谱上,可以无缝地包括传统谱减法技术,并且参数空间通常具有较低的尺寸。对S-ForkGAN的自动语音性能进行了评估使用TIMIT数据集和广泛的噪声进行识别(ASR)条件。结果表明,S-ForkGAN优于现有的基于GAN的技术和它具有较低的复杂性。


doi:10.21437/Interspeech.2019-2954

引自:Lin,J.,Niu,S.,Wei,Z.,Lan,X.,Wijngaarden,A.J.v.,Smith,M.C.,Wang,K.-C.(2019)使用分叉生成对抗网络和谱减法进行语音增强。程序。Interspeech 2019,3163-3167,doi:10.21437/Interspeech.2019-2954

@正在进行{lin19d_enterseech,author={朱琳(Ju Lin)、牛素峰(Sufeng Niu)、魏子策(Zice Wei)、向兰(Xiang Lan)、阿德里安(Adrian J.van Wijngaarden)、梅丽莎·史密斯(Melissa C.Smith)和王匡庆(Kuang-Ching Wang),title={{使用具有谱减法的分叉生成对抗性网络的语音增强}},年份=2019,booktitle={Proc.Interspeech 2019},页码={3163-3167},doi={10.21437/Interspeech.2019-2954},issn={2958-1796}}