×

塔斯奈特

swMATH ID: 31221
软件作者: Yi Luo、Nima Mesgarani
描述: Conv-TasNet:超越语音分离的理想时频幅度掩蔽。单通道、与说话人无关的语音分离方法最近取得了很大进展。然而,这种方法的准确性、延迟和计算成本仍然不够。以前的大多数方法都是通过混合信号的时频表示来描述分离问题的,这有几个缺点,包括信号的相位和幅度的解耦,语音分离的时频描述的次优性,以及计算光谱图的长延迟。为了解决这些缺点,我们提出了一个全卷积时域音频分离网络(Conv-TasNet),这是一个用于端到端时域语音分离的深度学习框架。Conv-TasNet使用线性编码器生成针对分离单个扬声器而优化的语音波形表示。通过对编码器输出应用一组加权函数(掩码)来实现扬声器分离。然后使用线性解码器将修改后的编码器表示反转回波形。这些掩模是使用由堆叠的一维扩展卷积块组成的时域卷积网络(TCN)发现的,该网络可以对语音信号的长期相关性进行建模,同时保持较小的模型尺寸。提出的Conv-TasNet系统在分离两人和三人混音时明显优于以往的时频掩蔽方法。此外,Conv-TasNet在两人语音分离中超过了几个理想的时频幅度掩模,通过客观失真测量和人类听者的主观质量评估进行了评估。最后,Conv-TasNet具有明显更小的模型大小和更短的最小延迟,使其成为离线和实时语音分离应用的合适解决方案。
主页: https://arxiv.org/abs/1809.07454
源代码:  https://github.com/funcwj/conv-tasnet
依赖项: PyTorch公司
相关软件: PyTorch公司;亚当;ESP网络;利比亚;数字Py;TensorFlow公司;弧形面;UCI-毫升;深度演讲;波浪辉光;波浪2vec;wav2字母++;胡伯特;自由演讲;SpeechBrain公司;PyTorch-Kaldi公司;NeMo公司;费尔塞克;意大利浓咖啡;小行星
引用于: 1文件

在1个字段中引用

1 计算机科学(68至XX)

按年份列出的引文