×

视听语音源的分离:一种利用语音刺激的视听连贯性的新方法。 (英语) Zbl 1037.94523号

摘要:我们提出了一种新的方法来解决多个语音信号的源分离问题。该方法基于自动唇读的使用。其目的是通过利用声音信号与说话人嘴唇运动的一致性,从其他声音信号中提取声音语音信号。我们考虑了非相关源的加性平稳混合物的情况,没有进一步的独立性或非高斯特性假设。首先,我们提出了一个理论框架,表明当系统具有某些光谱特性时,确实可以分离出源。然后我们讨论视听源的情况。我们展示了如果视觉和频谱音频输入的联合概率统计模型学习量化视听连贯性,如何通过最大化该概率实现分离。最后,我们在一个由单个说话人发出的元音-losive-vowel序列的语料库中给出了一些分离结果,该语料库嵌入了其他声音的混合物中。我们表明,对于2、3和5种来源的混合物,分离效果很好。这些结果虽然非常初步,但令人鼓舞,并就其与传统纯音频分离或增强技术的潜在互补性进行了讨论。

MSC公司:

94甲12 信号理论(表征、重建、滤波等)
68T50型 自然语言处理

软件:

fmin搜索
PDF格式BibTeX公司 XML格式引用
全文: 内政部