以前的工作:自动语音识别的深度和广度学习

首席研究员:
纳尔逊·摩根

在本项目中,语音研究人员正在权衡自动语音识别(ASR)的两种方法:多声学特征的信号处理与使用简单特征以及依赖机器学习算法来取代特征工程。目标不仅是提高疑难示例的准确性,还要了解高性能计算的计算结果。

自动为包含语音的多媒体源提供转录需要ASR。虽然大词汇量连续语音识别系统可以非常准确,特别是当它们使用与测试条件具有类似特征的足够数据进行训练时,所有训练过的系统的一个潜在局限性是,当训练数据不能充分代表测试数据的特征时,系统能够很好地执行。这是许多任务中的一个常见问题,因为真实世界的数据通常有许多与手头任务无关的可变性来源(例如,噪音、混响、改变的说话风格),所以训练和测试数据特征可能不匹配。即使有无限的数据可用,经验表明,大幅增加数千小时的训练数据,尤其是在困难的测试条件下(例如可能在消费者视频的音频中找到),回报也会逐渐减少。

一旦了解了问题的性质,由于声学可变性引起的一些退化可能会被信号处理转换短路,这些转换通常受到听力模型的启发。但是,从数据(或从简单的转换,如短期光谱能量)中学习有效的表示法通常被证明是非常强大的。在选择信号特征(例如,从人工处理模型中选择信号特征)与从机器学习中获取信号特征之间的适当权衡是什么?

这些考虑因素可能会对训练和识别任务的计算要求产生重大影响,特别是对于多核并行化。如果预定义的特征处理不相关,所需的只是足够的深度和聪明的机器学习算法,则重点需要将学习算法与HPC架构相匹配。另一方面,如果功能很重要,并且神经网络架构(和学习算法)可以相对简单,那么重点可能需要放在更复杂的信号处理上,这反过来可能导致并行化多个子网,每个子网处理不同的表示,“宽”声学前端的方法有时被证明是有用的。很容易出现这样的情况:这个难题没有一个唯一的正确答案,相反,应该寻求的是智能信号表示和深度(和广度)学习之间权衡的指南。

本项目探讨了数据/参数比率与在不匹配情况下使用稳健信号处理的重要性之间的关系(近距离训练、远程麦克风测试),重点是计算对许多计算核心的影响。