以前的工作:深度学习如何提高语音识别准确性?

主要研究者:
史蒂文·韦格曼

本项目的短期目标是深入、定量地理解为什么几乎所有语音识别器中使用的方法都如此脆弱。长期目标是通过开发不那么脆弱的方法来利用这种理解,从而实现更准确的语音识别和更广泛的适用范围。普及和准确的自动语音识别有可能以许多积极的方式改变社会,尤其是为那些发现难以甚至不可能使用键盘与计算机交互的人,例如老年人、身体残疾者和视力受损者,提供更好的信息访问。每天,数以百万计的人使用基于此技术的应用程序来解决问题,这些问题最自然地是通过语音与机器交互来完成的。然而,这些应用中最成功的应用在范围上总是相当有限的,因为尽管语音识别很有用,但它可能会非常不可靠。例如,尽管在拥挤的房间里背景噪音很大,电话频道严重失真,或共同语言中的口音差异很大,但人类还是很容易理解对方,但即使这些问题的例子稍微温和一些,也会彻底破坏语音识别系统。 

这项探索性研究将首先发现为什么多层感知器(MLP)有时可以提高语音识别准确性;其次,使用这些诊断见解来选择更好的MLP架构;第三,发布软件,让其他人可以利用我们的方法。MLP的使用在过去十年中有了显著的复苏,特别是最近开发的“深层”架构。在语音识别领域,MLP的两个应用显著提高了大范围语音识别的准确性。每个应用程序都在标准语音识别机器中工作,该机器使用隐马尔可夫模型(HMM)对声学、模型输入(特征)的mel-frequency倒谱系数(MFCC)以及隐藏状态边缘分布的多元法线进行建模。第一个应用程序通过使用MLP从数据中学习到的新特性来增加标准模型输入,从而对标准机械进行了相对较小的调整。第二个应用程序将隐藏状态的边际分布集合替换为单个MLP,对边际状态后验函数进行建模,从而对标准机制进行了更实质性的更改。探索性研究中的研究将发现基于MLP的特征用于大幅提高基于HMM的语音识别准确性的基本机制。这项研究将基于之前的工作,使用模拟和新的采样过程量化HMM主要假设对语音识别准确性的影响。

最近对语音识别MLP的其他研究要么集中在实现上,即如何实际提高语音识别精度,要么集中在理论渐近结果上。虽然这项研究显然很重要,但它在很大程度上是通过反复试验进行的,尤其没有解决围绕MLP的这些应用如何实际提高语音识别准确性的有趣科学问题。从短期来看,对后一个问题的深入理解将进一步提高语音识别的准确性,并从长远来看,能够开发出比HMM更合适、更成功的语音识别模型,这将是该领域的一个革命性进步。