以前的工作：深度学习如何提高语音识别准确性？

主要研究者：

史蒂文·韦格曼

本项目的短期目标是深入、定量地理解为什么几乎所有语音识别器中使用的方法都如此脆弱。长期目标是通过开发不那么脆弱的方法来利用这种理解，从而实现更准确的语音识别和更广泛的适用范围。普及和准确的自动语音识别有可能以许多积极的方式改变社会，尤其是为那些发现难以甚至不可能使用键盘与计算机交互的人，例如老年人、身体残疾者和视力受损者，提供更好的信息访问。每天，数以百万计的人使用基于此技术的应用程序来解决问题，这些问题最自然地是通过语音与机器交互来完成的。然而，这些应用中最成功的应用在范围上总是相当有限的，因为尽管语音识别很有用，但它可能会非常不可靠。例如，尽管在拥挤的房间里背景噪音很大，电话频道严重失真，或共同语言中的口音差异很大，但人类还是很容易理解对方，但即使这些问题的例子稍微温和一些，也会彻底破坏语音识别系统。

这项探索性研究将首先发现为什么多层感知器（MLP）有时可以提高语音识别准确性；其次，使用这些诊断见解来选择更好的MLP架构；第三，发布软件，让其他人可以利用我们的方法。MLP的使用在过去十年中有了显著的复苏，特别是最近开发的“深层”架构。在语音识别领域，MLP的两个应用显著提高了大范围语音识别的准确性。每个应用程序都在标准语音识别机器中工作，该机器使用隐马尔可夫模型（HMM）对声学、模型输入（特征）的mel-frequency倒谱系数（MFCC）以及隐藏状态边缘分布的多元法线进行建模。第一个应用程序通过使用MLP从数据中学习到的新特性来增加标准模型输入，从而对标准机械进行了相对较小的调整。第二个应用程序将隐藏状态的边际分布集合替换为单个MLP，对边际状态后验函数进行建模，从而对标准机制进行了更实质性的更改。探索性研究中的研究将发现基于MLP的特征用于大幅提高基于HMM的语音识别准确性的基本机制。这项研究将基于之前的工作，使用模拟和新的采样过程量化HMM主要假设对语音识别准确性的影响。

最近对语音识别MLP的其他研究要么集中在实现上，即如何实际提高语音识别精度，要么集中在理论渐近结果上。虽然这项研究显然很重要，但它在很大程度上是通过反复试验进行的，尤其没有解决围绕MLP的这些应用如何实际提高语音识别准确性的有趣科学问题。从短期来看，对后一个问题的深入理解将进一步提高语音识别的准确性，并从长远来看，能够开发出比HMM更合适、更成功的语音识别模型，这将是该领域的一个革命性进步。

主菜单

以前的工作：深度学习如何提高语音识别准确性？

快速链接

研究领域

项目

游客信息

遵循ICSI

搜索表单

主菜单

以前的工作：深度学习如何提高语音识别准确性？

快速链接

研究领域

项目

游客信息

遵循ICSI