正如我所见,2007年3月

董事Nelson Morgan

本期的重点是语音研究,这让我想起了近20年前我在ICSI的早期生活。该研究所也刚刚起步,我被要求帮助组建一个“实现”小组,负责设计和构建大规模并行系统。这听起来很有趣,但我也想有一个应用程序领域来关注,这样我们的工作就不会是一个抽象的练习。大约在那个时候,HervéBourrard作为访客来到ICSI,并用他对语音识别研究的热情“感染”了我们。在那十年的早些时候,我曾从事过语音处理,在与脑科学家合作几年,以稍微了解认知的神经生理学关联之后,我准备重返语音领域,至少有一段时间。

Hervé一直在布鲁塞尔的飞利浦工作,并意识到可以使用经过适当训练的神经网络估计概率。他的理论工作和直觉都告诉他,如果与隐马尔可夫模型结合,这些概率可以用于改进语音识别。这听起来很有趣,所以我开始和他一起进行相关的实验研究。我们关于规模问题的第一个结果非常令人鼓舞——我们得到了140%的误差!对于外行来说,这听起来可能是不可能的,但事实证明,在语音识别中,我们不仅将错误或缺失的单词计算为错误,而且还将插入输出中的额外单词计入错误。不管怎样,我们觉得除了往上爬,我们没有别的地方可去了。。。(如果你在计算错误,则为down)。我们确实做到了。在接下来的几个月里,我们一步一步地逐渐发现,为了取得好的表现,我们需要做些什么。第二年,查克·伍特斯(Chuck Wooters)加入了我们的行列,他可能是唯一一位在伯克利大学获得跨学科跨部门主题“语音识别”学位的学生。在Chuck的帮助下,在与Mike Cohen和Horacio Franco(当时都是SRI的成员)的合作下,我们最终获得了一个非常好的系统和大量的新想法。

早期的另一个里程碑来自我们与Hynek Hermansky的合作。当时Hynek为美国西部(后来的Qwest)工作。与主要关注统计模型的Hervé不同,Hynek专注于特征提取过程。此前,他发明了一种称为“感知线性预测”(PLP)的技术,现在被许多系统使用。他一直致力于使系统更独立于由于不同的说话人而引起的信号变化,但当我们开始合作时,他对使识别器对其他类型的变化不那么敏感感兴趣。我们组织的一个小型研讨会(SPeech recOgnition frOnt eNd研讨会,简称SPONS)激发了我们对这个主题的兴趣,为此,我们邀请了一些为语音处理设计创新模型的人,例如Les Atlas、Jordan Cohen、Ron Cole、Malcolm Slaney、Dick Lyon、Dirk Pueschel和Shihab Shamma。讨论很精彩(在语音合成方面做了重要工作的迈克·奥马利(Mike O'Malley)问道:“为什么要迈出10毫秒的一步?因为我们有10个手指?”),但其中一条评论特别打动了海尼克和我。乔丹·科恩(Jordan Cohen)为IBM设计了一个生物灵感语音识别前端,问:“我们可以通过一个近似于稳态元音谱(如‘e’)倒数的滤波器播放语音,但语音仍然可以理解,包括变成白谱信号的元音。哪个听力模型可以解释这一点?”,Hynek和我后来提出了我们称之为RelAtive SpecTral Analysis或RASTA的方法,该方法最终被高通公司采用,并最终在数百万手机中作为语音识别的前端。

在接下来的几年里,我很幸运地与埃尔韦和海涅克一起工作,因为他们换了工作。随着我们团队的发展,增加了学生、博士后以及不断涌现的优秀访客,我们都与这两位早期贡献者以及与他们合作的团队密切合作,例如共同开发新方法,将多个特征流合并到语音识别中。截至本文撰写之时,他们都在瑞士的IDIAP(在许多方面是我们的姐妹机构),我们的合作仍在继续。

从早期开始,我们已经从演讲(née Realization)小组毕业了16名博士,其中一些人现在正在教授新一代学生;和其他人回到ICSI担任研究人员。随着我们从语音识别扩展到说话人识别、句子分割、“日记化”(who speak when)以及语音理解的许多方面,我们现在有了新一代的下一代10名学生,他们正在研究一组更加多样化的问题。我希望本期《公报》将重点关注DARPA赞助的GALE项目,让读者对当前团队的方向有一些了解。