第一手牌:Houghton Mifflin公司开发的拼写检查简介

来自ETHW
跳转到:航行,搜索

Houghton Mifflin公司开发的拼写检查简介

作者:霍华德·韦伯,2007年3月

图片提供:波士顿公共图书馆

一旦你开始处理文本,基于计算机的拼写检查是一种不可抗拒的应用程序,可能会有很多“第一”实现和许多“第一”实施者。开发一个例程来标记存储字典的异常是很容易的,许多人都尝试过。但真正有效的拼写检查需要对自然语言进行复杂的处理,这在早期的计算机科学界并不常见。

霍顿·米夫林(Houghton Mifflin)是美国最伟大的词典之一《美国传统词典》(the American Heritage Dictionary)的出版商,该词典的印刷体构成由词汇数据库驱动,在20世纪80年代初,随着该标准参考书的新版本的编制,该词典开始实现,自然语言处理可以帮助它确保词汇尽可能准确,并反映出编辑菲利普·巴布科克·戈夫在《韦氏第三新国际词典》《未删节词典》中制定的新的但并不完全受欢迎的标准,词典应该反映出人们实际上在说什么,而不是一种抽象的、继承的标准。后一个目标需要比以前更精确的衡量。

自古以来,也就是说,自从詹姆斯·穆雷和他的同事在19世纪后期和20世纪早期编纂了《牛津英语词典》(O.E.D.)以来,词典的编纂过程就是“阅读和标记”例如,字典出版商会雇佣退休的牧师或暑假的学校教师来注意新词或旧词的新义,并将记录单词上下文的纸条作为文档提交给字典编辑。(当然,对默里来说,挑战更大,因为牛津大学希望成为一本“历史”词典,代表过时的单词和仍在使用的单词,并注明所有词条的首次出现日期和引文。)

当我在20世纪80年代初来到霍顿·米夫林时,我承诺要使用电脑来记录当时所写的美国英语。怎么能做到呢?早在1962年,布朗大学的亨利·库切拉(Henry Kučera)博士就已经在那里教授计算语言学课程,并与他结成了联盟。他是美国教育部美国英语标准语料库项目的负责人之一,该项目创建了规范良好的百万单词“Brown语料库”,该语料库是基于他对当今美国英语的计算分析(与W.Nelson Francis合著)和英语用法的频率分析(也与Francis一起)。这项工作提供了根据科学原理开发词典的机会,而不是个人识别新单词、形式和意义的偶然机会。从词典编纂的角度来看,这一资源使词典编纂者能够确定哪些单词被使用,以及使用频率如何,但作为一种同等的利益,哪些单词被淘汰了。很明显,不可能询问读者和标记人他们不再使用哪些单词,但以这种方式筛选词典对于制作一本准确的当代词典来说非常重要。这对于生成一个大小可控的词典也很重要,既能适应早期计算机的内存限制,又能避免出现大多数用户可能并不想说的罕见单词。

我应该注意到,“学院”词典,如《美国传统》或《韦氏词典》,只包含有限的可用单词子集,可能有150000个,而如果你包括科学、工业、技术、商业和方言单词以及非英语借词,“美式英语”中可能有多达4000000个单词(我的猜测,正如任何词典编纂者都会告诉你的那样,这是一次真正的瞎猜)。因此,库奇时代的工作使霍顿能够确定印刷词典中应该包含哪些大量可用单词,此外,还提供了一种技术,通过这种技术,词汇可以随着语言的变化而不断更新。

这似乎是一个简单的跳转到字典,将推动拼写检查,事实上,霍顿检查器的第一个版本非常有用,特别是在发现屏幕上的错误时,在某种程度上,人为验证并不像印刷品那样成功,即使人可以拼写。但很明显,电子拼写检查器需要包括专有名词,包括商业名称,而印刷词典中通常不包括这些专有名词。

但在库切拉博士和他的公司Language Systems,Inc.的指导下,霍顿明白了,如果能够进行基本的语法分析以消除歧义,你可能有时会这样做,但并不总是这样-能够帮助人们在同音词(all和awl;to,too和two;rite,write,right和wright)和同音词(pool of water和pool the game)中进行选择,所有这些都是在拼写检查的标题下进行的。

一件事导致另一件事。你能为外语开发拼写检查器吗?是的,你可以。你能调整拼写检查器以满足非本地用户的需求吗

会说英语吗?是的,用英语工作的中国人和日本人会觉得你的产品很受欢迎。如果你开始自动解析,那么拼写和语法纠错结合如何?如果你对音素和字形之间的关系了解很多,那么语音打印产品呢?或者,把它们翻过来,语音生成怎么样?在这一切的背后,智能检索(一开始,我们经常使用这个词)怎么样,因为检索基本上不是过滤文本中定义的单词或单词组合的问题吗?嗯,正如我们所发现的,只是一部分。

霍顿的拼写更正被授权给独立的文字处理系统,如Lanier和微软的word,以及许多其他此类用户。但从本质上讲,语言处理的机会开始一个接一个地出现,在某种意义上,它们压倒了霍顿习惯于工作的相当传统的出版环境。1994年,Houghton放弃了其语言处理产品,转而成立了一家新公司Inso。

在很长一段时间内,在大量零星收购目标语言相关产品和一些可疑的金融交易后,Inso以并购交易的形式收购了另一家公司Electronic Book Technologies,Inc.,合并后的公司将其语言处理技术出售给Lernout&Hauspie,一家受人尊敬的比利时公司(其投资者包括微软和英特尔),支持强调电子出版和文档转换。但这种尊重并不是完全应得的,L&H被发现在努力改善其财务状况的过程中进行了严重的欺诈。

我不会继续讲这个故事,但只会提请大家注意这个故事,因为它是早期计算的狂野西方时代的典型,当时合法的承诺常常被幻想和对达到稳定产品状态所需资源和时间的严重低估所超越。詹姆斯·默里(James Murray)和牛津大学出版社(O.E.D.)也一样,在牛津大学出版社的强烈抗议下,他们完全低估了完成项目所需的时间和金钱,在能够看到自己毕生的作品出版之前就去世了。“为了字典的利益,”他写信给一位朋友,谈及他与新闻界的关系,“我希望在我们把这项工作正式启动之前,不要提出时间问题或其他任何问题。”他当时想的是令人震惊的十六、十七年,但实际上这项任务花了更长的时间。