专题研究:FrameNet

FrameNet项目是ICSI运行时间最长的项目之一。由Charles Fillmore教授和Collin Baker博士领导的FrameNet研究人员正在创建“一个基于框架语义学并由语料库证据支持的英语在线词汇资源”。FrameNet项目中使用的框架语义理论是Charles Fill more教授在加州大学伯克利分校工作之前提出的。

框架语义理论根据单词所唤起的框架对单词和想法进行分类。有些框架非常简单,例如放置框架,它涉及一个对象、对象所在的位置,以及一个表示对象被放置在其位置的单词,例如,放置、放置、搁置,文件。在下面的示例句子中,用黑色突出显示的单词是起框架作用的单词。思想唤起意识/认知框架,可以唤起似然框架,以及死亡唤起死亡画面。高亮显示的单词是框架的元素。例如,在认知框架中,有一个人在思考--和想法-我可能会死在可能性框架中,我死了就是可能发生的事情。在死亡框架中,就是那个可能会死的人。

在下面的映射图中,使用同一句话,更详细地显示了唤起框架的单词及其框架元素之间的关系。

FrameNet注释员努力记录“通过示例句子的计算机辅助注释,每个单词在其每个意义上的语义和句法组合可能性(配价)的范围”。这些完全注释的示例将自动显示,并在各种人工智能和自然语言处理(NLP)应用程序中使用。当使用计算机为NLP任务提取语义信息时,FrameNet的语义映射为计算机从字符串中提取含义提供了一种方法。目前,FrameNet数据库包含超过10000个词汇单元(词义),其中6100多个是完全注释的。超过825个语义框架在140000多个句子中被表示和例证。数据可通过FrameNet网站它已经被世界各地的研究人员使用,包括ICSI的NLP研究人员。人工智能小组负责人Srini Narayanan在正在进行的题为AQUINT的问答项目中使用FrameNet来帮助语义信息检测,语音小组的Adam Janin和人工智能小组的Michael Ellsworth的一项新工作将专注于转述,使用FrameNet数据来提供语义信息。去年,时任德国博士后的托马斯·施密特(Thomas Schmidt)创建了一本多语言足球术语词典,名为Kicktionary,对每个术语进行了框架网式的语义分析。(请参见网址:www.kickationary.de了解更多信息。)

对FrameNet的一个重大改进是开发工具来自动化大部分注释过程。这对于在NLP研究中广泛使用FrameNet数据至关重要,因为这将允许NLP研究人员快速注释他们在项目中使用的文本。FrameNet开发人员正致力于创建注释语义框架信息的软件,并与致力于FrameNet数据实际应用的科学家合作。

其中一项合作是与Vassar的Nancy Ide领导的研究人员进行的,他们正在开发一个称为美国国家语料库的大型美国英语语料库。语料库包括各种各样的语言使用,包括演讲和文本,涵盖从说教到情景喜剧的所有内容。FrameNet团队正在对该语料库的一部分进行FrameNet-style分析,以提供语料库在NLP研究中使用的语义信息。另一项合作是与普林斯顿大学Christiane Fellbaum领导的团队合作。Fellbaum的团队开发了WordNet,这是一种在线词典,它提供的信息不如FrameNet详细,但可以容纳更多的单词。由国家科学基金资助的FrameNet和WordNet之间的合作将探讨调整这两种资源所涉及的理论问题。

德克萨斯大学奥斯汀分校的Katrin Erk过去曾与ICSI FrameNet项目合作,目前正在研究德语和英语的自动注释。Erk之前曾致力于开发SALSA公司这是一个德国项目,该项目使用英语框架对德国报纸文章进行注释,最近与塞巴斯蒂安·帕多合作开发了Shalmaneser系统,该系统从句法和语义上分析文本。该系统使用现有的语法分析器进行语法分析。然后,使用FrameNet数据进行训练,执行词义消歧和语义角色标记。该系统目前适用于英语和德语。对于英语,它已经接受了关于Framenet数据的培训。对于德国人,它接受了SALSA项目框架注释方面的培训。

国家科学基金会资助的另一项工作是快速开发框架语义词典。该项目旨在为定义语义框架的人员提供一个改进的界面。这将加快创建和注释框架所需的工作。与此类似,劳伦斯·利弗莫尔实验室(Lawrence Livermore Lab)的研究人员也在合作,利用廉价的并行处理器提高自动帧识别程序的速度,这些处理器通常用于现代视频游戏系统。这涉及到重写算法以在并行处理器上运行,但应该提高自动帧识别软件的效率。

近年来,已开始使用其他几种语言进行FrameNet项目。ICSI定期接待来访的科学家,以他们的母语创建FrameNet数据库,迄今为止,这些语言包括西班牙语、日语和德语。

西班牙语FrameNet-Carlos Subirats

Perenniel ICSI访客Carlos Subirats正在与西班牙的同事合作,创建一个西班牙语FrameNet西班牙语框架网使用自己的软件处理3.7亿单词的西班牙语语料库,并使用ICSI的框架网软件对从语料库中提取的句子进行注释,但由于语言差异,一些西班牙语框架与英语框架不同。Subirats预计将于2008年2月或3月发布西班牙语FrameNet,其中将包含700多个带注释的词汇单元(已经有600多个带注解),并允许用户查看数据的网络报告。最终,所有数据也将可以在线搜索。Subirats目前正在寻求新的资金,以取代西班牙科技部之前的拨款,目前有两项提案正在提交中。Subirats在西班牙FrameNet上的工作的一个组成部分是与英国和日本FrameNets开发人员合作的结果。事实证明,讨论跨语言框架以及影响每种语言框架的语言之间的语义差异非常有用。尤其是一些动作动词,在英语和西班牙语之间有所不同,需要在西班牙语FrameNet中使用一些新的框架。

巴西也有兴趣启动葡萄牙语框架网,苏比拉特斯已被邀请访问巴西的科学家,讨论他的工作,并就如何最好地开始巴西项目提出建议。

日本FrameNet-大原恭子和佐藤博明

Kyoko Ohara和Hiroaki Sato是ICSI目前工作的常客日语FrameNet通过日本和美国之间的联合研究拨款,佐藤自1999年起就参与了FrameNet的研究,当时他在国际计算机学会(ICSI)工作了一年的休假时间,从事英语FrameNet。从那时起,他开发了软件工具,为搜索和查看FrameNet数据提供了一种简单的方法。他将这些工具改编为西班牙语框架网和现在的日语框架网,允许在语言对之间进行直接比较。此外,他正在开发一个工具,允许用户比较不同语言的FrameNet数据。

日语框架网是以英语框架网为基础的。该项目始于2002年,但由于没有免费提供的日语文本语料库,日本FrameNet团队不得不在开始注释工作之前收集语料库数据。已尽一切努力利用为英语FrameNet开发的框架,但英语和日语之间的类型差异有时需要稍微修改框架定义。动词表达方式的差异也使日语文本中英语框架的使用复杂化。一个显著的区别是日语中省略了动词变元,这在英语中并不常见。有些动词结构是不同的,这可能意味着在日语翻译的英语句子中有不同的框架,尽管语义相同。“他躺在地板上”就是一个例子。在日语中,动词翻译为fall+结果助词,因此日语动词本身表示运动,而英语动词“lay”不表示运动。

目前正在开发一个新的语料库,即日本国家语料库。由于日本FrameNet与该项目合作,Ohara预计很快将开始在日本FrameNet中使用该语料库了。她希望佐藤正在开发的跨语言工具将有助于日语学习者学习英语,因为它提供了一种方法来比较两种语言表达思想的方式。

德国FrameNet-Hans Boas

Hans Boas是我们本期的特邀校友,正在研究德国FrameNet。尽管德国FrameNet项目在几年前就开始了,但仍处于起步阶段。Boas雇佣了三名学生来建立德国FrameNet的基础设施,目前正在寻求资金来继续该项目。Boas计划使用SALSA的数据构建德国FrameNet数据库。由于西班牙语和日语中固有的语言差异导致需要修改框架,因此SALSA数据需要由人类注释员进行补充,这些注释员可以填写缺失的框架数据,包括不完整的框架和定义可能需要更改以适应德语的框架。

在汇编德语FrameNet数据的同时,相关项目正在进行,重点是德语。ICSI的德国博士后研究员Birte Loenneker-Rodman正致力于将FrameNet数据纳入德语和斯洛文尼亚语双语词典。她的研究最终将用于创建多语言的FrameNet数据库。前面提到的用于文本分析的Shalmaneser系统和德语的自动注释工作是德语的额外FrameNet资源。

跨语言扩展FrameNet不仅有利于NLP,也有利于机器翻译和第二语言学习。ICSI FrameNet团队对这些外语工作的成功感到鼓舞,并希望FrameNet最终能够扩展到所有主要语言。