使用GF创建语言资源

2010年5月17日
欧洲/斯德哥尔摩

LREC 2010教程,马耳他,2010年5月17日

阿内·兰塔

背景

本教程介绍了GF,即语法框架(grammaticalframework.org),这是一种用于实现语法的专用编程语言。GF的范围与HPSG和LFG等语法形式部分相同,但不同之处在于它有多语言语法的概念,即具有共享语义表示的语法。此外,GF是一种具有静态类型和功能强大的模块系统的函数式编程语言,这使得它成为一种现代高效的工程工具。

GF有专门的构造和丰富的词法和语法实现库。GF资源语法库目前涵盖15种语言。2009年GF资源语法暑期学校(grammatic-framework.org/summerschool.html)吸引了来自20个国家的30名参与者,部分原因是该校正在建设另外大约15种语言。

GF和图书馆的主要用途是多语言生成、口语对话系统和特定领域的翻译。基于GF的翻译将在欧洲FP7项目MOLTO(多语言在线翻译,www.molto-project.eu).

我们相信GF为创建新语言的计算语言资源提供了一个极好的平台。这一点已被涵盖多种语言(如英语、法语、芬兰语、阿拉伯语、日语、茨瓦纳语)的应用程序所证明,并得到2009年暑期学校的进一步证实。GF已经显示出可以吸引有才华的学生,他们可以在几个小时内获得生产力,然后在几个月内创造综合资源。此外,现有的语言库使得在启动新语言项目时可以继承代码和经验。

GF软件在所有主要操作系统(Linux、MacOS、Windows)上运行。GF有转换工具,可以重用其他几种格式的语法,包括用于语音识别的上下文无关语法(例如Nuance)和用于形态学的有限自动机(XFST)。GF编译器和语法都是开源软件。

教程

本教程的目标是提供构建GF应用程序或启动新语言实现所需的知识。材料分为三个一小时的讲座:

  1. GF和多语言文法的主要概念
  2. 构建形态学实现和词典
  3. 实现生成、解析和翻译的语法规则

涵盖的材料将是暑期学校简介幻灯片的节略版本,可以在grammatic framework.org/doc/resource-tutorial.pdf中找到。

先决条件

主要前提是:

  • 熟悉编程
  • 对语言概念有些熟悉

经验表明,2-3年的计算机科学、语言学或相关学科的学习为学习GF提供了足够的背景。没有预先假设的GF知识。教师

阿内·兰塔,计算机科学教授

查默斯理工大学和哥德堡大学计算机科学与工程系,瑞典哥德堡41296

电话:+46 31 772 10 82,电子邮件:aarne at chalmers-dot se

主页www.cs.chalmers.se/~aarne网站