语言技术组

新闻和事件

REMU项目-可靠的多语言数字通信:方法和应用。

第三届广发暑期学校2013-多语言技术的前沿。

背景

计算机科学系语言技术组工程部成立于2001年。它是在该部门早期的基础上建立起来的能力领域:

在这样的背景下,这个小组在一开始面向精度的任务,而不是覆盖范围广

近几年来,这些努力已经延伸到了创作上属于工具资源适用于各种语言技术任务:

我们团队的主要特征是

目前(2008年2月),该组织有8名博士和4名博士学生。一些高级成员有他们的主要联系在语言学系和瑞典语系。

校友

多语言语法

语法框架(GF),语法框架.org,是基于共享概念的多语言语法形式主义抽象语法抽象语法和具体语言。GF在世界各地拥有数百名用户。

GF资源语法库, grammaticalframework.org/lib/doc/synopsis.html,实现词法(屈折)和基本语法(短语结构)16种语言:保加利亚语、加泰罗尼亚语、丹麦语、荷兰语、英语,芬兰语、法语、德语、意大利语、挪威语,波兰语、罗马尼亚语、俄语、西班牙语、瑞典语,还有乌尔都语。这些资源是,作为开源软件免费提供。更多的语言正在建设中,在内部和外部项目中。

嵌入语法解析和生成程序是从GF编译的吗语法,可作为用其他语言编写的程序的一部分:Haskell、Java和JavaScript。

多语言语法应用

数字翻译,http://www.cse.chalmers.se/alumni/bringert/gf/translate/,是中嵌入语法的演示爪哇。它可以翻译88种语言之间的数字单词。

信件编辑http://www.cse.chalmers.se/alumni/markus/gramlets/letter-applet.html是嵌入式语法的另一个演示爪哇。它允许用户用她不懂的语言写信用她懂的语言看。

比萨饼订购系统,http://www.cse.chalmers.se/alumnium/bringert/xv/pizza/pizza-movie-large.html,是集成语音语言模型的演示,从GF语法生成JavaScript和VoiceXML。在浏览器中用户支持使用的WC3标准(如Windows上的Opera)能用口语建立秩序。

词法与词汇

萨尔多,一个可免费获取的大规模词法词典瑞典语,有语义联系。

从原始文本数据中提取词典,www.cse.chalmers.se/alumni/markus/extract, 一种通过使用屈折范式收集形态词汇的工具。

功能形态学,www.cse.chalmers.se/alumni/markus/FM,一个用于开发词形变化引擎和形态学词典的Haskell库。

无监督学习形态学,www.cs.chalmers.se/~harald2/lic.pdf, 一种可用于资源稀缺的语言的技术。

语言识别

语言识别的细粒度模型,www.cs.chalmers.se/~harald2/id_inews07.pdf, 一种可用于短文段和语言转换的技术。

编译技术

BNF转换器(BNFC) 是一个高级的多后端编译器工具,受GF的启发。它有数千个用户,并且包含在Linux发行版中比如Debian和Ubuntu。