语言技术集团
新闻和事件
REMU项目-可靠的多语言数字通信:方法和应用。
GF第三暑期学校2013-多语言技术的前沿。
背景
计算机科学与工程系语言技术小组工程成立于2001年。它建立在国防部早些时候的基础上能力领域:
在这样的背景下,该团队在一开始非常倾向于以精度为导向的任务,而不是覆盖范围广
近年来,这些努力已扩展到创建属于工具和资源适用于各种语言技术任务:
- 语法形式主义实现
- 语音识别器语言模型的生成
- 词典构建工具
- 从原始文本数据中提取词汇
- 从原始文本中提取屈折规则
我们团队的主要特征是
- 多语现象: 同时适用于多种语言的理论和工具
- 编译技术:我们的许多NLP思想都是现代编译器的推广;我们还开发了受NLP启发的编译器工具
目前(2008年2月),该集团有8名成员拥有博士学位和4名博士学位学生。一些高级成员有其主要附属关系在语言学和瑞典语系。
人
校友
多语言文法
语法框架(GF),语法框架.org
,是基于共享思想的多语言语法形式主义抽象语法以及抽象语法与具体语言。GF在全球拥有数百名用户。
GF资源语法库,
语法框架.org/lib/doc/synopsis.html
,实现词法(屈折)和基本语法(短语结构)共16种语言:保加利亚语、加泰罗尼亚语、丹麦语、荷兰语、英语、,芬兰语、法语、德语、意大利语、挪威语、,波兰语、罗马尼亚语、俄语、西班牙语、瑞典语、,和乌尔都语。这些资源是,作为开源软件免费提供。更多的语言正在建设中,在内部和外部项目中。
嵌入式语法是从GF编译的解析和生成程序语法和可用作用其他语言编写的程序的一部分:Haskell、Java和JavaScript。
多语言语法应用程序
数字转换器,http://www.cse.chalmers.se/alumber/bringert/gf/translate/
,是中嵌入语法的演示爪哇。它可以在88种语言之间翻译数字。
信件编辑http://www.cse.chalmers.se/alumber/markus/gramlets/letter-applet.html
是中嵌入语法的另一个演示爪哇。它允许用户用她不知道的语言写一封信用她熟悉的语言观看。
披萨订购系统,http://www.cse.chalmers.se/alumber/bringert/xv/pizza/pizza-movie-large.html
,是集成语音语言模型的演示,JavaScript和从GF语法生成VoiceXML。在浏览器中支持使用的WC3标准(如Windows上的Opera),用户可以用口语建立秩序。
形态学和词汇
萨尔多,一个大规模的免费形态词典瑞典语,具有语义关联。从原始文本数据中提取词汇,www.cse.chalmers.se/alumber/markus/extract网站
, 通过屈折范式收集形态词汇的工具。
功能形态学,www.cse.chalmers.se/alumber/markus/FM
,用于开发屈折变化引擎和形态词典的Haskell库。
形态学的无监督学习,www.cs.chalmers.se/~harald2/lic.pdf
, 一种可用于资源稀缺的语言的技术。
语言识别
语言识别的细粒度模型,www.cs.chalmers.se/~harald2/id_news07.pdf
, 用于短文和语言转换的技巧。
编译器技术
BNF转换器(BNFC)
是一个受GF启发的高级多后端编译器工具。它有数千个用户,包含在Linux发行版中比如Debian和Ubuntu。