Trankit:基于轻量级变换的多语言自然语言处理工具包

明凡阮,越南Dac Lai,阿米尔·普兰·本·韦瑟,Thien Huu Nguyen先生


摘要
我们介绍了Trankit,这是一个用于多语言自然语言处理(NLP)的基于转换器的轻量级工具包。它为超过100种语言的基本NLP任务提供了一个可训练的管道,为56种语言提供了90个预训练管道。基于最先进的预处理语言模型,Trankit在句子分割、部分语言标记、形态特征标记和依存分析方面显著优于先前的多语言NLP管道,同时在标记化、多词标记扩展、,以及对90个Universal Dependencies树库进行柠檬化。尽管使用了大型预处理转换器,但我们的工具包在内存使用和速度方面仍然很高效。这是通过我们使用Adapters的新型即插即用机制实现的,其中多语言预处理转换器在不同语言的管道之间共享。我们的工具包以及预训练的模型和代码可在以下网站上公开获取:https://github.com/nlp-uoregon/trankit。我们的工具包的演示网站也可以在以下位置获得:网址:http://nlp.uoregon.edu/trankit最后,我们为Trankit创建了一个演示视频:https://youtu.be/q0KGP3zGjGc.
选集ID:
2021.每个演示10
体积:
计算语言学协会欧洲分会第16届会议记录:系统演示
月份:
四月
年份:
2021
地址:
在线的
编辑:
迪米特拉·格卡齐亚,杰梅·塞达
地点:
EACL公司
信号:
发布者:
计算语言学协会
注:
页:
80–90
语言:
网址:
https://aclantology.org/2021.eacl-demos.10网址
内政部:
10.18653/v1/2021.eacl-demos.10版
比比键:
引用(ACL):
Minh Van Nguyen、Vieta Dac Lai、Amir Pouran Ben Veyseh和Thien Huu Nguyen。2021Trankit:基于轻量级变换的多语言自然语言处理工具包.英寸计算语言学协会欧洲分会第16届会议记录:系统演示,第80–90页,在线。计算语言学协会。
引用(非正式):
Trankit:基于轻量级变换的多语言自然语言处理工具包(Nguyen等人,EACL 2021)
复制引文:
PDF格式:
https://aclantology.org/2021.eacl-demos.10.pdf
代码
nlp-uoregon/trankit公司
数据
CoNLL 2003年