克里奥尔语的语言模型

希瑟四旬斋埃马努埃勒·布加莱罗米尔亚姆·德·勒诺(Miryam de Lhoneux)陈秋安德斯·瑟加德


摘要
克里奥尔语,如尼日利亚洋泾浜英语和海地克里奥尔语,在NLP文献中来源不足,基本上被忽视。克里奥尔语通常是由一种外语与多种当地语言融合而成的,其语法和词汇特征是一个复杂的过程。虽然克里奥尔语总体上是稳定的,但在某些人口统计学或某些语言情况下,某些特征的突出性可能会更强。本文的主要贡献是:收集了海地克里奥尔语、尼日利亚洋泾浜英语和新加坡口语的现有语料库和发布模型。我们在内部和外部任务上评估这些模型。受上述文献的启发,我们将标准语言模型与分布健壮模型进行了比较,发现标准语言模型优于分布健壮的模型,这有些令人惊讶。我们研究了这是过度参数化还是相对分布稳定性的影响,发现在没有过度参数化的情况下,差异仍然存在,漂移是有限的,这证实了克里奥尔语言的相对稳定性。
选集ID:
2021.续-1.5
体积:
第25届计算自然语言学习会议记录
月份:
十一月
年份:
2021
地址:
在线的
编辑:
阿里安娜·比萨扎奥姆里·阿本德
地点:
CoNLL公司
SIG公司:
SIGNLL公司
出版商:
计算语言学协会
注:
页:
58–71
语言:
网址:
https://aclantology.org/2021.conll-1.5
内政部:
10.18653/v1/2021。第1.5节
比比键:
引用(ACL):
希瑟四旬斋、伊曼纽尔·布利亚雷洛、米利亚姆·德·勒诺、陈秋和安德斯·索加德。2021克里奥尔语的语言模型.英寸第25届计算自然语言学习会议记录,第58-71页,在线。计算语言学协会。
引用(非正式):
克里奥尔语的语言模型(Lent等人,CoNLL 2021)
复制引文:
PDF格式:
https://aclantology.org/2021.coll-1.5.pdf
视频:
 https://aclantology.org/2021.coll-1.5.mp4网址
代码
盐酸/克里奥尔dro
数据
威尔兹