一个国家,700多种语言:自然语言处理中代表性不足的语言和方言面临的挑战印尼

阿尔哈姆·菲克里·阿吉,Genta Indra Winata公司,法里·库托,塞缪尔·卡海亚维贾亚,阿德·罗曼多尼,拉赫玛德·马亨德拉,凯末尔·库尼亚万,大卫·穆尔贾迪,Radityo Eko Prasojo公司,蒂莫西·鲍德温,Jey Han Lau(杰·汉·刘),塞巴斯蒂安·鲁德


摘要
由于缺乏资源和对代表性不足的语言和方言所带来的挑战的认识,NLP研究受到阻碍。印尼是世界上语言多样性第二大、人口第四大的国家,我们以印尼的语言为重点,概述了印尼700多种语言的NLP研究现状。我们强调印尼NLP面临的挑战以及这些挑战如何影响当前NLP系统的性能。最后,我们提供了一般性建议,以帮助开发NLP技术,不仅适用于印度尼西亚语言,也适用于其他代表性不足的语言。
选集ID:
2022.acl长500
音量:
计算语言学协会第60届年会论文集(第一卷:长篇论文)
月份:
五月
年份:
2022
地址:
爱尔兰都柏林
编辑:
斯玛兰达·穆雷桑,普雷斯拉夫·纳科夫,阿琳·维拉维琴西奥
地点:
国际计算语言学协会
SIG公司:
发布者:
计算语言学协会
注:
页:
7226–7249
语言:
网址:
https://aclantology.org/2022.acl-long.500
DOI(操作界面):
10.18653/v1/2022.acl长500
比比键:
引用(ACL):
Alham Fikri Aji、Genta Indra Winata、Fajri Koto、Samuel Cahyawijaya、Ade Romadony、Rahmad Mahendra、Kemal Kurniawan、David Moeljadi、Radityo Eko Prasojo、Timothy Baldwin、Jey Han Lau和Sebastian Ruder。2022一个国家,700多种语言:印尼NLP对代表性不足的语言和方言的挑战.英寸计算语言学协会第60届年会论文集(第一卷:长篇论文),第7226–7249页,爱尔兰都柏林。计算语言学协会。
引用(非正式):
一个国家,700多种语言:印尼NLP对代表性不足的语言和方言的挑战(Aji等人,ACL 2022)
复制引文:
PDF格式:
https://aclantology.org/2022.acl-long.500.pdf
视频:
 https://aclantology.org/2022.acl-long.500.mp4