N个美国X(X):10的多语言并行情感数据集印尼当地语言

Genta Indra Winata公司,阿尔哈姆·菲克里·阿吉,塞缪尔·卡海亚维贾亚,拉赫玛德·马亨德拉,法里·库托,阿德·罗曼多尼,凯末尔·库尼亚万,大卫·穆尔贾迪,Radityo Eko Prasojo公司,帕斯卡尔·冯,蒂莫西·鲍德温,Jey Han Lau(杰·汉·刘),里科·森里奇,塞巴斯蒂安·鲁德


摘要
自然语言处理(NLP)通过机器翻译和搜索引擎等技术对社会产生了重大影响。尽管NLP技术取得了成功,但它只适用于英语和汉语等高资源语言,而由于缺乏数据资源和基准,许多语言仍然无法使用NLP技术。在这项工作中,我们专注于开发印尼语言资源。尽管印尼是第二大语言多样性国家,但大多数语言都被列为濒危语言,有些甚至已经灭绝。我们为印尼的10种低资源语言开发了第一个并行资源。我们的资源包括情感和机器翻译数据集,以及双语词典。我们提供了广泛的分析,并描述了创建此类资源的挑战。我们希望这项工作能够激发NLP对印尼语和其他代表性不足的语言的研究。
选集ID:
2023.平均57
音量:
计算语言学协会欧洲分会第17届会议记录
月份:
五月
年份:
2023
地址:
克罗地亚杜布罗夫尼克
编辑:
安德烈亚斯·弗拉科斯,伊莎贝尔·奥根斯坦
地点:
EACL公司
SIG公司:
发布者:
计算语言学协会
注:
页:
815–834
语言:
网址:
https://aclantology.org/2023.eacl-main.57
DOI(操作界面):
10.18653/v1/2023.eacl-main.57
奖励:
EACL优秀论文
比比键:
引用(ACL):
Genta Indra Winata、Alham Fikri Aji、Samuel Cahyawijaya、Rahmad Mahendra、Fajri Koto、Ade Romadony、Kemal Kurniawan、David Moeljadi、Radityo Eko Prasojo、Pascale Fung、Timothy Baldwin、Jey Han Lau、Rico Sennrich和Sebastian Ruder。2023NusaX:10种印尼当地语言的多语言并行情感数据集.英寸计算语言学协会欧洲分会第17届会议记录,第815-834页,克罗地亚杜布罗夫尼克。计算语言学协会。
引用(非正式):
NusaX:10种印尼当地语言的多语言并行情感数据集(Winata等人,EACL 2023)
复制引文:
PDF格式:
https://aclcollectory.org/2023.eacl-main.57.pdf
视频:
 https://aclantology.org/2023.eacl-main.57.mp4