N个美国Crowd:的开源计划印尼人NLP公司资源

塞缪尔·卡海亚维贾亚,神圣的洛维尼亚,阿尔哈姆·菲克里·阿吉,Genta Winata公司,布莱恩·威利,法里·库托,拉赫玛德·马亨德拉,克里斯蒂安·维比索诺,阿德·罗曼多尼,卡里萨·文森蒂奥,詹妮弗·桑托索,大卫·穆尔贾迪,卡希亚·维拉旺,弗雷德里库斯·胡迪,穆罕默德·萨蒂里奥·威卡克索诺,伊万·帕莫南根,伊卡·阿尔芬娜,伊尔哈姆·费道西·布特拉(Ilham Firdausi Putra),萨姆苏尔·拉赫马达尼,尤利安蒂·奥南,阿里·塞普蒂安德里,詹姆斯·贾亚,考斯图布·德霍尔,阿里·苏里亚尼,里夫基·阿芬娜·普特里,丹·苏,基思·史蒂文斯,制造Nindyatama Nityasya,穆罕默德·阿迪拉扎尔达,瑞安·哈迪维亚亚,Ryandito Diandaru公司,铁正宇(Tiezheng Yu),维托·吉法里,戴文良,严旭,迪亚·达马普斯皮塔,哈利奥·维博沃,Cuk Tho公司,伊奇瓦努尔·卡洛·卡洛,地拉那Fatyanosa,紫薇记,格雷厄姆·纽比格,蒂莫西·鲍德温,塞巴斯蒂安·鲁德,Pascale Fung公司,Herry Sujaini先生,Sakriani Sakti公司,阿尤·普瓦连蒂


摘要
我们向大家介绍NusaCrowd,这是一个协作倡议,旨在收集和统一印尼语言的现有资源,包括开放对以前非公开资源的访问。通过这一举措,我们汇集了137个数据集和118个标准化数据加载器。对数据集的质量进行了手动和自动评估,并通过多次实验证明了其价值。NusaCrowd的数据收集能够为印尼语和印尼当地语言的自然语言理解和生成创建第一个零快照基准。此外,NusaCrowd还创建了第一个印尼语和印尼当地语言的多语言自动语音识别基准。我们的工作致力于推进自然语言处理(NLP)研究,以解决尽管被广泛使用但仍被低估的语言。
选集ID:
2023.结果-acl.868
原件:
2023.结果-acl.868v1
版本2:
2023.发现-acl.868v2
体积:
计算语言学协会的研究结果:ACL 2023
月份:
七月
年份:
2023
地址:
加拿大多伦多
编辑:
安娜·罗杰斯,乔丹·博伊德·格雷伯,冈崎直(Naoaki Okazaki)
地点:
调查结果
SIG公司:
出版商:
计算语言学协会
注:
页:
13745–13818
语言:
网址:
https://acl选集.org/2023.findings-acl.868
内政部:
10.18653/v1/2023.查找-acl.868
比比键:
引用(ACL):
塞缪尔·卡哈亚维贾亚(Samuel Cahyawijaya)、圣洛维尼亚(Holy Lovenia)、阿勒姆·菲克里·阿吉(Alham Fikri Aji)、根塔·维纳塔(Genta Winata)、布莱恩·威利(Bryan Wilie)、法杰里·库托(Fajri Koto)、拉赫玛德·马亨德拉(Rahmad Mahendra)、克里斯蒂安·维比索诺(Christian Wibisono)、艾德·罗马多尼(Ade Romadony)、卡丽莎·文森提奥(Karissa Vincentio)、詹妮弗·桑托索(Jennifer Santoso)、大卫·。NusaCrowd:印尼NLP资源开源倡议.英寸计算语言学协会的研究结果:ACL 2023,第13745–13818页,加拿大多伦多。计算语言学协会。
引用(非正式):
NusaCrowd:印尼NLP资源开源倡议(Cahyawijaya等人,2023年发现)
复制引文:
PDF格式:
https://aclcollectory.org/2023.findings-acl.868.pdf