计算机科学>计算与语言
标题: NusaCrowd:印尼NLP资源开源倡议
摘要: 我们向大家介绍NusaCrowd,这是一个协作倡议,旨在收集和统一印尼语言的现有资源,包括开放对以前非公开资源的访问。 通过这一举措,我们汇集了137个数据集和118个标准化数据加载器。 对数据集的质量进行了手动和自动评估,并通过多次实验证明了其价值。 NusaCrowd的数据收集能够为印尼语和印尼当地语言的自然语言理解和生成创建第一个零快照基准。 此外,NusaCrowd还创建了第一个印尼语和印尼当地语言的多语言自动语音识别基准。 我们的工作致力于推动自然语言处理(NLP)研究,针对尽管被广泛使用但代表性不足的语言。