语料库质量对低资源语言真的很重要吗?

米凯尔·阿特克斯,伊齐亚尔·阿尔达贝,罗德里戈·阿格里,Olatz Perez-de-Viñaspre公司,艾托·索罗亚


摘要
绝大多数非英语语料库都来自CommonCrawl的自动过滤版本。虽然之前的工作已经确定了这些数据集的质量方面的主要问题(Kreutzer等人,2021年),但尚不清楚这对下游性能的影响。以巴斯克的表示学习为例,我们探索了定制爬行(手动识别和抓取具有高质量内容的网站)作为筛选CommonCrawl的替代方法。我们的新语料库,称为EusCrawl,在大小上与流行的多语种语料库(如CC100和mC4)的巴斯克语部分相似,但根据本地注释者的说法,它的质量要高得多。例如,EusCrawl有66%的文档被评为高质量,而mC4和CC100的文档被评定为<33%。然而,无论使用何种语料库进行预训练,我们在下游NLU任务上都获得了类似的结果。我们的工作表明,低资源语言中的NLU性能主要不受数据质量的限制,而其他因素,如语料库大小和领域覆盖率,可以发挥更重要的作用。
选集ID:
2022.emnlp-main.499年
体积:
2022年自然语言处理实证方法会议记录
月份:
十二月
年份:
2022
地址:
阿拉伯联合酋长国阿布扎比
编辑:
约夫·戈德伯格,佐尔尼萨·科扎列娃,张岳(音)
地点:
EMNLP公司
SIG公司:
出版商:
计算语言学协会
注:
页:
7383–7390
语言:
网址:
https://aclantology.org/2022.emnlp-main.499
内政部:
10.18653/v1/2022.emnlp-main.499
比比键:
引用(ACL):
米凯尔·阿尔泰克、伊齐亚尔·阿尔达贝、罗德里戈·阿格里、奥拉兹·佩雷兹·德维尼亚斯佩雷和艾托尔·索罗亚。2022语料库质量对低资源语言真的很重要吗?.英寸2022年自然语言处理实证方法会议记录,第7383–7390页,阿拉伯联合酋长国阿布扎比。计算语言学协会。
引用(非正式):
语料库质量对低资源语言真的很重要吗?(Artetxe等人,EMNLP 2022)
复制引文:
PDF格式:
https://aclantology.org/2022.emnlp-main.499.pdf