Does Corpus Quality Really Matter for Low-Resource Languages?

Mikel Artetxe; Itziar Aldabe; Rodrigo Agerri; Olatz Perez-De-Viñaspre; Aitor Soroa

doi:10.18653/v1/2022.emnlp-main.499

语料库质量对低资源语言真的很重要吗？

米凯尔·阿特克斯,伊齐亚尔·阿尔达贝,罗德里戈·阿格里,Olatz Perez-de-Viñaspre公司,艾托·索罗亚

摘要

绝大多数非英语语料库都来自CommonCrawl的自动过滤版本。虽然之前的工作已经确定了这些数据集的质量方面的主要问题（Kreutzer等人，2021年），但尚不清楚这对下游性能的影响。以巴斯克的表示学习为例，我们探索了定制爬行（手动识别和抓取具有高质量内容的网站）作为筛选CommonCrawl的替代方法。我们的新语料库，称为EusCrawl，在大小上与流行的多语种语料库（如CC100和mC4）的巴斯克语部分相似，但根据本地注释者的说法，它的质量要高得多。例如，EusCrawl有66%的文档被评为高质量，而mC4和CC100的文档被评定为<33%。然而，无论使用何种语料库进行预训练，我们在下游NLU任务上都获得了类似的结果。我们的工作表明，低资源语言中的NLU性能主要不受数据质量的限制，而其他因素，如语料库大小和领域覆盖率，可以发挥更重要的作用。

选集ID：: 2022.emnlp-main.499年
体积：: 2022年自然语言处理实证方法会议记录
月份：: 十二月
年份：: 2022
地址：: 阿拉伯联合酋长国阿布扎比
编辑：: 约夫·戈德伯格,佐尔尼萨·科扎列娃,张岳（音）
地点：: EMNLP公司
SIG公司：
出版商：: 计算语言学协会
注：
页：: 7383–7390
语言：
网址：: https://aclantology.org/2022.emnlp-main.499
内政部：: 10.18653/v1/2022.emnlp-main.499
比比键：
引用（ACL）：: 米凯尔·阿尔泰克、伊齐亚尔·阿尔达贝、罗德里戈·阿格里、奥拉兹·佩雷兹·德维尼亚斯佩雷和艾托尔·索罗亚。2022语料库质量对低资源语言真的很重要吗？.英寸2022年自然语言处理实证方法会议记录，第7383–7390页，阿拉伯联合酋长国阿布扎比。计算语言学协会。
引用（非正式）：: 语料库质量对低资源语言真的很重要吗？（Artetxe等人，EMNLP 2022）
复制引文：
PDF格式：: https://aclantology.org/2022.emnlp-main.499.pdf

PDF格式引用搜索