@在过程中{artetxe-etal-022-corpus,title=“语料库质量对低资源语言真的很重要吗?”,author=“Artetxe、Mikel和Aldabe、Itziar和阿格里、罗德里戈和Perez-de-Vi{\~n}aspre、Olatz和艾托·索罗亚“,editor=“Goldberg、Yoav和科扎列娃、佐尔尼察和张岳”,booktitle=“2022年自然语言处理实证方法会议记录”,月=12月,年=“2022”,address=“阿拉伯联合酋长国阿布扎比”,publisher=“计算语言学协会”,url=“https://aclantology.org/2022.emnlp-main.499”,doi=“10.18653/v1/2022.emnlp-main.499”,pages=“7383--7390”,abstract=“绝大多数非英语语料库都来自CommonCrawl的自动过滤版本。而之前的工作已经确定了这些数据集质量的主要问题(Kreutzer等人,2021),目前尚不清楚这将如何影响下游绩效。以巴斯克的表示学习为例,我们探索了量身定制的爬行(手动识别和抓取具有高质量内容的网站),作为过滤CommonCrawl的替代方案。我们的新语料库,称为EusCrawl,在大小上与流行的多语种语料库(如CC100和mC4)的巴斯克语部分相似,但根据本地注释者的说法,它的质量要高得多。例如,对于EusCrawl,66{\%}个文档被评为高质量,而对于mC4和CC100,{\textless}33{\%neneneep个文档被评定为高质量。然而,无论使用何种语料库进行预训练,我们在下游NLU任务上都获得了类似的结果。我们的工作表明,低资源语言中的NLU性能主要不受数据质量的限制,而其他因素,如语料库大小和领域覆盖率,可以发挥更重要的作用。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“artetxe-etal-2022-语料库”><标题信息><title>语料库质量对低资源语言真的很重要吗</标题></titleInfo><name type=“personal”>米克尔Artetxe<角色>作者</角色></name><name type=“personal”>伊齐亚尔阿尔达贝<角色>作者</角色></name><name type=“personal”>罗德里戈<namePart type=“family”>阿格里</namePart><角色>作者</角色></name><name type=“personal”>奥拉茨Perez-de-Viñaspre<角色>作者</角色></name><name type=“personal”>Aitor公司索罗亚<角色>作者</角色></name><originInfo>2022-12发布日期</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>2022年自然语言处理实证方法会议记录</titleInfo><name type=“personal”>Yoav戈德堡<角色>编辑器</角色></name><name type=“personal”>佐尔尼察科扎列娃<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>岳<namePart type=“family”>张<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>阿拉伯联合酋长国阿布扎比</place></originInfo>会议出版物</relatedItem><abstract>绝大多数非英语语料库都来自CommonCrawl的自动过滤版本。虽然之前的工作已经确定了这些数据集的质量方面的主要问题(Kreutzer等人,2021年),但尚不清楚这对下游性能的影响。以巴斯克的表示学习为例,我们探索了定制爬行(手动识别和抓取具有高质量内容的网站)作为筛选CommonCrawl的替代方法。我们的新语料库,称为EusCrawl,在大小上与流行的多语种语料库(如CC100和mC4)的巴斯克语部分相似,但根据本地注释者的说法,它的质量要高得多。例如,对于EusCrawl,66%的文档被评为高质量,而对于mC4和CC100,这一比例为33%。尽管如此,无论用于预训练的语料库如何,我们在下游NLU任务上都获得了类似的结果。我们的工作表明,低资源语言中的NLU性能主要不受数据质量的限制,而其他因素,如语料库大小和领域覆盖率,可以发挥更重要的作用</摘要>artetxe-etal-2022语料库10.18653/v1/2022.emnlp-main.499<位置><网址>https://aclantology.org/2022.emnlp-main.499</url></位置><部分><日期>2022-12年</日期><扩展单元=“page”><开始>7383</开始><end>7390</范围></部分></mods></modsCollection>
%0会议记录%语料库质量对低资源语言真的很重要吗?%阿泰特克斯,米克尔%伊齐亚尔·阿尔达贝%A Ageri,罗德里戈%A Perez-de-Viñaspre,奥拉茨%艾托尔·索罗阿%Y Goldberg,约夫%佐尔尼察Y Kozareva%Y Zhang,岳%2022年自然语言处理实证方法会议论文集%D 2022年%12月8日%计算语言学协会%C阿拉伯联合酋长国阿布扎比%F artetxe-etal-2022语料库%X绝大多数非英语语料库都来自CommonCrawl的自动过滤版本。虽然先前的工作已经确定了这些数据集质量方面的主要问题(Kreutzer et al.,2021),但尚不清楚这对下游性能的影响。以巴斯克的表示学习为例,我们探索了定制爬行(手动识别和抓取具有高质量内容的网站)作为筛选CommonCrawl的替代方法。我们的新语料库,称为EusCrawl,在大小上与流行的多语种语料库(如CC100和mC4)的巴斯克语部分相似,但根据本地注释者的说法,它的质量要高得多。例如,对于EusCrawl,66%的文档被评为高质量,而对于mC4和CC100,这一比例为33%。然而,无论使用何种语料库进行预训练,我们在下游NLU任务上都获得了类似的结果。我们的工作表明,低资源语言中的NLU性能主要不受数据质量的限制,而其他因素,如语料库大小和领域覆盖率,可以发挥更重要的作用。%R 10.18653/v1/2022.emnlp-main.499%U型https://aclantology.org/2022.emnlp-main.499%U型https://doi.org/10.18653/v1/2022.emnlp-main.499%电话7383-7390
降价(非正式)
[语料库质量对低资源语言真的很重要吗?](https://aclantology.org/2022.emnlp-main.499)(Artetxe等人,EMNLP 2022)
国际计算语言学协会
- 米凯尔·阿尔泰克、伊齐亚尔·阿尔达贝、罗德里戈·阿格里、奥拉兹·佩雷兹·德维尼亚斯佩雷和艾托尔·索罗亚。2022语料库质量对低资源语言真的很重要吗?.英寸2022年自然语言处理实证方法会议记录,第7383–7390页,阿拉伯联合酋长国阿布扎比。计算语言学协会。