斯洛文尼亚网络slWaC语料库

托马·埃尔贾维奇、尼古拉·卢贝西奇、娜塔沙·洛加

摘要


大量文本(语言语料库)的可用性对于各种语言的实证支持语言学研究至关重要;然而,这样的语料库既复杂又昂贵。近年来,基于万维网上文本的语料库已经成为传统语料库的一个很有吸引力的替代品,因为它们可以自动生成,包含多种当代语言文本类型,并且相当大。本文描述了slWaC的第二版,这是一个包含12亿标记的斯洛文尼亚语网络语料库。语料库使用新材料扩展了slWaC的第一个版本,并更新了语料库编译管道。本文描述了语料库的编译过程,重点介绍了近重复删除,并给出了通过网络索引的语料库语言注释、格式和可访问性。然后,通过比较slWaC第一版语料库、斯洛文尼亚十亿单词参考语料库Gigafida和斯洛文尼亚亿万单词参考平衡语料库KRES的引理和部分话语注释,使用频率剖面法调查语料库的内容。

全文:

PDF格式


Creative Commons许可证
这个工作根据Creative Commons Attribution 3.0许可.