计算机科学>计算与语言
标题: 捷克新闻文本分类的数据集和强基线
摘要: 捷克语自然语言处理的预训练模型通常根据纯语言任务(词性标注、句法分析、NER)和相对简单的分类任务(如情绪分类或来自单个新闻源的文章分类)进行评估。 作为替代方案,我们提供了捷克最大的分类数据集之一的CZEch~NEws~Classification~数据集(CZE-NEC),该数据集由跨越20年的各种来源的新闻文章组成,可以对此类模型进行更严格的评估。 我们定义了四个分类任务:新闻来源、新闻类别、推断作者性别和星期几。 为了验证任务难度,我们进行了一项人类评估,结果显示人类表现落后于建立在预先训练的变压器模型上的强大机器学习基线。 此外,我们还表明特定于语言的预训练编码器分析优于选定的商用大规模生成语言模型。