A Dataset and Strong Baselines for Classification of Czech News Texts

Kydlíček, Hynek; Libovický, Jindřich

计算机科学>计算与语言

arXiv:2307.10666（cs）

【于2023年7月20日提交】

标题：捷克新闻文本分类的数据集和强基线

作者：海内克·基里切克,利波维奇

查看PDF

摘要：捷克语自然语言处理的预训练模型通常根据纯语言任务（词性标注、句法分析、NER）和相对简单的分类任务（如情绪分类或来自单个新闻源的文章分类）进行评估。作为替代方案，我们提供了捷克最大的分类数据集之一的CZEch~NEws~Classification~数据集（CZE-NEC），该数据集由跨越20年的各种来源的新闻文章组成，可以对此类模型进行更严格的评估。我们定义了四个分类任务：新闻来源、新闻类别、推断作者性别和星期几。为了验证任务难度，我们进行了一项人类评估，结果显示人类表现落后于建立在预先训练的变压器模型上的强大机器学习基线。此外，我们还表明特定于语言的预训练编码器分析优于选定的商用大规模生成语言模型。

评论：	12页，接受文本、演讲和对话（TSD）2023
学科：	计算与语言（cs.CL）
引用为：	arXiv:2307.10666【cs.CL】
	（或 arXiv:2307.10666v1【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2307.10666

提交历史记录

发件人：Jindřich Libovick[查看电子邮件]
[第1版]2023年7月20日星期四07:47:08 UTC（81 KB）

全文链接：

访问纸张：

查看许可证

当前浏览上下文：

反恐精英。氯

<上一版本 | 下一个>

新的 | 最近的 |2023-07

更改为浏览方式：

反恐精英

参考文献和引文

导出BibTeX引文

计算机科学>计算与语言

标题：捷克新闻文本分类的数据集和强基线

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

标题：捷克新闻文本分类的数据集和强基线

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目