Named Entity Recognition in Twitter: A Dataset and Analysis on Short-Term Temporal Shifts

Ushio, Asahi; Neves, Leonardo; Silva, Vitor; Barbieri, Francesco; Camacho-Collados, Jose

计算机科学>计算与语言

arXiv公司：2210.03797（cs）

【2022年10月7日提交(第1版)，上次修订日期：2022年11月15日（此版本，v2）]

标题：推特中命名实体识别：一个数据集和短时时间偏移分析

作者：朝日Ushio,莱昂纳多·内维斯,维托·席尔瓦,弗朗西斯科·巴比埃里,何塞·卡马乔·科拉多斯

查看PDF

摘要：语言模型预训练的最新进展导致命名实体识别（NER）的重要改进。尽管如此，这一进展主要在格式良好的文档中进行了测试，如新闻、维基百科或科学文章。在社交媒体中，情况有所不同，由于其嘈杂和动态的特性，它又增加了一层复杂性。本文以最大的社交媒体平台之一推特的净入学率为研究对象，构建了一个新的净入学人数数据集TweetNER7，该数据集包含2019年9月至2021年8月的11382条推特的七种实体类型注释。该数据集是通过仔细分发推文并以代表性趋势为基础构建的。与数据集一起，我们提供了一组语言模型基线，并对任务的语言模型性能进行了分析，特别是分析了不同时间段的影响。特别是，我们在分析中重点关注三个重要的时间方面：随着时间的推移，净入学率模型的短期退化，在不同时期微调语言模型的策略，以及作为缺乏最近标记数据的替代方案的自我标记。TweetNER7公开发布(此https URL)以及对其进行微调的模型。

评论：	AACL 2022主要会议
学科：	计算与语言（cs.CL）
引用为：	arXiv公司：2210.03797【cs.CL】
	（或 arXiv:2210.03797v2【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2210.03797

提交历史记录

发件人：旭化Ushio[查看电子邮件]
[第1版]2022年10月7日星期五19:58:47 UTC（7643 KB）
[v2]2022年11月15日星期二13:58:40 UTC（7643 KB）

计算机科学>计算与语言

标题：推特中命名实体识别：一个数据集和短时时间偏移分析

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

标题：推特中命名实体识别：一个数据集和短时时间偏移分析

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目