计算机科学>计算与语言
标题: 推特中命名实体识别:一个数据集和短时时间偏移分析
摘要: 语言模型预训练的最新进展导致命名实体识别(NER)的重要改进。 尽管如此,这一进展主要在格式良好的文档中进行了测试,如新闻、维基百科或科学文章。 在社交媒体中,情况有所不同,由于其嘈杂和动态的特性,它又增加了一层复杂性。 本文以最大的社交媒体平台之一推特的净入学率为研究对象,构建了一个新的净入学人数数据集TweetNER7,该数据集包含2019年9月至2021年8月的11382条推特的七种实体类型注释。 该数据集是通过仔细分发推文并以代表性趋势为基础构建的。 与数据集一起,我们提供了一组语言模型基线,并对任务的语言模型性能进行了分析,特别是分析了不同时间段的影响。 特别是,我们在分析中重点关注三个重要的时间方面:随着时间的推移,净入学率模型的短期退化,在不同时期微调语言模型的策略,以及作为缺乏最近标记数据的替代方案的自我标记。 TweetNER7公开发布( 此https URL )以及对其进行微调的模型。