中的命名实体识别T型witter:一个数据集和短期时间偏移分析

朝日Ushio,弗朗西斯科·巴比埃里,维托·索萨,莱昂纳多·内维斯,何塞·卡马乔·科拉多斯


摘要
语言模型预训练的最新进展导致命名实体识别(NER)的重要改进。尽管如此,这一进展主要在格式良好的文档中进行了测试,如新闻、维基百科或科学文章。在社交媒体中,情况有所不同,由于其嘈杂和动态的特性,它又增加了一层复杂性。本文以最大的社交媒体平台之一推特的净入学率为研究对象,构建了一个新的净入学人数数据集TweetNER7,该数据集包含2019年9月至2021年8月的11382条推特的七种实体类型注释。该数据集是通过仔细分发推文并以代表性趋势为基础构建的。与数据集一起,我们提供了一组语言模型基线,并对任务的语言模型性能进行了分析,特别是分析了不同时间段的影响。特别是,我们在分析中重点关注三个重要的时间方面:随着时间的推移,净入学率模型的短期退化,在不同时期微调语言模型的策略,以及作为缺乏最近标记数据的替代方案的自我标记。TweetNER7公开发布(https://huggingface.co/datasets/tner/tweeter7)以及在其上微调的模型(NER模型已集成到TweetNLP中,可以在https://github.com/asahi417/tner/tree/master/examples/tweeter7_paper).
选集ID:
2022.aacl-main.25年
体积:
计算语言学协会亚太分会第二届会议记录和第十二届国际自然语言处理联合会议(第1卷:长篇论文)
月份:
十一月
年份:
2022
地址:
仅在线
编辑:
何玉兰,恒基,李素建,杨柳,张楚慧
场地:
AACL公司|IJCNLP公司
SIG公司:
出版商:
计算语言学协会
注:
页:
309–319
语言:
网址:
https://aclantology.org/2022.aacl-main.25
内政部:
比比键:
引用(ACL):
Asahi Ushio、Francesco Barbieri、Vitor Sousa、Leonardo Neves和Jose Camacho-Collados。2022推特中命名实体识别:一个数据集和短时时间偏移分析.英寸计算语言学协会亚太分会第二届会议记录和第十二届国际自然语言处理联合会议(第1卷:长篇论文),第309–319页,仅限在线。计算语言学协会。
引用(非正式):
推特中命名实体识别:一个数据集和短时时间偏移分析(Ushio等人,AACL-JCNLP 2022)
复制引文:
PDF格式:
https://aclantology.org/2022.aacl-main.25.pdf