@正在进行{ushio-etal-2022命名,title=“{T}-witter中的命名实体识别:一个数据集和短期时间移位分析”,author=“Ushio、Asahi和巴比埃里、弗朗西斯科和Sousa、Vitor和内维斯、莱昂纳多和Jose Camacho-Collados“,editor=“他、玉兰和纪、恒和李、苏坚和刘、杨和Chang,Chua Hui”,booktitle=“计算语言学协会亚太分会第二届会议记录和第十二届国际自然语言处理联合会议(第1卷:长篇论文)”,月=11月,年=“2022”,address=“仅在线”,publisher=“计算语言学协会”,url=“https://aclantology.org/2022.aacl-main.25”,页码=“309--319”,abstract=“语言模型预训练的最新进展导致命名实体识别(NER)的重要改进尽管如此,这一进展主要在格式良好的文档中进行了测试,如新闻、维基百科或科学文章。在社交媒体中,情况有所不同,由于其嘈杂和动态的特性,它又增加了一层复杂性。本文以最大的社交媒体平台之一推特的净入学率为研究对象,构建了一个新的净入学人数数据集TweetNER7,该数据集包含2019年9月至2021年8月的11382条推特的七种实体类型注释。该数据集是通过仔细分发推文并以代表性趋势为基础构建的。与数据集一起,我们提供了一组语言模型基线,并对任务的语言模型性能进行了分析,特别是分析了不同时间段的影响。特别是,我们在分析中重点关注三个重要的时间方面:随着时间的推移,净入学率模型的短期退化,在不同时期微调语言模型的策略,以及作为缺乏最近标记数据的替代方案的自我标记。TweetNER7公开发布(\url{https://huggingface.co/datasets/tner/tweeter7}),并对其上的模型进行了微调(NER模型已集成到TweetNLP中,可以在\url{https://github.com/asahi417/tner/tree/master/examples/tweeter 7_paper}上找到)。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“ushio-etal-2022-named”><标题信息>Twitter中命名实体识别:一个数据集和短期时间转移分析</titleInfo><name type=“personal”>朝日Ushio(Ushio)<角色>作者</角色></name><name type=“personal”>弗朗西斯科巴比里<角色>作者</角色></name><name type=“personal”>维托(Vitor)Sousa公司<角色>作者</角色></name><name type=“personal”>莱昂纳多内维斯<角色>作者</角色></name><name type=“personal”>何塞Camacho-Collados系列<角色>作者</角色></name><originInfo>2022-11发布日期</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>计算语言学协会亚太分会第二届会议记录和第十二届国际自然语言处理联合会议(第1卷:长篇论文)</titleInfo><name type=“personal”>玉兰他<角色>编辑器</角色></name><name type=“personal”>亨<namePart type=“family”>吉</namePart><角色>编辑器</角色></name><name type=“personal”>苏建<namePart type=“given”>李<namePart type=“family”><角色>编辑器</角色></name><name type=“personal”>杨(Yang)刘<角色>编辑器</角色></name><name type=“personal”>蔡慧Chang(昌)<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>仅限在线</place></originInfo>会议出版物</relatedItem>语言模型预训练的最新进展导致命名实体识别(NER)的重要改进。尽管如此,这一进展主要在格式良好的文档中进行了测试,如新闻、维基百科或科学文章。在社交媒体中,情况有所不同,由于其嘈杂和动态的特性,它又增加了一层复杂性。本文以最大的社交媒体平台之一推特的净入学率为研究对象,构建了一个新的净入学人数数据集TweetNER7,该数据集包含2019年9月至2021年8月的11382条推特的七种实体类型注释。该数据集是通过仔细分发推文并以代表性趋势为基础构建的。与数据集一起,我们提供了一组语言模型基线,并对任务的语言模型性能进行了分析,特别是分析了不同时间段的影响。特别是,我们在分析中重点关注三个重要的时间方面:随着时间的推移,净入学率模型的短期退化,在不同时期微调语言模型的策略,以及作为缺乏最近标记数据的替代方案的自我标记。TweetNER7公开发布(https://huggingface.co/datasets/tner/tweeter7)以及对其进行微调的模型(NER模型已集成到TweetNLP中,可以在https://github.com/asahi417/tner/tree/master/examples/tweeter7_paper).</摘要>命名为ushio-etal-2022<位置><网址>https://aclantology.org/2022.aacl-main.25</url></位置><部分>2022-11年<扩展单元=“page”><开始>309</开始><end>319</范围></部分></mods></mods集合>
%0会议记录%推特中T命名实体识别:一个数据集和短时时间偏移分析%朝日阿Ushio%弗朗西斯科·巴比里%维托·A Sousa%莱昂纳多·奈维斯%A Camacho-Collados,何塞%Yu He,玉兰%Y Ji、Heng%Y Li,苏坚%Y Liu、Yang%蔡慧Y Chang%计算语言学协会亚太分会第二届会议和第十二届国际自然语言处理联合会议论文集(第1卷:长篇论文)%D 2022年%11月8日%计算语言学协会%C仅在线%Fushio-etal-2022命名%X语言模型预培训的最新进展导致命名实体识别(NER)的重要改进。尽管如此,这一进展主要在格式良好的文档中进行了测试,如新闻、维基百科或科学文章。在社交媒体中,情况有所不同,由于其嘈杂和动态的特性,它又增加了一层复杂性。本文以最大的社交媒体平台之一推特的净入学率为研究对象,构建了一个新的净入学人数数据集TweetNER7,该数据集包含2019年9月至2021年8月的11382条推特的七种实体类型注释。该数据集是通过仔细分发推文并以代表性趋势为基础构建的。与数据集一起,我们提供了一组语言模型基线,并对任务的语言模型性能进行了分析,特别是分析了不同时间段的影响。特别是,我们在分析中重点关注三个重要的时间方面:随着时间的推移,净入学率模型的短期退化,在不同时期微调语言模型的策略,以及作为缺乏最近标记数据的替代方案的自我标记。TweetNER7公开发布(https://huggingface.co/datasets/tner/tweeter7)以及在其上微调的模型(NER模型已集成到TweetNLP中,可以在https://github.com/asahi417/tner/tree/master/examples/tweeter7_paper).%U型https://aclantology.org/2022.aacl-main.25%电话:309-319
降价(非正式)
【推特中命名实体识别:一个数据集和短期时间偏移分析】(https://acl选集.org/2022.aacl-main.25)(Ushio等人,AACL-IJCNLP 2022)
国际计算语言学协会
- Asahi Ushio、Francesco Barbieri、Vitor Sousa、Leonardo Neves和Jose Camacho-Collados。2022推特中命名实体识别:一个数据集和短时时间偏移分析.英寸计算语言学协会亚太分会第二届会议记录和第十二届国际自然语言处理联合会议(第1卷:长篇论文),第309–319页,仅限在线。计算语言学协会。