@正在进行{wiedemann-etal-2022推广,title=“{G}erman本地新闻中抗议事件检测的通用方法”,author=“Wiedemann、Gregor和Dollbaum、Jan Matti和Haunss、Sebastian和达菲、普里斯卡和迈耶,拉里萨·达里亚“,editor=“Calzolari、Nicoletta和B{\'e}切特,Fr{\e}d{\ee}ric和Blache、Philippe和Choukri、Khalid和Cieri、Christopher和Declerck、Thierry和戈吉、萨拉和Isahara、Hitoshi和Maegaard、Bente和玛丽亚尼、约瑟夫和Mazo、H{\'e}l{\`e}ne和Odijk、Jan和Piperidis,Stelios“,booktitle=“第十三届语言资源与评价会议论文集”,月=六月,年=“2022”,address=“法国马赛”,publisher=“欧洲语言资源协会”,url=“https://aclantology.org/2022.lrec-1.413”,页码=“3883-3891”,抽象=“抗议事件提供了有关社会和政治冲突、社会凝聚力和民主冲突管理的状态以及民间社会总体状态的信息。因此,社会科学家对抗议事件的系统观察感兴趣。通过本文,我们发布了首个德语公关资源当地新闻媒体发布的与奥特斯特事件相关的文章摘录。我们使用这个数据集来训练和评估基于转换器的文本分类器,以自动检测相关的报纸文章。我们的最佳方法达到了93.3{\%}的二进制F1-核,这对于我们支持政治科学研究的目标来说是一个很有希望的结果。然而,在第二个实验中,我们表明,当将我们的模型应用于训练样本以外的时间段和地点的数据时,它的泛化效果并不一样好。为了使抗议事件检测更健壮,我们测试了两种可选的预处理方法。首先,我们发现让分类器集中于抗议关键字周围的句子可以将样本外数据的F1核心提高到+4个百分点。其次,与我们最初的直觉相反,预处理期间命名实体的掩蔽并不能改善F1核的泛化。然而,这导致了模型召回率的显著提高。”,}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“wiedemann-etal-2022-generalized”><标题信息><title=德国地方新闻中抗议事件检测的通用方法</title=</titleInfo><name type=“personal”>格雷戈维德曼<角色>作者</角色></name><name type=“personal”><namePart type=“given”>一月</namePart>马蒂<namePart type=“family”>多尔鲍姆</namePart><角色>作者</角色></name><name type=“personal”>塞巴斯蒂安豪恩斯<角色>作者</角色></name><name type=“personal”>普里斯卡<namePart type=“family”>Daphi</namePart><角色>作者</角色></name><name type=“personal”>拉里萨达里亚迈耶<角色>作者</角色></name><originInfo>2022-06发布日期</originInfo><typeOfResource>文本</typeOfResource><relatedItem type=“主机”><标题信息>第十三届语言资源与评估会议记录</titleInfo><name type=“personal”>尼科莱塔卡尔佐拉里<角色>编辑器</角色></name><name type=“personal”>弗雷德里克贝歇<角色>编辑器</角色></name><name type=“personal”>菲利普布莱切<角色>编辑器</角色></name><name type=“personal”>哈立德乔克里<角色>编辑器</角色></name><name type=“personal”>克里斯托弗Cieri公司<角色>编辑器</角色></name><name type=“personal”>蒂埃里Declerck公司<角色>编辑器</角色></name><name type=“personal”>萨拉戈吉<角色>编辑器</角色></name><name type=“personal”>HitoshiIsahara<角色>编辑器</角色></name><name type=“personal”>Bente(本特)梅加德<角色>编辑器</角色></name><name type=“personal”>约瑟夫玛丽亚尼<角色>编辑器</角色></name><name type=“personal”>Hélène<namePart type=“family”>马祖<角色>编辑器</角色></name><name type=“personal”>一月奥迪jk<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>钨铬钴合金</namePart>哌啶虫<角色>编辑器</角色></name><originInfo>欧洲语言资源协会<位置><placeTerm type=“text”>法国马赛</placeTerm></place></originInfo>会议出版物</relatedItem>抗议活动提供了有关社会和政治冲突、社会凝聚力和民主冲突管理状况以及民间社会总体状况的信息。因此,社会科学家对抗议事件的系统观察很感兴趣。通过这篇文章,我们发布了第一个在当地新闻媒体上发布的与抗议事件相关的文章节选的德语资源。我们使用该数据集训练和评估基于变压器的文本分类器,以自动检测相关报纸文章。我们的最佳方法达到了93.3%的二进制F1核,这对于我们支持政治科学研究的目标来说是一个很有希望的结果。然而,在第二个实验中,我们表明,当将我们的模型应用于训练样本以外的时间段和地点的数据时,它的泛化效果并不一样好。为了使抗议事件检测更健壮,我们测试了两种可选的预处理方法。首先,我们发现让分类器集中于抗议关键字周围的句子可以将样本外数据的F1核心提高到+4个百分点。其次,与我们最初的直觉相反,预处理期间命名实体的掩蔽并不能改善F1核的泛化。然而,这导致了模型召回率的显著提高</摘要>wiedemann-etal-2022广义<位置><网址>https://aclantology.org/2022.lrec-1.413</url></位置><部分>2022-06年<扩展单元=“page”><开始>3883<end>3891</范围></部分></mods></modsCollection>
%0会议记录%德国地方新闻中抗议事件检测的通用方法%格雷戈·维德曼%A Dollbaum,扬·马蒂%塞巴斯蒂安·豪恩斯%A Daphi,普里斯卡%A Meier,拉里萨·达里亚%尼科莱塔·Y·卡尔佐拉里%Y Béchet,Frédéric%Y Blache,菲利普%哈立德·朱克里%克里斯托弗·西埃里%蒂埃里·德克勒克%萨拉·戈吉%Y Isahara,Hitoshi%Y Maegaard,本特%约瑟夫·马里亚尼%耶鲁·马佐%Y Odijk,简%Y Piperidis、Stelios%第十三届语言资源与评估会议论文集%D 2022年%6月8日%I欧洲语言资源协会%C马赛,法国%F wiedemann-etal-2022广义%X抗议活动提供有关社会和政治冲突、社会凝聚力和民主冲突管理状况以及民间社会总体状况的信息。因此,社会科学家对系统观察抗议事件感兴趣。通过这篇文章,我们发布了第一个在当地新闻媒体上发布的与抗议事件相关的文章节选的德语资源。我们使用该数据集训练和评估基于变压器的文本分类器,以自动检测相关报纸文章。我们的最佳方法达到了93.3%的二进制F1核,这对于我们支持政治科学研究的目标来说是一个很有希望的结果。然而,在第二个实验中,我们表明,当将我们的模型应用于训练样本以外的时间段和地点的数据时,它的泛化效果并不一样好。为了使抗议事件检测更健壮,我们测试了两种可选的预处理方法。首先,我们发现让分类器集中于抗议关键字周围的句子可以将样本外数据的F1核心提高到+4个百分点。其次,与我们最初的直觉相反,预处理期间命名实体的掩蔽并不能改善F1核的泛化。然而,这导致了模型召回率的显著提高。%U型https://aclantology.org/2022.lrec-1.413%电话3883-3891
降价(非正式)
【德国地方新闻中抗议事件检测的通用方法】(https://aclantology.org/2022.lrec-1.413)(Wiedemann等人,LREC 2022)
国际计算语言学协会
- 格雷戈·维德曼(Gregor Wiedemann)、扬·马蒂·多尔鲍姆(Jan Matti Dollbaum)、塞巴斯蒂安·豪恩斯(Sebastian Haunss)、普里斯卡·达菲(Priska Daphi)和拉里萨·达里亚·迈耶(Larissa Daria Meier)。2022一种通用的德国地方新闻抗议事件检测方法.英寸第十三届语言资源与评价会议记录,第3883–3891页,法国马赛。欧洲语言资源协会。