一种通用的抗议事件检测方法G公司erman本地新闻

格雷戈·维德曼,简·马蒂·多尔鲍姆,塞巴斯蒂安·豪恩斯,普里斯卡·达皮,拉里萨·达丽亚·迈耶


摘要
抗议活动提供了有关社会和政治冲突、社会凝聚力和民主冲突管理状况以及民间社会总体状况的信息。因此,社会科学家对系统观察抗议事件感兴趣。通过这篇文章,我们发布了第一个在当地新闻媒体上发布的与抗议事件相关的文章节选的德语资源。我们使用该数据集训练和评估基于变压器的文本分类器,以自动检测相关报纸文章。我们的最佳方法达到了93.3%的二进制F1核,这对于我们支持政治科学研究的目标来说是一个很有希望的结果。然而,在第二个实验中,我们表明,当将我们的模型应用于训练样本以外的时间段和地点的数据时,它的泛化效果并不一样好。为了使抗议事件检测更健壮,我们测试了两种可选的预处理方法。首先,我们发现让分类器集中于抗议关键字周围的句子可以将样本外数据的F1核心提高到+4个百分点。其次,与我们最初的直觉相反,预处理期间命名实体的掩蔽并不能改善F1核的泛化。然而,这导致了模型召回率的显著提高。
选集ID:
2022.lrec-1.413年
体积:
第十三届语言资源与评价会议记录
月份:
六月
年份:
2022
地址:
法国马赛
编辑:
尼科莱塔·卡尔佐拉里,弗雷德里克·贝歇(Frédéric Béchet),菲利普·布莱切,哈立德·乔克里,克里斯托弗·西埃里,蒂埃里·德克勒克,萨拉·戈吉,Hitoshi Isahara先生,本特·梅加德,约瑟夫·马里亚尼,赫莱内·马佐,简·奥迪克,Stelios Piperidis公司
地点:
LREC公司
信号:
出版商:
欧洲语言资源协会
注:
页:
3883–3891
语言:
网址:
https://aclantology.org/2022.lrec-1.413
内政部:
比比键:
引用(ACL):
格雷戈·维德曼(Gregor Wiedemann)、扬·马蒂·多尔鲍姆(Jan Matti Dollbaum)、塞巴斯蒂安·豪恩斯(Sebastian Haunss)、普里斯卡·达菲(Priska Daphi)和拉里萨·达里亚·迈耶(Larissa Daria Meier)。2022一种通用的德国地方新闻抗议事件检测方法.英寸第十三届语言资源与评价会议记录,第3883–3891页,法国马赛。欧洲语言资源协会。
引用(非正式):
一种通用的德国地方新闻抗议事件检测方法(Wiedemann等人,LREC 2022)
复制引文:
PDF格式:
https://aclantology.org/2022.lrec-1.413.pdf