莱文:A大型C类中文法律事件检测数据集

冯耀,肖超军,王晓之,刘志远,雷侯,寸草涂,李娟子,刘云(Yun Liu),Weixing Shen公司,孙茂松


摘要
识别事实是作出判断的最基本步骤,因此,检测法律文件中的事件对法律案例分析任务非常重要。然而,现有的法律事件检测(Legal Event Detection,LED)数据集只涉及不理解的事件类型,并且注释数据有限,这限制了LED方法及其下游应用的发展。为了缓解这些问题,我们向LEVEN提供了一个大规模的中国LEgal eVENt检测数据集,包含8116份法律文件和150977个人类注释的事件,涉及108种事件类型。LEVEN不仅涵盖了与充电相关的事件,还涵盖了一般事件,这些事件对于理解法律案件至关重要,但在现有LED数据集中被忽视了。据我们所知,LEVEN是最大的LED数据集,其数据规模是其他数据集的几十倍,这将大大促进LED方法的培训和评估。大量实验结果表明,LED具有挑战性,需要进一步努力。此外,我们只是利用法律事件作为辅助信息来推广下游应用程序。该方法在低资源判断预测中平均提高了2.2点精度,在无监督案例检索中平均提高1.5点精度,这表明了LED的重要性。源代码和数据集可以从https://github.com/thunlp/LEVEN.
选集ID:
2022.结果-17
体积:
计算语言学协会的研究结果:ACL 2022
月份:
五月
年份:
2022
地址:
爱尔兰都柏林
编辑:
斯玛兰达·穆雷桑,普雷斯拉夫·纳科夫,阿琳·维拉维琴西奥
地点:
调查结果
SIG公司:
出版商:
计算语言学协会
注:
页:
183–201
语言:
网址:
https://aclantology.org/2022.findings-acl.17
内政部:
10.18653/v1/2022.查找-acl.17
比比键:
引用(ACL):
姚峰、肖朝军、王晓志、刘志远、侯磊、屠存超、李娟子、刘云、沈伟兴和孙茂松。2022LEVEN:一个大规模的中国法律事件检测数据集.英寸计算语言学协会的研究结果:ACL 2022,第183–201页,爱尔兰都柏林。计算语言学协会。
引用(非正式):
LEVEN:一个大规模的中国法律事件检测数据集(Yao等人,《2022年调查结果》)
复制引文:
PDF格式:
https://aclantology.org/2022.findings-acl.17.pdf
软件:
2022.查找-acl.17.software.zip
代码
thunlp/leven公司
数据
莱文