Automatic Error Type Annotation for Arabic

Riadh Belkebir; Nizar Habash

doi:10.18653/v1/2021.conll-1.47

的自动错误类型批注A类狂犬病患者

摘要

我们介绍了ARETA，一个用于现代标准阿拉伯语的自动错误类型注释系统。我们设计ARETA是为了解决阿拉伯语的形态丰富性和正字法模糊性。我们以阿拉伯语学习者语料库（ALC）错误标记集为基础，进行了一些修改。ARETA在人工标注的ALC盲测试部分中取得了85.8%的成绩（F1的微平均分数）。我们还通过将ARETA应用于QALB 2014阿拉伯语语法错误更正共享任务中的许多提交文件，展示了ARETA的可用性。结果分析对不同提交文件的优缺点提供了有益的见解，这比共享任务中使用的不透明M2评分指标更有用。ARETA使用大型阿拉伯语形态分析仪，但在其他方面完全没有监督。我们公开ARETA。

选集ID：: 2021.续-1.47
体积：: 第25届计算自然语言学习会议记录
月份：: 十一月
年份：: 2021
地址：: 在线
编辑：: 阿里安娜·比萨扎,奥姆里·阿本德
地点：: CoNLL公司
SIG公司：: SIGNLL公司
出版商：: 计算语言学协会
注：
页：: 596–606
语言：
网址：: https://aclantology.org/2021.coll-1.47
内政部：: 10.18653/v1/2021-coll-1.47
比比键：
引用（ACL）：: Riadh Belkebir和Nizar Habash。2021阿拉伯语自动错误类型注释.英寸第25届计算自然语言学习会议记录，第596–606页，在线。计算语言学协会。
引用（非正式）：: 阿拉伯语自动错误类型注释（Belkebir&Habash，CoNLL 2021）
复制引文：
PDF格式：: https://aclantology.org/2021.coll-1.47.pdf
视频：: https://aclantology.org/2021.coll-1.47.mp4
代码: camel-lab/arabic_error_type注释+附加社区代码

PDF格式引用搜索代码视频