Erroneous data generation for Grammatical Error Correction

Shuyao Xu; Jiehao Zhang; Jin Chen; Long Qin

doi:10.18653/v1/W19-4415

用于语法错误更正的错误数据生成

摘要

研究表明，在神经语法纠错（GEC）系统中使用单语语料库可以显著提高系统性能。之前最先进的神经GEC系统是四个Transformer模型的集合，这些模型是在大量的维基百科编辑上预先训练的。Singsound GEC系统采用了类似的方法，但配备了复杂的错误数据生成组件。我们的系统在BEA 2019共享任务：语法错误更正中实现了66.61的F0:5。使用我们的新型错误数据生成组件，Singsound神经GEC系统在CoNLL-2014基准上的M2为63.2（比之前的最先进系统相对提高8.4%）。

选集ID:: W19-4415号
音量：: 创新使用NLP构建教育应用程序第十四次研讨会会议记录
月份：: 八月
年份：: 2019
地址：: 意大利佛罗伦萨
编辑：: 海伦·扬纳库达基斯,叶卡捷琳娜·科奇马尔,克劳迪娅·利科克,尼丁·马德纳尼,伊尔迪科·皮兰,托尔斯滕·泽施
地点：: 东亚银行
SIG公司：: 西格杜
出版商：: 计算语言学协会
注：
页：: 149–158
语言：
网址：: https://acl选集.org/W19-4415
内政部：: 10.18653/v1/W19-4415
比比键：
引用（ACL）：: 徐淑瑶、张杰浩、金晨、龙琴。2019用于语法错误更正的错误数据生成.英寸创新使用NLP构建教育应用程序第十四次研讨会会议记录，第149-158页，意大利佛罗伦萨。计算语言学协会。
引用（非正式）：: 用于语法错误更正的错误数据生成（Xu等人，BEA 2019）
复制引文：
PDF格式：: https://aclantology.org/W19-4415.pdf
数据: FCE公司, JFLEG公司

PDF格式引用搜索