用于语法错误更正的错误数据生成

徐淑瑶,张杰浩,金晨,龙琴


摘要
研究表明,在神经语法纠错(GEC)系统中使用单语语料库可以显著提高系统性能。之前最先进的神经GEC系统是四个Transformer模型的集合,这些模型是在大量的维基百科编辑上预先训练的。Singsound GEC系统采用了类似的方法,但配备了复杂的错误数据生成组件。我们的系统在BEA 2019共享任务:语法错误更正中实现了66.61的F0:5。使用我们的新型错误数据生成组件,Singsound神经GEC系统在CoNLL-2014基准上的M2为63.2(比之前的最先进系统相对提高8.4%)。
选集ID:
W19-4415号
音量:
创新使用NLP构建教育应用程序第十四次研讨会会议记录
月份:
八月
年份:
2019
地址:
意大利佛罗伦萨
编辑:
海伦·扬纳库达基斯,叶卡捷琳娜·科奇马尔,克劳迪娅·利科克,尼丁·马德纳尼,伊尔迪科·皮兰,托尔斯滕·泽施
地点:
东亚银行
SIG公司:
西格杜
出版商:
计算语言学协会
注:
页:
149–158
语言:
网址:
https://acl选集.org/W19-4415
内政部:
10.18653/v1/W19-4415
比比键:
引用(ACL):
徐淑瑶、张杰浩、金晨、龙琴。2019用于语法错误更正的错误数据生成.英寸创新使用NLP构建教育应用程序第十四次研讨会会议记录,第149-158页,意大利佛罗伦萨。计算语言学协会。
引用(非正式):
用于语法错误更正的错误数据生成(Xu等人,BEA 2019)
复制引文:
PDF格式:
https://aclantology.org/W19-4415.pdf
数据
FCE公司JFLEG公司