跳到主要内容
Sprákbanken Text是斯普拉克班肯.

MultiGEC-2025公司

多语言语法纠错共享任务(MultiGEC-2025)

这个计算SLA工作组邀请您参与多语言语法错误更正共享任务,MultiGEC公司,涵盖12种语言:捷克语、英语、爱沙尼亚语、德语、希腊语、冰岛语、意大利语、拉脱维亚语、俄语、斯洛文尼亚语、瑞典语和乌克兰语(另见在ACL门户上呼吁参与).

结果将于2025年3月5日在NLP4CALL研讨会,与NoDaLiDa会议将于2025年3月2-5日在爱沙尼亚塔林举行。

系统描述的发布地点将是NLP4CALL研讨会的会议记录。

要注册/表达对共享任务的兴趣,请填写这个表格.

要获取有关共享任务的重要信息和更新,请加入MultiGEC-2025谷歌集团.

官方系统评估将在CodaBench上进行。

任务描述

在这项共同任务中,你的目标是重写学习者写的文本,使其语法正确或语法正确和习惯用法都正确,即坚持“最小修正”原则或应用流畅性编辑。

例如,文本

我妈妈很难过,没有食物。但五个月后,我姐姐好多了。

可以最低限度地纠正为

我妈妈变得很难过,然后吃了没有食物。但是我姐姐感觉好多了五个月后。

或以流畅的编辑方式

我妈妈非常苦恼的 拒绝吃东西。幸运的是我妹妹恢复五个月后。

为了公平评估两种纠正任务的方法,我们将提供两个评估指标,一个支持最小纠正,另一个适合流利度编辑输出(更多信息请参阅评价).

我们特别鼓励开发可以使用单个模型处理所有(或多个)语言的多语言系统,但这不是参与任务的强制性要求。

数据

我们为每种语言提供培训、开发和测试数据。培训和发展部门将通过Github提供。将在单独的测试集上进行评估。

数据访问

培训和验证数据可在github.com/spraakbanken/multigec-2025参与者.要访问此存储库,您需要同意使用条款.

数据格式

数据集根据语言划分为文件夹,由与文章对齐的文件、一个包含原始学习者文章的文件和一个或多个包含参考(更正/规范化)文本的文件组成。

在内部,每个文件都遵循这种基于标记的简单格式:

###essay_id=1第一篇文章/参考文献的全文。空白,包括换行符,保存,但对于为了可读性,两个连续的换行字符在随后的文章中起了先锋作用。###essay_id=2第二篇论文/参考文献全文。...

外部数据

参与者可以使用其他资源来构建他们的系统前提是该资源可公开用于研究目的这包括单语数据、人工数据、预处理模型、语法分析器等。共享任务完成后,我们鼓励参与者与社区共享任何新创建的资源。

评价

在共享任务期间,评估将基于以下跨语言适用的内容自动度量:

完成共享任务后,我们还计划执行人的评价对提交结果的子集进行实验。

时间线

  • 2024年6月18日-首次呼吁参与
  • 2024年9月20日-第二次呼吁参与
  • 2024年10月20日——第三次呼吁参与。发布培训和验证数据,CodaLab开放团队注册
  • 2024年10月30日-提醒。验证服务器已联机发布
  • 2024年11月13日-测试数据发布
  • 2024年11月20日-系统提交截止日期(系统输出)
  • 2024年11月29日-结果公布
  • 2024年12月16日-带系统说明的论文提交截止日期
  • 2025年1月20日-论文评论发送给作者
  • 2025年2月3日-摄像机就绪截止日期
  • 2025年3月5日-在NLP4CALL研讨会上介绍系统

出版物

我们鼓励您向NLP4CALL专题研讨会提交一份包含系统描述的论文。我们遵循与NLP4CALL研讨会相同的论文提交要求,即我们使用相同的模板并应用相同的页面限制。所有论文都将由组委会审查。在纸质出版物上,我们鼓励您通过GitHub或其他存储库与社区共享模型、代码、事实表、额外数据等。

组织者

数据提供者

  • 捷克的:
    • 亚历山大·罗森,布拉格查尔斯大学
    • Adrian Jan Zasina,布拉格查尔斯大学
  • 英语:
    • 剑桥大学安德鲁·凯恩斯
  • 爱沙尼亚语:
    • Mark Fishel,爱沙尼亚塔尔图大学
    • 爱沙尼亚塔林大学Kais Allkivi-Metsoja
    • 爱沙尼亚Eesti Keele Instituut Kristjan Suluster
  • 德语:
    • Andrea Horbach,IPN/CAU Kiel,德国
    • Josef Ruppenhofer,德国哈根FernUniversität
    • Katrin Wisniewski,莱比锡大学
    • Torsten Zesch,德国哈根大学
  • 希腊语:
    • 亚历克斯·坦托斯,塞萨洛尼基亚里士多德大学
  • 冰岛语:
    • 冰岛大学Isidora Glisić
  • 意大利语:
    • Jennifer Carmen Frey,Eurac Research Bolzano,意大利
  • 拉脱维亚语:
    • 罗伯特·达利斯(Roberts Darģis),拉脱维亚大学
    • Ilze Auzina,拉脱维亚大学
  • 俄语:
    • Alla Rozovskaya,美国纽约市立大学
  • 斯洛文尼亚语:
    • Špela Arhar Holdt,斯洛文尼亚卢布尔雅那大学
    • 斯洛文尼亚卢布尔雅那大学阿列沙加尔
  • 瑞典的:
    • Arianna Masciolini,瑞典哥德堡大学
  • 乌克兰语:
    • 微软Oleksiy Syvokon
    • 玛丽亚娜·罗曼西恩(Mariana Romanyshyn),语法

联系信息和讨论论坛

请加入MultiGEC-2025谷歌集团为了提问,进行讨论并浏览已经回答的问题。