应用机器学习技术优化混合机器翻译(ML4HMT)分工研讨会

2011年7月20日
欧洲/斯德哥尔摩

第一次用纸

机器翻译峰会十三(MT峰会十三)

网址:网址:http://www.dfki.de/ml4hmt/

研讨会目的和主题

研讨会将探索替代方案,以便使用复杂的机器学习技术为混合机器翻译设计提供最佳支持。研讨会的另一个重要目标是搭建MT与ML社区之间的桥梁,以系统地共同探索混合MT的选择空间。

研讨会计划

研讨会将以受邀演讲(演讲者待定)开始,随后是两次技术论文会议和一次挑战或共享任务会议,并以一个讨论小组结束。

技术论文感兴趣的主题

感兴趣的主题包括但不限于:

  • 机器学习技术在机器翻译系统组合/混合中的应用
  • 在基于短语的SMT中使用更丰富的语言信息(例如在因子模型或分层SMT中)
  • 在基于短语的SMT中使用不同类型的MT短语
  • 系统组合方法,在多引擎机器翻译(MEMT)中并行或在统计后期编辑(SPMT)中顺序
  • 基于概率规则的机器翻译的学习资源(例如传输规则、转换语法)

所有稿件将在研讨会记录中公布。

共享任务描述

“优化混合机器翻译劳动分工的共同任务”旨在利用先进的机器学习(ML)方法对改进最先进的混合机器翻译进行系统调查。要求参与者通过结合组织者提供的几种不同类型的系统的输出来构建混合/系统组合系统。

共享任务的主要重点是尝试回答以下问题:

混合/系统组合机器翻译技术能否从涉及的不同系统的额外信息(语言激励、解码和运行时)中获益?

  • 数据:给参与者一个发展双语集,在句子水平上对齐。每个“双语句子”包含:

    • 源句,
    • 目标(参考)句和
    • 基于不同的机器翻译方法,来自5个不同系统的相应的多输出翻译(Apertium,Ram?rez-Sanch?z,2006;Joshua,Zhifei Li等人,2009;Lucy,Alonso和Thurmair,2003;Matrex,Penkale等人,2010)Metis,Vandeghinste等人,2006)。输出已经用来自每个系统翻译过程的系统内部信息进行了注释(见下文)。
  • 基线:作为基线,我们考虑最先进的开源系统-组合系统,如MANY(Barrault,2010)和CMU-MEMT(Heafierld&Lavie,2010)。

  • 挑战:参与者需要通过有效利用系统特定的机器翻译输出,建立一个能够超越基线的机器翻译机制。他们可以提供基于开源系统的解决方案,也可以开发自己的机制。建议的方法如下:

    • 西班牙语-英语将成为语言方向
    • 开发集可用于在开发阶段调整系统。最终提交必须包括测试集上的翻译输出,测试集将在提交截止日期前一周提供
    • 如果你需要语言/重新排序模型,它们可以建立在WMT新闻评论上(http://www.statmt.org/wmt11/).
    • 如果系统要求,参与者也可以使用额外的语言分析工具,但他们必须在提交时明确声明,以便被判定为“无约束”系统。
  • 评估:系统输出将通过基于同行的人员评估进行判断。在评估阶段,参与者将被要求通过网络界面对其他参与者的系统输出进行排名(Appraise;Federmann 2010)。另外还将使用自动指标(BLEU、Papineni等人,2002)。

  • 系统描述:共享任务参与者将被邀请提交描述其系统或评估指标的短文(4-6页)(请参阅提交文件中的说明)。

重要日期

  • 5月20日:发布挑战数据
  • 7月20日-提交论文/提交挑战结果
  • 8月10日:作者通知/挑战评估结果发布
  • 8月19日:最终版本到期

提交文件

技术文件和系统描述文件应遵循主要会议格式要求(http://mt.xmu.edu.cn/mtsummit/SubmitPapers.html#). 要提交稿件,请按照车间管理系统提交网站上的说明进行操作:https://www.easychair.org/account/signin.cgi?conf=ml4hmt.

方案委员会成员将对这些捐款进行双盲审查。请将查询地址发送至ml4hmt@easychair.org.