统计和稳健翻译

编号:
5
领导:
克里斯蒂娜
时间表:
2010年10月-2012年8月

资源的使用

节点 已编制预算 第1阶段 第2阶段 第3期(预计)
UGOT公司 9 0 回复:0.7 X(X)
UHEL公司 0 X(X) X(X)
通用产品代码 38 0 19 X(X)
Ontotext上的
UZH公司

目标

目标是开发翻译方法,以完善WP3基于语法的方法,从而在无约束文本翻译中扩展其覆盖范围和质量。重点将放在基于GF和统计机器翻译相结合的技术上。WP7专利文本翻译案例研究是测试此包中开发的技术的自然场景。WP7的现有语料库将用于使SMT和基于语法的系统适应专利领域。这项研究将针对项目中的各种语言(至少三种)进行。

工作描述

本包中的工作分为三条主线:

  1. 通过引入概率预测,为WP7中开发的专利领域扩展GF域语法。

  2. 通过使用WP7提供的域内多语言语料库和GF文法在受控环境中生成的合成对齐语料库,使最先进的SMT系统适应专利领域。所有用于领域适应的语料库都必须用语言分析器进行预处理。

  3. 开发组合方法,在混合MT系统中集成基于语法和统计的MT模型。将研究至少四种变体(i)独立MT系统的(基线)级联;(ii)(硬积分)GF部分输出固定在常规SMT解码中(使用Moses);(iii)(软集成I)GF部分输出以短语对的形式集成为基于短语的SMT系统中的判别概率特征模型(使用Moses);(iv)(软集成II)GF部分输出以树片段对的形式集成为要使用的基于语法的SMT系统中的判别概率模型)。

合作伙伴的贡献如下:UGOT将致力于领域GF语法概率和SMT自适应合成语料库的生成。UPC将领导该包,提供SMT技术(基于短语和语法),协调语料库编译/对齐,并开发组合MT模型。Mxw将作为语料库提供者,对SMT系统进行培训和调整。UHEL将致力于组合系统的可用性方面,为WP3做准备。