跳到主内容区域

演示

近期出版物

更多。。。

跳到主内容区域

统计和稳健翻译

编号：

领导：

克里斯蒂娜

时间表：

2010年10月-2012年8月

资源的使用

节点	已编制预算	第1阶段	第2阶段	第3期（预计）
UGOT公司	9	0	回复：0.7	X（X）
UHEL公司	三	0	X（X）	X（X）
通用产品代码	38	0	19	X（X）
Ontotext上的
双
UZH公司

目标

目标是开发翻译方法，以完善WP3基于语法的方法，从而在无约束文本翻译中扩展其覆盖范围和质量。重点将放在基于GF和统计机器翻译相结合的技术上。WP7专利文本翻译案例研究是测试此包中开发的技术的自然场景。WP7的现有语料库将用于使SMT和基于语法的系统适应专利领域。这项研究将针对项目中的各种语言（至少三种）进行。

工作描述

本包中的工作分为三条主线：

通过引入概率预测，为WP7中开发的专利领域扩展GF域语法。
通过使用WP7提供的域内多语言语料库和GF文法在受控环境中生成的合成对齐语料库，使最先进的SMT系统适应专利领域。所有用于领域适应的语料库都必须用语言分析器进行预处理。
开发组合方法，在混合MT系统中集成基于语法和统计的MT模型。将研究至少四种变体（i）独立MT系统的（基线）级联；（ii）（硬积分）GF部分输出固定在常规SMT解码中（使用Moses）；（iii）（软集成I）GF部分输出以短语对的形式集成为基于短语的SMT系统中的判别概率特征模型（使用Moses）；（iv）（软集成II）GF部分输出以树片段对的形式集成为要使用的基于语法的SMT系统中的判别概率模型）。

合作伙伴的贡献如下：UGOT将致力于领域GF语法概率和SMT自适应合成语料库的生成。UPC将领导该包，提供SMT技术（基于短语和语法），协调语料库编译/对齐，并开发组合MT模型。Mxw将作为语料库提供者，对SMT系统进行培训和调整。UHEL将致力于组合系统的可用性方面，为WP3做准备。