资源的使用
-
节点 |
已编制预算 |
第1阶段 |
第2阶段 |
第3期(预计) |
UGOT公司 |
9 |
0 |
回复:0.7 |
X(X) |
UHEL公司 |
三 |
0 |
X(X) |
X(X) |
通用产品代码 |
38 |
0 |
19 |
X(X) |
Ontotext上的 |
|
|
|
|
双 |
|
|
|
|
UZH公司 |
|
|
|
|
目标
目标是开发翻译方法,以完善WP3基于语法的方法,从而在无约束文本翻译中扩展其覆盖范围和质量。重点将放在基于GF和统计机器翻译相结合的技术上。WP7专利文本翻译案例研究是测试此包中开发的技术的自然场景。WP7的现有语料库将用于使SMT和基于语法的系统适应专利领域。这项研究将针对项目中的各种语言(至少三种)进行。
工作描述
本包中的工作分为三条主线:
通过引入概率预测,为WP7中开发的专利领域扩展GF域语法。
通过使用WP7提供的域内多语言语料库和GF文法在受控环境中生成的合成对齐语料库,使最先进的SMT系统适应专利领域。所有用于领域适应的语料库都必须用语言分析器进行预处理。
开发组合方法,在混合MT系统中集成基于语法和统计的MT模型。将研究至少四种变体(i)独立MT系统的(基线)级联;(ii)(硬积分)GF部分输出固定在常规SMT解码中(使用Moses);(iii)(软集成I)GF部分输出以短语对的形式集成为基于短语的SMT系统中的判别概率特征模型(使用Moses);(iv)(软集成II)GF部分输出以树片段对的形式集成为要使用的基于语法的SMT系统中的判别概率模型)。
合作伙伴的贡献如下:UGOT将致力于领域GF语法概率和SMT自适应合成语料库的生成。UPC将领导该包,提供SMT技术(基于短语和语法),协调语料库编译/对齐,并开发组合MT模型。Mxw将作为语料库提供者,对SMT系统进行培训和调整。UHEL将致力于组合系统的可用性方面,为WP3做准备。