来自摩西

FactoredTraining:主页

培训

内容

-培训过程
-运行培训脚本

培训过程

我们将首先概述培训过程。这应该能让您了解正在发生的事情以及生成的文件。在下文中,我们将详细介绍培训过程的选项和其他工具。

培训过程分为九个步骤,所有步骤都由脚本执行

列车模型.perl

这九个步骤是

  1. 准备数据(45分钟)
  2. 运行GIZA++(16小时)
  3. 对齐单词(2:30小时)
  4. 获取词汇翻译表(30分钟)
  5. 提取短语(10分钟)
  6. 分数短语(1:15小时)
  7. 构建词汇化的重新排序模型(1小时)
  8. 构建生成模型
  9. 创建配置文件(1秒)

如果您在具有多个处理器的计算机上运行,使用以下选项可以大大加快其中一些步骤:

--平行

这些步骤中提到的运行时间指的是最近在3GHz Linux机器上对751000句、1600万单词的德语-英语Europarl语料库进行的培训。

如果您希望尝试双向转换,那么可以重用步骤1和2,从步骤3开始,模型目录的内容将获得方向依赖性。换句话说,运行步骤1和2,然后复制整个实验目录,并从步骤3开始继续两次训练。

运行培训脚本

对于标准短语模型,您通常将按以下方式运行培训脚本。

运行培训脚本:

列车模型.perl-root-dir--语料库/欧元--f de--e en

中应该有两个文件语料库/调用的目录欧元.de欧元这些文件应该是平行语料库的句子对齐的一半。欧元.de应该包含德语句子,并且欧元应包含相应的英语句子。

更多关于训练参数在本手册末尾。有关语料库准备,请参阅如何准备培训数据.

检索自http://www2.statmt.org/moses/?n=FactoredTraining.HomePage
页面上次修改时间:2010年5月4日晚上10:05