培训
内容
培训过程
我们将首先概述培训过程。这应该能让您了解正在发生的事情以及生成的文件。在下文中,我们将详细介绍培训过程的选项和其他工具。
培训过程分为九个步骤,所有步骤都由脚本执行
列车模型.perl
这九个步骤是
- 准备数据(45分钟)
- 运行GIZA++(16小时)
- 对齐单词(2:30小时)
- 获取词汇翻译表(30分钟)
- 提取短语(10分钟)
- 分数短语(1:15小时)
- 构建词汇化的重新排序模型(1小时)
- 构建生成模型
- 创建配置文件(1秒)
如果您在具有多个处理器的计算机上运行,使用以下选项可以大大加快其中一些步骤:
--平行
这些步骤中提到的运行时间指的是最近在3GHz Linux机器上对751000句、1600万单词的德语-英语Europarl语料库进行的培训。
如果您希望尝试双向转换,那么可以重用步骤1和2,从步骤3开始,模型目录的内容将获得方向依赖性。换句话说,运行步骤1和2,然后复制整个实验目录,并从步骤3开始继续两次训练。
运行培训脚本
对于标准短语模型,您通常将按以下方式运行培训脚本。
运行培训脚本:
列车模型.perl-root-dir--语料库/欧元--f de--e en
中应该有两个文件语料库/调用的目录欧元.de和欧元这些文件应该是平行语料库的句子对齐的一半。欧元.de应该包含德语句子,并且欧元应包含相应的英语句子。
更多关于训练参数在本手册末尾。有关语料库准备,请参阅如何准备培训数据.