来自摩西

因子训练:训练参数

参考:所有培训参数

基本选项

需要一些参数来指向培训脚本正确的培训数据。我们将在本节中描述它们。其他选项允许部分训练跑步和其他选择设置。

如前所述,您需要为培训。必须使用参数指定该目录的路径--根dir.

根目录必须包含一个子目录(称为语料库)包含培训数据的。训练数据是平行的语料库,存储在两个文件中,一个用于英语句子,一个是外文句子。语料库必须是句子对齐,表示英语文件中的1624行是外来文件中1624行的翻译。

通常,数据是小写的,不允许有空行,单词之间有多个空格可能会导致问题。此外,句子长度限制为每句100个单词。一对句子的句子长度比率最多可以是9(即,将10个单词的句子与1个单词对齐句子不允许)。这些句子长度限制由GIZA++引起,可能会发生更改(见下文)。

这两个语料库文件有一个共同的文件干(比如,欧元)和表示语言的扩展(例如,英语判定元件).锉刀柄(--实体文件)和语言扩展(--e(电子)--(f))必须在培训脚本中指定。

总之,可以按如下方式调用培训脚本:

train-model.perl——根目录--f de--e en--语料库/欧元>&LOG

培训后,通常可以在根目录中找到以下文件(请注意,时间戳告诉您此数据的每个步骤花费了多少时间):

>ls-左侧*-rw-rw-r--1个koehn用户110K 7月13日21:49日志语料库:总计3.99亿-rw-rw-r--1名koehn用户2012年7月104日19:58 de-en-intrain.snt-rw-rw-r--1名koehn用户2012年7月4日下午4点26分dev.vcb-rw-rw-r--1个koehn用户2012年7月3.2日19:42 dev.vcb.classes-rw-rw-r-1 koehn用户2.6M 7月12日19:42 de.vcb.classes.cat-rw-rw-r--1个koehn用户2012年7月104日19:59 en-de-int-train.snt-rw-rw-r--1个koehn用户2012年7月1.1日19:56 en.vcb-rw-rw-r--1个koehn用户793K 7月12日19:56 en.vcb.classes-rw-rw-r--1个koehn用户614K 7月12日19:56 en.vcb.classes.cats-rw-rw-r-1 koehn用户94M 7月12日18:08欧洲.de-rw-rw-r--1名koehn用户2012年7月84日18:08欧元giza.de-en:总计4.22亿-rw-rw-r--1名koehn用户7月13日107M 03:57 de-en。A3.最终.gz-rw-rw-r--1个koehn用户2012年7月31日20:11 de-en.cooc-rw-rw-r--1名koehn用户2012年7月2日20:11 de-en.gizacfggiza.en-de:总计421M-rw-rw-r--1个koehn用户2013年7月107M 11:03 en-de.A3.final.gz-rw-rw-r--1个koehn用户313M Jul 13 04:07 en-de.cooc-rw-rw-r--1个koehn用户2.0K 7月13日04:07 en-de.gizacfg型号:总计2.1G-rw-rw-r--1名koehn用户2013年7月94日19:59 aligned.de-rw-rw-r--1个koehn用户2013年7月84日19:59对齐。en-rw-rw-r--1个koehn用户2013年7月90日19:59对齐。grow-diag-final-rw-rw-r--1名koehn用户214M Jul 13 20:33 extract.gz-rw-rw-r--1名koehn用户2013年7月21日20:35 extract.inv.gz-rw-rw-r--1个koehn用户78M Jul 13 20:23 lex.f2n-rw-rw-r--1个koehn用户78M 2013年7月20日23 lex.n2f-rw-rw-r--1个koehn用户862 Jul 13 21:49 pharaoh.ini-rw-rw-r--1个koehn用户1.2G Jul 13 21:49短语表

总结

因子转换模型设置

有关因子化翻译模型的更多信息,请参见奥维耶夫.

总结

词汇化再排序模型

更多关于词汇化重编的描述培训步骤7:构建再订购模型.

总结

部分培训

你可能对如何进行单词对齐有更好的想法,提取短语或为短语评分。由于培训是模块化的,你可以从七个训练步骤中的任何一个开始训练--第一步在任何后续步骤中结束--最后一步.

同样,九个培训步骤是:

  1. 准备数据
  2. 运行GIZA++
  3. 对齐单词
  4. 获取词法翻译表
  5. 提取短语
  6. 为短语打分
  7. 建立重新排序模型
  8. 构建生成模型
  9. 创建配置文件

例如,如果您可能有自己的方法来生成单词对齐,您希望跳过这些训练步骤从词汇翻译表生成开始,可以通过以下方式指定

train-model.perl[…]--第一步4

总结

文件位置

许多参数允许您打破刚性文件训练脚本的名称约定。此功能的典型用法你想试试其他的训练跑,但没有需要重复所有训练步骤。

例如,您可能希望尝试替代对齐启发式。无需重新运行GIZA++。你可以复制来自的必要文件语料库吉萨*目录到一个新的根目录中,但这会占用大量资源额外的磁盘空间,并使文件组织不必要的复杂。

由于您只需要一个新的模型目录,因此可以指定这个带有参数--模型dir,并留在宝贵的根目录结构:

train-model.perl[…]--第一步3--对齐联合--模型-dir模型-联合

文件名和目录名的其他参数完全类似目的。

总结

对齐启发

实现了许多不同的单词对齐启发,可以用参数指定--对齐.选项包括:

不同的启发式可能会对特定的语言对或语料库,所以一些实验可能会有用。

总结

最大短语长度

短语的最大长度限制为7个单词。最大短语长度影响短语翻译表的大小,因此更短如果短语表大小是一个问题,那么限制可能是可取的。以前的实验表明,性能仅略有提高当包含三个以上单词的短语时。

总结

GIZA++选项

GIZA++采用许多参数来指定培训行为过程和句子长度限制等。请参阅有关详细信息,请参阅相应的文档。

参数可以通过开关传递到GIZA++--giza选项.

例如,如果您想更改迭代次数对于不同的IBM模型到模型1的4个迭代,模型2的0次迭代,HMM模型的4次迭代,模型3的0次迭代和模型4的3次迭代,您可以通过以下方式指定

列车模型.perl[…]--giza选项m1=4,m2=0,mh=4,m3=0,m4=3

总结

处理大型训练语料库

在大型训练语料库上进行训练可能会成为GIZA++单词对齐工具的一个问题。由于它将单词翻译表存储在内存中,因此该表的大小对于机器的可用RAM来说可能会变得太大。例如,NIST阿拉伯语-英语和中文-英语比赛的数据集需要超过4GB的RAM,这是当前32位机器的一个问题。

通过GIZA++中更有效的数据结构,可以在一定程度上解决此问题,这需要运行snt2cooc公司预先对语料库进行分块处理,并对结果输出进行合并。您需要知道的是,运行带有选项的培训脚本--第n部分,例如。--第3部分可能会让你在一个对于常规跑步来说太大的语料库上训练。

与大型训练语料库导致的这个问题相关的是GIZA++运行时间过长的问题。可以使用交换机在两台机器上分别运行两个GIZA++--方向。在一台机器上运行其中一个运行时--方向1另一个在不同的机器或CPU上运行--方向2,训练步骤2的处理时间可以减半。

总结

检索自http://www2.statmt.org/moses/?n=FactoredTraining.TrainingParameters公司
页面上次修改时间:2013年7月28日上午08:45