参考：所有培训参数

--根dir--根目录，其中存储输出文件
--语料库--语料库文件名（完整路径名），不包括扩展名
--电子--英语语料库文件的扩展
--（f）--外来语料库文件的扩展
--勒姆--语言模型：＜factor＞：＜order＞：＜filename＞（选项可以重复）
--第一步--培训过程的第一步（默认值1）
--最后一步--培训过程的最后一步（默认值7）
--零件--GIZA++训练前将语料库分解成较小的部分
--体dir--语料库目录（默认$ROOT/语料库)
--词典目录--词法翻译概率目录（默认$ROOT/型号)
--模型dir--模型目录（默认$ROOT/型号)
--提取文件--提取文件（默认$ROOT/型号/摘录)
--吉萨-f2e--GIZA++目录（默认$ROOT/giza$F-$E)
--吉萨-e2f--反向GIZA++目录（默认值$ROOT/giza$电子-$F)
--对齐--用于单词对齐的启发式：横断,联盟,成长,生长因子,生长-发育,生长地（默认），grow diag最终和,srctotgt公司,tgttosrc公司
--最大字长--短语表中输入的短语的最大长度（默认值为7）
--giza选项--GIZA++培训的其他选项
--冗长的--打印其他单词对齐信息
--无照明--只对短语表使用条件概率，而不使用词汇权重
--零件--通过运行为GIZA++准备数据snt2cooc公司部分
--方向--仅在方向1或方向2上运行训练步骤2（用于并行化）
--重新排序--使用以逗号分隔的配置字符串列表指定要训练的重新排序模型，请参阅工厂化培训。构建重新排序模型.（默认距离）
--重新排序-平滑--指定用于训练词汇化重新排序模型的平滑常数。如果字母“u”跟随常数，则平滑基于实际计数。（默认值为0.5）
--校准系数--
--平移因子--
--重新排序因子--
--生成因素--
--解码步骤--

基本选项

需要一些参数来指向培训脚本正确的培训数据。我们将在本节中描述它们。其他选项允许部分训练跑步和其他选择设置。

如前所述，您需要为培训。必须使用参数指定该目录的路径--根dir.

根目录必须包含一个子目录（称为语料库)包含培训数据的。训练数据是平行的语料库，存储在两个文件中，一个用于英语句子，一个是外文句子。语料库必须是句子对齐，表示英语文件中的1624行是外来文件中1624行的翻译。

通常，数据是小写的，不允许有空行，单词之间有多个空格可能会导致问题。此外，句子长度限制为每句100个单词。一对句子的句子长度比率最多可以是9（即，将10个单词的句子与1个单词对齐句子不允许）。这些句子长度限制由GIZA++引起，可能会发生更改（见下文）。

这两个语料库文件有一个共同的文件干（比如，欧元)和表示语言的扩展（例如，英语和判定元件).锉刀柄(--实体文件)和语言扩展(--e（电子）和--（f）)必须在培训脚本中指定。

总之，可以按如下方式调用培训脚本：

train-model.perl——根目录--f de--e en--语料库/欧元>&LOG

培训后，通常可以在根目录中找到以下文件（请注意，时间戳告诉您此数据的每个步骤花费了多少时间）：

>ls-左侧*-rw-rw-r--1个koehn用户110K 7月13日21:49日志语料库：总计3.99亿-rw-rw-r--1名koehn用户2012年7月104日19:58 de-en-intrain.snt-rw-rw-r--1名koehn用户2012年7月4日下午4点26分dev.vcb-rw-rw-r--1个koehn用户2012年7月3.2日19:42 dev.vcb.classes-rw-rw-r-1 koehn用户2.6M 7月12日19:42 de.vcb.classes.cat-rw-rw-r--1个koehn用户2012年7月104日19:59 en-de-int-train.snt-rw-rw-r--1个koehn用户2012年7月1.1日19:56 en.vcb-rw-rw-r--1个koehn用户793K 7月12日19:56 en.vcb.classes-rw-rw-r--1个koehn用户614K 7月12日19:56 en.vcb.classes.cats-rw-rw-r-1 koehn用户94M 7月12日18:08欧洲.de-rw-rw-r--1名koehn用户2012年7月84日18:08欧元giza.de-en：总计4.22亿-rw-rw-r--1名koehn用户7月13日107M 03:57 de-en。A3.最终.gz-rw-rw-r--1个koehn用户2012年7月31日20:11 de-en.cooc-rw-rw-r--1名koehn用户2012年7月2日20:11 de-en.gizacfggiza.en-de：总计421M-rw-rw-r--1个koehn用户2013年7月107M 11:03 en-de.A3.final.gz-rw-rw-r--1个koehn用户313M Jul 13 04:07 en-de.cooc-rw-rw-r--1个koehn用户2.0K 7月13日04:07 en-de.gizacfg型号：总计2.1G-rw-rw-r--1名koehn用户2013年7月94日19:59 aligned.de-rw-rw-r--1个koehn用户2013年7月84日19:59对齐。en-rw-rw-r--1个koehn用户2013年7月90日19:59对齐。grow-diag-final-rw-rw-r--1名koehn用户214M Jul 13 20:33 extract.gz-rw-rw-r--1名koehn用户2013年7月21日20:35 extract.inv.gz-rw-rw-r--1个koehn用户78M Jul 13 20:23 lex.f2n-rw-rw-r--1个koehn用户78M 2013年7月20日23 lex.n2f-rw-rw-r--1个koehn用户862 Jul 13 21:49 pharaoh.ini-rw-rw-r--1个koehn用户1.2G Jul 13 21:49短语表

总结

--根目录--根目录，其中存储输出文件
--语料库--语料库，应为$ROOT/语料库
--e（电子）--英语语料库文件的扩展
--（f）--外来语料库文件的扩展
--流明--语言模型文件

因子转换模型设置

有关因子化翻译模型的更多信息，请参见奥维耶夫.

总结

--对准系数--
--平移因子--
--重新排序因子--
--生成因子--
--解码步骤--

词汇化再排序模型

更多关于词汇化重编的描述培训步骤7：构建再订购模型.

总结

--重新排序--
--重新排序-平滑--

部分培训

你可能对如何进行单词对齐有更好的想法，提取短语或为短语评分。由于培训是模块化的，你可以从七个训练步骤中的任何一个开始训练--第一步和在任何后续步骤中结束--最后一步.

同样，九个培训步骤是：

准备数据
运行GIZA++
对齐单词
获取词法翻译表
提取短语
为短语打分
建立重新排序模型
构建生成模型
创建配置文件

例如，如果您可能有自己的方法来生成单词对齐，您希望跳过这些训练步骤从词汇翻译表生成开始，可以通过以下方式指定

train-model.perl[…]--第一步4

总结

--第一步--培训过程中的第一步（默认值1）
--最后一步--培训过程的最后一步（默认值7）

文件位置

许多参数允许您打破刚性文件训练脚本的名称约定。此功能的典型用法你想试试其他的训练跑，但没有需要重复所有训练步骤。

例如，您可能希望尝试替代对齐启发式。无需重新运行GIZA++。你可以复制来自的必要文件语料库和吉萨*目录到一个新的根目录中，但这会占用大量资源额外的磁盘空间，并使文件组织不必要的复杂。

由于您只需要一个新的模型目录，因此可以指定这个带有参数--模型dir，并留在宝贵的根目录结构：

train-model.perl[…]--第一步3--对齐联合--模型-dir模型-联合

文件名和目录名的其他参数完全类似目的。

总结

--体dir--语料库目录（默认$ROOT/语料库)
--词典目录--词汇翻译概率目录（默认值$ROOT/型号)
--模型dir--模型目录（默认$ROOT/型号)
--提取文件--提取文件（默认$ROOT/型号/摘录)
--吉萨-f2e--GIZA++目录（默认$ROOT/giza\$F-\$E}
--吉萨-e2f--反转GIZA++目录（默认$ROOT/giza\$电子-\$F)

对齐启发

实现了许多不同的单词对齐启发，可以用参数指定--对齐.选项包括：

横断--取两条GIZA++路线的交点。这通常会创建大量提取的短语，因为未对齐的单词可以自由对齐短语。
联盟--两条GIZA++路线合并
生长地--默认启发式
生长-发育--同上，但没有调用函数最终（）（请参阅背景到单词对齐）。
成长--同上，但定义不同邻近的现在排除了对角相邻的对齐点。
成长--没有对角线邻居，但有最终（）

不同的启发式可能会对特定的语言对或语料库，所以一些实验可能会有用。

总结

--对齐--用于单词对齐的启发式：intersect，union，grow，grow final，grow diag，grow diag final（默认）

最大短语长度

短语的最大长度限制为7个单词。最大短语长度影响短语翻译表的大小，因此更短如果短语表大小是一个问题，那么限制可能是可取的。以前的实验表明，性能仅略有提高当包含三个以上单词的短语时。

总结

--最大字长--短语表中输入的短语的最大长度（默认为7）

GIZA++选项

GIZA++采用许多参数来指定培训行为过程和句子长度限制等。请参阅有关详细信息，请参阅相应的文档。

参数可以通过开关传递到GIZA++--giza选项.

例如，如果您想更改迭代次数对于不同的IBM模型到模型1的4个迭代，模型2的0次迭代，HMM模型的4次迭代，模型3的0次迭代和模型4的3次迭代，您可以通过以下方式指定

列车模型.perl[…]--giza选项m1=4，m2=0，mh=4，m3=0，m4=3

总结

--giza选项--GIZA++培训的其他选项

处理大型训练语料库

在大型训练语料库上进行训练可能会成为GIZA++单词对齐工具的一个问题。由于它将单词翻译表存储在内存中，因此该表的大小对于机器的可用RAM来说可能会变得太大。例如，NIST阿拉伯语-英语和中文-英语比赛的数据集需要超过4GB的RAM，这是当前32位机器的一个问题。

通过GIZA++中更有效的数据结构，可以在一定程度上解决此问题，这需要运行snt2cooc公司预先对语料库进行分块处理，并对结果输出进行合并。您需要知道的是，运行带有选项的培训脚本--第n部分，例如。--第3部分可能会让你在一个对于常规跑步来说太大的语料库上训练。

与大型训练语料库导致的这个问题相关的是GIZA++运行时间过长的问题。可以使用交换机在两台机器上分别运行两个GIZA++--方向。在一台机器上运行其中一个运行时--方向1另一个在不同的机器或CPU上运行--方向2，训练步骤2的处理时间可以减半。

总结

--零件--通过运行为GIZA++准备数据snt2cooc公司部分
--方向--仅在方向1或方向2上运行训练步骤2（用于并行化）

来自摩西

因子训练：训练参数