参考:所有培训参数
--根dir
--根目录,其中存储输出文件--语料库
--语料库文件名(完整路径名),不包括扩展名--电子
--英语语料库文件的扩展--(f)
--外来语料库文件的扩展--勒姆
--语言模型:<factor>:<order>:<filename>(选项可以重复)--第一步
--培训过程的第一步(默认值1)--最后一步
--培训过程的最后一步(默认值7)--零件
--GIZA++训练前将语料库分解成较小的部分--体dir
--语料库目录(默认$ROOT/语料库
)--词典目录
--词法翻译概率目录(默认$ROOT/型号
)--模型dir
--模型目录(默认$ROOT/型号
)--提取文件
--提取文件(默认$ROOT/型号/摘录
)--吉萨-f2e
--GIZA++目录(默认$ROOT/giza$F-$E
)--吉萨-e2f
--反向GIZA++目录(默认值$ROOT/giza$电子-$F
)--对齐
--用于单词对齐的启发式:横断
,联盟
,成长
,生长因子
,生长-发育
,生长地
(默认),grow diag最终和
,srctotgt公司
,tgttosrc公司
--最大字长
--短语表中输入的短语的最大长度(默认值为7)--giza选项
--GIZA++培训的其他选项--冗长的
--打印其他单词对齐信息--无照明
--只对短语表使用条件概率,而不使用词汇权重--零件
--通过运行为GIZA++准备数据snt2cooc公司
部分--方向
--仅在方向1或方向2上运行训练步骤2(用于并行化)--重新排序
--使用以逗号分隔的配置字符串列表指定要训练的重新排序模型,请参阅工厂化培训。构建重新排序模型.(默认距离)--重新排序-平滑
--指定用于训练词汇化重新排序模型的平滑常数。如果字母“u”跟随常数,则平滑基于实际计数。(默认值为0.5)--校准系数
----平移因子
----重新排序因子
----生成因素
----解码步骤
--
基本选项
需要一些参数来指向培训脚本正确的培训数据。我们将在本节中描述它们。其他选项允许部分训练跑步和其他选择设置。
如前所述,您需要为培训。必须使用参数指定该目录的路径--根dir
.
根目录必须包含一个子目录(称为语料库
)包含培训数据的。训练数据是平行的语料库,存储在两个文件中,一个用于英语句子,一个是外文句子。语料库必须是句子对齐,表示英语文件中的1624行是外来文件中1624行的翻译。
通常,数据是小写的,不允许有空行,单词之间有多个空格可能会导致问题。此外,句子长度限制为每句100个单词。一对句子的句子长度比率最多可以是9(即,将10个单词的句子与1个单词对齐句子不允许)。这些句子长度限制由GIZA++引起,可能会发生更改(见下文)。
这两个语料库文件有一个共同的文件干(比如,欧元
)和表示语言的扩展(例如,英语
和判定元件
).锉刀柄(--实体文件
)和语言扩展(--e(电子)
和--(f)
)必须在培训脚本中指定。
总之,可以按如下方式调用培训脚本:
train-model.perl——根目录--f de--e en--语料库/欧元>&LOG
培训后,通常可以在根目录中找到以下文件(请注意,时间戳告诉您此数据的每个步骤花费了多少时间):
>ls-左侧*-rw-rw-r--1个koehn用户110K 7月13日21:49日志语料库:总计3.99亿-rw-rw-r--1名koehn用户2012年7月104日19:58 de-en-intrain.snt-rw-rw-r--1名koehn用户2012年7月4日下午4点26分dev.vcb-rw-rw-r--1个koehn用户2012年7月3.2日19:42 dev.vcb.classes-rw-rw-r-1 koehn用户2.6M 7月12日19:42 de.vcb.classes.cat-rw-rw-r--1个koehn用户2012年7月104日19:59 en-de-int-train.snt-rw-rw-r--1个koehn用户2012年7月1.1日19:56 en.vcb-rw-rw-r--1个koehn用户793K 7月12日19:56 en.vcb.classes-rw-rw-r--1个koehn用户614K 7月12日19:56 en.vcb.classes.cats-rw-rw-r-1 koehn用户94M 7月12日18:08欧洲.de-rw-rw-r--1名koehn用户2012年7月84日18:08欧元giza.de-en:总计4.22亿-rw-rw-r--1名koehn用户7月13日107M 03:57 de-en。A3.最终.gz-rw-rw-r--1个koehn用户2012年7月31日20:11 de-en.cooc-rw-rw-r--1名koehn用户2012年7月2日20:11 de-en.gizacfggiza.en-de:总计421M-rw-rw-r--1个koehn用户2013年7月107M 11:03 en-de.A3.final.gz-rw-rw-r--1个koehn用户313M Jul 13 04:07 en-de.cooc-rw-rw-r--1个koehn用户2.0K 7月13日04:07 en-de.gizacfg型号:总计2.1G-rw-rw-r--1名koehn用户2013年7月94日19:59 aligned.de-rw-rw-r--1个koehn用户2013年7月84日19:59对齐。en-rw-rw-r--1个koehn用户2013年7月90日19:59对齐。grow-diag-final-rw-rw-r--1名koehn用户214M Jul 13 20:33 extract.gz-rw-rw-r--1名koehn用户2013年7月21日20:35 extract.inv.gz-rw-rw-r--1个koehn用户78M Jul 13 20:23 lex.f2n-rw-rw-r--1个koehn用户78M 2013年7月20日23 lex.n2f-rw-rw-r--1个koehn用户862 Jul 13 21:49 pharaoh.ini-rw-rw-r--1个koehn用户1.2G Jul 13 21:49短语表
总结
--根目录
--根目录,其中存储输出文件--语料库
--语料库,应为$ROOT/语料库
--e(电子)
--英语语料库文件的扩展--(f)
--外来语料库文件的扩展--流明
--语言模型文件
因子转换模型设置
有关因子化翻译模型的更多信息,请参见奥维耶夫.
总结
--对准系数
----平移因子
----重新排序因子
----生成因子
----解码步骤
--
词汇化再排序模型
更多关于词汇化重编的描述培训步骤7:构建再订购模型.
总结
部分培训
你可能对如何进行单词对齐有更好的想法,提取短语或为短语评分。由于培训是模块化的,你可以从七个训练步骤中的任何一个开始训练--第一步
和在任何后续步骤中结束--最后一步
.
同样,九个培训步骤是:
- 准备数据
- 运行GIZA++
- 对齐单词
- 获取词法翻译表
- 提取短语
- 为短语打分
- 建立重新排序模型
- 构建生成模型
- 创建配置文件
例如,如果您可能有自己的方法来生成单词对齐,您希望跳过这些训练步骤从词汇翻译表生成开始,可以通过以下方式指定
train-model.perl[…]--第一步4
总结
--第一步
--培训过程中的第一步(默认值1)--最后一步
--培训过程的最后一步(默认值7)
文件位置
许多参数允许您打破刚性文件训练脚本的名称约定。此功能的典型用法你想试试其他的训练跑,但没有需要重复所有训练步骤。
例如,您可能希望尝试替代对齐启发式。无需重新运行GIZA++。你可以复制来自的必要文件语料库
和吉萨*
目录到一个新的根目录中,但这会占用大量资源额外的磁盘空间,并使文件组织不必要的复杂。
由于您只需要一个新的模型目录,因此可以指定这个带有参数--模型dir
,并留在宝贵的根目录结构:
train-model.perl[…]--第一步3--对齐联合--模型-dir模型-联合
文件名和目录名的其他参数完全类似目的。
总结
--体dir
--语料库目录(默认$ROOT/语料库
)--词典目录
--词汇翻译概率目录(默认值$ROOT/型号
)--模型dir
--模型目录(默认$ROOT/型号
)--提取文件
--提取文件(默认$ROOT/型号/摘录
)--吉萨-f2e
--GIZA++目录(默认$ROOT/giza\$F-\$E
}--吉萨-e2f
--反转GIZA++目录(默认$ROOT/giza\$电子-\$F
)
对齐启发
实现了许多不同的单词对齐启发,可以用参数指定--对齐
.选项包括:
横断
--取两条GIZA++路线的交点。这通常会创建大量提取的短语,因为未对齐的单词可以自由对齐短语。联盟
--两条GIZA++路线合并生长地
--默认启发式生长-发育
--同上,但没有调用函数最终()
(请参阅背景到单词对齐)。成长
--同上,但定义不同邻近的现在排除了对角相邻的对齐点。成长
--没有对角线邻居,但有最终()
不同的启发式可能会对特定的语言对或语料库,所以一些实验可能会有用。
总结
--对齐
--用于单词对齐的启发式:intersect,union,grow,grow final,grow diag,grow diag final(默认)
最大短语长度
短语的最大长度限制为7个单词。最大短语长度影响短语翻译表的大小,因此更短如果短语表大小是一个问题,那么限制可能是可取的。以前的实验表明,性能仅略有提高当包含三个以上单词的短语时。
总结
--最大字长
--短语表中输入的短语的最大长度(默认为7)
GIZA++选项
GIZA++采用许多参数来指定培训行为过程和句子长度限制等。请参阅有关详细信息,请参阅相应的文档。
参数可以通过开关传递到GIZA++--giza选项
.
例如,如果您想更改迭代次数对于不同的IBM模型到模型1的4个迭代,模型2的0次迭代,HMM模型的4次迭代,模型3的0次迭代和模型4的3次迭代,您可以通过以下方式指定
列车模型.perl[…]--giza选项m1=4,m2=0,mh=4,m3=0,m4=3
总结
处理大型训练语料库
在大型训练语料库上进行训练可能会成为GIZA++单词对齐工具的一个问题。由于它将单词翻译表存储在内存中,因此该表的大小对于机器的可用RAM来说可能会变得太大。例如,NIST阿拉伯语-英语和中文-英语比赛的数据集需要超过4GB的RAM,这是当前32位机器的一个问题。
通过GIZA++中更有效的数据结构,可以在一定程度上解决此问题,这需要运行snt2cooc公司
预先对语料库进行分块处理,并对结果输出进行合并。您需要知道的是,运行带有选项的培训脚本--第n部分
,例如。--第3部分
可能会让你在一个对于常规跑步来说太大的语料库上训练。
与大型训练语料库导致的这个问题相关的是GIZA++运行时间过长的问题。可以使用交换机在两台机器上分别运行两个GIZA++--方向
。在一台机器上运行其中一个运行时--方向1
另一个在不同的机器或CPU上运行--方向2
,训练步骤2的处理时间可以减半。
总结
--零件
--通过运行为GIZA++准备数据snt2cooc公司
部分--方向
--仅在方向1或方向2上运行训练步骤2(用于并行化)