来自摩西

工厂化培训:准备培训

准备培训数据

培训数据必须按句子对齐的方式提供(每行一句),分为两个文件,一个用于外文句子,另一个用于英语句子:

>标题-3语料库/欧元*==>语料库/euro.de<==魏德拉夫纳赫梅(wiederaufnahme der sitzungsperiode)我在donnerstag去世,28岁。梅兹1996反布朗琴欧洲议会立法会(sitzungsperiode des europaeischen parlaments fuer wiederaufgenomen)。产生,产生==>语料库/euro.en<==续会我宣布欧洲议会续会休会1996年3月28日星期四。欢迎

其他几点需要注意:

因子化模型的训练数据

您必须以以下格式提供培训数据

word0factor0|word0factor1|word0 factor2 word1factor0| word1factor1| word1 factor2。。。

而不是非演员

单词0单词1单词2

清洁语料库

脚本清洁-corpus-n.perl是清理并行语料库的小脚本,因此它与训练脚本配合得很好。

它执行以下步骤:

命令语法为:

clean-corpus-n.perl corpus L1 L2 OUT最小最大

例如:清洁-corpus-n.perl raw de en clean 150获取语料库文件拉维德罗恩,删除长度超过50的行,并创建输出文件清洁.de清洁.en.

检索自http://www2.statmt.org/moses/?n=FactoredTraining.PrepareTraining
页面上次修改时间:2006年7月14日上午01:07