准备培训数据

培训数据必须按句子对齐的方式提供（每行一句），分为两个文件，一个用于外文句子，另一个用于英语句子：

>标题-3语料库/欧元*==>语料库/euro.de<==魏德拉夫纳赫梅（wiederaufnahme der sitzungsperiode）我在donnerstag去世，28岁。梅兹1996反布朗琴欧洲议会立法会（sitzungsperiode des europaeischen parlaments fuer wiederaufgenomen）。产生，产生==>语料库/euro.en<==续会我宣布欧洲议会续会休会1996年3月28日星期四。欢迎

其他几点需要注意：

unix命令需要环境变量LC_ALL=C
每行一句，没有空行
超过100个单词的句子（及其相应的翻译）必须删除（注意，句子长度限制越短，训练速度越快
所有内容都小写（使用小写.perl)

因子化模型的训练数据

您必须以以下格式提供培训数据

word0factor0|word0factor1|word0 factor2 word1factor0| word1factor1| word1 factor2。。。

而不是非演员

单词0单词1单词2

清洁语料库

脚本清洁-corpus-n.perl是清理并行语料库的小脚本，因此它与训练脚本配合得很好。

它执行以下步骤：

删除空行
删除多余的空格字符
删除空行、短行、长行或违反GIZA的9-1句比限制的行（及其对应行）++

命令语法为：

clean-corpus-n.perl corpus L1 L2 OUT最小最大

例如：清洁-corpus-n.perl raw de en clean 150获取语料库文件拉维德和罗恩,删除长度超过50的行，并创建输出文件清洁.de和清洁.en.

来自摩西

工厂化培训：准备培训

准备培训数据

因子化模型的训练数据

清洁语料库