来自摩西

摩西:ConfusionNetworks

混淆网络解码

机器翻译输入目前采用简单的单词序列形式。然而,越来越多的人要求将机器翻译技术与上游自然语言和/或语音处理工具(如命名实体识别器、自动语音识别器、形态分析仪等)集成到大型信息处理系统中。这些上游过程往往会产生多个不同置信度的错误假设。当前的机器翻译系统设计为只处理一个输入假设,因此容易受到输入错误的影响。我们扩展了当前的机器翻译解码方法,以输入格的形式处理多个模糊假设。格表示允许机器翻译系统在来自上游处理的多个模糊假设之间进行仲裁,以便产生最佳翻译。

由于晶格通常具有复杂的拓扑结构,因此其近似值称为混淆网络改为使用。从格子中提取混淆网络可以通过公开可用的格子工具包含在SRILM工具包请参阅SRILM手册页面有关详细信息和用户指南。

混淆网络

A类混乱网络(CN),也称为香肠是一个加权有向图,其特点是从开始节点到结束节点的每条路径都经过所有其他节点。

每个边缘都标有一个单词和一个(后验)概率。两个连续节点之间所有边的总概率总和为1。注意,从解码器的角度来看,这并不是一个严格的约束;可以提供任何分数。从开始节点到结束节点的路径通过乘以其边的分数来计算分数。如果满足先前的约束,则乘积表示路径的可能性,并且所有路径的可能性之和等于1。

在任意两个连续节点之间,最多一个特殊单词_每股收益_可以插入;_每股收益_单词允许具有不同长度的路径。

CN中的任何路径都表示实现中国大陆。CN的实现可以在单词序列或总分方面有所不同。两个(或更多)实现可能具有相同的单词序列,但得分不同。单词长度也可能因_每股收益_这是前一个CN的一些实现的列表。

aus der Zeitung分数=0.252长度=3Aus der Zeitung分数=0.126长度=3Zeitung分数=0.021长度=1Haus Zeituns分数=0.001长度=2

笔记

模糊网络的表示

Moses对CN采用以下计算机友好表示法。

豪斯0.1 aus 0.4 _eps_ 0.3 aus 0.2第0.9页第0.1页版次0.7 _ eps_ 0.2版次0.1

其中一条线包含两个连续节点之间的可选边(单词和prob)。

在因子表示法中,每一行给出了整个因子空间的备选方案:

Haus|N 0.1 aus|PREP 0.4 aus|N 0.4 _eps_|_eps_ 0.1der|DET 0.1 der|PREP 0.8_eps_|_eps_ 0.1Zeitung|N 0.7_eps_|_eps_ 0.2 Zeitungs|N 0.1

请注意,如果您将上述CN投影在单个因素上,必须合并重复的因素和各自的问题总结。对应的文字投射CN是第一个例如,虽然部分发言预测的CN是:

N 0.5预处理0.4 _eps_ 0.1DET 0.1预处理0.8_eps_ 0.1N 0.8个_eps_0.2个
检索自http://www2.statmt.org/moses/?n=moses.ConfusionNetworks
页面上次修改时间:2013年3月26日上午10:18