在早期的发展中,机器翻译采用了基于规则的方法,包括使用语言语法。20世纪80年代末和90年代初,出现了统计机器翻译(SMT)方法,在这种方法中,翻译模型可以从平行语料库中自动学习,而不是由人类手动创建。最初的SMT模型是基于单词和短语的,没有使用句法知识。在基于短语的SMT中,首先将源句子分割成短语,然后逐短语翻译,并对目标句子中的翻译短语进行重新排序。这给在两种句法不同的语言之间进行翻译带来了挑战。基于句法的SMT方法利用了SMT框架内的句法知识。这本书介绍了基于语法的SMT方法。对于那些对基于句法的SMT感兴趣的人来说,这是一个宝贵的资源。

这本书由七章组成。除了前言外,这本书没有导言一章,可以看作是一篇简短的导言。读者可参考Koehn(2010)背景知识。我认为在继续描述各种模型之前,将介绍章节分为几个部分会很有用。前两章提供了适用于各种基于语法的SMT方法的原则。接下来的三章详细描述了基于语法的SMT解码;这是本书的一半。下一章提供了选定的扩展主题,随后是结论章。

第1章描述了适用于基于句法的SMT的模型和形式。第一部分描述了基于短语的SMT中的短语翻译单元、其局限性,以及树结构如何解决基于短语的方法的局限性。这种解释很有用,因为翻译单位是基于短语和基于句法的SMT方法之间的关键区别。接下来的两部分描述了语法形式和定义基于语法的SMT的统计模型。如果将语法形式(即同步上下文无关语法[SCFG]和同步树替换语法[STSG])的差异并列在一个示例中,那么涵盖语法形式的部分会更加清晰。本章的其余部分讨论了基于语法的SMT方法的不同类别以及这些方法的历史,包括字符串到字符串、字符串到树、树到字符串和树到树SMT方法。尽管Galley等人提出了基于句法的翻译模型(2006)属于字符串到树的类别,我想知道为什么要使用基于短语的分层SMT或Hiero(Chiang,2007)没有明确地归入字符串对字符串类别,因为Hiero也使用“没有语言类别表示的未标记层次短语”

第2章重点介绍了基于句法的SMT方法的统计框架如何从对齐和解析的平行文本中学习其模型。第一节解释了在基于短语的SMT(Koehn、Och和Marcu,2003),强调短语作为单词序列的定义以及Och和Ney中定义的短语对的对齐一致属性(2004). 本章的其余部分介绍了基于句法模型的三种主要实例化:基于短语的分层SMT(Hiero)(Chiang,2007),这是一种基于短语的方法中产生的基于非标记句法的SMT方法;句法增强机器翻译(SAMT)引入了软标签的概念,同时保留了非语言短语的概念;和GHKM(Galley等人。,2004),它只提取与选区解析子树一致的翻译规则。本章组织得很好,很容易理解从基于短语的SMT到GHKM的逐步演变。

第三章介绍了有向超图的解码形式,定义为一组顶点和一组有向超边。第一节介绍了用加权超图表示的加权解析树的概念,它表示句子的可选解析树。为了理解下一节和接下来的章节,我发现仔细注意这一节很重要。下一节将介绍超图上的各种算法,以在可能的树派生的超图表示中翻译句子。总的来说,我发现本章包含了许多技术细节。本章最后一节提供了关于这些概念来源的历史注释。本章需要在下一章之前阅读,下一章假设理解第3章中介绍的概念。

第4章介绍了树解码,即以源语句的选区解析树作为输入进行解码,重点介绍了树到字符串的方法。前两部分重点介绍使用本地和非本地特征进行解码,其中非本地特征适用n个-gram语言模型和比本地特征更复杂。下一节将深入描述源语句解析树上的波束搜索算法。如果运行示例显示了解码步骤,则说明可能会有所改进。接下来的两个部分通过引用更高效的超图操作,对本章前面部分介绍的概念进行了扩展。本节的内容要求对实现高效的基于树的算法感兴趣的读者阅读所引用的参考文献。简要的历史笔记通过指向相关材料以供进一步阅读,很好地结束了本章。

第5章描述了以源语句字符串作为输入的字符串解码。前两部分描述了二进制SCFG中的波束搜索解码算法,即Hiero和SAMT中采用的每个规则右侧最多有两个非终结符。所涵盖的算法是一种基本算法和一种优化算法。这里很好地比较了两者的复杂性,强调了通过算法优化实现的复杂性降低。非二进制规则的处理在下一节中进行了描述,并通过GHKM规则提取进行了说明。中篇摘要部分将本章分为两部分:波束搜索解码和解析。第二部分描述了共享类别SCFG上下文中的解析算法,假设规则的左侧和右侧具有相同的非终结符集,然后将该算法扩展到STSG和不同类别SCFG。本章的组织结构很好。然而,我觉得包含不同类别的SCFG解码并不适合本章,因为字符串到树SMT中的字符串解码不需要了解源语法。历史注释也没有提供任何关于使用不同类别SCFG进行字符串解码的先前工作的参考。

第6章包含了基于句法的SMT的各种选定主题。第一节讨论了树变换,它使翻译规则学习更加有效。非文本自由模型的描述是下一节基于依赖的SMT的前奏,其中包括依赖树(相当于树到字符串方法)和字符串到依赖(相当于字符串到树方法)。下一节将重点介绍基于句法的SMT与基于短语的SMT相比具有更多语法输出的能力,尽管还有改进的余地,包括使用统一语法和语义属性。最后,本章的最后一节解释了机器翻译评估如何从基于句法的SMT原则中获益。总的来说,本章丰富了读者的知识,超出了前面章节中基于基本句法的SMT。我还建议采用基于短语的解码方法,使用基于句法的特征(Cherry,2008; Chang等人。,2009).

第7章通过讨论基于短语和基于句法的SMT方法之间的比较,并提出基于句法的SMS可能的未来发展,很好地总结了本书。本章还强调了句法驱动的机器翻译早于统计机器翻译,正如我在本综述开头提到的那样。

总的来说,我发现这本书对于那些对基于语法的SMT感兴趣的人来说是一本有用的参考书。这本书组织得很好,便于读者参考基于句法的SMT的具体方面。这本书中思想的表达可以有所改进。在整本书中,由于基于语法的SMT的复杂性,有许多技术关键词。在侧栏中突出显示这些关键字将非常有用,以提醒读者它们是重要的关键字。此外,尽管整本书都给出了例子,但使用这些例子来说明算法是如何工作的会更有用,这样读者可以更好地理解算法。

,
皮川
,
惠欣
,
尤拉夫斯基
、和
克里斯托弗·D·。
曼宁
.
2009
.
具有汉语语法关系特征的歧视性重排
.英寸
统计翻译中的句法和结构第三次研讨会论文集
,页
51
——
59
,
科罗拉多州博尔德
.
樱桃
,
科林
.
2008
.
基于衔接短语的统计机器翻译解码
.英寸
计算语言学协会第46届年会论文集:人类语言技术
,页
72
——
80
,
俄亥俄州哥伦布
.
蒋介石
,
大卫
.
2007
.
基于层次短语的翻译
.
计算语言学
,
33
(
2
):
201
——
228
.
加莱
,
米歇尔
,
乔纳森
格雷尔
,
凯文
奈特
,
丹尼尔
马尔库
,
史蒂夫
德尼菲
,
世界环境学会
、和
伊格纳西奥
塞耶
.
2006
.
上下文丰富句法翻译模型的可伸缩推理与训练
.英寸
第21届国际计算语言学会议记录和第44届计算语言学协会年会
,页
961
——
968
,
悉尼
.
厨房
,
米歇尔
,
作记号
霍普金斯大学
,
凯文
奈特
、和
丹尼尔
马尔库
.
2004
.
翻译规则中有什么?
计算语言学协会北美分会人类语言技术会议记录:HLT/NAACL 2004
,页
273
——
280
,
马萨诸塞州波士顿
.
科恩
菲利普
.
2010
.
统计机器翻译
.
剑桥大学出版社
.
科恩
,
菲利普
,
弗朗兹·约瑟夫
奥赫
、和
丹尼尔
马尔库
.
2003
.
基于统计短语的翻译
.英寸
计算语言学协会北美分会2003年人类语言技术会议记录
,页
48
——
54
,
埃德蒙顿
.
奥赫
,
弗朗茨·约瑟夫
赫尔曼
内伊
.
2004
.
统计机器翻译的对齐模板方法
.
计算语言学
,
30
(
4
):
417
——
449
.
这是一篇根据知识共享署名-非商业化-非衍生产品4.0国际许可证条款分发的开放存取文章,该许可证允许您以任何媒介或格式复制和重新分发,仅用于非商业用途,前提是原始作品未经重新混合、转换或构建,并对原始来源给予适当的信任。有关许可证的完整描述,请访问https://creativecommons.org/licenses/by-nc-nd/4.0/legalcode.