常见问题-目标和承诺

目标和承诺

我们想开发一种工具,用于在web上以高质量在多种语言之间自动翻译文档(最多可同时翻译15种语言)。

Systran(Babelfish)和Google Translate等工具是为信息消费者设计的,但我们主要为信息生产者服务。我们希望质量足够好,例如,电子商务网站可以自动翻译其网页,而不用担心信息会发生变化。例如,通过其他工具,潜在客户可以阅读用法语编写的电子商务页面,并将其翻译成瑞典语,以了解商店是否有她感兴趣的东西。

当然,我们必须付出代价:我们无法翻译任何东西。我们只能翻译我们定制的系统要翻译的内容。这源于机器翻译中众所周知的权衡:不能同时达到完全覆盖和完全精确。在这种权衡中,Systran和谷歌选择了覆盖范围,而MOLTO选择了精度。

MOLTO翻译人员专门从事不同领域的翻译工作,他们以统一且易于理解的方式使用语言。在MOLTO中,我们将为三个领域构建系统:数学练习、生物医学专利和博物馆对象描述。但这些领域只是示例,有助于我们开发和评估工具;我们希望这些工具能够应用于其他人开发的新领域。例如,电子商务网站、维基百科文章、合同、商业信函、用户手册和软件本地化。

不,“报纸文本”在MOLTO的意义上并不是一个定义明确的领域,至少从我们今天掌握的知识来看不是这样。因此,我们将其留给其他工具来翻译报纸、小说和随机网页。

这正是我们想要做的。传统上,建立一个规模合理的翻译系统需要多年的努力。我们想把这个时间缩短到几个月,有时甚至是几天。我们希望它对没有受过MOLTO、语言学或编程方面特殊训练的人来说是可行的。阅读“技术”一节,了解我们认为可以如何做到这一点。

不。首先因为我们不能在定义明确的领域之外进行翻译。其次,更有趣的是,我们将为人类翻译人员提供新的工作模式:他们将能够定制翻译系统,而不是反复翻译同一领域中的类似文档。这些系统将从几个精选的示例中学习如何翻译同一领域内的其他文本,这些示例由人类翻译。这将把译者的工作提升到一个更高的水平。

人类翻译人员总是比MOLTO更好地对风格做出明智的决定,从而产生更优雅的文本。另一方面,MOLTO将擅长专业领域的术语和惯用用法,而人类翻译人员可能缺乏这方面的培训。

MOLTO致力于处理15种语言,其中包括12种欧盟官方语言——保加利亚语、丹麦语、荷兰语、英语、芬兰语、法语、德语、意大利语、波兰语、罗马尼亚语、西班牙语和瑞典语,以及3种其他语言——加泰罗尼亚语、挪威语和俄语。但在项目期间,可能会添加其他语言,因为它们是由其他正在进行的项目提供的。

我们在MOLTO中为每种语言使用的主要东西是一个资源语法,它实际上是一个定义语言语法规则的软件库:它的词形变化和句法结构。为一种新语言编写资源语法需要一个相当熟练的程序员花费3-6个月的时间,他必须具备该语言的良好理论和实践知识。

目前正在进行的工作至少包括阿拉伯语、波斯语、希伯来语、印地语/乌尔都语、冰岛语、日语、拉脱维亚语、马耳他语、葡萄牙语、斯瓦希里语、茨瓦纳语和土耳其语。仍然缺乏开发人员的欧盟语言是捷克语、爱沙尼亚语、希腊语、匈牙利语、爱尔兰语、立陶宛语、斯洛伐克语和斯洛文尼亚语。欢迎您为这些语言做出贡献!

我们将于2010年6月发布MOLTO web服务的第一个原型。这个原型将不断更新,更成熟的工具将在2011年发布。案例研究将于2012年末完成。但现在您可以通过尝试冰箱磁铁演示或a文本输入演示.

我们将不断收到用户的反馈,并尽快修复所有错误。MOLTO技术的一个优点是它具有高度可编程性:我们可以高精度地定位翻译中的错误,并快速生成系统的固定版本,而不会破坏其他任何东西。