常见问题解答-技术

技术

其主要思想是使用基于领域语义的中间语言,并配备可逆生成功能。因此,翻译是解析源语言和生成目标语言的组合。该技术的实现由GF、Grammatic Framework、grammatic Framework.org提供。GF在MOLTO中使用本体,如在语义网中使用的本体。我们还将使用统计机器翻译(SMT)的方法来提高鲁棒性并从数据中提取语法。

GF是一个定义多语言语法的框架,每个语法都基于通用抽象语法。抽象语法通过使用类型理论,与逻辑框架.自然语言生成部分称为具体语法,这是一种基于特征的语法形式主义,相当于PMCFG(并行多上下文自由语法)和具有多项式解析行为。GF使用PMCFG作为其“机器语言”,该语言由

GF已经开发了12年,并且基于多语言GF翻译已经在许多应用中进行了测试,包括从数学到软件规范再到口语对话系统(请参见GF主页).我们还相信有很多有趣的领域翻译即使我们无法提供竞争对手像谷歌翻译这样的开放域系统。

是的,如果我们想有一种通用的中间语言来解决所有问题的话。这就是为什么我们不相信我们能用MOLTO技术翻译报纸。然而,事实证明,特定领域的中间语言是相当可行的。请注意这一举动与本体论中发生的情况类似:它们已经从通用本体到领域本体。

第一个挑战是扩大应用程序的规模。没有那么多我们已经知道如何管理的语言,但词汇量从数百个单词到数千个单词不等。我们需要技巧手动构建并自动提取此类翻译词典。这导致了第二个挑战,即在技能和时间方面最大限度地减少开发工作:将GF作为正常工作流程的一部分,提供给没有受过特殊培训的人。

这可能是MOLTO中最具推测性的研究主题。首先,我们将重视在混合系统上不断增加的努力,在混合系统中,统计数据被用作基于规则的翻译的后备工具,围绕这一点,有许多尚未开发的技术思想。我们还将使用统计数据自动提取翻译规则,并解决歧义。但我们想要保持对翻译质量的控制;因此,我们不会毫无预警地盲目返回不确定的后备翻译用户对不确定性的看法。

主要通用工具是具有新用户界面的GF扩展:用于为新域构建系统的语法工程师工具,以及使用给定翻译系统的翻译人员工具。在这些通用工具之上,我们将构建适合于我们案例研究的领域。因此,当通用翻译器的工具也可以在数学领域使用,用户将欣赏它与计算机代数系统的集成;博物馆对象工具将与现有工具集成,用于浏览

我们的代码将在所有主要操作系统上运行:Linux、Mac OS X和Windows。因此,用户可以在自己的计算机上下载并安装MOLTO工具。但是我们还将把它们作为web服务提供。翻译工具,特别是,应该可以在没有任何软件的web浏览器中使用需要下载。一些类型的翻译人员,例如旅游常用语手册,在手机上运行也很自然,例如在iPhone和Android平台。我们将提供适应这些平台的用户界面,供在线和离线使用。

下面是一个具体的例子,说明它是如何进行的。假设你想为算术命题构建一个翻译器。然后首先构建一个抽象语法定义了自然数集、“偶数”和“奇数”属性以及“大于”关系等基本概念;属性和关系是从表达式到命题的函数。这是GF中抽象语法的样子:



Nat:设置
偶数:Exp->Prop
赔率:经验->道具
Gt:支出->支出->道具
总和:Exp->Exp


在进行机器翻译时,你不能忽视谷歌:对大多数人来说人们,这是网络翻译的最高水平。我们看到MOLTO翻译是一种与谷歌截然不同的方法(精度而非覆盖范围)以及不同的应用(生产者而非消费者的工具)。基础技术不同:谷歌翻译基于统计数据,MOLTO关于语法。尽管存在这些差异,混合系统很可能将MOLTO与谷歌翻译相结合。在混合系统中

我们将从基于网络的演示中收集反馈。我们还将使用标准的机器翻译评估工具,BLEU公司TAUS公司,并与其他翻译工具进行比较。除了翻译质量之外,我们还将在用户研究中衡量工具的生产率和可用性。与许多其他欧洲项目一样,我们将设立一个由独立专家组成的科学委员会来监督我们的进展。