备注:可靠的多语言数字通信:方法和应用

2013年至2017年,VR“Rambidrag:Det digitaliserade samhället-igár,idag,imorgon”内的项目
阿内·兰塔(PI)、杰拉尔多·施奈德(Gerardo Schneider)、科恩·克莱森(Koen Claessen)
计算机科学与工程系
查尔默斯科技大学和哥德堡大学

目的和目标

该项目将开发多语言技术数字通信。该技术将为公民提供服务可以使用自己的语言,也可以传播最新的多种语言的信息。这将以可靠、精确的方式完成这样用户就可以信任他们获得的信息。

让我们考虑一个可能的用例:两个参与者可以准备一份房屋租赁合同。房子可能由位于德国的意大利人所有,并由瑞典人。因此将涉及三种语言,以确保业主和承租人相互准确理解,合同符合德国法规。它应该定制为与房屋相关的细节以及业主和业主的意愿租户。理想情况下,所有合作伙伴都应该能够提出这样的问题比如“合同可以转让给第三人吗”,并得到答案通过推理引擎而不阅读整个合同,更不用说涉及一名专业律师。

如今,此类服务稀缺,因为它们需要手动工作。不同语言的翻译必须手动进行,因为像谷歌翻译这样的自动工具不够可靠用于此类精确任务。回答问题所需的推理是同样是手动的,因为合同中包含的信息形式上足够机械地推理;基于字符串的搜索等方法不够准确。本项目旨在解决这两个问题,解决方案在很大程度上是通用的。

解决方案是使用受控自然语言,这是一个子集指具有正式指定结构的自然语言。我们对CNL的使用受到编译器技术的启发,其中摘要语法是编程的形式化结构语言。当编译器分析程序并对其进行推理时,它们会起作用关于抽象语法。这个想法被改编成自然语言这个语法框架(GF)(Ranta 2011),它还允许抽象语法和多种并发语言。对于上述用例,以下是使用GF和抽象语法树可以实现工作流(AST):

合同的静态翻译:

合同用德语/意大利语/瑞典语/。。。
合同AST
德语、意大利语、瑞典语合同。。。

合同的修正和更新:

德语/意大利语/瑞典语/。。。
AST的变化
德语、意大利语、瑞典语和。。。

关于合同的查询:

问题用德语/意大利语/瑞典语/。。。
AST中的问题
AST中的答案
答案用德语/意大利语/瑞典语/。。。

除了语法,该项目还使用形式化方法,例如自动推理和软件验证。推理用于回答问题,但也用于文档的一致性检查。软件验证已完成该项目应用于一个新领域:计算语法非常复杂的程序通常以协作和分布式的方式创建。它们的质量对整体的可靠性至关重要系统。

形式化方法如何应用于此的示例上下文是歧义分析计算的语法。在上述合同示例中,至关重要的是各方明确理解对方,即各自的文本合同只能用一种方式理解。生活的事实是自然语言的使用留下了不同的解释方式文本。因此,分析所涉及的语法对于首先要意识到歧义,其次要避免它们出现在合同等正式文件。

现场调查

万维网具有高度的多语言性。对于例如,维基百科有300多种语言,由志愿者。在瑞典,当局试图履行其义务用瑞典官方少数民族语言发布信息。在两者中然而,这些案例的信息远非同步。维基百科,大部分文章只有英文版;这个现有的译文通常比原文短或不同否则他们就不会这么做了。在瑞典,通常只有瑞典语信息是最新。其他语言(如果有的话)通常是在不专业的方式(例如,那些碰巧说话有针对性的员工语言),甚至由谷歌翻译制作。报告由Funka Nu和瑞典语言委员会(Funka Nu 2011)进行了一项调查以及有关当局使用谷歌翻译的建议。

现在,谷歌翻译是一个针对这个消费者信息。他们使用它的风险由自己承担,没有人负责翻译——既不是原作者,也不是谷歌。中的常见错误谷歌和其他统计翻译系统存在对齐错误。对于例如,法国人99欧元大奖在瑞典语中可以成为99克朗pris,因为欧元瑞典克朗因其频繁性而保持一致平行文本中的共现现象。如果消费者阅读法国电子商务网站通过谷歌翻译并看到此报价,她无法声称获得这个超常价格的产品。但如果报价已经公布电子商务网站本身,那么他们有义务遵守它。

需要的是自动翻译工具对于生产者。这些工具应该快速适应频繁变化的信息并呈现准确地使用目标语言。使这成为可能的是制片人知道他们需要说什么:例如,他们只需要发布电子商务优惠或租赁合同。因此,他们可以使用适用于的翻译工具有限的,因此可以变得可靠。消费者的相反,翻译工具必须在开放域这意味着他们必须能够应对向他们抛出任何文档,但用户对浏览感到满意质量。

多语言GF语法已被建立为例如,用于有限域翻译的可靠高效工具,在欧洲MOLTO项目(多语言在线翻译,FP7-ICT-2479142010-2013)。MOLTO的重点是很容易为新的领域和语言生成翻译系统,通过软件工具和库。这些方法已经在多个领域:旅游常用语手册、数学教材、博物馆对象描述和药物专利。该系统已覆盖多达17个同步语言。25种语言目前包括在GF资源文法库,这使得可用于应用的复杂语言规则(形态学、语法)程序员,他们可以专注于语义和抽象语法。目前的提案部分基于MOLTO的结果。它会的将它们应用于新领域和新类型的用户。主要科学创新是引入循环中的形式化方法,同时允许通过使用统计学和机器学习。

在MOLTO中,形式方法的一些成分有已经参与,尽管他们不在项目的主体范围内使命,即翻译。例如,形式推理以SPARQL的形式参与查询,可以从摘要为语法与本体论(Dannélls等人。2012). 再举一个例子,语法测试已开发为适应快速检查工具(Claessen和Hughes 2000)到GF语法。语法的自动化测试越来越多更重要的是,语法越来越大,并且来自异构来源-不仅来自具有不同技能的程序员,还来自本体的自动语法提取与统计翻译模型(Détrez等人,2012)。

语法测试的两个主要案例是这样确定的模糊性和充分性测试远远不够。歧义测试是因为语法描述的CNL是到用于正式验证的逻辑系统上下文、语言歧义可能会影响系统。大多数用于推理的CNL,如Attempto(Fuchs etal.,1999)有消除自然语言结构歧义的机制,所以意思总是独特的。就我们而言,情况更为严重由于多语言环境的复杂性,因为我们还需要解决CNL内自然语言之间的模糊翻译案例(Angelov和Ranta,2010年)。

充分性测试需要检查在描述语法的抽象语法中描述的语义CNL保留在我们编写具体语法的所有语言中。这也确保了任何一对来自CNL的语言。该方法的原型用于(Détrez etal.,2012),旅游常用语手册语法有15种语言,其中添加的每一种新语言都通过将其结构与它们在英语和摘要中的对等词语法。

项目描述

该项目分为四个工作包:

  1. 翻译
  2. 语法的形式化方法
  3. 推理
  4. 案例研究

1翻译

以翻译方法论为基础在欧洲MOLTO项目中开发,我们将创建一套信息生成工具。这些工具将使公司、当局、,以及其他组织定制其翻译系统。目标是以与翻译相同的努力实现系统构建手动创建一组静态网页。这项工作将用于建造GF相反,语法将支持任何新web的自动翻译页。这里涉及的特殊技术是基于示例的语法写作,可以从翻译中引导GF语法示例(Détrez等人,2012)。示例可以通过以下方式手动生成未接受GF培训的翻译人员,但我们也将调查从统计翻译模型中提取示例。

生产性语法写作的主要资产是这个GF资源语法图书馆(布林特等),我们将进一步开发,特别关注瑞典的主要移民语言和欧盟官方语言。传统的图书馆的发展是通过开源的志愿工作实现的社区;在图书馆的11年里,它收到了捐款来自世界各地的40多名程序员。但这项工作需要持续不断协调和质量控制。正式方法工作包将也适用于帮助这项工作。

2语法的形式化方法

语法是结构非常复杂的对象,在复杂性上与软件系统相当。因此语法中出现错误的可能性和它们的错误一样大出现在软件中。我们计划使用来自软件的成功方法验证,即自动化正式的验证技术软件测试技术,以便推断语法的属性并检测错误。

这里要做的一项工作是创建我们可以使用系统地查找语法错误。我们的意思是语法可以产生语法错误的句子,例如,产生错误的语序或错误动词的屈折变化。另一项工作是分析语法中对翻译很重要的属性正式文件,例如哪些句子可以用更多而不是单程?

虽然语法和软件系统在通常,采用软件验证也存在一些挑战方法到语法。一个明显的问题是,我们经常没有正式的说明什么构成了正确的语法,这意味着我们需要让专家参与一些语法测试方法。我们需要通过自动将此需求降至最低确定“热点”需要人力专业知识的地方。另一个挑战是语法生成的句子集不仅受手头的应用程序,也由实际的自然语言使用,这限制了我们对语法的控制。例如,如果我们发现某个法语句子可以用两种不同的语言解释方式,我们必须用另一种方式来处理,而不仅仅是改变语法,以便通过规定;我们无法决定什么是,什么不是法语!

我们最初将在本部分中使用的技术项目是QuickCheck,一个最初为Haskell开发的测试工具(Claessen和Hughes 2000),但后来针对Java和Erlang也。QuickCheck部署随机生成结构化测试数据的,属性进行测试,以及收缩找到最小的反例。QuickCheck已经很适合了;随机生成方法QuickCheck的一部分适合用简单语法生成数据已经(有关所做工作的概述,请参见初步结果已经)。

我们在这里要解决的挑战是:(a)如何有效生成GF语法的测试数据形式?到目前为止,我们知道如何为简单类型生成测试数据一阶语法很好,我们计划利用我们的经验生成类型良好的函数程序以帮助我们进一步(Palka等人,2011年)。(b) 如何混合可由只有人才能手动检查属性的计算机?将人类用作测试预言对测试数据生成器提出了其他要求自动预言器。我们计划根据测试数据开发方法生成,用于为人类专家创建最少的句子集看,它涵盖了给定语法中的所有结构,但也有一个相当复杂的结构,便于理解。

三。推理

形式化方法是验证语法的一种手段。但他们也可以应用于使用语法创建的文档。因此这里开发的技术将与开发的技术互补在上一节中。例如,随着技术的发展在第2节中,我们帮助我们消除语法w.r.t.的语义歧义,在这里,我们将能够推理逻辑上的不一致,因果关系事件、依赖关系等。为此,我们将从静态分析和模型检查中调整现有技术开发一些新的。

通过结合两个层次的推理,我们将实现两级模块化方法,其中验证抽象级别的结果馈送并从验证中获得反馈在混凝土层面,为了提高精度和性能两个级别,在属性/问题类型上相互补充得到验证。

众所周知,不可能直接推理机械地写在用自然语言写的文件上。因此,我们将定义抽象但富有表现力的CNL作为推理的目标语言基于自动机的语义。我们将使用GF创建许多语言中的抽象结构。关于摘要的推理因此,文件也涵盖了翻译内容——就目前而言抽象结构的忠实而明确的渲染由工作包2中的形式化方法保证。

在项目后期,我们将扩大通过探索自动扩展语法和推理方法,使用统计机器翻译模型和机器学习技术。这将以可控的方式完成影响质量。因此,我们将提供提取算法CNL的操作模型(即自动机),并开发技术基于模型检查查询CNL文档(在自动机上)技术。

最后,我们将使用GF提供双向在此开发的CNL和正式语言之间的翻译(针对法律合同)将在SAMECO项目中开发案件受理(见下文其他补助金)。我们还将联系CNL具有SAMECO形式的Kripke语义的自动机语言。

4案例研究

合同。我们将考虑法律合同的表述和分析。特别是我们将重点关注的金融合同原因是这样的相关性最终用户、银行和其他金融机构的合同,以及总体经济。此外,我们的方法似乎是对现有的商业解决方案进行补充,增加新的价值,如由提供的LexiFi公司.

电子商务。网络商店它们的性质可能是国际性的,但语言是一个巨大的障碍。例如,在欧盟,真正的共同市场意味着可用性所有欧盟语言的电子商务网站。这是一个基于CNL的领域方法显示出巨大的前景。它也与合同是电子商务的重要组成部分交易。

官方信息。瑞典和其他国家的当局需要可靠的翻译和多种语言的自动信息访问。我们会找到合作伙伴在项目后期的潜在用户中,构建满足以下条件的案例研究他们的需求。在发展中国家建设数字基础设施另一个需求来源,我们可以通过我们的国际联系人(例如MOLTO合作伙伴BeInformed,以及南部的合作非洲和肯尼亚)。

时间表

这四个工作包将并行运行,以便我们很早就开始了一个案例研究,它整合了语言学的所有方面资源、形式方法和推理。当项目进行时,我们将扩大案例研究的覆盖面。因此,我们将从合同案例研究从第一年开始,并在第二年扩展到电子商务。对于官方信息,我们将搜索感兴趣的合作伙伴和满足他们的需求。这将在第三年和第四年发生。

GF库的语言覆盖范围有望实现从目前的25岁增长到50岁左右,因为使用了GF及其国际社会正在扩大。到那时,我们指望能够涵盖所有欧盟官方语言和世界排名前十的语言。但我们也关注非洲和亚洲的语言。

人员

这些人员代表了三项世界领先的研究系里的小组:语言技术(Ranta),形式方法(施耐德,克莱森)和函数编程(克莱森):

  1. Aarne Ranta是GF,现在是欧洲项目MOLTO(多语言在线翻译),将GF应用于面向精度的15种语言之间的翻译
  2. Gerardo Schneider致力于对合同进行形式化,使用以下工具进行推理道义逻辑,也论自然语言的呈现合同
  3. 科恩·克莱森是自动化领域的专家推理技术,可用于语言处理内容;此外,他在软件测试方面的工作对于保证GF语法的属性作为可靠的工具信息的呈现。

重要性

该项目的主要贡献是提供可靠的多语言翻译问题的解决方案受控/受限领域的方法;导致(a)更安全的情况因为消费者可以信任他们看到的和查询的内容以交互方式,(b)以更便宜的方式(或a(完全可能)供应商提供的多语言服务所有用户都能理解。

在研究方面,贡献包括语法的系统分析和测试方法;导致更可靠的翻译,更有效的语法开发,更多有效的语法适用性和更好的语法交互(需要自然语言之间的翻译);语法的可扩展性由形式化方法控制的半自动引导。

关联

我们已经确定了当今数字和国际化社会:文件和其他形式的交流必须以多种语言为所有相关方提供了解正在发生的事情。我们还提出了一种技术组合有可能在受限/受控的情况下解决这个问题定义明确的领域,并扩展这些方法并使其更广泛将来可用。我们承认该项目主要涉及技术,专注于“明天”的数字社会,但我们相信更好、更成熟的技术将使人们不再适应今天的制约因素,如英语的主导地位和翻译。

初步结果

MOLTO项目将于2013年5月结束已经对这种形式化方法的独特组合产生了兴趣以及学术界和业界的自然语言。过去二十年,机器翻译和信息检索对社会产生巨大影响,主要使用基于大量数据的方法数据、统计和机器学习。但这些限制方法也越来越明显。这些方法永远不会与计算器和编译器一样可靠。GF公司该方法已在MOLTO中得到验证,并将此作为目标,以及拟议的项目旨在将其提升到一个新的水平,我们将从正式方法社区。

MOLTO项目之前的工作表明GF为描述大型本体提供的优势(Dannélls etal.,2012)和业务平台元模型(Davies等人,2012)。后者也很重要,因为此前的研究表明,CNL对大型模型的建模有很大帮助也用于推理的模型。

施耐德之前在CL开发方面的工作部分表示规范的基于道义的形式语言文本(Prisacariu和Schneider,2007;Pace和Schneiter,2009年)在Nordunet3项目的背景下COSoDIS:面向合同的互联网服务软件开发(http://folk.uio.no/gerardo/nordunt3/index.shtml)与此应用程序相关。此外,一些初步工作已经就形式语言和CNL(Montazeri等人,2011).

模糊度测试正在进行中,它专注于发现单语语法中的歧义创建一个具有不同模糊结构实例的数据库。这个该方法基于QuickCheck,我们使用它来生成测试用例在本例中是有效的解析树。我们自动保留模糊构造,并确定它们是否是以前见过的大小写,或者它们代表了新的歧义。数据库保留模糊情况的概括以及说明如何歧义会传播到语法的顶级类别。

该方法包括词汇和句法模棱两可,全面分析语法可能显示的歧义。此外,由于GF语法对应于并行多上下文自由语法(PMCFG)(Ljunglöf,2004),目前的工作是首次尝试测试此类语法含糊不清。到目前为止,歧义测试主要集中在上下文无关语法是PMCFG的严格子集(Brabrand等人。,2007).

工具书类

Angelov,K.和Ranta,A.:在GF.N.Fuchs(编辑)中实现受控语言,CNL-2009受控自然语言,LNCS/LNAI 59722010年。

Bringert,B.、Ranta,A.和Hallgren,T.:GF资源语法库概要,http://www.grammaticalframework.org/lib/doc/synopsis.html,2012

Brabrand、C.Giegerich、R.和Möller,分析上下文无关语法的歧义性。第十二届会议记录自动机的实现与应用国际会议(CIAA)2007,Springer-Verlag LNCS第478卷

Claessen,K.和Hughes,J.:快速检查:Haskell程序随机测试的轻量级工具。程序中。属于函数式编程国际会议(ICFP)。ACM-SIGPLAN,2000

B.戴维斯、R.伊纳切和比勒陀利亚,L.和Van Grondelle,J.:模块本体的多语言描述加上GF和柠檬。提交给受控自然语言研讨会,CNL2012,瑞士苏黎世,2012年。

Dannélls,D.、Enache,R.、Damova,M.和Chechev,M.:基于语义Web的多语言在线生成本体论。www2012会议,法国里昂,2012年,即将发布。

Détrez,G.、Enache,R.和Ranta,A.:日常使用的受控语言:MOLTO短语手册。受控自然语言研讨会的后期进展(CNL 2010),意大利马雷蒂莫,LNCS-LNAI第7175卷,2012年,即将出版。

福克斯,N.,施维特,U.和施维特,R.:尝试控制英语-不仅仅是另一种逻辑规范语言。在P.Flener(编辑):基于逻辑的程序合成和转型,第八届LOPSTR'98国际研讨会,英国曼彻斯特,1998年6月。LNCS 1559,Springer Verlag,1999年。

Funka Nu,Slutrapport:Øversättning páinternet,2011http://www.funkanUse/PageFiles/3596/Slutraport-Oversattning-pa-internet.pdf

Ljunglöf,P.:表达性和复杂性语法框架。大学计算机科学博士论文哥德堡,2004

蒙塔泽里S.M.、罗伊N.和施耐德,G.:从结构化英语合同到CL规范。FLACOS’11,第68卷EPTCS,第55-69页,2011

G.J.佩斯和G.施耐德:挑战在完整合同规范中。2009年,《国际金融管理手册》第5423卷,LNCS,第292-306页。施普林格

帕尔卡,M。,Claessen,K.、Russo,A.和Hughes,J.:测试通过生成随机lambda项来优化编译器。程序中。第6页,共6页软件测试自动化国际研讨会,2011

Priscariu,C.和Schneider,G.:电子合同。在FMOODS’07中,第4468卷LNCS,第174-189页,2007年。斯普林格。

Ranta,A.:När kan man lita pamaskinöversättning?斯普雷克诺洛基·弗罗卡德·蒂尔加恩格利赫特(Sprákteknologi förökad tillgänglighet)。法国友好关系ett nordiskt林雪平神学院,2010年10月27日至28日,第49-60页,2011年。http://www.ep.liu.se/ecp/054/006/ecp10054006.pdf

Spreeuwenberg,S.,Van Grondelle,J。,Heller,R.和Grijzen,H.:让领域专家参与的CNL设计建模。受控自然语言的后处理研讨会(CNL2010),意大利马雷蒂莫,LNCS-LNAI,第7175卷,2012年,至出现。