这里叫什么受控自然语言传统上被赋予许多不同的名字。特别是在过去四十年中,设计了各种各样的此类语言。它们被应用于改善人类之间的交流,改进翻译,或为正式符号提供自然和直观的表示。尽管存在明显的差异,但把所有这些语言放在同一个保护伞下似乎是明智的。为了理顺语言的多样性,这里提出了一个通用的分类方案。本文对现有的基于英语的CNL进行了全面调查,列出并描述了1930年至今的100种语言。对这些语言的分类表明,它们形成了一个分散的云,填充了自然语言(如英语)和形式语言(如命题逻辑)之间的概念空间。本文的目标是为CNL提供一个通用术语和通用模型,帮助理解其一般性质,为对该领域感兴趣的研究人员提供一个起点,并帮助开发人员做出设计决策。

受约束的,可加工的,简化,技术的,结构化的、和基本的这里只给出了几个将在这里讨论的构造语言类型的属性示例。我们会给他们打电话受控自然语言或者简单地受控语言基础英语、卡特彼勒基础英语、SBVR结构化英语和尝试控制英语是一些例子;这里将介绍更多内容。本文研究了此类语言的性质,提供了一般的分类方案,并探索了现有的方法。

正如属性的多样性所表明的那样,对于CNL的特征属性没有普遍的一致性,这使得它成为一个非常模糊的术语。这主要有两个原因。首先,CNL方法出现在不同的环境(工业、学术界和政府)、不同的学科(计算机科学、哲学、语言学和工程)以及几十年(从20世纪30年代到今天)。不同背景的人经常使用并继续使用同一种语言的不同名称。第二,尽管受控自然语言似乎有着共同的重要属性,但它们也表现出非常广泛的多样性:一些语言天生就模棱两可,其他语言则与形式逻辑一样精确;几乎所有的东西都可以用某些语言表达,而在其他语言中只能表达很少;一些看起来很自然,其他看起来更像编程语言;有些是由少数语法规则定义的,另一些则非常复杂,不存在完整的语法。这种多样性使得很难清楚地了解基本属性。本文旨在通过概述现有的CNL并提供一个通用的分类方案来解决这个问题。一般来说,这项工作有几个部分重叠的目标,从纯粹的理论目标到更实际的目标(按顺序列出):

  • 让我们更好地了解CNL的性质

  • 为CNL建立通用术语和通用模型

  • 为对CNL感兴趣的研究人员提供一个起点

  • 帮助CNL开发人员做出设计决策

尽管各种CNL已被应用于各种各样的问题领域,但实际上所有这些CNL似乎都与计算语言学领域相关。在其他技术中,它们包括词汇分析、语法和风格检查、歧义检测、机器翻译和计算语义。

不出所料,大多数CNL都是基于英语的。为了简单起见,本文中的调查仅限于这些语言,不包括基于其他自然语言(如德语和汉语)的现有方法。然而,将要呈现的分类方案是通用的,并不局限于英语。

下文将讨论相关背景(第2节),介绍了一种分类方案(第3节),现有的基于英语的CNL是基于小样本进行分类和描述的(第4节),分析结果(第5节),最后讨论了结论(第6节). 附录显示了完整的语言列表,并对每种语言进行了简短描述。

受控自然语言是这样一个模糊术语,因此必须澄清其含义,建立通用定义,并理解相关术语的差异。此外,回顾以往对CNL进行分类和表征的尝试也很有帮助。

2.1定义

如前所述,对于受控自然语言和密切相关的术语,包括受控语言、受限自然语言、简化语言和受控英语,目前还没有一个公认的定义。以下两段引文对此进行了说明:

受控语言(CL)是一种自然语言的受限版本,旨在满足特殊目的,通常是为非文档语言母语者编写技术文档。典型的CL使用语言语法和词汇的一个定义明确的子集,但添加了技术领域所需的术语。(基特雷奇2003,第441页)

受控自然语言是自然语言的一个子集,它可以被计算机准确高效地处理,但其表达能力足以让非专业人士自然使用。(福斯和施维特1995,第1页)

这两种描述都对一种特定类型的CNL表现出强烈的偏见(这些类型将在随后进行更详细的讨论):第一句话侧重于旨在提高可理解性的技术语言,而第二句话只涵盖可以由计算机解释的语言。然而,他们同意这样一个事实,即CNL基于某种自然语言,但更具限制性。人们还普遍认为,CNL是构造语言,这意味着语言不是自然产生的,而是经过设计的。术语的使用子集尽管如此,这是一种误导,因为许多CNL并不是底层自然语言的适当子集。这些语言中有许多与自然语法或语义有微小偏差。其他人则利用颜色和括号等非自然元素来提高可读性和准确性。一些人甚至认为编程语言COBOL是一种受控的自然语言(Sowa2000年). 数学意义上的子集关系显然过于严格,无法涵盖通常称为CNL的大部分语言。尽管它们显然都具有重要的属性,但特定的语言在覆盖范围和性质上可能会大不相同。奥布莱恩(2003)他对不同类型的基于英语的CNL进行了比较,得出的结论是无法识别通用的核心语言。为了解决这些问题,这里提出了以下定义:

定义1(长)

一种语言叫做受控自然语言当且仅当它具有以下所有四个属性时:

  • 1

    它完全基于一种自然语言(其“基础语言”)。

  • 2

    它和它的基础语言(但不一定是唯一的)之间最重要的区别是,它在词汇、语法和/或语义方面更具限制性。

  • 三。

    它保留了其基础语言的大部分自然属性,因此基础语言的使用者可以直观、正确地理解受控自然语言中的文本,至少在很大程度上是这样的。

  • 4

    它是一种构造语言,这意味着它是明确和有意识地定义的,并且不是隐式和自然过程的产物(尽管它基于一种自然语言隐含和自然过程的产物)。

属性2和属性3故意含糊其辞,因为不可能或不希望在其中划一条严格的界线。属性1和3是指CNL中的N:自然性;属性2和4引用C:控件。稍后,我们将能够更准确地描述物业3。我们暂且不谈,我们可以将这个相对冗长的定义总结为以下简短版本:

定义2(短)

A类受控自然语言是一种基于特定自然语言的构造语言,在词汇、语法和/或语义方面更具限制性,同时保留了其大部分自然属性。

作为进一步的评论,我们应该注意到语言在某种意义上,它仅限于顺序语言,不包括图形等可视语言。我们可以验证定义2几乎包括了所有被称为CNL的语言,它不包括自然语言(因为它们不是构造的)、世界语(因为它们不基于一种特定的自然语言)和通用形式语言(因为他们缺乏直观的可理解性)。

2.2相关术语

在我们继续研究语言的类型和属性之前,我们应该讨论一些与CNL相关且容易混淆的术语:子语言、语言片段、风格指南、短语、受控词汇和构造语言。

子语言是当“一个演讲者群体(即‘专家’)共享关于受限语义域的一些专门知识[并且]专家在反复出现的情况下或一组高度相似的情况下交流有关受限语义域时自然产生的语言”(基特雷奇2003,第432页)。与受控自然语言一样,子语言仅基于一种自然语言,并且受到更多限制。这两个术语之间的关键区别在于,子语言是自然产生的,而CNL是明确而有意识地定义的。

语言片段是一个术语,表示“构成[自然]语言自然描述子集的句子集合”(普拉特·哈特曼和第三2006). 该术语与CNL密切相关,差异似乎主要在于方法论:语言片段已识别而不是定义它们被紧密地保存在完整的自然语言和相关片段的上下文中,其目的不是从理论上研究它们,而是直接使用它们来解决特定的问题。CNL可以被视为“为了支持某些技术活动而开发的”语言的一个片段(Pratt-Hartmann2009,第1页)。

样式参考线是包含如何用某种自然语言书写的说明的文档。一些风格指南,如“如何清晰书写”(欧盟委员会2011)提供“提示,而不是规则”,因此不要描述一种新语言,而只给出如何使用给定自然语言的建议。然而,其他风格指南,如《简明语言指南》(Plain2011)更加严格描述一种与各自的完整语言不同的语言。这种语言是否可以被视为CNL的问题取决于风格指南是定义了一种新的语言,还是仅仅描述了自然出现的良好实践。

短语学是一个表示“特定个人或群体使用的一组表达”的术语(霍顿·米夫林·哈科特2000). 通常,当语法结构比完全自然语言更简单时使用此术语。与子语言和语言片段相比,短语不是句子的选择,而是句子的选择短语短语可以是自然的,也可以是构造的,在后一种情况下,它们通常被视为CNL。

受控词汇表是名称和表达式的标准化集合,包括“受控术语、同义词环、分类法和同义词库列表”(ANSI/NISO2005). 大多数情况下,受控词汇表针对特定的、狭窄的领域。与CNL相比,他们不处理语法问题,即如何组合术语来写出完整的句子。许多CNL方法,尤其是特定于域的方法,都包括受控词汇表。

构造语言(或人工语言计划的语言)这些语言不是自然产生的,而是有意识地定义的。从广义上讲,该术语包括(但不限于)世界语、编程语言和CNL等语言。

2.3类型和属性

现在让我们谈谈氯化萘的性质。为了使其看似混乱的多样性有序化,已经确定了此类语言及其环境的40多个属性(Wyner等人。2010). 然而,其中许多属性是模糊的,不允许进行严格的分类。对于要在中呈现的调查第4节,我们收集了九个一般而明确的性质,并给它们字母代码。然而,事实证明,这些属性主要描述语言的应用程序环境,而不是语言本身。因此,下一节将介绍一种分类方案,以描述CNL和其他语言的基本性质。

一般来说,受控自然语言可以根据它们应该解决的问题大致细分(Schwitter2002):改善人类之间的交流,尤其是使用不同母语的人(我们将使用字母代码c(c)对于这些语言);改进手动、计算机辅助、半自动或自动翻译(t吨); 并为形式符号提供自然直观的表示((f)). 最后一种类型包括文本的自动执行方法,这需要至少在概念上映射到可执行形式主义。正如我们将看到的,这三种类型在不同的时间点出现:类型c(c)是最古老的类型t吨随后出现,并键入(f)是三个人中最近的一个。虽然这似乎是一个合理且有用的细分,但文献中主要是基于两种类型的简单版本。惠杰森(1998)介绍了“以人为本”和“面向计算机”语言之间的区别。前者大致对应于类型c(c),后者适用于类型t吨(f)然而,Huijsen观察到,“通常很难将受控语言限定为面向人或面向机器,因为简化通常是双向的”(第2页)。因为这些类型描述问题而不是语言,在不同的问题域中重用一种语言可以改变其类型,即使语言本身根本没有改变。其他类似的分类包括“自然主义”(类型c(c)t吨)和“形式主义”(类型(f))语言(池2006; Clark等人。2010)以及可读性和可译性之间的区别(鲁瑟2003).

另一个明显的事实是,一些语言起源于学术界(字母代码),一些来自工业()一些来自政府或联合国机构()以及其他三者的组合。此外,还经常讨论通用语言和特定受限域语言之间的区别(Pool2006). 这与词典是开放的还是封闭的区别有关(阿德里安斯和施雷奥斯1992). 我们将使用字母代码d日以表示针对特定和狭窄领域的语言。另一个重要的区别是书面语言和口语之间的区别。我们将使用w个表示要编写的语言,以及对于那些打算被说出的人。然而,这些区别似乎都没有描述一个基本的语言特性:起源于一个环境的语言后来可以在另一个环境中使用;词典可以稍后被宣布为开放或关闭;书面语言可以大声朗读;口语也可以写下来。

定义CNL的规则可以是禁止性的或规定性的(Nyberg、Mitamura和Huijsen2003)或两者的组合。禁止性规则描述什么是允许,而规定性规则描述了允许。仅由禁止规则定义的语言必须以给定(自然)语言的形式有一些起点。相反,只有规定性规则的语言通常是从头开始的。正如我们将看到的,这种区别与下一节介绍的简单性概念有着密切的联系。

由于它们缺乏通用性,我们在此不包括更具体的低级属性,例如支持子条款和自由复合(Adriaens和Schreos1992),对语法时态和情态动词的特定限制(O'Brien2003)以及对疑问句和祈使句的支持(Wyner等人。2010).

表1总结了字母代码。这些属性中的任何两个都可以重叠,因此理论上可以进行任何组合w个也不是).

1

CNL属性的字母代码。

代码
财产
c(c) 目标是易于理解
t吨 目标是翻译
(f) 目标是形式化表示(包括自动执行)
w个 该语言旨在书写
 该语言旨在被使用
d日 该语言是为特定的窄域设计的
 这种语言起源于学术界
 语言起源于工业
 这种语言起源于政府
代码
财产
c(c) 目标是易于理解
t吨 目标是翻译
(f) 目标是形式化表示(包括自动执行)
w个 该语言旨在书写
 该语言旨在被使用
d日 该语言是为特定的窄域设计的
 这种语言起源于学术界
 语言起源于工业
 这种语言起源于政府

最后,构建语言还有一个值得注意的方面:它们的生命周期。有些语言只不过是抽象的想法,有些语言已经离开这个阶段,应用于具体的问题,还有一些语言已经发展到在生产环境中广泛应用。在不同的成熟阶段,语言可以被中止或放弃,这意味着它们的生命周期结束。显然,这些不同的阶段相互交织,通常很难说出具体的出生年份或死亡年份(尤其是后者,因为大多数CNL都是无声无息地死去的)。在可能的情况下,我们将跟踪这些生命周期属性。

正如我们所看到的,这里介绍的CNL属性描述的是应用程序域,而不是语言本身。当然,文献中已经确定并讨论了几种基本的语言属性,如表达性(Mitamura和Nyberg1995; 博伊德、佐吉和法鲁克2005; 游泳池2006)、复杂性(Mitamura和Nyberg1995),语法修改(池2006)、可理解性、自然外观、模糊性、可预测性和定义的正式性(Wyner等人。2010). 然而,这些属性都非常模糊,不允许进行严格的分类。

为了为这些基本的语言属性构建一个原则性的分类方案,有必要将它们浓缩为几个在很大程度上(尽管不是完全)相互独立的维度。定义的模糊性、可预测性和正式性可以被我们称之为的维度所包含精度.表达能力可以构成第二个维度。语法修饰、可理解性和自然的观感可以结合到自然。第四个维度可以称为复杂性,或者具有“越多越好”类型的维度-简单这就是我们如何得出四个维度的精确性、表达性、自然性和简单性,这四个维度是钢笔分类方案。1

现有文献中提到的所有基本语言属性似乎都属于这些一般维度之一,或者可以分解为可以映射到这些维度的不同方面。任何两个维度之间都没有很强的依赖性(对于任何维度对,很容易想象在这两个维度中位于顶部、底部和两端的语言)。此外,没有明显的维度对可以以有意义的方式合并。总的来说,这似乎表明这组维度是最小但完整的。

该方案的发展源于这样一种见解,即CNL可以在概念上位于自然语言一端和形式语言另一端之间的灰色区域。一般来说,CNL比自然语言更正式,但比正式语言更自然。例如,像英语这样的自然语言表达能力很强,但复杂且不精确。相比之下,命题逻辑等形式语言非常简单和精确,但同时又不自然和难以表达。CNL必须位于中间的某个位置,但具体在哪里?

显然,所有四个维度在本质上都是连续的,或者至少是非常细粒度的。事实上,人们可以争辩说,每个维度实际上都是多维的,用一个维度表示它是一种粗略的简化。然而,为了对诸如表现力之类的模糊概念进行精确测量,这种简化是必要的。

直观地说,PENS使用英语等自然语言和命题逻辑等形式语言作为钉,以跨越一个概念空间,在这个空间中可以放置不同类型的受控自然语言。为了得到一个通用但严格的分类方案,PENS将其四个维度中的每一个限制为五个类别,从1到5,从而大大简化了事情。这五个类是不重叠的,连续覆盖了两个极端之间的一维空间:一端是英语,另一端是命题逻辑。为了精确和简单,英语位于第一类量表的底端,我们将其写为P1和S1命题逻辑在第5类的量表的另一端,用P表示5和S5为了表达和自然,角色被转换:英语处于顶端(E5和N5)和命题逻辑在底部(E1和N1). 通过这种方式,该方案为CNL定义了一个概念空间,其中包括作为特殊情况的自然语言和形式语言。结合这四个维度得出54=625类,用P等速记表示1E类5N个5S公司1英语和P5E类1N个1S公司5用于命题逻辑。这项智力练习中困难而有趣的部分是在哪里以及如何在每个维度的五个类之间划定边界。

决定为每个维度使用五个类,而不是四个或六个,有些武断。大量的类允许进行更详细的分类,尽管也很难制定严格客观的标准来定义这些类。五个似乎是一个很好的中间立场。

3.1精密度

PENS方案的精度维捕获了从文本形式即语言符号序列中直接检索文本在某种语言中的含义的程度。自然语言在这个意义上是非常不精确的,因为要掌握典型句子的含义需要大量的上下文信息。另一方面,形式逻辑语言具有最高的精确度,因为它们的含义仅根据其语言符号的可能序列进行严格定义。这里不考虑符号基础问题,即将符号映射到现实世界中的对应符号的问题,因为它影响到所有语言,包括自然语言和形式语言。在这个精度维度上,语言被分为五类P1,P2,P,P4、和P5,如下所示:

不精确的语言(P1).事实上,这些语言的每一句话都有一定程度的模糊性。如果不考虑上下文,大多数具有一定复杂性的句子都是模糊的。这种语言的自动解释是“AI-complete”,这意味着这是一个没有完整解决方案的问题。这些语言要求人类读者检查给定语句的语法是否正确,并包括读者不同意的边界语句。这同样适用于语言的语义属性。所有自然语言都属于这一类。

不太精确的语言(P2).对于这些语言来说,歧义和模糊的程度远低于自然语言,并且它们的解释不太依赖于上下文。它们限制了各种不同的歧义、模糊或上下文相关结构的使用和/或含义。然而,这些结构仍然占主导地位,无法使自动解释可靠。这些语言通常与形式(即数学上精确的)基础无关。

可靠的可解释语言(P).这些语言的语法受到严格限制,尽管不一定要正式定义。这些限制非常严格,足以使自动解释变得可靠。有一个逻辑基础,或者至少有一个形式化的概念框架,可以在其中表示句子的语义。然而,句子到其形式表示的映射本身并不是以完全形式化的方式定义的,而是需要外部背景知识、启发法或用户反馈。

确定性可解释语言(P4).这些语言在句法层面上是完全正式的;也就是说,它们是(或可以)由形式语法定义的。这种语言中的每一个文本都可以被确定性地解析为一个形式化的逻辑表示,或所有可能的表示(包括所有和仅可能的表示)的一小部分。基于潜在的形式主义,这些表示法描述了句子的含义,但在需要特定参数、背景公理、外部资源或启发式来实现合理推断的意义上,它们可能未被明确规定。

具有固定语义的语言(P5).这些语言是完全正式的,并且在句法和语义层面上都是完全指定的。每个文本都有一个确切的含义,可以自动导出。推论成立或不成立的情况是完全确定的。从语言中的给定文本得出的结论(例如,它是否一致,语言的哪些句子是文本的结果)可以用数学严密性来定义,无需启发式或外部资源的帮助。

3.2表达能力

表达性维度描述了某种语言能够表达的命题范围。如果语言X可以描述语言Y所能描述的一切,那么语言X比语言Y更具表现力,但反之亦然。“表现力更强”的关系并不构成一个总的顺序:对于两种表现力不相等的给定语言,可能是两种语言都不比另一种表达力更强(通常也是这样)。这就意味着,根据语言的表达能力,对一组语言进行线性排序是不可能完全客观的。因此,分类方案(如本文所示)必须仅依赖于所有可能的表达性特征的子集。这些表现力特征应该是一般的和重要的,同时允许对要分类的语言进行平衡和明确的区分。PENS分类方案采用了以下五个表现力特征:

  • (a)

    个体的通用量化(可能有限)

  • (b)

    arity大于1的关系(例如,二进制关系)

  • (c)

    一般规则结构(如果–那么具有多个通用量化的语句,可以针对关系的所有参数位置)

  • (d)

    否定(强烈否定或否定为失败)

  • (e)

    概念和关系的一般二阶普适量化

对于这些被认为满足的特征,它们应该是语言不可分割的一部分,而不仅仅是通过几个特殊情况来体现。还有许多其他重要特征可以考虑,例如,支持存在量化、平等和支持的言语行为类型(如陈述、疑问、指示和间接言语行为)。然而,为了将其简单地划分为五个类别,这些特征将被证明是足够的,并导致一种似乎与对表现力的直观理解相一致的分类。

因为这个分类系统不仅应该包括声明性的形式语言,还应该包括非正式的和过程性的语言,所以使用比通常应用于逻辑语言的表达性概念弱的概念是有意义的。从对编程语言的研究来看,我们可以采用这样一种约定,即如果某个语言结构的删除需要“整个程序的全局重组”,那么它就会增加表达能力(Felleisen1991). 如果某种语言结构允许我们在局部表达某些东西,否则需要我们重新组织整个文本,那么我们说这种语言结构使语言更具表现力。这意味着,例如,具有依赖于亨金语义的二阶特征的语言符合上述列表的最后一个标准,即使亨金语义可以简化为一阶。如果不进行全局重组(即更改实际上不使用二阶特征的语句),用亨金风格的二阶特征语言编写的给定语句集通常不能简化为一阶逻辑。有了这个资格,我们可以将五个类别定义如下:

非表达性语言(E1).这些语言缺乏一个或两个特征(a)和(b):它们没有通用的量化或大于1的arity关系。命题逻辑属于这一类。

低表达性语言(E2).这些语言具有(a)和(b)两个特征,但不是E-语言:它们对个体和大于1的arity关系具有通用量化。描述逻辑属于此类别。

中等表达能力的语言(E).这些语言具有所有特征(a)、(b)、(c)和(d),但不是E4-语言:除了E的特点外,它们还有一般的规则结构和否定2。一阶逻辑属于这一类。

高表达性语言(E4).这些语言具有所有列出的特征(a)、(b)、(c)、(d)和(e),但不是e5-语言:除了E的特征外,它们对概念和关系具有二阶通用量化。二阶谓词演算属于这一类。

具有最大表现力的语言(E5).这些语言可以表达任何可以在两个人之间交流的东西。这些语言涵盖任何类型逻辑中的任何语句。显然,这包括所有功能。所有自然语言都属于这一类。

3.3自然

自然度的维度描述了语言在可读性和可理解性方面与自然语言的接近程度。我们将这五类定义如下:

非自然语言(N1).这些语言看起来不自然,大量使用符号字符、括号或非自然关键字。可以使用自然词或短语作为某些实体的名称,但该语言既不要求也没有进一步定义。

非自然因素占主导地位的语言(N2).自然语言单词或短语是这些语言的组成部分,但它们被非自然元素或非自然语句结构所支配,或具有非自然语义。自然元素之间并没有以自然的方式相互连接,使用给定自然语言的人通常无法直观地理解各自的陈述。

具有主导自然元素的语言(N).在这些语言中,自然元素占主导地位,而非自然元素占支配地位,一般结构与自然语言语法相对应。然而,由于剩余的非自然元素或元素的非自然组合,这些句子不能被视为有效的自然句子。特定自然语言的使用者并不认为这些陈述是他们语言中格式良好的句子,但仍然能够在很大程度上直观地理解它们。

自然句语言(N4).这些语言的句子可以被视为有效的自然句子。使用各自自然语言的人会将这些语句视为其语言的句子,并且能够在无需指导或培训的情况下正确理解其本质。只要不干扰句子的自然观感和自然流畅,就允许出现轻微或罕见的例外情况和非自然的澄清方式(包括文本颜色、缩进、连字符和大写)。然而,在大多数情况下,括号和括号的位置不自然极大地干扰了自然文本流,因此通常不在此类别中。虽然单个句子有一种自然的流畅性,但这并不能扩展到完整的文本或文档。这种语言的完整文本看起来非常笨拙和重复,并且缺乏自然的文本流。

自然文本语言(N5).使用这些语言,完整的文本和文档可以用自然的风格、自然的文本流和自然的语义编写。就口语而言,完整的对话可以通过自然流动和言语行为的自然组合产生。

我们现在可以更精确地定义CNL。中所示定义的长版本的属性编号3第2.1节表示CNL“保留了其基础语言的大部分自然属性,以便基础语言的使用者能够直观、正确地理解受控自然语言中的文本,至少在很大程度上是这样的。”我们将以这样的方式解释这一点,即它只包括自然语言N和更高。因此,根据这个定义,不存在带有N的CNL1或N2.

3.4简洁

第四个维度是衡量一个涵盖语法和语义的准确而全面的语言描述的简单性或复杂性,如果这样一个完整的描述是可能的话。这种描述不应以任何自然语言的直观知识为前提。因此,它主要不是衡量人类学习语言所需努力程度的标准,也不能反映语言的理论复杂性(例如,乔姆斯基等级制度)。相反,它与在数学模型(如计算机程序)中完全实现语言的语法和语义所需的努力密切相关。

PENS方案采用了一个非常实用且简单的简单指标:用自然语言精确而全面地描述语言所需的页数。对于不存在或可以写下精确和全面描述的语言(这些语言不以读者的语言知识为前提,并且考虑到当前的科学状况),我们可以将自然语言的复杂性与相对较低复杂性的语言区分开来。

这些“准确而全面的描述”应该使用公认的语法符号来定义语法,并使用公认的数学或逻辑符号来定义语义,从而定义语言的所有句法和语义属性。假设他们使用科学文章或技术报告中的科学写作风格,并且应该允许熟练的语法工程师在合理的时间内实现正确完整的解析器。页面计数应基于单栏格式,每页最多700个单词。重要的是要注意,标准不是存在这样的描述,但是否是否可行写一个。

为了平等地对待具有固定词汇表和具有可扩展词汇表的语言,这些语言描述不需要包括词汇表。具体来说,这五个类别的定义如下:

非常复杂的语言(S1).这些语言具有自然语言的复杂性。不能准确和全面地描述它们。

没有详尽描述的语言(S2).这些语言比自然语言简单得多,从这个意义上说,复杂结构的很大一部分被消除或严格限制了。尽管如此,它们过于复杂,无法用准确和全面的方式来描述。通常,这些语言的定义只描述了对给定自然语言的限制,而这些限制被认为是理所当然的。

描述冗长的语言(S).这样的语言可以精确而全面地定义,但这需要十多页的时间。

带有简短描述的语言(S4).这些语言的准确和全面的描述需要超过一页但不超过十页。

描述非常简短的语言(S5).这种非常简单的语言可以在一个页面上以准确而全面的方式进行描述。

S公司1和S2被认为是复杂的,因为它们依赖于给定的自然语言。回到上一节中简要介绍的区别,这些语言通常定义为禁止的规则,描述与完整语言相比不允许的内容。S公司,S4、和S5相比之下,通常使用规定的从头定义语言的规则。因此,在我们的意义上,它们比第一类语言更简单,第一类语言“引入”了完整自然语言的复杂性。

在我们继续应用该方案之前,应该强调的是,PENS旨在测量自然一种语言,而不是它的质量有用性。它应该用于描述语言,而不是等级他们。由于不存在“完美”的语言,因此必须做出妥协。根据应用领域、环境和目标的不同,PENS维度会分配不同的权重,因此会产生不同的最佳级别。理论上,对于PENS的每个维度来说,越多越好,但这在实践中并不一定成立。对于给定的应用程序域,任何维度中的某个级别通常都足够好,超出该级别不会带来额外的好处。此外,由于我们将每个维度限定为五个类,因此可能会有较大的差异在内部一节课。不可避免的是,同一类中的两种语言在各自的维度上可能比相邻类中的语言相距更远。即使一种语言在各个维度上的PENS值都高于另一种语言,但这并不意味着前者在任何意义上都“更好”。例如,PENS的表达能力得分较高,只是意味着总体表达能力水平较高,而不是说该语言能够以较低的得分表达所有语言的每一句话。同样,自然度得分高并不意味着与得分低的所有语言相比,语言的各个方面都更自然。

我们现在可以转向实际调查。出于实际原因,我们在此仅限于基于英语的语言,而忽略了基于其他语言的CNL,如汉语、法语、德语、希腊语、西班牙语和日语(Pool2006). 为了概述现有的各种基于英语的CNL,这里介绍了十二种重要且有影响力的语言。完整清单见附录;令人惊讶的是,我们最终只使用了100种语言。此外,下面还介绍了一些其他的比较语言,如自然英语和命题逻辑。每种语言都根据字母代码和PENS方案的九个属性进行分类。最好的猜测是在没有足够信息的情况下做出的。如果语言相似或信息稀少,附录中的描述更短。此数据集也可以作为CSV表在线使用。2

有许多基于某种自然语言输入的用户界面方法,可以说它们都是间接定义并使用受控语言的,因为没有一种方法能够正确处理完整的自然语言。然而,只有当对语言的限制被认为是该方法的固有属性,而不是其实施的缺点时,才会将此类方法包括在内。换言之,以下列表不包括限制不是一般方法的设计决策而是实际让步的语言(例如,Warren和Pereira1982). 同样的标准也适用于动词化方法,该方法不可避免地定义了可被视为CNL(例如Halpin)的相应语言的受限版本2004; 贾拉尔、基特和多吉尔2006; 卢基切夫和瓦格纳2006). 其他语言遵循一种称为概念创作或所见即所得的方法(Hallett、Scott和Power2007)文本是通过短周期的语言生成和用户触发的修改操作创建的。我们在这里包括这些语言,因为在这种情况下,对语言的限制是该方法的一个重要方面。最后,应该提到的是,我们省略了虚构的语言,例如乔治·奥威尔的新话一九八四.

没有正式名称的语言由“带引号的通用名称”引入。除非另有说明,引用和示例均取自每段开头引用的出版物。

4.1基于英语的受控语言

下面介绍了十二个选定的CNL,大致按其首次出现或类似的前身语言首次出现的时间顺序排列。对于这个小样本,所选择的语言具有影响力,有很好的文档记录,和/或与样本中的其他语言有足够的不同。

“索瓦三段论”(索瓦2000亿)是基于亚里士多德(约公元前350年)最初引入的三段论的简单逻辑语言。索瓦可能是第一个将它们引入CNL背景的人,声称它们是第一个被报道的受控自然语言的例子。因为这项调查仅限于英语,所以这里列出的是索瓦的三段论版本,而不是亚里士多德的古希腊原文。完整的语言可以用四种简单的句型来描述:
  • 每个A都是B。一些A是B。不,A是B。有些A不是B。

A和B可以是任何英语常用名词,例如动物。该语言与该语言非常相似由Pratt-Hartmann提出和研究(2004),使用了一些其他模式:
  • 每个A都不是B。不,A不是B。P是B。P不是B。

这里,P可以是任何英语专有名称,例如苏格拉底我们将在包含类似方法的意义上使用术语“Sowa三段论”。三段论的语义也很容易定义。前四个模式可以映射到这样的一阶逻辑(其他模式也一样):
公式
至此,我们只需几行文字就可以对这种语言进行准确而全面的描述。尽管语言结构简单,句子却十分自然。然而,它的表达能力非常有限:只涵盖非常简单的句子结构,只支持一个地方的关系P(P)5E类1N个4S公司5,f w a(如果有)

基础英语(奥格登1930)是1930年提出的一种语言,应该可以改善全球人民之间的交流。这是第一个被报道的受控英语版本,至少是第一个得到广泛认可的版本。它影响了卡特彼勒基础英语,使其成为一种非常有影响力的语言。基础英语被设计成政治、经济和科学交流的通用基础。它限制了语法,只使用了850个英语词根。对于动词来说,这些限制可以说是最严厉的。仅支持18个动词:,,,得到,,,制作,保持,,,,似乎,,可以,,,看见、和发送这些动词可以与介词结合形成更具体的关系,例如放在表达插入其他动词可以借助名词来表达,例如移动一下而不是使用移动作为动词。给定单词及其变体的用法由非正式语法规则描述,例如,“集体名词与这个“以下是基础英语中的两个句子示例:

这位摄像师试图在社会女性脱帽之前拍摄她们的动态照片,直到警方审问他才下船。

他认为,再过一百年,英国将成为二流大国。存在许多使用较大词组的变体。维基百科的简单英语版本,例如,声称使用基础英语,但实际上使用的是一种限制少得多的语言。基础英语至今仍在使用,并由专门的基础英语学院推广。4许多文本都是用这种语言写的,包括教科书、小说和大部分圣经。与全英语相比,词汇层面的大幅简化和语法限制大大提高了准确性。然而,任何类型的主题都可以用自然文本流表达。然而,对语法的非正式限制不足以显著降低语言的复杂性(在PENS的复杂性意义上)P(P)2E类5N个5S公司1,密码

E-Prime公司E’(波兰德1965)是英语的限制版本,唯一的限制是动词成为禁止使用。这包括所有屈折形式,例如,存在,无论是用作助动词还是主要动词。该语言于1965年提出,但其思想可追溯到20世纪40年代末。使用E-Prime的动机是相信“危险和不足……可能是由于粗心、不假思索、自动使用动词造成的成为电子犯罪的支持者声称电子犯罪是为了提高清晰度。声明我们这样做是因为它是正确的是不允许的,但必须重新措辞,不包括成为,例如:

我们这样做是因为我们真诚地希望将我们的行动与我们所说的“理想”之间的差异最小化

然而,在自然语言处理领域,动词成为被认为是最困难的问题之一,这很好地证明了E-Prime在PENS意义上并不比全英语更精确。此外,就复杂性而言,它与全英语没有太大区别,因为诸如成为存在被允许可以代替被禁止的成为在大多数情况下。另一方面,似乎确实可以在不使用成为以一种完全自然的方式,尽管可能比原作更长P(P)1E类5N个5S公司1,c w a公司

卡特彼勒基础英语(CFE)(韦贝克1973)是卡特彼勒开发的一种有影响力的受控语言。它于1971年正式推出,以基础英语(Smart2003),据报道是最早的基于行业的CNL(Wojcik和Hoard1997). 由于卡特彼勒产品的日益复杂,以及需要与不同国家的非英语服务人员进行沟通,因此需要使用受控语言(韦贝克1973)“总结一下这个问题:有20000多份出版物必须被讲50多种不同语言的数千人理解。”CFE的理念是“消除翻译服务手册的需要”(Kamprath等人。1998). 熟悉卡特彼勒产品的训练有素、不会说英语的技工应能在完成由30节课组成的CFE课程后理解该语言。该语言的词汇量限制在800到1000个单词左右(Crabbe2009),其中每一个仅定义了一个含义(例如。,正确的只是作为的相反左边). 尽管如此,许多单词“语义范围很广,人们认为它们会在上下文中被人类读者消除歧义”(Kamprath等人。1998). 以下十条规则总结了语法限制(克拉布2009):

图解的

以下是CFE句子的两个示例:

最大端隙为.005英寸。

只能用吊梁起吊重物。

卡特彼勒于1982年终止了CFE,因为(除其他原因外)“CFE的基本准则在编制的英文文件中不可强制执行”(Kamprath等人。1998). 因此,卡特彼勒技术英语(见附录)的开发采用了不同的方法:对语言的限制应该是强制性的,并且应该降低翻译成本,而不是试图完全消除对翻译的需要。强大的词汇限制和一些语法限制使CFE比全英语更精确,但在表达性、自然性和复杂性方面没有太大差异P(P)2E类5N个5S公司1,c w d i公司

美国联邦航空管理局空中交通管制用语(联邦航空局2010)是美国联邦航空管理局(FAA)定义的一种受控语言,用于空中交通协调中的通信,至少可以追溯到20世纪80年代初。还有其他非常相似的空中交通管制语言,如国际民航组织(ICAO)和民航局(CAA)用语。在很大程度上,这些语言彼此无法区分,有时它们被统称为空中讲话(罗伯逊1987). FAA短语由300多个固定句型定义,例如“(ACID),在错过进近的情况下(发出交通信号)。滑行飞机/车辆左/右跑道。”这是遵循该句型的语句示例:

联航623,在复飞的情况下,飞机在跑道右侧滑行。

除了这些显性模式外,还有许多以散文形式定义的隐性模式,例如“发布关于……鸟类活动的咨询信息。包括鸟类的位置、种类或大小(如果已知)、飞行路线和高度。”

一群鹅,一点钟,七英里,北行,最后一次报告是四千。

词汇和语义也受到限制,例如“使用单词获得和/或损失当向飞行员描述风切变对空速的影响时。”在没有模式表达所需信息的情况下,短语陈述可以与全英文陈述混合使用。该语言受到严格限制,比全英语的歧义少得多。从不支持通用量化的意义上来说,这是无法表达的,也不足以限制精确详尽的描述P(P)2E类1N个S公司2,c s d g公司

ASD简化技术英语(ASD-STE)(ASD2013),通常缩写为简化技术英语(STE)或者只是简体英语,是航空航天行业的CNL。最初灵感来自一种叫做ILSAM的语言(Adriaens和Schreos1992)该语言起源于1979年,但直到1986年才首次正式提出,当时以该名称命名AECMA简体英语2004年,AECMA与其他两个协会合并,成立ASD,从而获得了现在的名称。该语言的主要目的是使文本更容易理解,尤其是对非母语人士而言。尽管AECMA简体英语旨在使翻译成为其他语言成为不必要的,但ASD-STE的最初目标之一是改进翻译。如今,该语言由简化技术英语维护小组维护。ASD-STE以英语为基础,在大约60条一般规则中表达了限制。这些规则限制了语言在词汇层面上的使用(例如,“仅将字典中批准的单词用作给定的词类”),在句法层面上的限制(例如,”不要使名词簇包含三个以上的名词“),以及在语义层面上(例如,“保持字典中单词的认可含义。不要将该单词与任何其他含义一起使用。”)。有一个由航空航天领域通用术语组成的固定词汇表。此外,还可以引入用户定义的“技术名称”和“技术动词”。这是ASD-STE文本的示例性摘录:

这些安全预防措施是在燃油箱中工作所必需的最低要求。但当地法规可以规定其他必要的安全预防措施。

尽管它的限制使ASD-STE比全英文要精确得多,但它不允许可靠的自动翻译。保留了无拘无束的英语的充分表现力和完全自然,但也保留了其复杂性。-P(P)2E类5N个5S公司1,c t w d i

标准语言(SLANG)(Rychtyckyj2002,2005)是福特汽车公司从1990年开始开发的一种语言。它是为包含部件和车辆装配厂制造说明的工艺表而设计的。它仍在福特公司使用,并不断扩展和更新,以反映技术和业务相关的进步。有了SLANG,工程师可以编写清晰、简洁、同时机器可读的指令。根据这些指令,除其他外,系统可以自动生成所需元素的列表并计算工时。此外,利用语言的局限性,在机器翻译的帮助下翻译这些指令,以便在不同国家的装配厂中使用。所有SLANG句子都是祈使语气,遵循一定的一般模式,以主动词开头,后跟名词短语。在词汇和语义方面还有其他限制。以下是两个示例性句子:

从库存中获取发动机缸体加热器组件

在橡胶O形圈和芯开口上涂抹润滑脂

解析器用于检查是否符合限制。英语语法后面有一些小偏差:例如,冠词可以去掉,某些修饰语可以用不自然的方式使用P(P)E类1N个4S公司2,c、f、w、d、i

SBVR结构化英语(OMG公司2008)是2005年左右首次提出的业务规则CNL。它是商业词汇和商业规则语义(SBVR)标准的一部分。它可能受到一种叫做RuleSpeak的语言的影响,这种语言非常相似,于1994年首次提出。词汇表是可扩展的,由四种句子成分组成:术语(即概念)、名称(即个人)、动词(即关系)和关键字(如固定短语、量词和限定词)。每个都有自己的颜色和风格,如下例所示:

图解的

SBVR标准提供了基于二阶逻辑和Henkin语义的形式语义。第二个例子利用了二阶特征。一些关键字具有精确的含义,例如表示包含逻辑析取(除非后跟但不是两者都有). 然而,其他关键字则不太精确,例如限定符被定义为“通用或存在量化,取决于基于英语规则的上下文”。该语言严格定义了允许的句子成分,但在定义这些成分的排列顺序方面则不那么严格。语法结构可能不明确(例如,在使用在同一句中),量词范围和回指也可以。语言没有正式的语法,其定义在一定程度上取决于人类读者的语言理解P(P)E类4N个4S公司2,c f w i公司

尝试控制英语(ACE)(Fuchs、Kaljurand和Kuhn2008)是一个CNL,它自动且明确地转换为一阶逻辑。ACE于1996年首次作为软件规范语言提出。后来,重点转向了知识表示和语义网。多年来,该语言以各种方式得到了扩展。ACE最显著的特征包括复杂名词短语、复数、回指、从句、情态和疑问句。以下是两个典型的ACE语句:

客户拥有无效或损坏的卡。

每个非南极洲的大陆都至少有两个国家。

ACE句子被确定性地映射到话语表示结构,这是一阶逻辑的符号变体。然而,这些表达式没有明确规定,因为许多推论(例如,当涉及复数或情态动词时)需要外部背景公理,而ACE定义没有固定这些公理(这些公理是外部的,因为它们在ACE中不一定能表达)。这使得可以在不同领域使用ACE,例如本体编辑器、规则系统和语义不完全兼容的通用推理机。除了少数几个小的例外,ACE在句子层面上是完全自然的,但较长的文本没有自然的文本流。最近,ACE也被用于基于规则的机器翻译(Kaljurand和Kuhn2013)但在语言设计过程中,翻译并不是一个明确的目标P(P)4E类N个4S公司,f w a(如果有)

“起草人语言”(鲍尔和斯科特1998)是一个名为Drafter-II的系统中使用的CNL。该语言用于向文字处理人员和日记管理员发出指令。该系统使用概念创作方法:用户不能直接编辑CNL文本,但只能从一个小存根句子开始触发修改操作。这样,用户就可以逐步完成不完整的语句。以下示例是两个不完整语句的序列,显示了一个这样的完成步骤:

地铁列车时刻表这个事件通过应用这个方法.

通过申请安排预约这个方法.

第一句话缺少两个部分:这个事件这个方法。此时,用户可以选择,例如,约会填写第一个缺失的部分,这将导致第二个语句,该语句仍然不完整,但只剩下一个缺失部分。语句完成后,Drafter-II会在内部将其映射到Prolog表达式,然后自动执行这些表达式。由于结构歧义可以根据给定的修改动作序列来解决,因此采用概念创作方法的语言通常不会试图完全消除结构歧义。一个给定的文本可以有多个解析树,其中只有一个对应于它的创建方式P(P)4E类1N个4S公司,f w d a(预测)

E2V型(普拉特·哈特曼2003)是2001年引入的受控语言,与该语言相对应在后来的工作中学习(普拉特·哈特曼2004). 最终目标是“为自然语言系统规范提供可用的工具”。E2V确定性地映射到一阶逻辑的两变量片段。因此,E2V句子和文本的可满足性是可判定的,计算是NEXPTIME完成的。E2V句子的两个例子如下:

有些艺术家并不轻视每个养蜂人。

每一个雇佣木匠的艺术家都鄙视每一个仰慕他的养蜂人。

该语言由15条简单语法规则和9条预定义的通用词汇规则定义,例如每一个不会。单独的用户定义词典包含特定于域的单词,例如艺术家爱慕者总之,E2V是一种精确、自然、简单但相对难以表达的受控语言P(P)5E类2N个4S公司4,f w a(如果有)

正规英语(FE)(马丁2002)是用于知识表示的CNL。它以概念图和知识交换格式为基础,注重表现力。它涵盖了广泛的特性,包括通用量化、否定、上下文(关于语句的语句)、λ抽象、可能性、集合、间隔和高阶语句(可简化为一阶逻辑)。FE中的两个语句示例如下所示(第二个是高阶语句):

至少93%的[健康状况良好的鸟]可以成为飞行代理人。

如果'a binaryRelationType*rt对chrc具有及物性',那么'^x对*rt^y具有及物能力,而*rt^z'则'^x对应*rt^z’。

FE在简单的语句中看起来很自然,但在更复杂的语句中变得很不自然。这是由于不自然地使用了括号、引号、变量和关键字,例如chrc公司。该语言的语法由解析器生成器语言中约50条规则定义P(P)5E类4N个S公司,f w a(如果有)

4.2用于比较的语言

为了在下一节中描述分析,我们将使用以下语言进行比较,它们是根据我们的定义,CNL:

英语是我们自然语言的代表P(P)1E类5N个5S公司1,密码

命题逻辑是一种非常基本的逻辑语言P(P)5E类1N个1S公司5,f w a(如果有)

一阶逻辑可以认为是命题逻辑的扩展。它更具表现力,但也更复杂P(P)5E类N个1S公司4,f w a(如果有)

COBOL公司是最古老的编程语言之一,有人称之为受控自然语言(Sowa2000年). 这是一个示例性COBOL语句:

在C从1乘2变化到C大于10之前,进行P测试。

虽然COBOL使用自然短语,而其他编程语言使用符号或短关键字,但语句结构并不真正遵循自然语法。因此,我们不认为它是CNL。-P(P)5E类2N个2S公司,f w a i g

曼彻斯特OWL语法(Horridge等人。2006)是本体语言OWL的用户友好语法。这是一个示例性表达:

披萨和不披萨(有一些鱼头)和不披萨饼(有一些肉头)

代替逻辑符号的是诸如一些使用。然而,一般结构类似于正式语言而不是自然语言,这就是为什么我们不认为它是CNLP(P)5E类2N个2S公司4,f w a(如果有)

当然,还有更多的语言可以用来进行比较,但这个列表似乎是一个很好的示例。

上一节和附录中提供的数据允许进行不同类型的汇总和分析。特别是,观察到的语言的类别和属性以及它们进化的时间轴是有趣的。

5.1PENS类

表2总结了所讨论CNL的PENS类和属性。在这些数据中可以找到一些有趣的模式。理论上有5个4=625个可能的PENS类,但并非所有的类都是“在野外”观察到的。据我们所知,有些甚至是几乎不可能的,例如完美类P5E类5N个5S公司5。前面介绍的CNL涵盖了25个不同的类,相对于整个PENS空间而言,这些类似乎数量不多,但正如我们将看到的,它们分布广泛。尽管可以识别类和属性的一些热点,但语言表现出了广泛的多样性。

2

观察到的PENS类和CNL属性(按PENS类排序)。


属性
语言
P(P)1E类5N个5S公司1 c t w i公司 IBM的EasyEnglish
c w s g公司 特殊英语
c w a公司 E-Prime公司
c重量 简明语言
P(P)2E类1N个S公司2 c s d g公司 CAA短语、FAA短语、ICAO短语、PoliceSpeak、SEASPEAK
P(P)2E类1N个S公司 c w d i公司 空客警告语言
P(P)2E类5N个4S公司1 f w a(如果有) 美国国际开发署
P(P)2E类5N个5S公司1 c t w d a i公司 ALCOGRAM公司
c t w d a公司 CLCM公司
c t w d i ASD-STE、Avaya CE、Bull GE、CTE、CASL、Douglas CE、DCE、通用汽车GE、PACE、防晒
c、t、w、d Wycliffe Associates的轻松英语
c t w i公司 iCE、SMART控制英语
c w d i公司 AECMA-SE、CFE、CASE、克拉克CE、IBM CE、罗克韦尔CE、EE、HELP、ILSAM、KISL、NCR FE
cwd克 马萨诸塞州立法起草语言
c w i公司 波音技术英语、NSE、SMART普通英语
密码 基础英语
时间和地点 MCE,Océ受控英语
太瓦 KCE公司
twi公司 法规判例法
P(P)E类1N个4S公司2 c、f、w、d、i SLANG(俚语)
f s d i 语音操作
P(P)E类2N个4S公司 f w d a(预测) RNLS公司
P(P)E类N个S公司 f w a(如果有) ClearTalk公司
f w i 意大利CE
P(P)E类N个4S公司2 f w我 CPL公司
P(P)E类4N个4S公司2 c f w i公司 规则峰值,SBVR-SE
P(P)4E类1N个4S公司 f w d a公司 绘图语言,MILE查询语言
P(P)4E类1N个4S公司4 f w a(如果有) Quelo受控英语
P(P)4E类1N个5S公司 t f d a公司 PILLS语言
P(P)4E类2N个4S公司 f w d a(预测) 原子语言
f w a i(如果有) Gellish英语
f w a(如果有) GINO指导英语
f w i CELT公司
P(P)4E类N个4S公司 f w d a(预测) PROSPER CE公司
f w a(如果有) 王牌
P(P)4E类N个5S公司 f w d a(预测) ICONOCLAST语言
P(P)5E类1N个4S公司 f w d a(预测) CLEF查询语言
f w a(如果有) 人参导游英语
P(P)5E类1N个4S公司4 f w d a(预测) Coral的受控英语
f w a(如果有) PathOnt CNL公司
P(P)5E类1N个4S公司5 f w a(如果有) 索瓦三段论
P(P)5E类2N个S公司4 全世界 TBNLS公司
f w a(如果有) OWLPath的指导英语,SQUALL
P(P)5E类2N个4S公司 如果有 CPE、CLIP、OWL ACE、SOS
P(P)5E类2N个4S公司4 f w d a(预测) BioQuery-CNL、PERMIS CNL、ucsCNL
如果有 CLOnE、DL-英语、E2V、Lite自然语言、OSE
fw克 兔子
P(P)5E类N个S公司 f w d a(预测) CLM、ForTheL、Naproche CNL
f w a(如果有) CLCE、PNL
P(P)5E类N个4S公司 f w d a(预测) 小黄瓜
fw和g RECON公司
f w a(如果有) 一阶英语,PENG,PENG-D,PENG Light
f w i iLastic受控英语
P(P)5E类4N个S公司 f w a(如果有) 

属性
语言
P(P)1E类5N个5S公司1 c t w i公司 IBM的EasyEnglish
c w s g公司 特殊英语
c w a公司 E-Prime公司
c重量 简明语言
P(P)2E类1N个S公司2 c s d g公司 CAA短语、FAA短语、ICAO短语、PoliceSpeak、SEASPEAK
P(P)2E类1N个S公司 c w d i公司 空客警告语言
P(P)2E类5N个4S公司1 f w a(如果有) 美国国际开发署
P(P)2E类5N个5S公司1 c t w d a i公司 ALCOGRAM公司
c t w d a公司 CLCM公司
c t w d i ASD-STE、Avaya CE、Bull GE、CTE、CASL、Douglas CE、DCE、通用汽车GE、PACE、防晒
c t w d公司 Wycliffe Associates的轻松英语
c t w i公司 iCE、SMART控制英语
c w d i公司 AECMA-SE、CFE、CASE、克拉克CE、IBM CE、罗克韦尔CE、EE、HELP、ILSAM、KISL、NCR FE
cwd克 马萨诸塞州立法起草语言
c w i公司 波音技术英语、NSE、SMART普通英语
密码 基础英语
时间和地点 MCE,Océ受控英语
太瓦 KCE公司
twi公司 影响力
P(P)E类1N个4S公司2 c、f、w、d、i SLANG(俚语)
f s d i 语音操作
P(P)E类2N个4S公司 f w d a(预测) RNLS公司
P(P)E类N个S公司 f w a(如果有) ClearTalk公司
f w i 意大利CE
P(P)E类N个4S公司2 f w i CPL公司
P(P)E类4N个4S公司2 c f w i公司 规则峰值,SBVR-SE
P(P)4E类1N个4S公司 f w d a(预测) 绘图语言,MILE查询语言
P(P)4E类1N个4S公司4 如果有 Quelo受控英语
P(P)4E类1N个5S公司 t f d a公司 PILLS语言
P(P)4E类2N个4S公司 f w d a公司 原子语言
f w a i(如果有) Gellish英语
f w a(如果有) GINO指导英语
f w i CELT公司
P(P)4E类N个4S公司 f w d a(预测) PROSPER CE公司
f w a(如果有) ACE公司
P(P)4E类N个5S公司 f w d a(预测) ICONOCLAST语言
P(P)5E类1N个4S公司 f w d a(预测) CLEF查询语言
f w a(如果有) 人参指南英语
P(P)5E类1N个4S公司4 f w d a(预测) Coral的受控英语
f w a(如果有) PathOnt CNL公司
P(P)5E类1N个4S公司5 f w a(如果有) 索瓦三段论
P(P)5E类2N个S公司4 全世界 TBNLS公司
f w a(如果有) OWLPath的指导英语,SQUALL
P(P)5E类2N个4S公司 f w a(如果有) CPE、CLIP、OWL ACE、SOS
P(P)5E类2N个4S公司4 f w d a(预测) BioQuery-CNL、PERMIS CNL、ucsCNL
f w a(如果有) CLOnE、DL-英语、E2V、Lite自然语言、OSE
华氏度 兔子
P(P)5E类N个S公司 f w d a(预测) CLM、ForTheL、Naproche CNL
如果有 CLCE、PNL
P(P)5E类N个4S公司 f w d a(预测) 小黄瓜
fw和g RECON公司
f w a(如果有) 一阶英语,PENG,PENG-D,PENG Light
f w i iLastic受控英语
P(P)5E类4N个S公司 f w a(如果有) FE公司

概念空间中语言的可视化可以让我们更好地了解数据。因为PENS方案是四维的,所以很难在一个图中可视化所有维度。图1显示了六个可能的维度对中的每一个的图表:点表示CNL,与自然语言(如英语(白点)和常见形式语言(黑点))相比。请注意,圆点表示PENS类,而不是单个语言。

1

与自然语言(白点)和通用形式语言(黑点)相比,现有CNL的PENS维度可视化。每个点表示包含一种或多种语言的PENS类。

1

与自然语言(白点)和通用形式语言(黑点)相比,现有CNL的PENS维度可视化。每个点表示包含一种或多种语言的PENS类。

关闭模态

很明显,CNL广泛分布在自然英语(白点)和命题逻辑(角落里的黑点)这两种极端情况之间。从任何角度来看,现有的CNL集都有很大的差异。除了自然度级别小于3的子空间外,根据我们的定义,其中不存在CNL,它们覆盖了概念空间的很大一部分。这表明PENS是区分不同CNL的强大方案。

图表还显示,从任何角度来看,CNL类形成一个单独的云,而不是两个或多个断开连接的云。这意味着很难找到一个干净的分类方案,来细分现有的大量多样的CNL。这似乎证明了在广义上使用CNL一词,而不是用更具体的术语取代它的决定是合理的。

对于几个维度对,可以观察到强相关性。精确性和简单性呈正相关:更精确的语言往往更简单(Spearman秩相关系数ρ=0.90,使用单个语言作为数据点,不包括用于比较的语言)。表达性和简洁性表现出强烈的负相关性:表达性更强的语言往往更复杂(ρ= −0.82). 此外,自然性/表现力是非常积极的(ρ=0.77)与自然度/简单度呈显著负相关(ρ= −0.76). 在稍小的程度上,获得了成对精度/自然度的负相关值(ρ=−0.67)和精确性/表现力(ρ= −0.66). 这些观察结果似乎符合人们的直觉预期。

5.2属性

让我们看看属性。表3显示了我们考虑的每个属性及其组合的CNL数。由于某些语言比其他语言使用得更广泛、时间更长,这些数字并不一定反映不同语言类型的实际重要性或流行程度。该表还显示了每种类型的平均PENS值。再次,我们在解释这些数字时应该小心,因为所有语言都具有同等的权重,这没有考虑到某些语言比其他语言更成熟、更广泛。然而,这些数字揭示了一些有趣的事实。

具有平均PENS值的现有CNL的特性。

图解的
 
图解的
 

对于不到一半的语言,目标是提高可理解性。形式表示是另一半的目标,只是稍微重叠。大约22%的所有语言都以可译性为目标。这些类型有很大的重叠c(c)t吨而这两者几乎没有重叠(f)因此,现有的CNL方法可以大致分为两组规模相似的语言:一组由提高可理解性和可翻译性的语言组成,另一组由以形式表示为目标的语言组成。主要是类型语言c(c)t吨是特定领域的,起源于工业,更注重表现力和自然性,而不是精确性或简单性。语言类型(f)相比之下,大多数人都有学术渊源,往往更加注重精确和简单,而牺牲了表达和自然。

当谈到书面语言和口语之间的区别时,我们看到的是一个非常片面的画面:90%以上的语言都是为了写作;我们发现只有七种语言是可以说的(其中一种是可以说书面)。原因可能是在实践中控制口语要困难得多。书面文本可以在出版前修改并交给语言检查员,而口语通常缺乏这两个阶段的过程。有趣的是,七种口语中有六种源于政府环境。平均而言,书面语言在所有四个维度上的PENS值都较高。

关于特定领域,数据是平衡的。大约有一半的语言是为一个特定而狭窄的领域设计的。另一半采用更通用的方法。可理解性是特定领域语言的普遍目标,它们大多起源于工业。关于PENS尺寸,没有明显的趋势。

关于最后三种属性,数据显示学术和工业CNL的语言数量相似:分别为50种和43种语言。另一方面,只发现了10个源自政府环境的CNL。然而,必须指出的是,与学术界或政府提供的语言相比,工业界提供的CNL信息通常要少得多。因此,本次调查中漏掉的大多数语言(由于信息缺失或难以找到)很可能是工业语言。在某些其他属性的情况下也可能存在这种偏差。无论如何,学术界显然更多地关注语言的形式表现,而非可理解性或翻译,而工业界似乎有相反的关注点。

5.3设计决策

除了描述当前的技术水平外,表3在创建新的CNL时,可以成为制定设计决策的宝贵工具。在这种情况下,要定义的语言的应用程序环境通常是固定的,但还不是语言本身的固有属性。这些固有的语言属性应该只在设计过程中固定。在早期设计阶段,表3可用于检查针对给定环境属性组合的CNL的先前工作的级别。它还提供了此环境中典型CNL的PENS类,可用于指导设计过程。

例如,如果您打算创建一个特定于域的工业CNL来增强可理解性,该表告诉您这些属性的组合一点也不奇怪(至少是成对组合)。此外,该表表明,这种语言通常在P之间有一个PENS类2E类N个4S公司1和PE类5N个5S公司2作为第二个例子,有人可能想设计一个用于语音翻译的CNL。快速查看表可以发现,到目前为止还没有报告过这样的CNL,这表明设计这样的语言需要大量的原创工作。我们还发现,典型的口语CNL在表达性和自然性方面与典型的翻译语言有很大不同。这表明了两个重要的设计决策:结果语言的表现力应该如何,以及自然程度如何?

该表可以揭示有关设计决策的此类问题,但当然无法回答这些问题。然而,关于类似问题领域和环境中现有方法的此类信息对于将设计工作集中于关键方面非常有价值。

5.4时间表

因为CNL已经定义和使用了几十年,并且相互影响,所以有趣的是,将这些语言的演变绘制在一个时间轴上,如下所示图2做。每个小节代表一种语言的“生命”,即学习或使用该语言的时期。对于某些语言来说,“出生”或“死亡”的年份是未知的,这是由虚线条淡入淡出表示的。垂直线显示出生时来自其他语言的影响(实线表示报告的影响;虚线表示未报告但似乎可能的影响)。如图例所示,条形图的颜色代表了语言的目标。

2

受控英语演变的时间表。

2

受控英语演变的时间表。

关闭模态

最古老的CNL,基础英语,也是最有影响力的。它影响了CFE,也间接影响了ILSAM,这两种语言本身都很有影响力。总共有20多种语言直接或间接受到基础英语的启发。在较新的语言中,ACE在后代语言方面最具影响力。

在CNL的演变中寻找一个整体主题,我们可以确定一些可以称为三个“时代”的东西:一般、技术和逻辑时代。这个一般时代一直持续到20世纪60年代末或70年代初。在此期间,只定义和使用了一些语言,所有这些语言都是为了提高人类的理解力,并作为通用语言使用,没有特定的应用领域或狭隘的社区。这些语言在其小的利基中幸存下来技术时代从20世纪70年代初开始,CNL被应用于技术文档中,以提高人类理解能力和机器翻译能力。同样,这一语言分支并没有在时代末消失,直到今天仍在使用,但出现了一种新型的CNL。逻辑时代这始于20世纪90年代中期,许多CNL都是通过某种形式的逻辑映射创建的,这不仅实现了自动处理,而且实现了实际的自动解释。这三个时代部分符合第2.3节:第一批CNL为类型c(c),类型t吨出现在技术时代,类型(f)在逻辑时代。

5.5评估

最后,我们可以转向一个我们尚未讨论的关键方面:CNL是否真正实现了其设计目标?据报道,许多研究评估了这些语言的假定优势。相关的研究问题显然取决于语言应该达到的目标。在最一般的形式中,针对类型的研究问题c(c),t吨、和(f)可以如下所述:

  • c(c)CNL是否会使人类之间的沟通更精确、更有效?

  • t吨CNL是否在给定的质量水平上降低了整体翻译成本?

  • (f)CNL是否使人们更容易使用和理解逻辑形式主义?

每个一般研究问题都可以分解,大多数研究都针对更具体的问题。

对于类型c(c),两项关于AECMA-SE的研究表明,使用受控英语显著提高了文本理解能力,对复杂文本和非母语者的影响尤其大(Shubert等人。1995; Chervak、Drury和Ouellette1996). 其他研究的结果相似但不显著(Stewart1998). 研究发现,在压力情境(特姆尼科娃)等特定情况下,语言CLCM对大多数读者群体的阅读理解有积极影响2012).

关于类型t吨据报道,在机器辅助翻译中使用受控语言MCE会导致“翻译时间的五对一增长”(Ruffino1982). PACE语言也有类似的结果,使用PACE语言进行机器辅助翻译的后编辑比没有PACE语言的翻译“快三到四倍”(Pym1990). 已经表明,遵守典型的CNL规则可以提高编辑后的生产力和机器翻译质量(Aikawa等人。2007; 奥布莱恩和罗图里尔2007). 对于CLCM语言,据报道,CNL文本比非受控文本(Temnikova和Orasan)更容易翻译2009; 特姆尼科娃2012)并且后期编辑所需的时间平均减少了20%(Temnikova2010; 特姆尼科娃2012).

类型研究(f)可以细分为测试CNL工具的一般可用性的工具和专门评估实际语言可理解性的工具。从可用性研究开始,已经表明CLOnE语言的界面比通用本体编辑器更可用(Funk等人。2007). 同样,Coral的受控英语也被证明比类似的通用查询界面(Kuhn和Höfler)更容易使用2012). GINO也报告了CNL工具的积极可用性结果(Bernstein和Kaufmann2006)CLEF(Hallett、Scott和Power2007),CPL(Clark等人。2007)、PERMIS(Inglesant等人。2008),兔子(Dimitrova等人。2008)和ACE(库恩2009). 关于可理解性研究,CLEF查询语言表明,普通用户能够正确解释给定的语句(Hallett、Scott和Power2007). ACE已被证明比通用本体表示法(Kuhn2013)而对兔子语言的实验结果喜忧参半(Hart、Johnson和Dolbear2008).

除了这些高级评估之外,还报告了更具体的测试,如覆盖率评估(Bernstein等人。2006; 卡尔朱兰2007)、性能、融合(Adriaens和Macken1995),可解析性(Wojcik、Harrison和Bremer1993),计算复杂性(Pratt-Hartmann2003; 索恩和卡瓦内斯2010)、文本复杂性和文本长度(Temnikova2012).

总的来说,对于每种语言类型,似乎都有很好的证据表明使用CNL可能是有利的。当然,这并不意味着CNL方法总是表现得更好。这在很大程度上取决于精确的问题域、用户的背景以及最重要的问题——语言及其支持工具的设计质量。

最后,我们可以回到本文导言中列出的目标。第一个目标是从理论上更好地理解受控语言的本质。首先,本文表明,尽管现有CNL种类繁多,但它们可以由单个定义涵盖。拟议定义的标准几乎包括文献中称为CNL的所有语言。我们可以证明,在概念空间中,这些语言在一端是自然语言,另一端是形式语言之间形成了一个广泛分散但相互连接的云。CNL比自然语言更正式,但比正式语言更自然的非正式声明得到了证实和验证。

下一个目标是建立通用术语和通用模型。我们强调了环境语言的属性语言本身另一方面。这两个方面都很重要,但第二个方面更难定量描述。收集了九个通用属性来描述CNL的应用环境。作为该模型的一个新补充,我们提出了四维PENS方案来描述固有的语言属性。该方案允许在精确性、表达性、自然性和简单性的维度上对CNL进行离散规模的分类。总之,这使我们能够以一种简单的方式对语言及其环境的重要属性进行形式化建模,并将顺序和结构置于之前模糊且不相连的字段中。

第三个目标是为对CNL感兴趣的研究人员提供一个起点。这方面最重要的结论是,存在的CNL比以往任何调查中发现的都要多。此前,最全面的概述统计了41个CNL(Pool2006)基于各种自然语言,而这项调查仅涵盖英语的100种语言。语言的多样性以及研究和使用语言的不同环境显然导致了许多CNL研究人员和开发人员没有意识到大量相关语言。作为研究人员的起点,这项工作提供了12种重要且有影响力的语言的不同样本,以及收集的所有CNL的长列表。引入的语言和环境模型也有助于确定特定的研究重点和收集相关的前期工作。

第四个目标是帮助CNL开发人员做出设计决策。为此,本调查的数据可用于指导开发人员在给定环境和问题域中使用现有的CNL方法。这些数据可以揭示某种CNL的使用是常见的、罕见的还是迄今为止不存在的,这可以用来指示所需的原始工作量。此外,在给定的使用场景中,可以检索到CNL在精确性、表达性、自然性和简单性方面的典型语言属性。这些信息对于确定重要的设计决策和寻找现有的构建方法可能非常有用。

最后,我想指出,受控语言的研究是一个非常活跃和高度跨学科的领域,在学术界、工业界和政府界占据了大部分小的利基。然而,将所有这些利基组合在一起,可以为我们提供大量过去和正在进行的工作。假设未来人们将不得不与计算机和跨语言边界进行更密切的交互,我相信我们将在这一领域看到更多的工作。

这是按字母顺序排列的100个英语国家许可证的完整列表。请参见第4节了解此集合的详细信息。

AECMA简体英语(AECMA-SE)(AECMA)1986)是ASD简体技术英语的前身。请参见第4.1节.-P型2E类5N个5S公司1,c w d i公司

美国国际开发署(库恩等人。2013)是一个CNL,允许在一种称为“nanopublications”的语义发布方法中对科学断言进行非正式和未指定的表示。单个英语句子用作未指定表示的支架,并用于在基于RDF的正式结构中包含非正式语句。这些句子有原子句、独立句、声明句和绝对句(因此得名AIDA)。这是一个示例:

有和无SBP病史的肝硬化患者的肝网状内皮功能损害程度无差异。

-P(P)2E类5N个4S公司1,f w a(如果有)

“空中客车警告语言”(斯帕贾里、博贾德和坎内松2003)是一种用于简短工业警告的语言,侧重于缩写并限制词序。这是一个典型的陈述:

ENG1 REV NOT LOCKED(发动机1倒档未锁定)

-P(P)2E类1N个S公司,c w d i公司

壁龛图(阿德里安斯和施雷奥斯1992)是阿尔卡特开发的CNL。它起源于COGRAM,是一种“算法变体”,侧重于在计算机辅助语言学习工具中的使用。与COGRAM不同,COGRAM由三个组件组成,用于声明性地定义语言,ALCOGRAM是基于四阶段算法定义的。这四个阶段中的每一个都会检查某些方面:预备性文本控制(例如,“提前定义技术术语和首字母缩写词”)、句法控制(例如:“为单个动作每句写一条指令”)、词汇控制(例如“避免特定性别的语言”)、,和微控制(例如,“当数字是句子中的第一个单词时,使用单词表示数字”)。以下是ALCOGRAM语句的两个示例:

将开关置于中间。按下你右边的按钮。

当调用测试电路时,将返回具有适当发射电平的测试音调。

-P(P)2E类5N个5S公司1,c t w d a i公司

ASD简化技术英语(ASD-STE)。请参见第4.1节.-P(P)2E类5N个5S公司1,c t w d i

“原子语言”(Van Kleek等人。2010)是Atomate接口的一部分,它允许用户定义简单的自动任务和提醒,同时考虑上下文和当前活动。该语言的灵感来自CLOnE、ACE、GINO和人参系统。这是这样一个任务定义的示例:

星期二下午5点以后,当我的位置在家时,用消息提醒我:垃圾日!

一个特殊的编辑器支持用户使用预测编辑和概念创作的混合方式编写这样的句子。这些句子被映射到RDF,并在满足前提条件时自动触发P(P)4E类2N个4S公司,f w d a(预测)

尝试控制英语(ACE)。请参见第4.1节.-P(P)4E类N个4S公司,f w a(如果有)

Avaya受控英语(阿瓦亚2004)是电信和计算行业技术出版物的语言。它的使用应该减少翻译成本,并且应该使文本更容易被人类读者理解。它对词汇设置了限制(例如,“不要使用中止)、语法(例如“使用主动语态”)、语义(例如“可以仅用于授予权限”)和样式(例如,“将命令名设置为粗体单空格类型”)。大约250个单词的公开列表定义了给定计算机和电话领域的首选术语,并阐明了这些单词的用法和含义。以下是两个句子示例:

此过程描述了如何将双ACD链路连接到服务器。

如果主服务器出现故障,您可以使用辅助服务器。

-对2E类5N个5S公司1,c t w d i

基础英语。请参见第4.1节.-P(P)2E类5N个5S公司1,c周

生物查询-CNL(埃尔登和叶尼特齐2009)是一种用于生物医学查询的语言。它是基于答案集编程的查询引擎的接口语言。BioQuery-CNL最初设计为ACE的子集,在预处理步骤中处理一些小修改。ACE解析器用于处理语言。然而,在后来的版本中,该语言与ACE不同,发展成为一种具有自己解析器的独立语言。这是一个示例性查询:

Hmg-coa还原酶类药物的靶向基因是什么?

-P(P)5E类2N个4S公司4,f w d a(预测)

波音技术英语(Wojcik、Holmback和Hoard1998)是AECMA简体英语的扩展,以提高文档的可读性和一致性,具体目标是将范围扩大到航空领域之外。这种语言似乎已经停止使用,显然从未在波音公司使用过P(P)2E类5N个5S公司1,c w i公司

公牛全球英语(智能通信公司。1994)或牛控英语是法国计算机公司Groupe Bull开发的一种语言。

它可能受到了SMART简明英语的影响。公牛全球英语可以总结为以下十条规则(Karkaletsis和Spyropoulos1997)与卡特彼勒基础英语的规则有相当大的重叠:

图解的
-P(P)2E类5N个5S公司1,c t w d i

CAA短语学(CAA2011)是民航局(CAA)在20世纪80年代或更早时候引入的空中交通管制语言。这与美国联邦航空局和国际民航组织的措辞非常相似P(P)2E类1N个S公司2,c s d g公司

卡特彼勒基础英语(CFE)。请参见第4.1节.-P(P)2E类5N个5S公司1,c w d i公司

Caterpillar技术英语(CTE)(海耶斯、麦克斯韦和施曼德1996; 坎普拉斯等人。1998)是卡特彼勒开发的第二个CNL。它的开发始于1991年,也就是在CFE停止使用将近十年之后。除了提高技术文档的一致性和减少歧义外,CTE的目标是借助机器翻译提高翻译质量并降低翻译成本。这是CTE文本的一个示例:

此类别表示交流发电机出现故障。如果指示灯亮起,将机器开到方便的停车位置。调查原因并确定解决方案。

与CFE相反,CTE中的文本应该在发给非英语国家的人员之前进行翻译。另一个不同之处是,CTE被设计成一种“可执行的受控英语”,附带一个创作工具,强制遵守这些限制。CTE词典由约70000个“狭义范围”术语组成(相比之下,CFE的语义范围更广,只有不到1000个术语)。句法也受到限制,包括连词、代词和从句的使用限制。CTE带有一个语言检查器,允许在词汇层面进行交互式消歧,用SGML注释丰富技术文本,并使用KANT系统的语法分析器(参见KANT受控英语)P(P)2E类5N个5S公司1,c t w d i

简明英语(CASE)(皮姆1990)是上世纪80年代引入建筑和农业设备制造商J.I.Case公司的一种受控英语。它起源于CFEP(P)2E类5N个5S公司1,c w d i公司

ClearTalk公司(溜冰鞋2003)是20世纪90年代首次提出的语义Web的CNL。其创建者声称,ClearTalk中的文档可以“几乎自动”翻译成正式的逻辑符号和其他自然语言。它“提供了一种灵活的形式”,让作者可以选择“保留或消除歧义”。它已被用于不同技术领域的25000多个事实的编码。ClearTalk在句法层面上受到严格限制(例如,基本句子具有一般形式主谓补语修饰短语)以及语义上的(例如,限定词主题位置代表普遍量化)。这些限制体现在大量规则中。下面给出了两个句子示例:

修饰动词的任何副词都必须与(该动词或另一副词)相邻。

玛丽希望比尔爱她。

ClearTalk本身可以在ClearTalks中进行描述;第一个例子来自于这种自我描述。不同形式的括号用于消除不同类型范围的歧义P(P)E类N个S公司,如果有

“CLEF查询语言”(哈雷特、斯科特和鲍尔2007)是一种在名为CLEF(临床电子科学框架)的系统中使用的语言,它应该可以帮助临床医生、医学研究人员和医院管理员查询电子健康记录。语言受到起草人语言的影响。基本查询由三个元素组成:相关患者的集合、接受的治疗和结果。这是一个示例:

对于所有胰腺癌患者,服用吉西他滨的患者五年存活率是多少?

复杂查询可以具有相同类型的多个元素。该系统使用概念创作方法编写查询,然后通过几个步骤将查询转换为SQL并提供给数据库引擎P(P)5E类1N个4S公司,f w d a(预测)

COGRAM公司(阿德里安斯和施雷奥斯1992)是20世纪80年代末为电信领域(阿尔卡特)开发的一种受控语言。COGRAM是针对现有受控语言AECMA简体英语、爱立信英语和IBM受控英语“在许多方面都不完整和有缺陷”这一发现而开发的。COGRAM由约5000个单词加上1000个技术术语组成的词汇表,以及约150条规则的语法组成。这些规则分为三类:“不要使用X”、“只使用X”和“避免(尽量不要使用)X”。最后一类语法规则可视为不限制语言覆盖范围的样式指南。语言定义分为三个部分:词汇(例如“使用规则动作动词的短不定式”)、句法(例如“不要使用分词引入状语从句”)和文体(例如“阐述主要话题,限制次要话题”)。COGRAM的定义被发现“不是技术作家在写作过程中使用的最具激励性的文本”,这导致了ALCOGRAM的发展。-P2E类5N个5S公司1,c t w d a i公司

通用逻辑控制英语(CLCE)(索瓦2004)是一种语言,可以以概念图形交换格式的形式翻译为具有相等性的一阶逻辑。它由巴克斯-努尔形式的语法定义,“当分析句子时,可以解决所有歧义。”一些最重要的语法限制是:没有复数名词,只有现在时,以及变量而不是代词。为了明确地映射到逻辑,应用了一些解释规则,并使用括号确定深度嵌套句子的结构。这种语言中的句子应该与软件文档和数学教科书中的句子类似,例如:

如果一个人x是一个人y的母亲,那么这个人y就是这个人x的孩子。

声明给予为动词(代理人给予收件人主题)(代理人给予接收人主题)(主题由代理人赋予接收人)(主题是由代理人赋予收件人的)(接收人由代理人赋予主题)。

祈使句,作为第二个例子,用于导入或声明单词。名字、名词、动词、形容词、副词和介词都可以这样声明P(P)5E类N个S公司,f w a(如果有)

计算机可处理英语(CPE)(普曼1996; 苏卡利耶和普曼1999)是一种可“完全进行语法和语义分析”的受控语言。该语言的早期版本使用KIF作为其逻辑形式主义,而McLogic后来使用。该语言具有作为Prolog统一语法实现的双向语法。此处显示了两个示例:

每个动物X都吃一些比X小的动物。

每个借阅少于十份副本的注册用户都可以借阅所有可用副本。

逻辑的映射似乎是确定性的,尽管现有文献对此并不明确P(P)5E类2N个4S公司,如果有

计算机可处理语言(CPL)(克拉克等人。2005)是波音公司开发的英语的受控变体。这与波音公司参与的早期CNL方法(如ASD-STE和波音技术英语)有很大不同。CPL比这些早期的方法更具局限性,为了支持自动推理,在一定程度上牺牲了表达性和自然性。基本CPL句子仅限于模式主语+动词+补语+附加语语法上还有进一步的限制,例如,必须使用明确的指称,而不是代词。涉及通用量化的语句由七个模板构成,例如“如果句子1,则通常是句子2”,其中句子1句子2是上述结构的基本CPL句子,其中通常情况下是可靠性程度:其中之一(几乎)总是,通常,有时、和从未以下是CPL句子的两个示例:

如果一个人携带的是房间内的物体,那么(几乎)他总是在房间内。

一个人关上一道屏障后,(几乎)总是会关上这道屏障。

解析器将CPL语句转换为具有定义良好语义的基于框架的语言。与大多数其他具有定制解析器的基于逻辑的CNL方法相比,CPL的解析过程涉及不同的外部工具和资源。无限制英语的现有解析器用于生成中间逻辑形式。然后,WordNet和其他资源用于进行“最佳猜测”。然后,对得到的逻辑表示进行解释,并显示给用户进行验证或更正P(P)E类N个4S公司2,f w i

受控汽车服务语言(CASL)(手段和戈登1996; Means、Chapman和Liu2000)是通用汽车公司在20世纪90年代开发的用于编写维修手册和公告的受控语言。目标是提高可译性,以及一致性和可读性。这种方法从“以作者为中心的模式”转变为“混合模式”,其中包括编辑的角色,然后于2000年全面投入生产(戈登2000). CASL限制由62条规则定义,包括对句子结构、词序、词汇和标点符号的限制。这是一个典型的句子:

一些疾病是由接触石棉引起的,潜伏期为10至40年或更长。

编写器由名为CASLChecker的软件工具支持P(P)2E类5N个5S公司1,c t w d i

“克拉克受控英语”(阿德里安和施里奥斯1992)是克拉克材料处理公司使用的语言。它是在20世纪80年代末左右发展起来的,受到了SMART简明英语的影响P(P)2E类5N个5S公司1,c w d i公司

“道格拉斯受控英语”(克莱曼1982)是麦克唐纳·道格拉斯航空公司于1979年为其技术手册开发的一种语言。它基于一本大约2000个单词(大多数是动词)的字典,偏爱简短的单词,目标是每个单词都有一个意思,每个单词都只有一个意思。除了字典中的单词外,还可以引入“命名词”。目标是提高可读性、可译性和标准化。它可能受到CFE的影响,并对AECMA SE.-P产生了影响2E类5N个5S公司1,c t w d i

“IBM受控英语”(阿德里安斯和施雷奥斯1992)是IBM在20世纪80年代末开发和使用的一种语言。它受到了ILSAM的影响,可能也影响了IBM几年后开发的EasyEnglish。它依赖于一个封闭的单词列表,并且作者得到了不同的教学程序的帮助P(P)2E类5N个5S公司1,c w d i公司

“罗克韦尔受控英语”(阿德里安斯和施雷奥斯1992)是罗克韦尔国际公司使用的一种语言。它是在20世纪80年代末发展起来的,受到SMART简明英语的影响P(P)2E类5N个5S公司1,c w d i公司

受控英语逻辑翻译(CELT)(皮斯和李2010)是2003年推出的受控自然语言。它是一种受ACE启发的与域相关的语言。与ACE相比,它使用现有的语言和本体资源,具体地说是SUMO本体和WordNet。以下是两个示例性句子:

狄更斯在1837年写了《雾都孤儿》。

每个男孩都喜欢软糖。

对CELT句子的句法结构进行了确定性分析。只有在将单词映射到SUMO和WordNet之后才应用启发式。该语言在Prolog中实现为统一语法P(P)4E类2N个4S公司,f w i

危机管理受控语言(CLCM)(特姆尼科娃2010; 特姆尼科娃2011; 特姆尼科娃2012)是一种书写如何处理危机情况的指令的语言。该语言由大约80条简化规则定义。这些简化规则包括对文本结构的限制(例如,“为每一种特定情况写一个标题”)、格式的限制(如,“用新行分隔每个指令块”)、词汇的限制(比如,“避免使用技术术语”)、语法的限制(例,“避免被动语态”)、语义的限制(示例,“只使用字面意义”)、,和语用学(例如,“删除不重要的信息”)P(P)2E类5N个5S公司1,c t w d a公司

推理用受控语言(CLIP)(苏卡拉2003)是一种基于逻辑符号McLogic并受CPE影响的语言。它是“语义驱动的”,意味着它是围绕给定的逻辑形式主义而设计的,而不是相反。此处显示了两个示例:

每个笑的学生都会成功。

史密斯和琼斯签订了五份合同。

-P(P)5E类2N个4S公司,f w a(如果有)

本体编辑控制语言(CLOnE)(Funk等人。2007),以前称为CLIE控制语言是一种设计为OWL前端语言的CNL,仅涵盖其中的一小部分。它由十种基本句型定义。它在OWL之上添加了过程语义,以引入和删除实体和公理。以下是CLOnE句子的两个例子:

人是文件的作者。

忘记一切。

-P(P)5E类2N个4S公司4,f w a(如果有)

针对统一翻译优化的受控语言(CLOUT)(穆格2007)是一个用于改进机器翻译的CNL。它限制了词汇,禁止使用被动语态和代词等结构P(P)2E类5N个5S公司1,twi公司

受控数学语言(CLM)(胡马雍和拉法利2010)是一种表达数学文本的语言,如教科书中所示。该语言类似于Naproche CNL和ForTheL。CLM的语法在语法框架中实现,并允许确定性转换为一阶逻辑。目标是自动验证数学证明P(P)5E类N个S公司,f w d a(预测)

Coral的受控英语(库恩和霍夫勒2012)是一种受控语言,用于向带注释的文本语料库表达形式查询。它受ACE的影响,但表达力更低、更简单、更具领域特异性。它被嵌入到一个名为Coral的查询界面中,使没有特定计算机科学背景的用户能够有效地使用注释文本的大型语料库。这是一个示例性查询:

查找名词短语包含动词短语的所有段落;动词短语位于介词短语之前;介词短语包含动词“see”;

此类查询被确定性地映射到AQL,AQL是一种现有的正式查询语言。该语言由51条简单的语法规则定义P(P)5E类1N个4S公司4,f w d a(预测)

迪堡受控英语(DCE)(海耶斯、麦克斯韦和施曼德1996; 摩尔2000)是迪堡开发的一种受控语言,其目标是通过使用特定翻译工具帮助人工翻译,使翻译速度更快、成本更低。它受到了CTE的启发,但在词汇和语法方面没有那么严格,使得方法更加灵活。它由三个主要组件组成:词汇数据库、语法规则集和检查工具P(P)2E类5N个5S公司1,c t w d i

DL-英语(索恩和卡瓦内斯2010)是一种基于描述逻辑的受控语言,与其他类似语言一起提出,以研究和比较其计算复杂性。它与同一研究小组的Lite自然语言相似P(P)5E类2N个4S公司4,f w a(如果有)

“起草人语言。”请参见第4.1节.-P(P)4E类1N个4S公司,f w d a(预测)

E-Prime公司E’。请参见第4.1节.-P(P)1E类5N个5S公司1,c w a公司

E2V。请参见第4.1节.-P(P)5E类2N个4S公司4,f w a(如果有)

EasyEnglish(由IBM提供)(伯尔尼1997)不要与威克利夫联合公司的EasyEnglish混淆,它是IBM开发的一种语言,可能受到同一家公司早期控制的英语(Adriaens和Schreos)的影响1992). EasyEnglish的主要目标是改进机器翻译。该方法基于一个复杂的语法检查器,可以返回建议和警告。除了检测常见的语法错误外,该系统还可以强制使用特定的受控词汇,并可以发现歧义。对于这种模糊性,系统可以提出替代方案,但最终取决于用户是否遵循系统的建议。给定文档中遇到的问题以清晰度指数的形式量化,清晰度指数必须高于某个阈值。事实上,语言的限制并没有强制执行,只是建议使用,这并不能使语言比全自然英语更精确或更简单。EasyEnglish后来进行了扩展,不仅可以检查句子级别,还可以检查文档级别,这已经在名为EasyEngleishAnalyzer(Bernth)的工具中实现2006)P(P)1E类5N个5S公司1,c t w i公司

EasyEnglish(由Wycliffe Associates提供)(打赌2003)不要与IBM的EasyEnglish混淆,它是一种用于抄写圣经文本的受控语言。最初的目标是改进翻译成其他语言的过程,但EasyEnglish也被英语知识有限的读者直接使用。语言在词汇、语法和语义方面受到限制。有两个级别:A级使用约1200个单词,B级使用约2800个单词的较大词汇量。在这两种情况下,这些词的含义都是有限的。例如,公平的只能表示无偏见的、和来看看不能用在这个意义上见面。可以使用列表中没有的单词,如果它们是用单独的简易英语句子解释的话。以下是EasyEnglish中的一段文字摘录(沼泽地不在词典中,必须解释):

苏格兰的高地由湖泊、山脉和荒野组成。沼地是一片平坦空旷的土地,没有树木生长。这片土地非常美丽,因为它是如此空旷。

句子长度严格限制为20个单词,段落不能超过150个单词。句子结构保持简单,每个句子不允许超过两个限定子句和两个介词短语。此外,深度嵌套和被动操作也受到了限制。此外,文本应遵循逻辑简单性:“鼓励通俗英语作者识别复杂句子或段落中的基本思想单位,并按逻辑顺序排列。”2E类5N个5S公司1,c、t、w、d

爱立信英语(EE)(阿德里安斯和施雷奥斯1992)是爱立信在20世纪80年代早期开发的一种语言,受到ILSAM的影响。它建立在一个可接受单词的封闭列表上,但如果在EE中附带定义,则可以引入其他单词。-P2E类5N个5S公司1,c w d i公司

FAA空中交通管制术语。请参见第4.1节.-P(P)2E类1N个S公司2,c s d g公司

一阶英语(游泳池2006)是一种映射到一阶逻辑的受控自然语言。没有此语言的详细描述P(P)5E类N个4S公司,f w a(如果有)

正式英语(FE)。请参见第4.1节.-P(P)5E类4N个S公司,f w a(如果有)

对于TheL(Vershinin和Paskevich2000)是数学文本的CNL,类似于Naproche CNL和CLM。这个名字代表“形式理论语言”。这种语言中的语句可以自动翻译成等式的一阶逻辑。以下是示例文本:

引理1。每个集合都有一个子集。

证明。0是所有集合的子集。量化宽松政策。

-P(P)5E类N个S公司,f w d a(预测)

Gellish英语(范伦森2005)是一种被设计为工业通用数据语言的受控语言。第一版于1998年推出。基本上,它由简单的主语-谓语-宾语结构组成,这些结构以固定短语的形式具有预定义的关系,如“是的特殊化”和“在上下文中有效”。以下是两个例子:

集合C每个元素都是动物的特化

埃菲尔铁塔的朝向为h1

h1被归类为高度

h1合格为300m

关于这些陈述上下文的元信息可以用附加的“附属事实”的形式表示。Gellish建立在一个固定的上层本体论之上,其中包含大量预定义的概念和关系类型。Gellish中的文本可以转换为正式的表格表示。语言的语义没有完全形式化,这意味着没有映射到已建立的逻辑形式主义。Gellish支持简单的if–then规则(范伦森2011),但这些规则不允许以一般方式对多个变量进行通用量化P(P)4E类2N个4S公司,f w a i(如果有)

通用汽车全球英语(梅斯、查普曼和刘2000)或者只是全球英语是通用汽车公司开发的一种受控语言。目的是提高非母语人士的理解力和可译性。它由15条规则定义,这些规则基于四个原则:“简短”、“清晰”、“直接”和“文化警觉”。这些规则包括限制句子长度和语法限制,如排除被动语态。CASL语言是由通用汽车公司几年前开发的CASL语言62条规则中的12条规则简化而来的。与CASL相比,Global English没有提供用于检查是否符合限制的软件工具P(P)2E类5N个5S公司1,c t w d i

小黄瓜(Nečas)2011)是一种为软件规范编写可执行场景的语言。这是场景描述的摘录:

场景:由于整个课程,注册失败

鉴于我是一名学生

还有一个讲座“PA042”,只能容纳20名学生

但是这个课程的容量已经满了

[…]

结构词,如鉴于,而且、和但是都是固定的。对剩余文本的限制,如“我是学生”,使用正则表达式在普通编程语言中实现,并存储在称为“步骤定义”的小模块中。具体的步骤定义不是Gherkin的一部分,但必须为手头的特定任务实现。因此,Gherkin具有高度的可定制性和可扩展性,这里给出的分类旨在应用于基于Gherkin.-P的典型具体语言5E类N个4S公司,f w d a(预测)

“GINO英语指导”(伯恩斯坦和考夫曼2006)是GINO中使用的一种语言,GINO是一个查询和编辑本体的系统。该语言受人参的影响,支持相同类型的查询。此外,GINO对引入新实体的程序性语句的支持有限,例如:

有一个子类水域被命名为湖泊。

查询语句映射到SPARQL,过程语句映射到要添加或修改的OWL公理。查询可能会出现结构歧义,在这种情况下,系统会评估所有可能的解释,并向用户显示其答案的联合。描述语言的语法由120条语法规则组成P(P)4E类2N个4S公司,f w a(如果有)

《人参导游英语》(Bernstein等人。2006)是一个名为Ginseng的系统中使用的CNL,这是一个以OWL本体形式访问知识库的查询接口。该语言的词汇表是从相应的本体加载的。以下是两个查询示例:

与内华达州接壤的州首府是什么?

有一个城市是一个州的最高点吗?

语法由120个静态语法规则和从本体生成的附加动态规则组成P(P)5E类1N个4S公司,f w a(如果有)

Hyster简易语言程序(HELP)(智能2003)是20世纪80年代为叉车维护手册开发的受控英语。它基于SMART简明英语,因此间接基于CFE(Pym1990). — P(P)2E类5N个5S公司1,c w d i公司

国际民航组织用语(欧洲管制局2009)是国际民用航空组织(ICAO)在20世纪80年代甚至更早时候定义的空中交通管制管制语言。这与FAA和CAA的措辞非常相似P(P)2E类1N个S公司2,c s d g公司

“ICONOCLAST语言”(电源1999)是一个CNL,负责编写患者信息传单。它类似于Drafter语言。使用概念创作方法,并在后台使用形式化逻辑表示。这是一个简单的示例:

如果你出现皮疹,你应该咨询医生。

-P(P)4E类N个5S公司,f w d a(预测)

iHelp控制英语(iCE)5是一种由文档咨询公司iHelp Ltd开发的语言。iCE由“一套灵活的规则和词汇组成,适用于希望标准化和改进其信息的公司。”-P2E类5N个5S公司1,c t w i公司

iLastic受控英语(iLastic公司2012)是一种允许非开发人员编写直观自然的脚本的语言,可以自动检索、转换和组合来自Web、数据库、文件和其他资源的数据。这是一个示例性声明:

如果磁盘空间低于1024,则删除tmp文件夹下的所有文件。

-P(P)5E类N个4S公司,f w i

国际维修语言(ILSAM)(皮姆1990)是一种有影响力的语言,类似于20世纪70年代衍生的卡特彼勒基础英语P(P)2E类5N个5S公司1,c w d i公司

ITA管制英语(ITA CE)(莫特2010)是由美国/英国军事研究项目国际技术联盟定义的受控语言。它受到CLCE的启发,但在精确度方面没有那么严格:它具有“非正式含义和到谓词逻辑的半形式映射”。以下是两个不同类型的语句示例:

如果(人X将人Y作为兄弟)和(人Z将人X作为父亲),则(人Z把人Y作为叔叔)。

“计划失败了”,因为“有误解”。

第一个例子展示了一个“逻辑规则”;第二个例子是“基本原理”陈述。括号和变量用于消除歧义。大约90条语法规则定义了语言P(P)E类N个S公司,f w d我

KANT受控英语(KCE)(Mitamura和Nyberg1995)是KANT翻译系统中用于机器翻译的受控自然语言。该语言于1995年首次以这个名称出现,但当时已经被研究和使用了好几年。重点是技术文件,KCE是开发卡特彼勒技术英语的基础。词汇、语法和语义受到限制。此外,通过使用SGML标记增强输入句子,可以交互式地解决歧义问题。例如,在下面的句子中,介词“with 12 rives”的附件是模棱两可的:

用十二个铆钉固定齿轮。

在KCE中,可以通过使用SGML标记来增加句子来解决这种歧义,例如“Secure the gear with<attach head='Secure'modi='with'>12个铆钉”。对于语言的分类,问题是SGML标记是语言的一部分,还是仅仅是一种跟踪有关歧义性的决策的方法。SGML标记有助于提高语言的准确性,但严重阻碍了语言的自然性。由于这种标记标记通常是隐藏的,并且KCE文本最初没有标记,只是后来才添加标记,因此我们认为它们是KANT方法的一部分,而不是受控语言本身的一部分P(P)2E类5N个5S公司1,tw-da时间

柯达国际服务语言(KISL)是柯达于20世纪80年代初开发的CNL。一些人认为它是CFE的后代(Spaggiari、Beaujard和Cannesson2003). — P(P)2E类5N个5S公司1,c w d i公司

Lite自然语言(伯纳迪、卡尔瓦内斯和索恩2007)是基于E2V语言及其变体的CNL。它具有到DL-Lite的确定性映射,这是一种逻辑形式主义,针对良好的计算特性进行了优化,并且相当于OWL的子集P(P)5E类2N个4S公司4,如果有

“马萨诸塞州立法起草语言”(马萨诸塞州参议院2003)是马萨诸塞州参议院定义的法律文本的限制语言。其目的是“促进起草风格的统一,并使最终制定的法规清晰、简单、易于理解和使用。”该语言由大约100条规则定义,这些规则限制了句法(例如“使用现在时和指示性语气”)、语义(例如“不要将‘认为’用于‘考虑’”)、,和文档结构(“使用短节或小节”)。此外,有将近90个单词和短语是不能使用的,并建议每个单词和短语的替换(例如。,隐藏而不是隐藏、和休息而不是余数). — P(P)2E类5N个5S公司1,cwd克

“MILE查询语言”(Piwek等人。2000)是一种访问海事规则和条例的语言。它遵循与Drafter和CLEF语言非常相似的概念创作方法P(P)4E类1N个4S公司,f w d a公司

多国定制英语(MCE)(鲁菲诺1982)是施乐公司开发的一种受控语言,用于提高机器辅助翻译的质量。它基于ILSAM(Adriaens和Schreos1992). 它使用限定的特定领域词汇和“一套鼓励清晰简明英语和尽量减少歧义的写作规则”。-P2E类5N个5S公司1,时间和地点

北电标准英语(NSE)(智能2006)是由电信设备制造商北电开发的一种语言。1995年,在SMART Communications的帮助下,该语言开始发展,可能受到了SMART Plain English的影响P(P)2E类5N个5S公司1,c w d i公司

Naproche CNL公司(Cramer等人。2010)是一种用于数学文本的受控语言,类似于CLM和ForTheL。Naproche CNL中的文本可以确定地映射到一阶逻辑,然后自动检查逻辑正确性。以下是用这种语言编写的证明的摘录:
公式
根据其作者的说法,大多数数学教科书的文本“可以在Naproche CNL中重写,使其与原文相似。”-P5E类N个S公司,f w d a(预测)

NCR基础英语(不符合项报告1978)是NCR公司开发的CNL。该语言被用于公司的技术手册,以便“NCR员工和全球客户更容易阅读和使用”。以下是两个句子示例:

在维修装置时,如果需要,现场工程师也会进行正常维护。

只有激活维护锁后才能进行维护。

该语言由三部分组成:术语、词汇表和词汇表。语言中的每个单词都属于这些类别中的一个。命名法是由不同类型的命名个体实体组成的开放集,例如产品名称、工具、例程以及命名模式和条件。词汇表是技术概念的另一个开放词汇集,例如审计跟踪,不能用短语或使用词汇的简短子句替换。最后,词汇表是最有趣的部分。它由1350个单词(动词、名词、副词、形容词、代词、介词、冠词和连词)和650个缩写组成。词汇的内容包括基本词汇,如,、和在里面到特定领域的术语,例如测试件,校准、和应税的这些单词的意思是有限制的,每个单词都有完整的英语定义。名词中等的例如,它被定义为“一种支付方式”,不得在任何其他意义上使用。语法没有明确限制P(P)2E类5N个5S公司1,c w d i公司

Océ受控英语(库奇亚里尼2002)是一种由荷兰印刷和复印公司Océ开发的受控语言。OcéControlled English与传统机器翻译技术相结合,以提高公司17种不同语言文档的翻译质量。语言的一个重要特性是它能产生更简洁的文本。例如,不是“在多个窗口中,一个图标显示打印机的当前状态/活动。有关每个状态的描述,请参阅下面的列表。”,而是这样写:

这些图标显示复印机的状态或活动。

该语言是在SMART Communications的MAXit Checker的帮助下实现的P(P)2E类5N个5S公司1,时间和地点

OWL计轴评估器(Kaljurand和Fuchs2006)是本体语言OWL的受控语言。从语法上讲,它是ACE的一个子集。在语义上,它是针对OWL的表达性而定制的,并且比ACE更具体,因为它的语义不明确,尤其是在复数形式的情况下。因此,OWL ACE比ACE更精确,但表达能力较差P(P)5E类2N个4S公司,f w a(如果有)

“OWLPath的引导英语”(Valencia-García等人。2011)是一种用于名为OWLPath的工具的查询语言,使用该工具可以查询本体。此语言中的语句以短语开头查看任何。以下是两个示例:

查看BMF中的任何COMMODITY has_quoted_price。

查看2009年4月24日STOCK_PRICE.lastTrade大于30美元且包含在Dow_Jones中的任何公司。

这些语句被翻译成SPARQL查询语言。尽管它们的结构大致遵循英语语法,但它们不能被视为有效的英语句子P(P)5E类2N个S公司4,f w a(如果有)

OWL简体英语(电源2012)是一种用于语义网的受控语言。与大多数其他方法相比,没有真正的词典,既没有内置的,也没有用户定义的。只有极少数的虚词是预定义的,用户必须列出他们打算使用的动词。所有其他词类都是根据句法线索推断出来的,例如大写和相邻词。这是一个例子(假设受管辖的生活列为动词):

伦敦是一个由住在唐宁街的人统治的国家的首都。

-P(P)5E类2N个4S公司4,f w a(如果有)

“PathOnt CNL”(Kim等人。2005; 南宫和金2007)是为名为PathOnt的工具开发的受控语言。该工具是多语言的,支持英语和韩语。这种语言中的语句被确定性地映射到RDF三元组。以下是两个示例性句子:

Nam是一名名为Kim的教授指导的学生。

固定在福尔马林中的标本是软组织肿块。

这种语言似乎只涵盖简单的存在陈述P(P)5E类1N个4S公司4,f w a(如果有)

(施维特2002)是一种受控语言,其名称代表“可处理英语”。它是一种丰富但明确的语言,可以通过话语表示结构自动翻译为具有相等性的一阶逻辑。它受到ACE的启发,并且该方法非常注重预测编辑。以下是两个示例:

每个动物A都吃所有的植物,或者吃所有比A小并且吃一些植物的动物B。

狐狸睡觉时,猫追鸟。

-P(P)5E类N个4S公司,f w a(如果有)

彭-丁(施维特和蒂尔布鲁克2004)是一种源自PENG的语言,主要区别在于PENG-D建立在RDF和OWL之上,而不是建立在话语表示结构之上P(P)5E类N个4S公司,f w a(如果有)

PENG灯(施维特2008)是另一种源于PENG的语言。它映射到一阶逻辑的TPTP符号P(P)5E类N个4S公司,f w a(如果有)

Perkins认证的清晰英语(PACE)(皮姆1990)是一种由Perkins开发的受控语言,Perkins是一家柴油发动机制造商,现在是Caterpillar的子公司。该语言于1980年引入,基于ILSAM。目标是改进机器辅助翻译。为了避免使用同义词,PACE附带了一本词典,该词典在1990年被逐步扩展并统计了2500个词条,例如“passage(n):流体沿其流动的钻孔”。PACE总结在“简化写作的十条规则”中:

图解的
前五条规则的目的是使文本简短,后五条规则的目的是使文本更加明确。这是一个由两个PACE语句组成的示例:

松开发电机或交流发电机的枢轴紧固件。同时松开调整连杆的紧固件。

-P(P)2E类5N个5S公司1,c t w d i

PERMIS受控自然语言(Inglesant等人。2008)是一种用于表示网格计算环境的访问控制策略的语言。它基于CLOnE,具有授权策略的特定扩展:

工作人员可以在HP Laserjet 1上打印。

我相信大卫会说出谁是经理。

这些语句被映射到不同的形式目标符号。每个语句都遵循九种语句模式中的一种P(P)5E类2N个4S公司4,f w d a(预测)

“PILLS语言”(Bouayad-Agha、Power和Belz2002)是一种用于称为PILLS的系统中使用的医疗信息文档的语言。它遵循与ICONOCLAST语言相似的编辑方法,该语言是由同一研究小组在几年前开发的。使用PILLS方法,可以从主文档自动生成不同类型的文档,并将其翻译为不同的语言P(P)4E类1N个5S公司,t f d a公司

简明语言简明英语(美国证券交易委员会1998; 平原2011)是美国政府和其他组织的倡议。它起源于20世纪70年代,旨在使官方文件更容易理解,减少官僚作风。“使用代词直接对读者说话”和“避免双重否定和例外情况”是两条典型的规则。与其他此类风格指南不同,许多指南规则都很严格,根据2010年《简明写作法》,美国政府机构有义务遵守这些规则。由于关注的是人类的可理解性和可接受性,从计算的角度来看,与全英语相比,普通语言的文档似乎并不更加精确或简单P(P)1E类5N个5S公司1,c重量

政策峰值(约翰逊2000)是一种语言,用于改善英吉利海峡隧道内英语和法语警察的交流。目标是“使警方的沟通更简洁、更可预测、更稳定、不那么模棱两可。”该项目于1988年启动,语言于1992年准备就绪。它与SEASPEAK有着相似的目标和应用领域,以及不同的空中交通管制用语P(P)2E类1N个S公司2,c s d g公司

“PROSPER控制英语”(Grover等人。2000)是一种用于规范和验证硬件设计的语言,开发于20世纪90年代末。该语言基于通用英语语法的受限版本。语言的句子可以自动映射到某种时间逻辑类型。这是一个典型的句子:

如果sigi高,然后在下一个循环中低,那么sigo低,在一个循环后变高,在另一个循环之后变低。

歧义并没有完全消除,但歧义句可以自动发现并报告给用户P(P)4E类N个4S公司,f w d a(预测)

伪自然语言(PNL)(马尔基奥里2004)是一种为语义Web设计的用户友好语言。它建立在RDF和一阶逻辑的基础上,并使用Prolog计算推理。以下是两个示例性句子:

JOHN代表公司的“JOHN Smith”http://www.example.com/staff”.

如果IMPLY的参数X和Y按此顺序排列,则X LOGICAL-IMPLY Y。

大写单词,例如厕所充当可以用涉及URI的具体定义实例化的变量。PNL是明确的,具有定义明确的语义,但不自然的大写会降低语言的自然性。它的结构乍一看很简单,但为了解决语法树的歧义,必须应用相当复杂的规则P(P)5E类N个S公司,f w a(如果有)

“Quelo受控英语”(Franconi等人。2011)是2010年引入的一种语言,用于名为Quelo的查询接口。这是一个示例性查询:

我在找东西。它应该配备自动变速系统,并由汽车经销商销售。汽车经销商应该出售一辆车队汽车。

按照概念创作方法,用户不能直接编辑句子,但可以触发对底层形式表示的修改操作P(P)4E类1N个4S公司4,f w a(如果有)

兔子(哈特、约翰逊和多贝尔2008)是OWL的受控语言。它由英国国家测绘机构英国地形测量局开发和使用。Rabbit是为特定场景设计的,在该场景中,它用于领域专家和本体工程师之间的通信,以创建本体。支持三种类型的语句:声明、公理和导入语句。这些是第一种和第二种类型的示例:

绵羊是一个概念,复数绵羊。

每条河流正好流入河流、湖泊或海洋中的一条。

语言很简单,由少量句型和一些修改来定义P(P)5E类2N个4S公司4,华氏度

构建本体的限定英语(RECON)(Barkmeyer和Mattas2012)是一种在工业环境中表示事实和规则的语言,其中这些事实和规则具有到一阶逻辑的确定性映射。这是一个典型的句子:

如果任何集装箱包含货物的一部分,则它不包含其他货物。

该语言由大约200条巴克斯-诺尔形式的规则定义5E类N个4S公司,fw和g

受限自然语言语句(RNLS)(布劳和安顿2005; 布鲁斯、安顿和道尔2008)是2004年引入的用于策略声明和软件工程目标的语言。以下是两个示例性RNLS语句:

RNLS#1:客户将选择访问代码。

RNLS#2:提供商将向客户推荐(RNLS#1)。

第二句是指使用标识符的第一句RNLS#1在RNLS和描述逻辑之间有一个映射,但不清楚这个映射是否是自动的。-P(P)E类2N个4S公司,f w d a(预测)

规则峰值(罗斯2003; 对象管理组织2008; 罗斯2013)是业务规则的CNL。该语言的发展始于1985年,并于1994年首次提出。它与后来出现的SBVR结构化英语非常相似。每个RuleSpeak规则都属于11个“功能类别”中的一个,例如“计算规则”、“推理规则”和“过程触发器”。对于这些类别中的每一个,都定义了特定的模板。例如,计算规则包含短语“must be computed as”(或简单地“=”)。以下两个示例中的第一个是这样的计算规则:

产品的成本必须计算为其所有组件的成本之和。

只有满足以下所有条件,才能接受订单:

-它至少包含一个项目。

-它指示放置它的客户。

有时,SBVR结构化英语的颜色代码被用来强调不同类型的句子成分。像SBVR结构化英语一样,RuleSpeak与SBVR标准相关联,该标准提供了基于二阶逻辑和Henkin语义的形式语义。然而,从RuleSpeak文本到逻辑表示的映射只是以非正式的方式定义的。严格的模板大大简化了语言,但没有正式的语法可以完全定义语言P(P)E类4N个4S公司2,c f w i公司

SBVR结构化英语请参见第4.1节.-P(P)E类4N个4S公司2,c f w i公司

海峰(斯特里文斯和约翰逊1983)是一门“国际海事英语”,旨在实现船舶和港口之间的清晰沟通。它的开发始于1981年。这是一个类似于PoliceSpeak和不同空中交通管制用语的受控用语P(P)2E类1N个S公司2,c s d g公司

智能控制英语(智能2006)是由SMART Communications公司开发的ASD简体技术英语的“更高级版本”。它可能受到了SMART简明英语的影响,并被应用于不同的领域。这是SMART受控英语文档的摘录:

当第四纪泵开始运行时,柱塞在腔室内移动。这个动作让计算机计算并存储一个称为“上止点”(TDC)的位置。

该语言是在一个名为MAXit Checker的工具中实现的,该工具能够发现违反该语言限制的情况P(P)2E类5N个5S公司1,c t w i公司

SMART简明英语,有时称为简明英语课程(PEP)是自20世纪80年代中期以来在SMART Communications开发和使用的一种受控语言。6它以CFE为基础,是克拉克和罗克韦尔(Adriaens和Schreos)的HELP和受控语言的基础1992). 对于SMART受控英语,工具MAXit Checker可用于创建兼容文档P(P)2E类5N个5S公司1,c w i公司

“索瓦的三段论。”请参见第4.1节.-P(P)5E类1N个4S公司5,f w a(如果有)

特殊英语(美国之音2009)是美国政府官方对外广播机构美国之音开发和使用的简化英语。该语言自1959年开始使用,至今仍用于广播、电视和网络上的新闻。这使得它成为第二个最古老的基于英语的CNL(仅次于基础英语),也是唯一一个由同一组织长期使用的CNL。在其创建之时,特殊英语可能受到基础英语的影响。词汇量被限制在1500个单词左右,这些单词随着时间的推移而变化。句子应该简短,说话速度应该较慢。语法或语义没有明确的限制。P(P)1E类5N个5S公司1,c w s g公司

SQUALL公司(费雷2012)是语义Web领域中的一种受控自然语言,用于查询和更新RDF图。这种语言中的句子被翻译成查询语言SPARQL,从而根据一些句法规则解决结构歧义。这是一个示例:

每个出版物?十、 ?X有作者吗?A和?一个城市?X(X)

语言由大约50条简单的语法规则定义P(P)5E类2N个S公司4,f w a(如果有)

标准语言(SLANG)。请参见第4.1节.-P(P)E类1N个4S公司2,c、f、w、d、i

防晒(Wells Akis和Sisson2002)是Sun为其技术文档引入的受控语言。该语言的最初发展从1999年持续到2002年。总的目标是编写“更容易理解和翻译的文本,为人类和机器”,但明确强调可翻译性。防晒受到三套准则的限制:风格准则、语法规则和术语。最重要的规则之一是将句子长度限制在25个单词以内。其他规则包括语义限制,例如使用可以仅用于授予许可。这是一个典型的句子:

本章概述了从IPv4过渡到IPv6所需的标准化解决方案。

-P(P)2E类5N个5S公司1,c t w d i

悉尼OWL语法(SOS)(Cregan、Schwitter和Meyer2007)是在语义Web上下文中引入的受控语言。它基于PENG,提供到本体语言OWL的双向完整映射。以下是两个示例性句子:

成人班完全定义为任何年龄至少为20岁的人。

如果X有Y作为父亲,那么Y是X的唯一父亲。

-P(P)5E类2N个4S公司,f w a(如果有)

基于模板的自然语言规范(TBNLS)(埃塞尔和斯特拉斯2007)是一种用于乘用车控制软件功能测试的CNL方法。该语言由15个模板定义,这些模板提供了到具有时间关系的命题逻辑的映射。这是一个典型的句子:

图解的
P(P)1和P2表示各个框的命题变量,T1是一个时间变量P(P)5E类2N个S公司4,全世界

ucsCNL公司(Barros等人。2011)是自动化软件测试领域中用于用例规范的受控自然语言。该语言旨在明确,并由少量简单语法规则定义。有描述用户操作的命令语句,以及描述用户操作前后系统状态的声明语句:

创建包含100个字符的邮件后,转到草稿文件夹

导入的媒体文件是音乐文件

-P(P)5E类2N个4S公司4,f w d a(预测)

语音操作7是Android手机平台上的语音动作命令的CNL。目前,该语言涵盖了十二种非正式定义的命令模式,如“map-of”、“note to self”和“create a calendar event”。以下是一个示例:

创建日历活动:周六晚上7:00在旧金山举行晚餐

这些口头命令可以由系统自动解释和执行P(P)E类1N个4S公司2,f s d i

我要感谢诺伯特·E·富克斯、斯特凡·霍夫勒、凯雷尔·卡尔贾兰德、里奇·莫林、罗尔夫·施维特、西蒙·斯佩罗和大卫·惠顿对这篇文章的评论以及对这一主题的一般性讨论。我也很感谢奥兰多·齐亚雷洛、埃斯拉·埃尔登、理查德·鲍尔、罗纳德·罗斯、内斯托尔·莱希蒂斯基、多妮娅·斯科特、伊琳娜·特姆尼科娃和安德里斯·范伦森对特定语言问题的回答。此外,该杂志主编罗伯特·戴尔(Robert Dale)的反馈计算语言学《杂志》、编辑委员会的匿名评论以及匿名评论对进一步改进这篇文章非常有帮助。最后,我非常感谢詹姆斯·蒂尔尼(James Tierney)与我一起完成手稿,以改进语法和风格。

阿德莱恩斯
,
海尔特
Lieve公司
麦肯
.
1995
.
受控语言应用程序的技术评估:SECC的精确性、召回率和收敛性测试。
TMI95会议记录
,页
123
——
141
,
鲁汶
.
阿德莱恩斯
,
海尔特
德克
Schreos公司
.
1992
.
从COGRAM到ALCOGRAM:走向受控的英语语法检查器。
1992年COLING会议记录
,页
595
——
601
,
南特
.
AECMA(欧洲建筑工人协会)
.
1986
.
AECMA简体英语。
PSC-8S-16598标准
.
爱卡瓦
,
隆子
,
施瓦茨
,
Ronit公司
国王
,
莫妮卡
科尔斯顿-奥利弗
、和
卡门
洛扎诺
.
2007
.
统计机器翻译环境中受控语言对翻译质量和后期编辑的影响。
机器翻译峰会第十一届会议记录
,页
1
——
7
,
哥本哈根
.
ANSI/NISO(美国国家标准协会和国家信息标准组织)
.
2005
.
单语受控词汇的构建、格式和管理指南。
Z39.19-2005年
.
亚里士多德
.
约公元前350年。先前的分析。
.
ASD(欧洲航空航天和国防工业协会)
.
2013
.
简体技术英语。
规范ASD-STE100,第6版
.
Avaya公司。
,
2004
.
Avaya风格指南。
第1版
,
新泽西州Basking Ridge
.
Barkmeyer公司
,
爱德华
安德烈亚斯
马塔斯
.
2012
.
用于构建本体的受限英语(RECON)。
美国国家标准与技术研究所(NIST)机构间/内部报告7868
.
巴罗斯
,
弗拉维亚A。
,
拉伊斯
内维斯
,
美国
霍里
、和
但丁
托雷斯
.
2011
.
ucsCNL:用于用例规范的受控自然语言。
SEKE’2011会议记录
,页
250
——
253
,
佛罗里达州迈阿密海滩
.
贝尔纳迪
,
拉法埃拉
,
迭戈
卡尔瓦内塞
、和
卡米洛
索恩
.
2007
.
精简自然语言。
IWCS-7会议记录
,
12
页,
蒂尔堡
.
伯恩斯坦
,
亚伯拉罕
以斯帖
考夫曼
.
2006
.
GINO-一个引导输入的自然语言本体编辑器。
2006年ISWC会议记录
,页
144
——
157
,
佐治亚州雅典
.
伯恩斯坦
,
亚伯拉罕
,
以斯帖
考夫曼
,
基督教的
凯撒
、和
克里斯托夫
基弗
.
2006
.
人参:用于查询本体的引导输入自然语言搜索引擎。
2006 Jena用户大会
,
第页。
伯恩特
,
阿伦兹
.
1997
.
EasyEnglish:提高文档质量的工具。
1997年ANLC会议记录
,页
159
——
165
,
华盛顿特区
.
伯恩特
,
阿伦兹
.
2006
.
EasyEnglishAnalyzer:将受控语言从句子水平提升到语篇水平。
2006年CLAW会议记录
,
马萨诸塞州剑桥
.
贝茨
,
罗伯特
.
2003
.
轻松英语:跨文化交流的挑战。
EAMT-CLAW03会议记录
,
8
页,
都柏林
.
布瓦亚德·阿加
,
Nadjet公司
,
理查德
电源
、和
安雅
贝尔茨
.
2002
.
PILLS:具有重叠内容的医疗信息文档的多语言生成。
LREC 2002会议记录
,页
2,111
——
2,114
,
拉斯帕尔马斯
.
波兰德
,
D.大卫
.
1965
.
语言注释:用E-prime书写。
通用语义公告
,
32
(
):
111
——
114
.
博伊德
,
史蒂芬
,
蒂达
佐吉
、和
阿里亚
法鲁克
.
2005
.
测量受限自然语言的表达能力:一项实证研究。
RE 2005会议记录
,页
339
——
352
,
巴黎
.
布劳克斯
,
特拉维斯·D·。
安妮一世。
安托恩
.
2005
.
从隐私策略派生语义模型。
2005年政策汇编
,页
67
——
76
,
斯德哥尔摩
.
布劳克斯
,
特拉维斯D。
,
安妮一世。
安托恩
、和
乔恩
多伊尔
.
2008
.
语义参数化:建模领域描述的过程。
软件工程及方法论学报
,
18
(
2
):
5:1
——
5点27分
.
民航局
.
2011
.
无线电话手册
,第20版,
英国西苏塞克斯
切尔瓦克
,
史蒂夫
,
科林·G。
德鲁里
、和
詹姆斯·P·。
奥莱特
.
1996
.
飞机工作卡简体英语现场评估。
飞机维修和检查中人为因素问题第十次会议记录
,页
123
——
136
,
华盛顿特区
.
克拉克
,
彼得
,
肖伊
Chaw公司
,
巴克
,
维奈
乔杜里
,
菲利普
哈里森
,
詹姆斯
风扇
,
邦妮
约翰
,
布鲁斯
搬运工
,
亚伦
Spaulding公司
,
约翰
汤普森
、和
彼得
Yeh是的
.
2007
.
捕捉并回答向知识型系统提出的问题。
2007年K-CAP会议记录
,页
63
——
70
,
惠斯勒
.
克拉克
,
彼得
,
菲尔
哈里森
,
托马斯
詹金斯
,
约翰
汤普森
、和
理查德·H。
沃伊齐克
.
2005
.
使用有限的英语子集获取和使用世界知识。
2005年FLAIRS会议记录
,页
506
——
511
,
佛罗里达州克利尔沃特海滩
.
克拉克
,
彼得
,
菲尔
哈里森
,
威廉·R·。
默里
、和
约翰
汤普森
.
2010
.
自然性与可预测性:受控语言中的一场关键辩论。
CNL 2009年会议记录
,页
65
——
81
,
马雷蒂莫岛
.
克拉布
,
史蒂芬
.
2009
.
技术写作和翻译的受控语言。
第九届朴茨茅斯翻译会议记录
,页
48
——
62
,
朴茨茅斯
.
克拉默
,
马科斯
,
伯恩哈德
菲塞尼
,
彼得
科普克
,
丹尼尔
库尔文
,
伯恩哈德
施罗德
、和
Jip公司
维尔德曼
.
2010
.
Naproche项目控制了数学文本的自然语言校对。
CNL 2009年会议记录
,页
170
——
186
,
马雷蒂莫岛
.
克里根语
,
安妮
,
罗尔夫
施维特
、和
托马斯
迈耶
.
2007
.
Sydney OWL Syntax为OWL 1.1提供了一种受控的自然语言语法。
2007年OWLED会议记录
,
10
页,
因斯布鲁克
.
库基亚里尼
,
卡蒂亚
.
2002
.
Euromap HLT案例研究:HLT应用程序如何以更低的成本实现更高质量的翻译:OcéTechnologies的经验。
季米特洛娃
,
瓦尼亚
,
罗纳德
德诺
,
格伦
雄鹿
,
凯瑟琳
Dolbear公司
,
伊恩
霍尔特
、和
安东尼·G。
科恩
.
2008
.
让领域专家参与创作OWL本体。
ISWC 2008会议记录
,页
1
——
16
,
卡尔斯鲁厄
.
埃尔登
,
埃斯拉
雷扬
Yeniterzi村
.
2009
.
将受控自然语言生物医学查询转换为答案集程序。
2009年BioNLP会议记录
,页
117
——
124
,
科罗拉多州博尔德
.
埃塞尔
,
M.W.公司。
第页。
斯特拉斯
.
2007
.
从自然语言类功能规范中获取测试生成模型。
DX-07会议记录
,页
75
——
82
,
田纳西州纳什维尔
.
欧洲控制
.
2009
.
国际民航组织标准用语——商业航空运输飞行员快速参考指南
,
布鲁塞尔
.
欧洲委员会
.
2011
.
如何写得清晰
,
布鲁塞尔
.
美国联邦航空管理局
.
2010
.
空中交通管制。
订单JO 7110.65T
.
费雷森
,
马提亚斯
.
1991
.
关于编程语言的表达能力。
计算机程序设计科学
,
17
(
1-3
):
35
——
75
.
费雷
,
塞巴斯蒂安
.
2012
.
SQUALL:一种用于查询和更新RDF图的受控自然语言。
LNCS公司
,
7427
:
11
——
25
.
弗兰科尼
,
恩里科
,
保罗
瓜利亚尔多
,
塞尔焦
特萨利斯
、和
马尔科
特雷维桑
.
2011
.
Quelo:本体论驱动的查询接口。
2011年DL会议记录
,页
488
——
498
,
巴塞罗那
.
富克斯
,
诺伯特·E。
,
卡雷尔
卡尔朱兰
、和
托拜厄斯
库恩
.
2008
.
尝试使用受控英语进行知识表达。
推理网2008年第四届国际暑期学校
,页
104
——
124
.
富克斯
,
诺伯特·E。
罗尔夫
施维特尔
.
1995
.
用受控自然语言指定逻辑程序。
CLNLP 95会议记录
,
16
页,
爱丁堡
.
芬克
,
亚当
,
瓦伦丁
塔布兰
,
卡琳娜
邦切娃
,
哈米什
坎宁安
,
布瑞恩
戴维斯
、和
齐格弗里德
Handschuh公司
.
2007
.
CLOnE:本体编辑的受控语言。
ISWC 2007+ASWC 2007会议记录
,页
142
——
155
,
釜山
.
戈登
,
库尔特
.
2000
.
通用汽车公司CASL控制创作的演变。
CLAW 2000程序
,页
14
——
19
,
华盛顿州西雅图
.
格罗弗
,
克莱尔
,
亚力山大
霍尔特
,
伊万
克莱因
、和
马克
莫恩斯
.
2000
.
设计用于交互式模型检查的受控语言。
CLAW 2000会议记录
,页
29
——
30
,
华盛顿州西雅图
.
哈雷特
,
卡特琳娜
,
多尼亚
斯科特
、和
理查德
电源
.
2007
.
通过概念创作撰写问题。
计算语言学
,
33
(
1
):
105
——
133
.
哈尔平
,
特里A。
2004
.
业务规则描述。
ISTA 2004会议记录
,页
39
——
52
,
盐湖城
,
美国犹他州
.
雄鹿
,
格伦
,
玛蒂娜
约翰逊
、和
凯瑟琳
Dolbear公司
.
2008
.
兔子:开发用于创作本体的受控自然语言。
LNCS公司
,
5021
:
348
——
360
.
海耶斯
,
菲尔
,
史蒂夫
麦克斯韦
、和
琳达
施曼特
.
1996
.
英文翻译文件和英文原件的受控优势。
1996年法律程序
,页
84
——
92
,
鲁汶
.
Horridge公司
,
马修
,
尼克
德拉蒙德
,
约翰
古德温
,
艾伦·L·。
整流器
,
罗伯特
史蒂文斯
、和
.
2006
.
曼彻斯特OWL语法。
2006年OWLED会议记录
,
10
页,
佐治亚州雅典
.
霍顿-米夫林-哈考特
.
2000
.
美国传统英语词典
,第四版.
惠杰森
,
威廉·奥拉夫
.
1998
.
受控语言——介绍。
98年法律程序
,页
1
——
15
,
宾夕法尼亚州匹兹堡
.
胡马雍
,
穆罕默德
克利斯朵夫
拉法利
.
2010
.
数学自然-受控自然语言中的数学文本。
计算机科学研究杂志-专刊:自然语言处理及其应用
,
46
:
293
——
307
.
iLastic公司
.
2012
.
iLastic文档。
.
Inglesant公司
,
菲利普
,
M。
安吉拉·萨斯
,
大卫
查德威克
、和
雷磊
.
2008
.
专业表达:访问控制策略规范的自然语言的良性循环。
2008年SOUPS会议记录
,页
77
——
88
,
宾夕法尼亚州匹兹堡
.
贾拉尔
,
穆斯塔法
,
C.玛丽亚
基特
、和
保罗
多吉尔
.
2006
.
ORM概念模型和公理化本体的多语言描述。
布鲁塞尔Vrije Universiteit技术报告
.
约翰逊
,
爱德华
.
2000
.
跨越国界交谈。
欧洲跨界合作国际会议记录:爱尔兰的经验教训
,
23
页,
贝尔法斯特
.
卡尔朱兰
,
卡雷尔
.
2007
.
尝试控制英语作为语义网络语言。
爱沙尼亚塔尔图大学数学与计算机科学学院博士论文
.
卡尔朱兰
,
卡雷尔
诺伯特·E。
富克斯
.
2006
.
OWL DL和Attempto Controlled English之间的双向映射。
2006年PPSWR会议记录
,页
179
——
189
,
布德瓦
.
卡尔朱兰
,
卡雷尔
托拜厄斯
库恩
.
2013
.
一个基于Attempto Controlled English和语法框架的多语言语义维基。
2013年ESWC会议记录
,页
427
——
441
,
穆特佩利尔
.
坎普拉斯
,
克莉丝汀
,
埃里克
阿道夫森
,
旭古
Mitamura村
、和
埃里克
尼伯格
.
1998
.
多语种文件制作的受控语言:具有卡特彼勒技术英语的经验。
98年法律程序
,页
51
——
61
,
宾夕法尼亚州匹兹堡
.
卡氏菌病
,
万杰利斯
君士坦丁·D·。
斯皮罗普洛斯
.
1997
.
一种基于知识的词汇资源组织,用于支持软件本地化中的多语言信息检索。
1997年AAAI跨语言和语音检索研讨会论文集
,页
120
——
126
,
加利福尼亚州斯坦福
.
基姆
,
洪基
,
Byung-Hyun公司
,
斋月
、和
明基
基姆
.
2005
.
使用语义网技术进行总体描述的多层应用程序。
国际医学信息学杂志
,
74
(
5
):
399
——
407
.
基特雷奇
,
理查德一世。
2003
.
子语言和受控语言。
编辑Ruslan Mitkov
,
牛津计算语言学手册
,页
430
——
447
.
克莱曼
,
约瑟夫·M·。
1982
.
用于技术手册的有限单词技术词典。
技术交流
,
第一季度
:
16
——
19
.
库恩
,
托拜厄斯
.
2009
.
受控英语如何改进语义维基。
SemWiki 2009年会议记录
,页
1
——
15
,
赫索尼索斯
.
库恩
,
托拜厄斯
.
2010
.
知识表达控制英语。
瑞士苏黎世大学经济、工商管理和信息技术学院博士论文
.
库恩
,
托拜厄斯
.
2013
.
受控英语中OWL语句的可理解性。
语义Web
,
4
(
1
):
101
——
115
.
库恩
,
托拜厄斯
,
保罗·埃米利奥
巴尔巴诺
,
莱文特夫人
纳吉
、和
迈克尔
克劳萨默尔
.
2013
.
扩大纳米出版物的范围。
2013年ESWC会议记录
,页
487
——
501
,
蒙彼利埃
.
库恩
,
托拜厄斯
斯特凡
Höfler公司
.
2012
.
珊瑚:受控语言中的语料库访问。
Corpora公司
,
7
(
2
):
187
——
206
.
卢基切夫
,
谢尔盖
Gerd公司
瓦格纳
.
2006
.
REWERSE I1规则标记语言的描述。
交付物I1-D6,慕尼黑REWERSE
.
蜜丝罗妮
,
马西莫
.
2004
.
走向人民的网络:元日志。
WI 2004会议记录
,页
320
——
326
,
北京
.
马丁
,
菲利普
.
2002
.
CGLF、CGIF、KIF、框架CG和形式化英语中的知识表示。
LNAI公司
,
2393
:
77
——
91
.
马萨诸塞州
参议院
.
2003
.
立法起草和法律手册
,第三版,
波士顿
.
手段
,
琳达
库尔特
戈登
.
1996
.
受控汽车服务语言(CASL)项目。
CLAW会议记录1996
,页
106
——
114
,
鲁汶
.
手段
,
琳达·G。
,
帕特里夏
查普曼
、和
奥尔桑
线路接口单元
.
2000
.
受控语言过程的培训。
CLAW 2000程序
,页
1
——
13
,
华盛顿州西雅图
.
Mitamura村
,
旭古
埃里克·H。
尼伯格
.
1995
.
知识型机器翻译的受控英语:使用KANT系统的经验。
TMI95会议记录
,页
158
——
172
,
卢万
.
摩尔
,
科琳娜
.
2000
.
迪堡公司的受控语言。
CLAW 2000程序
,页
51
——
61
,
华盛顿州西雅图
.
莫特
,
大卫
.
2010
.
ITA控制英语摘要。
国际技术联盟(ITA)技术报告
.
穆格
,
乌韦
.
2007
.
受控语言:翻译中的下一件大事?
客户端新闻杂志
,
7
:
21
——
24
.
南宫
,
Hyun(炫)
Hong Gee公司
基姆
.
2007
.
基于本体的受控自然语言编辑器,使用具有词汇依赖性的CFG。
ISWC 2007+ASWC 2007会议记录
,页
353
——
366
,
釜山
.
NCR公司
.
1978
.
NCR基础英语词典
,
俄亥俄州代顿
.
内恰斯
,
伊凡
.
2011
.
BDD作为规范和QA工具。
捷克布尔诺Masaryk大学硕士论文
.
尼伯格
,
埃里克
,
旭古
Mitamura村
、和
威廉·奥拉夫
惠杰森
.
2003
.
用于创作和翻译的受控语言。
编辑哈罗德·萨默斯
,
计算机与翻译:翻译指南。
约翰·本杰明出版公司
,页
245
——
281
.
奥布莱恩
,
莎伦
.
2003
.
控制受控英语——对几个受控语言规则集的分析。
EAMT-CLAW03会议记录
,页
105
——
114
,
都柏林
.
奥布莱恩
,
莎伦
约翰
罗图里尔
.
2007
.
受控语言规则的可移植性如何?两项MT实证研究的比较。
机器翻译峰会第十一届会议记录
,页
345
——
352
,
都柏林
.
奥格登
,
查尔斯·K。
1930
.
基础英语:关于规则和语法的一般介绍。
保罗·特雷伯公司。
,
伦敦
.
OMG(对象管理组)
.
2008
.
商业词汇和商业规则的语义(SBVR),v1.0。
.
豌豆
,
亚当
约翰
.
2010
.
受控英语到逻辑翻译。
编辑罗伯托·波利、迈克尔·希利和阿基里斯·卡米斯
,
本体论理论与应用:计算机应用。
施普林格
荷兰
,页
245
——
258
.
皮韦克
,
保罗
,
罗杰
埃文斯
,
林恩
卡希尔
、和
尼尔
翻斗车
.
2000
.
英里系统中的自然语言生成。
NLG研讨会影响会议记录
,页
33
——
42
,
达格斯图尔
.
简明语言行动与信息网络
.
2011
.
联邦简明语言指南。
.
游泳池
,
乔纳森
.
2006
.
受控语言能适应网络吗?
2006年CLAW会议记录
,
马萨诸塞州剑桥
.
电源
,
理查德
.
1999
.
控制文本生成中的逻辑范围。
EWNLG 1999年会议记录
,页
1
——
9
,
图卢兹
.
电源
,
理查德
.
2012
.
OWL简体英语:一种用于本体编辑的有限状态语言。
CNL程序
,页
44
——
60
,
苏黎世
.
电源
,
理查德
多尼亚
斯科特
.
1998
.
使用反馈文本进行多语言创作。
COLING-ACL’98会议记录
,页
1,053
——
1,059
,
蒙特利尔
.
普拉特·哈特曼
,
伊恩
.
2003
.
英语的两个可变片段。
逻辑、语言与信息杂志
,
12
(
1
):
13
——
45
.
普拉特·哈特曼
,
伊恩
.
2004
.
语言片段。
逻辑、语言与信息杂志
,
13
(
2
):
207
——
223
.
普拉特·哈特曼
,
伊恩
.
2009
.
受控自然语言的计算复杂性。
CNL 2009预处理
,
5
页,
马雷蒂莫岛
.
普拉特·哈特曼
,
伊恩
艾伦
第三
.
2006
.
更多的语言片段。
圣母院形式逻辑杂志
,
47
(
2
):
151
——
177
.
普朗
,
史蒂芬·G。
1996
.
用于知识表示的受控语言。
1996年法律程序
,页
233
——
242
,
鲁汶
.
皮姆
,
彼得·J。
1990
.
机器翻译的预编辑和简化写作的使用:工程师操作机器翻译系统的经验。
翻译与计算机10:翻译环境10年
,
数字10
,页
80
——
96
,
阿斯利卜
.
鲁瑟
,
乌苏拉
.
2003
.
二合一:它能工作吗?受控语言的可读性和可译性。
EAMT-CLAW03会议记录
,页
124
——
132
,
都柏林
.
罗伯逊
,
联邦航空局。
1987
.
飞行员无线电话通信。
普伦蒂斯大厅
.
罗斯
,
罗纳德·G。
2003
.
业务规则方法的原则。
信息技术系列。出版商
.
罗斯
,
罗纳德·G。
2013
.
RuleSpeak中使用“以下”子句的列表制表。
业务规则日志
,
14
(
4
):
1
——
16
.
鲁菲诺
,
J.理查德
.
1982
.
应对机器翻译。
编辑V.Lawson
,
机器翻译的实践经验。
北荷兰出版公司
,页
57
——
60
.
莱希提基
,
内斯特
.
2002
.
福特汽车公司汽车装配工艺规划机器翻译评估。
AMTA2002会议记录
,页
207
——
215
,
加利福尼亚州蒂布隆
.
莱希提基
,
内斯特
.
2005
.
使用人工智能对车辆装配进行人机工程学分析。
人工智能杂志
,
26
(
):
41
——
50
.
施维特
,
罗尔夫
.
2002
.
英语作为正式规范语言。
2002年DEXA会议记录
,页
228
——
232
,
Aix-en-Provence公司
.
施维特尔
,
罗尔夫
.
2008
.
二人工作:受控自然语言的双向语法。
2008年AI会议记录
,页
168
——
179
,
奥克兰
.
施维特尔
,
罗尔夫
马克
蒂尔布鲁克
.
2004
.
受控自然语言与语义网络相结合。
ALTW2004会议记录
,页
55
——
62
,
都柏林
.
SEC(美国证券交易委员会)
.
1998
.
一本简明的英文手册——如何创建清晰的SEC披露文件
,
纽约
.
舒伯特
,
Serena K。
,
Jan H。
斯皮里扎基斯
,
希瑟·K。
霍姆巴克
、和
玛丽B。
科尼
.
1995
.
程序中简化英语的可理解性。
技术写作与传播杂志
,
25
(
4
)以下为:
347
——
369
.
Skuce公司
,
道格
.
2003
.
语义Web上用于知识表示的受控语言。
.
聪明
,
约翰·M
.
2003
.
全球商务受控英语。
翻译写作——多语言计算与技术指南
,
59
:
19
——
21
.
聪明
,
约翰·M。
2006
.
SMART控制英语。
2006年CLAW会议记录
,
9
页,
马萨诸塞州剑桥
.
智能通信公司。
1994
.
Smart Communications,Inc.新闻摘自MT News International——国际机器翻译协会新闻稿,第7期
.
索娃
,
约翰·F·。
2000年
.
受控英语。
.
索娃
,
约翰·F·。
2000亿
.
本体论、元数据和符号学。
ICCS 2000会议记录
,页
55
——
81
,
达姆施塔特
.
索娃
,
约翰·F·。
2004
.
通用逻辑控制英语(草案)。
.
斯帕贾里
,
劳伦特
,
佛罗伦萨
博雅尔
、和
艾曼纽尔
卡内松
.
2003
.
空客公司的受控语言。
EAMT-CLAW03会议记录
,页
151
——
159
,
都柏林
.
斯图尔特
,
凯萨琳·M。
1998
.
AECMA简化英语对非英语母语者理解飞机维护程序的影响。
不列颠哥伦比亚大学硕士论文
.
斯特里文斯
,
彼得
爱德华
约翰逊
.
1983
.
SEASPEAK:一个应用语言学、语言工程,最终为水手提供ESP的项目。
ESP日志
,
2
(
2
):
123
——
129
.
苏卡利耶
,
简娜Z。
2003
.
注意你的语言!用于推理目的的受控语言。
EAMT-CLAW03会议记录
,页
160
——
169
,
都柏林
.
苏卡利耶
,
贾纳Z。
史蒂芬·G。
普朗
.
1999
.
计算机可处理英语和mclogic。
IWCS-3会议记录
,页
367
——
380
,
蒂尔堡
.
特姆尼科娃
,
伊琳娜
.
2010
.
受控语言后期编辑实验的认知评估方法。
LREC’10会议记录
,页
3,485
——
3,490
,
Hissar公司
.
特姆尼科娃
,
伊琳娜
.
2011
.
确定实施优先事项,以帮助受控危机管理文本的作者。
2011年RANLP会议记录
,页
654
——
659
.
特姆尼科娃
,
伊琳娜
.
2012
.
危机管理领域中的文本复杂性和文本简化。
伍尔弗汉普顿大学博士论文
.
特姆尼科娃
,
伊琳娜
康斯坦丁
奥拉桑
.
2009
.
用mt对受控语言进行编辑后实验。
ISMTCL会议记录
,页
244
——
248
,
贝桑松
.
索恩
,
卡米洛
迭戈
卡尔瓦内塞
.
2010
.
基于英语本体论的受控数据访问。
CNL 2009年会议记录
,页
135
——
154
,
马雷蒂莫岛
.
瓦伦西亚-加西亚
,
拉斐尔
,
加西亚·桑切斯
弗朗西斯科
,
达戈贝托
卡斯特拉诺斯·尼维斯
、和
费尔南德斯·布利斯
杰苏亚尔多·托马斯
.
2011
.
OWLPath:一个OWL本体引导的查询编辑器。
IEEE系统、人与控制论汇刊,A部分
,
41
(
1
):
121
——
136
.
范·克莱克
,
马克斯
,
布伦南
摩尔
,
大卫
卡尔格
,
保罗
安德烈
、和
施雷费尔
M.C.公司。
.
2010
.
原子化!使用Web上的异构信息源实现终端用户上下文相关的自动化。
WWW 2010会议记录
,页
951
——
960
,
北卡罗来纳州罗利
.
范伦森
,
安德烈
.
2005
.
Gellish:一种通用的可扩展本体语言。
代尔夫特理工大学博士论文
.
范伦森
,
安德烈
.
2011
.
Gellish通用数据库中的文本需求建模。
2011年FOMI会议记录
,页
102
——
115
,
文森泽
.
维伯克
,
查尔斯A。
1973
.
卡特彼勒基础英语。
培训与发展杂志
,
27
(
2
):
36
——
40
.
维尔希宁
,
康斯坦丁
安德烈
帕斯克维奇
.
2000
.
第四,形式理论的语言。
国际信息理论与应用杂志
,
7
(
):
120
——
126
.
美国之音
.
2009
.
美国之音特别英语词汇书:广播、电视和互联网特别英语节目中使用的词汇列表
,
华盛顿特区
.
沃伦
,
大卫·H·D。
费尔南多·C·N。
佩雷拉
.
1982
.
用于解释自然语言查询的高效、易于适应的系统。
美国计算语言学杂志
,
8
(
3-4
):
110
——
122
.
Wells Akis公司
,
詹妮弗
威廉·R。
西森
.
2002
.
提高可译性:Sun Microsystems,Inc.的案例研究。
全球化内幕人士
, (
4.2
).
沃伊齐克
,
理查德·H。
,
菲利普
哈里森
、和
约翰
布雷默
.
1993
.
使用括号内的解析来评估语法检查应用程序。
1993年ACL会议记录
,页
38
——
45
,
俄亥俄州哥伦布
.
沃伊齐克
,
理查德·H。
詹姆斯·E·。
囤积
.
1997
.
工业中的受控语言。
R.A.Cole等人,编辑
.
人类语言技术现状综述。
剑桥大学出版社
,页
238
——
239
.
沃伊齐克
,
理查德·H。
,
希瑟
霍姆巴克
、和
詹姆斯·E·。
囤积
.
1998
.
波音技术英语:AECMA SE在飞机维修领域之外的扩展。
98年法律程序
,页
114
——
123
,
宾夕法尼亚州匹兹堡
.
韦纳
,
亚当
,
克拉西米尔
安杰洛夫
,
冈蒂斯
巴兹丁斯
,
达妮察
达姆利亚诺维奇
,
布瑞恩
戴维斯
,
诺伯特
富克斯
,
斯特凡
赫夫勒
,
琼斯
,
卡雷尔
卡尔朱兰
,
托拜厄斯
库恩
,
马丁
卢茨
,
乔纳森
游泳池
,
迈克
罗斯纳
,
罗尔夫
施维特
、和
约翰
索娃
.
2010
.
关于受控自然语言:属性和前景。
CNL 2009年会议记录
,页
281
——
289
,
马雷蒂莫岛
.

作者注释

*

苏黎世理工大学社会学系,特别是建模与仿真系,苏黎世大学计算语言学研究所主席。电子邮件:kuhntobias@gmail.com。个人网站:网址:http://www.tkuhn.ch.