GFO-生物
集成本体是实现互操作性的强大手段。我们采用了John Sowa对本体集成的定义[[11]第494页],他将其描述为在不同本体之间寻找共性的过程A类和B类并派生出一个新的集成本体C类促进基于本体的信息系统之间的互操作性A类和B类有几种方法可以实现这种集成[12],但没有普遍接受的解决方案。
我们的集成方法基于顶级本体[13]. 在我们的研究中,我们使用顶级本体General Formal ontology(GFO)[14]. GFO有几个区别于其他顶级本体(如BFO)的特性[15,16]和DOLCE[17]. 相关特征包括包含现实层次理论[18]以及高阶范畴本体论的明确结合(见图1有关所选类别的概述和高阶类别的解释)。我们开发了GFO-Bio[19],核心本体[20]用于生物学。它是用Web本体语言形式化的[21](OWL),并包括分面分类的各个方面[22]结合GFO的本体论现实层次理论[18].
GFO-Bio包含个人本体,类似于其他已建立的上层生物医学本体。“生物个体”是作为GFO“个体”类别的一个子类引入的。使用描述逻辑语句定义或限制类。例如,“分子”是“物质对象”的一个子类,其中至少有两个原子。此外,GFO-Bio还包含另一个分支,其中对类别本身进行了进一步的描述和定义。这是生物医学领域中的类别本体。正是GFO-Bio的这一部分可以直接表示有向无环图,这是许多生物医学本体常用的图。有关GFO-Bio模块的概述,请参见图2。在本节的其余部分中,可以认为所使用的基本本体仅包含两个类别,即“个人”和“类别”。我们为类别之间的关系添加前缀科科斯群岛以及个人与二。类别和个人之间的关系前缀为CI公司或集成电路分别是。例如,关系IC的实例是实例化关系CC-isa公司是is-a关系。
默认规则和默认逻辑
使用GFO-Bio作为集成生物医学本体的框架,我们解决了准确表示典型和表型本体的问题。典型解剖学本体,如解剖学基础模型[9](FMA)制定了如下规则:
人体的每个部位都有一个阑尾。
这并不一定适用于每个真实的人体:单个人体可能缺乏作为一部分的附录。然而,该规则描述了理想的或规范的人类。表型本体论描述现象,个体对现象的例证可以是偏差从这些理想化中。例如,一个人既可能是FMA中描述的原型人体的一个实例(这意味着阑尾是一部分),也可能是“没有阑尾的人体”类别的一个实例。在经典逻辑框架中,例如生物医学知识表示中常用的逻辑框架,例如OWL形式[21],将这两个语句的连接形式化将导致不一致。在前一种情况下,人体有一个阑尾作为一部分,而在后一种情况中则没有。实例化这两个类别会造成不一致。形式意义上的逻辑不一致只有在使用否定的逻辑函子时才会出现。这个函子隐藏在诸如“不存在X”之类的概念中,如在哺乳动物表型本体中使用的那样[10]. 通过推理对逻辑不一致性进行正式检测需要对否定进行解释。
为了避免使用“缺少X”等术语,并使否定明确,我们采用了缺少关系[23],我们明确定义为:
个人第页 缺少类别C类关于关系对,当且仅当不存在x个这样:第页 对 x个和x个是的一个实例C类.
我们使用这种二进制关系x个 拉克斯-R C类而不是x个 缺少 C类关于对例如,某个人x个 缺少一个类别C类关于关系has-part接口将表示为x个 无光泽部分 C类.
使用缺少在经典逻辑形式主义(如一阶逻辑)中使用典型本体和相应的表型本体时,关系可能会导致不一致[24]或描述逻辑[25]. 原因是古典形式主义强制执行非常严格的解释,例如“每个人”这样的量化,这导致单调性这些形式主义:从经典逻辑理论中得出的推论T型在每个扩展中保持正确T型还有其他事实。
为了防止不一致,同时保留诸如“人类有一个附录作为一部分”等语句背后的直觉,必须修改规范本体中对此类语句的解释。我们建议使用非单调的默认情况下,将规范本体中提供的语句视为true的逻辑。添加更多知识,例如通过引用表型本体或使用涉及缺少关系(因此否定)可能会使先前得出的结论无效。
提出了几种处理逻辑中缺省规则和异常的方法。这些建议中最流行的是默认逻辑[26],范围[27,28]和自认知逻辑[29,30]. 我们在应用程序中使用默认逻辑,因为它允许透明表示,并允许语义正确地转换为一种称为应答集程序的非单调声明性逻辑程序[31].
在默认逻辑中默认规则具有以下形式:
(2)
这意味着如果A类()为真(前提条件),并且假设是一致的那个B类(),然后C类()可以导出。直觉上,A类()是先决条件,并且假设B类()添加推导的理由C类()来自A类(). 因此,只要B类()可以假设,默认逻辑得出C类(). 为了将人类通常有附录作为其一部分的示例形式化,我们将使用以下默认规则:
(3)
在这里,先决条件是人类(x个),事实上x个是一个人。那么,如果假设x个作为实例的一部分附录,结论是x个作为实例的一部分附录.关系的定义IC-has零件遵循表中的模式1.
非单调性来源于“假设x个 IC-has零件 附录“,这意味着如果x个 IC-has零件 附录不能从给定的事实证明错误,它添加到知识库中不会导致矛盾。添加以下语句:x个没有附录作为一部分(x个 IC-lacks部件 附录)会导致与x个 IC有零件 附录; 因此,该规则不再用于推导x个有一个附录作为部分。
答案集编程(我们用于实现的形式主义)可以模仿默认规则。它使用两种否定,称为坚强的和弱否定.强否定是经典(单调)否定,如缺少关系。弱否定通常表示为非A,对应于上述语句“无法证明A为真”或“假设A为假是一致的”。
形式化生物医学本体论中的缺省
在规范本体中,其类别之间的关系可以解释为违约关系。默认情况下,人类有一些阑尾作为其一部分。然而,一个人的例子,例如约翰,可能缺乏作为一部分的附录;因此,约翰是“human”和“human without an appendix”(或“absent appendix)的一个实例。为了包括两个类别之间的规范关系,必须引入新的关系,例如CC-标准相端口然后,“人”和“阑尾”之间的关系变成了“人”CC规范有部分附录”。此外,此关系对应于默认规则:
(4)
使用类缺少由引入的关系[23],我们将上述规则中的默认运算符形式化为:
(5)
一般来说,对于每个关系对在本体中的类别之间,我们创建了几个新的关系:抄送对于类别之间的单调关系,CC-普通-R对于类别之间的非单调缺省关系,IC-R公司对于个人和类别之间的单调关系,例如“JohnIC有零件附录”,意味着John有一些附录作为部分,以及II-R型对于个体之间的单调关系。此外,我们引入了一类缺少关系。表中显示了引入的新关系的示意图1。该模式有点不完整,因为规范关系的引入可以扩展到缺少关系,在某种意义上,某个类别可能在规范上缺少与关系相关的其他类别对在这种情况下,关系对必须替换为拉克斯-R。这允许处理类别之间的异常。例如,“没有尾巴的老鼠”类别可以定义为缺少尾巴的老鼠。
实施
我们使用了一种称为DL-programs的技术[32]与GFO-Bio的OWL版本一起实现规则。DLVHEX系统允许应答程序和描述逻辑知识库或本体之间的双向信息流;因此,它非常适合我们的目的。DLVHEX基于成熟的数据日志系统DLV[33].
GFO-Bio中使用的关系在DLVHEX系统中可用。这样就可以表达这种关系的必要公理CC-普通-R例如,对于关系CC-标准相端口,添加了以下公理,对应于DLVHEX中的公式(5):
IC-has部分(X,Y):-ind(X),类(Y),级(Z),指令(X,Z),
CC-标称相部分(Z,Y),
不是IC缺少部分(X,Y)。
这意味着,如果两个类别Z轴和Y(Y)站在关系中CC-标准相端口、和无法证明X IC-lacks部件 Y(Y)(不是IC缺乏第(X,Y)部分),则可以得出结论X(X),它是的一个实例Z轴,站在关系中IC-has零件到类别Y(Y)图中显示了一个简单的示例来说明这种推理三.
图中显示了我们对中等规模本体上常见类型查询的实现性能4。样本测试表明可以回答问题,但需要几分钟时间。虽然对于某些应用程序来说,这在实践中可能是不够的,但我们认为这表明我们的实现是有效的,但需要进一步改进。在对实现进行了一些改进之后,对所提方法进行了广泛的性能评估,这有待于未来的工作。
与GFO-Bio的本体集成
使用GFO-Bio集成生物本体涉及几个步骤。首先,必须获取或生成每个本体的OWL-DL版本。OWL-DL是一种具有足够表达能力的语言,因为可以使用否定,并且可以在OWL-DI框架中正式检测逻辑不一致。为了进行这种转换,我们提供了一个工具[19]转换海外建筑运营管理局格式文件[34]进入OWL-DL。这种转换为根据海外建筑运营管理局铸造原理构建的本体产生了正确的结果,但可能为海外建筑运营管理局格式中可用的其他本体提供不正确的转换。生成的OWL-DL文件必须由GFO-Bio导入。然后使用GFO-Bio's个别树中的类别定义导入本体的每个顶级类,至少部分定义。例如,Celltype本体的“Cell”类别[35]必须声明为GFO-Bio的“细胞”类别的子类(或等效类)。此外,可以为每个集成本体生成第二个OWL-DL文件,其中包含作为GFO-Bio类别分支实例的本体类别。我们还提供了一个工具,用于对海外建筑运营管理局文件执行此转换。此文件也必须由GFO-Bio导入。在该文件中,类别之间的关系(直接表示在OBO风格的有向非循环图(DAG)中)被建模为OWL实例之间的关系。
例如,基因本体的细胞成分本体“膜”的DAG中表达的关系部分Cell”在GFO-Bio中被表示两次:首先,“Membrane”和“Cell”被创建为OWL中的类,并且创建了以下限制(符合[36]):
SubClassOf(膜限制(II-part-of-someValuesFrom(Cell))
此外,基因本体的“细胞”类别被声明为等同于GFO-Bio的“细胞“类别。其次,“膜”和“细胞”被视为GFO-Bio的“类别”类的实例 CC的一部分“膜”和“细胞”之间的(“CC”表示关系的类别-类别读数)断言:
单个(膜值(细胞的CC-part))
虽然第一步和第二步都不需要OWL的描述逻辑片段,但它们结合起来会产生OWL-Full[21]本体论。
为了充分整合规范本体论和表型本体论,必须添加非单调处理的公式。这需要为每个关系添加一个答案集程序CC-普通-R以及相应的关系IC-R公司和IC锁-R:
IC-R(X,Y):-ind(X),类(Y),类,
CC-标称-R(Z,Y),
不是IC-lacks-R(X,Y)。
海外建筑运营管理局关系本体的补充
海外建筑运营管理局关系本体[6]我们的提议要想成功,需要增加几项内容。首先缺少关系,如表中所述1必须添加。这将允许在本体中定义缺少的身体部位,例如哺乳动物表型本体[10].
在Web本体语言的描述逻辑变体中[21,25](OWL-DL),缺少关系可以用否定语句表示。然而,缺少与海外建筑运营管理局关系本体中大多数其他关系的处理方式不同,关系被简化为个人之间的关系(参见表1). 直接在OWL-DL中开发的本体可以使用否定来避免引用缺少关系。
第二,规范-R必须使用这里介绍的语义将关系作为类别之间的关系包括在内。特别是规范-R关系需要一种非单调的知识表示形式,并且不能使用任何形式的经典逻辑进行形式化。我们提出了一种使用答案集语义的可能实现,但还有其他选择。然而,其核心是规范-R在处理违约的所有可能形式中,关系保持不变:如果假设是一致的某种关系成立,这种关系成立。
用例:小鼠解剖学和哺乳动物表型本体的集成
我们提出的方法可以与现有工具和本体结合使用。修改当前的本体以适应我们提出的方法几乎不需要付出任何努力。下面,我们将演示如何重新解释成年小鼠解剖本体[1](MA)和哺乳动物表型本体[10](MP)以适应我们提出的框架,并讨论MP中当前形式化的问题。
小鼠解剖学
成年小鼠解剖本体(MA)使用两种关系,是-a和部分我们向MA引入了一种新的关系,我们称之为标准零件、和自动添加对于类型的每个语句
X(X)
部分
Y(Y)
(6)
新声明
Y(Y) 规范手部 X(X).(7)
我们认为,在大多数情况下,这将导致正确解释默认规则,但这种方法将生成一些不充分的语句。因此,需要手动验证。此外,一些生成的语句可能不包含默认规则,但普遍正确,而当前的一些语句涉及部分可能并非普遍正确,但代表默认规则。因此,从现有语句中自动生成默认规则只能是第一步,在MA的持续发展中,必须区分默认规则和普遍正确的语句。这可能需要在MA中包含类别之间的其他关系,例如。规范部分和has-part接口.
哺乳动物表型本体
哺乳动物表型本体(MP)除其他外,定义了用以下术语标记的类别:缺席-X在这些术语中,隐藏的否定必须明确。MP有两个版本,其中一个仅包含是-a关系,以及另一个尝试使用关系定义术语的实验版本,例如固有-内[17]和PATO的类别[37](表型属性的本体论)、MA和其他。MP提供了如下属性概念缺席_尾部,尽管我们认为用术语来描述这一财产更为合适没有尾巴,因为缺席_尾部建议将阅读作为一个对象概念,即作为一个不存在的尾巴。这些属性可以由对象概念组成,例如。成年小鼠,以便引用更具体的对象概念,如没有尾巴的成年老鼠(没有提前解释所有这些)。从形式上讲,类别缺席_尾部定义为PATO:缺少物理部件,固有-内 MA:成年小鼠、和朝着 MA:尾部.OWL的翻译[36]收益率
等价类(缺席_尾
交集Of(
PATO:缺少物理部件
限制(inheres-in-someValuesFrom(MA:成年鼠))
限制(指向某些值From(MA:tail)))
这种形式化存在的问题是缺席_尾部个人之间的关系是不合适的。它在限制中变得明显(朝向someValuesFrom(MA:tail)),强制存在MA:尾部在OWL模型中[38]然而,在本体论上,如果老鼠没有尾巴,就没有尾巴的例子。如果从字面上理解“缺席尾巴”,即OWL模型中接受具有“缺席”属性的“虚拟”尾巴,那么直接反对意见就会减弱。然而,这可能意味着朝着链接指向其他实体的任意尾巴,或者没有尾巴的鼠标确实有尾巴(这可能具有“缺席”的属性)。这至少会带来一些不便,例如,在查询此类模型的尾部时,必须注意排除所有虚拟尾部。我们预计,这种方法对许多对象类的一般应用无法通过合理的努力加以控制。与OBO文件格式的描述逻辑和语义中常用的概念合成相比,这里的潜在问题是一种不同的概念合成[36]. 用于构成概念缺席_尾部借助尾巴缺席_尾部到OWL类MA:尾部将是必需的,而不是链接到实例班级的MA:尾部然而,如果形式化应该遵循OWL的可判定描述逻辑变量,则类级别上的链接不可用。
如果将缺少某一部分与它的(子)部分联系起来考虑,就会出现其他问题。例如,尾椎体是尾巴的一部分。的逻辑定义尾椎缺失可以类似于缺席_尾然后,问题出现在PATO财产属于哪个实体固有-内应该链接。如果尾如果选中,则此定义不能应用于没有尾巴的老鼠,因为这样就没有任何东西可以隐藏。另一个选项是链接到鼠标。在这两种情况下,每当老鼠缺少尾巴作为一部分时,它也会缺少尾巴的所有部分。由于的每个实例尾椎它是老鼠的一部分是它尾巴的一部分,没有尾巴的老鼠缺少尾椎。这一结论不能用议员目前采取的方法得出。此外,我们不想得出结论,即老鼠具有尾椎当它缺少尾.
因此,我们的建议是引入这种关系无光泽部分并定义类型的术语缺席_X作为站在无光泽部分与的关系X(X).然后,缺席_X术语是指对象的类别,而不是属性,这些类别可以被视为二进制的具体化无光泽部分关系。例如,缺席_尾部将被定义为
[期限]
编号:MP:0003456
名称:无尾
关系:lacks_part MA:0000008!尾
通过设计无光泽部分不存在实例不存在的问题。它也不允许得出这样的结论:老鼠有尾椎当鼠标缺少尾.