跳到主要内容

用于估计基因产品语义相似度的最短路径图核

摘要

背景

现有的使用基因本体(GO)计算基因产品之间语义相似度的方法通常依赖于外部资源,而外部资源不是本体的一部分。因此,这些外部资源的变化,如热门研究主题的转移导致的术语分布偏差,将影响语义相似度的计算。避免此问题的一种方法是使用本体“固有”的语义方法,即独立于外部知识。

结果

我们提出了一种只依赖于GO及其结构的最短路径图核(spgk)方法。在spgk中,基因产物由GO的诱导子图表示,该诱导子图由所有注释它的GO项组成。然后使用最短路径图核计算两个图之间的相似度。在使用基准数据集进行的综合评估中,spgk与依赖外部资源的其他方法相比具有优势。与同样是GO固有方法的simUI相比,spgk在基准数据集上取得了稍好的结果。统计测试表明,当分辨率和EC相似性相关系数用于衡量性能时,改进效果显著,但当使用Pfam相似性关联系数时,改善效果不显著。

结论

Spgk使用多项式时间的图核方法来利用GO的结构来计算基因产品之间的语义相似度。它为使用外部资源的方法和具有可比性能的“内部”方法提供了一种替代方法。

背景

基因本体(GO)[1]通过结构良好的受控词汇系统地组织知识,并为跨物种的生物体提供一致的描述。GO术语在基因本体注释(GOA)项目中广泛用于注释基因和基因产品[2]. 随着GO在生物医学研究中的地位越来越重要,经常需要计算方法来探索GO以计算基因产品之间的语义相似度。这些方法已被广泛应用,包括:路径中的基因聚类[6],蛋白质相互作用的预测[7],以及基因产物在表达谱方面的相似性评估[8],蛋白质序列[911],蛋白质功能[12]和蛋白质家族[13].

两个基因产品之间的语义相似度通常是基于术语相似度计算的。首先,计算注释基因产物的GO术语之间的成对语义相似性。然后,将这些成对的相似性结合起来,得出基因产品之间的整体语义相似性。以往的研究使用了不同的方法来组合成对GO术语的相似性[4810111415]. GO术语之间的语义相似度计算方法的代表性集合在[16]. 这些方法大多使用最近共同祖先(NCA)或信息量最大的共同祖先(MICA)的信息含量(IC)来量化两个GO术语之间的共享信息量。然而,IC是根据外部资源(如GOA数据库)中GO术语的频率计算的。外部资源随着知识的更新而变化(例如,GOA中包含更多注释)。因此,对于同一对GO术语,这些方法计算的语义相似度可能会随着外部资源的发展而变化。然而,GO术语之间的语义相似性不应受到此类更改的影响。此外,某些注释可能只是因为流行的研究主题而频繁出现,从而导致有偏见的结果。其他一些方法依赖于距离测量[1718]例如,计算GO中相关术语之间最短路径上的边数,以计算GO术语的相似性。这种方法的一个缺点是GO中的边在语义上并不意味着等长。尽管一些方法试图通过为不同级别的边分配不同的权重来解决这个问题,但它们仍然面临这样一个事实,即同一级别的GO项不一定具有相同的特异性。其他方法计算基因产品之间的语义相似度,而不考虑GO术语之间的语义相似性。在这些方法中,基因产物由一组或一个对其进行注释的GO术语向量表示。然后,将基因产物之间的语义相似度计算为集合之间的重叠或向量的内积[410]. 然而,这些方法没有利用GO的结构,并且忽略了GO项之间的关系。

为了解决上述问题,我们提出了一种计算基因产品之间语义相似度的最短路径图核(spgk)方法。在spgk中,每个基因产物都表示为一个图,这是GO的诱导子图。然后使用图核方法计算图之间的语义相似度。Spgk是GO固有的,即它不依赖外部资源来计算语义相似度。因此,它与基于GO项IC的方法没有相同的缺点。同时,它使用图形明确地探索GO结构并利用GO术语之间的关系。一般来说,图匹配在计算上是昂贵的,是一般图上的NP完全问题。为了降低计算复杂度,我们开发了一个图核来计算图之间的相似度。使用另一组开发的综合评估基准,我们将spgk与其他最先进的方法进行了比较。

方法

在本节中,我们提出了一种计算蛋白质之间语义相似性的新方法。首先,我们介绍了基因本体的基本背景。然后描述了图核方法的细节。

基因本体与基因本体标注

GO项目[1]保持一个动态的、结构化的、精确定义的和受控的术语词汇表,用于描述跨物种的基因产物的特性。GO由三个不同的本体描述:1)生物过程(BP),其中一个过程通常涉及化学或物理转化(例如细胞生长);2) 分子功能(MF),其中功能被定义为基因产物(例如酶)的生化活性;和3)细胞成分(CC),指细胞中基因产物活跃的部位(如核膜)。每个本体都被构造为一个有向非循环图,其中节点(GO术语)通过“is-a”、“part-of”或“regulators”关系彼此链接。另一方面,基因产品注释是将本体术语分配给基因产品以描述其活动和定位的过程。例如,GOA项目[2]位于欧洲生物信息研究所(EBI),旨在为UniProt知识库(UniProtKB)条目提供高质量的电子和手动注释[19]. GOA注释是从严格控制的方法中获得的,其中每个关联都由不同的证据源支持。一个蛋白质可以用GO中三个本体中的任意一个的多个GO术语进行注释。UniProtKB蛋白质的功能注释目前由3200多万个注释组成,涵盖400多万个蛋白质[2].

蛋白质的图形表示

我们使用本体的子图表示一个蛋白质,该子图由所有GO术语组成,这些术语注释了该蛋白质及其在本体中的祖先。图的每条边对应于本体中两个术语之间的关系。GO中有三种类型的关系:is-a、part-of和regulators。由于GO包含三个不同的本体,因此当使用不同的本体时,结果图将不同。例如,图1显示了使用细胞组件(CC)本体为UniprotKB蛋白P17252生成的图形。

图1
图1

由GO生成的子图由注释蛋白质P17252(蛋白激酶Cα型)及其在细胞成分本体中的祖先的术语组成的子图。

蛋白质的最短路径图核

我们使用最短路径图核来比较中提出的两个图[20]. 首先,让我们定义最短路径图。给出一个图表G=(V,E),其最短路径图为G公司 服务提供商 =(V,E'),其中E'={E' 1 ,...,e’ }这样的话e’ =(u,v),其中u个 V(V)v(v) V(V)、和路径(u,v)≠0。即,G公司 服务提供商 具有与G和边相同的顶点(u,v)在里面G公司 服务提供商 长度与之间的最短距离相同u个v(v)在里面G公司。可以使用任何全对最短路径算法执行此转换。特别是,Floyd-Warshall算法在spgk中使用,因为它简单易行,时间复杂度为O(n). 然后,对于一对图,最短路径核通过比较最短路径图中的每对边来计算它们的相似性。例如,LetG公司 1 =(五) 1 ,E 1 )G公司 2 =(五) 2 ,E 2 )是两个图和G公司 1便士 =(V 1 ,E’ 1 )G公司 2秒 =(V 2 E’ 2 )分别是它们的最短路径图。两者之间的相似性G公司 1 G公司 2 可以使用公式。1.

(1)

哪里k个 步行 是比较两个游动的正定核。在这种情况下,行走包括一条边及其两个端点节点。e(电子) 1 是连接节点的边缘v(v) 1 w个 1 、和e(电子) 2 是连接边缘的节点v(v) 2 w个 2 ,然后k个 步行 (e) 1 ,电子 2 )由等式定义。2.

(2)

哪里k个 节点 是用于比较两个节点的内核函数,当两个节点相同时返回1,否则返回0,以及k个 边缘 是用于比较两条边的核函数。k个 边缘 是一个布朗桥核,当两条边的长度相同时返回最大值,当边的长度差异超过常量时返回0c(c)如公式。。在本研究中,我们使用c=2根据建议[20].

(3)

评价方法

我们通过比较产生的语义相似度和来自专家注释的蛋白质功能相似度来评估spgk的性能。蛋白质之间的功能相似性来自Pfam数据库[21]如Couto等人所述[13]. 让P表示蛋白质F(P)={(f) 1 ,f 2 ,..., (f) n个 }是与P相关联的Pfam家族的集合。然后是两种蛋白质之间的功能相似性P(P) P(P) j个 由等式给出。4

(4)

Xu等人之前的研究[7]结果表明,数据集中每个蛋白质的注释越多,GO的功能相似性估计就越可靠。因此,为了进行评估,我们从GOA中仔细选择了一组100个蛋白质,因此它们是注释数量最多的前100个蛋白质。我们还确保对于任何选定的蛋白质:1)它存在于UniProtKB/Swiss-Prot数据库中,2)它至少具有GOA-Uniprot中三个本体中每个本体的一个注释,3)它至少有一个Pfam-A注释。评估过程如下:首先,使用图核计算一组蛋白质的成对语义相似度。其次,根据Pfam数据库注释计算蛋白质之间的成对功能相似性。最后,计算了语义和功能相似度之间的皮尔逊相关系数。如果两个蛋白质具有相似的功能,那么一个好的语义相似性方法应该检测出它们之间的高度语义相似性。因此,皮尔逊相关系数的值越高,表示语义相似度的计算性能越好。对GO中的三个本体(即BP、MF和CC)中的每一个都重复此过程。

结果和讨论

数据集集合

在我们的实验中,我们使用了GO的1.723版本和GOA-Uniprot的74.0版本,其中GO术语通过手工和电子方法分配给UniProtKB中的蛋白质[2]. 如前所述,GO包含三种不同的本体论,它们根据相关的生物过程、分子功能和细胞成分描述基因产品。

spgk的性能

如方法部分所述,选择了100个GOA注释最多的蛋白质。Spgk用于计算蛋白质之间的成对语义相似性。计算得到的语义和功能相似性之间的相关系数。使用GO的三个不同本体重复评估。结果如表所示1这揭示了几个有趣的点。首先,spgk产生的语义相似性与所有三个本体的功能相似性高度相关。其次,当使用CC本体时,相关系数低于使用MF和BP本体时的相关系数。这并不奇怪,因为MF和BP本体与功能直接相关,而CC本体与细胞组件和位置相关。

表1 spgk的性能。

spgk与最新方法的比较

为了将spgk与其他现有方法进行比较,我们使用了基于GO的语义相似性度量协同评估(CESSM)在线工具[22]. 里斯本大学XLDB研究小组提供了该工具。为了进行比较,CESSM提供了一个由13340对蛋白质组成的标准数据集,涉及1039个不同的蛋白质,并实现了11种最先进的语义相似性方法,即simGIC和simUI[9],以及三种不同术语相似性方法的三个版本(平均值、最大值和最佳匹配平均值),即Resnik[23],林[24]和Jiang&Conrath[25]. 因此,用户可以使用标准数据集将他们的方法与11种方法进行比较。

正如Pesquita等人所指出的[9]在综合评价中,从生物学角度来看,术语相似度方法的最大和平均版本都有局限性。使用CESSM的标准数据集进行的比较也证实,最佳匹配平均版本比Resnik的最大和平均版本具有更好的性能[23],林[24]以及Jiang&Conrath[25]方法。因此,在本节中,我们将比较spgk与simGIC、simUI以及Resnik的最佳匹配平均版本[23],林[24]和Jiang&Conrath[25]方法使用CESSM。CESSM提供了三种不同的方法来评估语义相似度方法,即将得到的语义相似点与(1)以序列相似度衡量的功能相似度、(2)从酶委员会(EC)分类中得出的功能相似性和(3)从Pfam注释中得出的功能相似性进行比较。

由于MF本体与功能的关系比BP和CC本体更密切,因此我们将使用MF本体来比较不同的方法。正如Pesquita等人所指出的[9]语义相似度和序列相似度之间的关系不是线性的。因此,他们建议使用分辨率而不是相关系数来评估语义相似度与序列相似度的匹配程度。根据它们的定义,分辨率是序列相似性尺度的变化转化为语义相似性尺度时的相对强度。较高的分辨率值意味着语义相似性方法具有更高的能力来区分不同级别的蛋白质功能。因此,具有较高分辨率的方法比具有较低分辨率的方法执行得更好。2显示了将序列相似度与方法计算的语义相似度进行比较时,不同方法的分辨率。将语义相似度与从EC分类和Pfam注释中导出的功能相似度进行比较时,使用Pearson相关系数,如方法中所述。桌子4显示结果。

表2比较I。
表3比较二。
表4比较三。

spgk方法在表中获得了最佳结果2,是表中第二好的4除了更好的性能外,spgk的关键优势在于它是本体的固有特性,即在计算语义相似度时不依赖于外部资源。相反,表中显示的所有其他方法(simUI除外)24依赖外部资源,即GOA中的注释。尽管与一般图形比较相关的计算成本很高,但spgk并没有受到这个缺点的影响。使用最短路径图核,spgk需要多项式时间(O(n)4)),其中n是顶点数。此外,图核的每一步都很容易计算。例如,k个 节点 只需要比较两个顶点ID是否相同,以及k个 边缘 考虑两条边之间的长度差。因此,与多项式时间复杂度相关的常数因子非常小,spgk在实际应用中可以运行得非常快。

SimUI也是本体固有的。在simUI中,两个蛋白质之间的语义相似性定义为两个蛋白质共享的GO项数量与它们结合中的GO项数之间的分数。因此,simUI只需要线性时间(O(n))并且具有计算简单、速度快的优点。然而,表24显示spgk在所有情况下都略优于simUI。我们使用Fisher变换估计了spgk相对于simUI的改善的统计意义。这个当分辨率用于测量性能时,值小于0.001(表2)EC相似性相关系数为0.0384(表)Pfam相似相关系数为0.2266(表4). 因此,与传统的阈值0.05相比,通过分辨率和EC相似性相关系数来衡量性能时,该改进是显著的,但通过Pfam相似性关联系数来衡量时,该改善是不显著的。比较表格24,我们可以看到表中的性能4是所有方法中最差的。这可能部分解释了为什么使用Pfam相似性相关系数作为测量值时改进不显著(表4).

结论

在这份手稿中,我们提出了一种方法(spgk),该方法仅使用GO固有的信息计算基因产品之间的语义相似性。在使用基准数据集进行综合评估时,spgk与依赖外部资源的其他最先进方法相比具有优势。与simUI相比,spgk的结果稍好一些,但时间复杂度更高。spgk和simUI之间的一个很大区别是spgk考虑了本体的结构。由于本体的结构包含重要信息,因此利用它们来获取语义相似性是很重要的。这里的结果表明,spgk为依赖外部资源的方法和具有可比性能的“内部”方法提供了一种替代方法。

考虑到未来的发展,spgk目前的形式仍然有一些局限性(k个 节点 )比较节点只考虑两个节点是否相同。然而,GO中的每个节点都与一个文本定义相关联,该文本定义包含丰富的信息,有助于导出节点之间的生物关系。因此,未来改进的一个方向是在比较节点时考虑文本定义的语义。此外k个 边缘 函数只考虑两条路径之间的长度差。在GO中,边与不同类型的关系相关联。由于不同类型的关系具有不同的生物学意义,因此应该赋予它们不同的权重。因此,另一个改进方向是系统地探索基于生物关系为边缘分配不同权重的权重方法。

参考文献

  1. Ashburner M、Ball CA、Blake JA、Botstein D、Butler H、Cherry JM、Davis AP、Dolinski K、Dwight SS、Eppig JT、Harris MA、Hill DP、Issel-Tarver L、Kasarskis A、Lewis S、Matese JC、Richardson JE、Ringwald M、Rubin GM、Sherlock G:基因本体论:生物学统一的工具。基因本体联盟。自然遗传学。2000年,25:25-29。10.1038/75556.

    第条 谷歌学者 

  2. Barrell D、Dimmer E、Huntley RP、Binns D、O’Donovan C、Apweiler R:2009年的GOA数据库——集成的基因本体注释资源。《核酸研究》,2009年,37:D396-403。10.1093/nar/gkn803。

    第条 谷歌学者 

  3. 王JZ,杜Z,Payattakool R,Yu PS,Chen C-F:量度go术语语义相似度的新方法。生物信息学。2007, 23: 1274-1281. 10.1093/bioinformatics/btm087。

    第条 谷歌学者 

  4. Sheehan B,Quigley A,Gaudin B,Dobson S:基因本体注释的基于关系的语义相似性度量。BMC生物信息学。2008, 9: 468-10.1186/1471-2105-9-468.

    第条 谷歌学者 

  5. Nagar A,Al-Mubaid H:一种新的基于基因相似性的路径长度测量方法,使用sgd路径进行评估。IEEE基于计算机的医疗系统国际研讨会论文集。2008, 590-595.

    谷歌学者 

  6. Du Z,Li L,Chen C-F,Yu PS,Wang JZ:G-芝麻:基于go-term的基因相似性分析和知识发现的网络工具。Nucl Acids Res.2009,37:W345-349。10.1093/nar/gkp463。

    第条 谷歌学者 

  7. Xu T,Du L,Zhou Y:使用酿酒酵母蛋白质相互作用和表达谱数据评估基于GO的功能相似性度量。BMC生物信息学。2008, 9: 472-10.1186/1471-2105-9-472.

    第条 谷歌学者 

  8. Sevilla JL、Segura V、Podhorski A、Guruceaga E、Mato JM、Martinez-Cruz LA、Corrales FJ、Rubio A:基因表达与go语义相似性之间的相关性。IEEE/ACM计算生物学和生物信息学汇刊。2005, 2: 330-338. 10.1109/TCBB.2005.50。

    第条 谷歌学者 

  9. Pesquita C、Faria D、Bastos H、Ferreira AE、Falcáo AO、Couto FM:基于go的蛋白质语义相似性度量:系统评估。BMC生物信息学。2008, 9: 5-10.1186/1471-2105-9-5.

    第条 谷歌学者 

  10. Mistry M,Pavlidis P:作为基因功能相似性度量的基因本体术语重叠。BMC生物信息学。2008, 9: 327-10.1186/1471-2105-9-327.

    第条 谷歌学者 

  11. Lord PW,Stevens RD,Brass A,Goble CA:跨基因本体研究语义相似性度量:序列和注释之间的关系。生物信息学。2003年,19:1275-1283。10.1093/bioinformatics/btg153。

    第条 谷歌学者 

  12. Fontana P、Cestaro A、Velasco R、Formentin E、Toppo S:使用基因本体中的语义相似性和权重方案快速注释基因组项目中的匿名序列。《公共科学图书馆·综合》。2009年,4:e4619-10.1371/journal.pone.0004619。

    第条 谷歌学者 

  13. Couto FM,Silva MJ,Coutinho PM:测量基因本体术语之间的语义相似性。数据与知识工程。2007,16:137-152。

    第条 谷歌学者 

  14. Schlicker A,Domingues F,Rahnenfuhrer J,Lengauer T:基于基因本体的基因产品功能相似性新度量。BMC生物信息学。2006, 7: 302-10.1186/1471-2105-7-302.

    第条 谷歌学者 

  15. Alvarez M,Qi X,Yan C:基于GO的术语语义相似性。使用Web的本体学习和知识发现:挑战和最新进展。编辑:Wong W,Liu W,Bennamoun M.2011,宾夕法尼亚州:IGI-Global,174-185。

    第章 谷歌学者 

  16. Pesquita C,Faria D,Falcão AO,Lord P,Couto FM:生物医学本体论中的语义相似性。PLOS计算生物学。2009年,5:e1000443-10.1371/journal.pcbi.1000443。

    第条 谷歌学者 

  17. Cheng J,Cline M,Martin J,Finkelstein D,Awad T,Kulp D,Siani-Rose MA:基因本体驱动的基于知识的聚类算法。生物医药统计杂志,2004年,14:687-700。10.1081/BIP-200025659。

    第条 数学科学网 谷歌学者 

  18. Wu X,Zhu L,Guo J,Zhang D-Y,Lin K:酵母蛋白相互作用网络的预测:来自基因本体论和注释的见解。Nucl Acids Res.2006,34:2137-2150。10.1093/nar/gkl219。

    第条 谷歌学者 

  19. UniProt联盟:2010年的Universal Protein Resource(UniProt)。《核酸研究》,2010年,38:D142-148。

    第条 谷歌学者 

  20. Borgwardt KM、Ong CS、Schonauer S、Vishwanathan SVN、Smola AJ、Kriegel H-P:通过图核预测蛋白质功能。生物信息学。2005年第21期:i47-56。10.1093/bioinformatics/bti1007。

    第条 谷歌学者 

  21. Finn RD、Tate J、Mistry J、Coggill PC、Sammut SJ、H-R Hotz、Ceric G、Forslund K、Eddy SR、Sonnhammer ELL、Bateman A:pfam蛋白家族数据库。Nucl Acids Res.2008,36:D281-288。10.1093/nar/gkn226。

    第条 谷歌学者 

  22. Pesquita C、Pessoa D、Faria D、Couto F:CESSM:语义相似性度量的协同评估。JB2009会议录:葡萄牙里斯本生物信息学的挑战。2009

    谷歌学者 

  23. Resnik P:使用信息内容评估分类法中的语义相似性。国际人工智能联合会议论文集。1995, 448-453.

    谷歌学者 

  24. 林德:相似性的信息理论定义。机器学习国际会议论文集。1998, 296-304.

    谷歌学者 

  25. 姜JJ,Conrath DW:基于语料库统计和词汇分类的语义相似性。计算语言学国际会议论文集。1997年,19-33。

    谷歌学者 

下载参考资料

致谢

我们感谢里斯本大学XLDB研究团队为基于GO的语义相似性度量的评估提供了在线工具。我们特别感谢Catia Pesquita为使用他们的工具提供的所有善意支持。该项目得到了国家研究资源中心INBRE项目NIH拨款P20 RR016471的部分支持。

作者信息

作者和附属机构

作者

通讯作者

与的通信严昌辉.

其他信息

竞争性利益

作者声明,他们没有相互竞争的利益。

作者的贡献

CY构思了该项目并监督了研究的所有方面。文学硕士为规划、讨论、数据分析和初稿的编写做出了贡献。XQ参与了讨论。所有作者阅读并批准了最终手稿。

作者提交的原始图像文件

下面是作者提交的原始图像文件的链接。

图1的作者原始文件

权利和权限

开放式访问本文经BioMed Central Ltd.许可发布。这是一篇开放存取文章,根据知识共享署名许可条款分发(https://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于本文

引用本文

Alvarez,M.A.、Qi,X.和Yan,C.估算基因产品语义相似性的最短路径图核。J生物识别精液 2, 3 (2011). https://doi.org/10.1186/2041-1480-2-3

下载引文

  • 收到:

  • 认可的:

  • 已发布:

  • 内政部:https://doi.org/10.1186/2041-1480-2-3

关键词