普洛松标志Link to Publisher's site
公共科学图书馆一号. 2012;7(6):e38107。
2012年6月12日在线发布。 内政部:10.1371/journal.pone.0038107
PMCID:PMC3373574型
PMID编号:22719866

AlignNemo:一种结合同调和拓扑的局部网络对齐方法

帕特里克·阿洛伊,编辑

关联数据

补充资料

摘要

局部网络比对是蛋白质相互作用网络分析的一个重要组成部分,它有助于识别进化相关复合物。我们提出了一种新的算法AlignNemo,它在给定两个生物体的网络的情况下,揭示与生物功能和相互作用拓扑相关的蛋白质子网络。所发现的保守子网络具有一般的拓扑结构,不需要对应于特定的相互作用模式,因此它们更接近于文献中提出的功能复合体模型。该算法能够处理稀疏的相互作用数据,每一步都可以探索与当前解决方案直接相互作用的蛋白质之外的网络的局部拓扑结构。为了评估AlignNemo的性能,我们使用统计方法和生物学知识运行了一系列基准测试。基于蛋白质复合物的参考数据集,AlignNemo在精确度和召回率方面均优于其他方法。我们将语义相似性的概念应用于基因本体词汇表,以证明我们的解决方案在生物学上是正确的。AlignNemo的二进制文件以及有关算法和实验的补充详细信息,请访问:sourceforge.net/p/AlignNemo。

介绍

在过去的几十年里,研究者们一直致力于在基因组尺度上研究进化的影响,即如何通过分析基因组序列来重建进化。最近,蛋白质-蛋白质相互作用的高通量数据的可用性使得通过比较不同物种的蛋白质相互作用图(也称为相互作用体)来观察进化变化[1][3]. 这一领域的目标包括确认物种间相互作用的保守模式,以及识别新的正位关系[4]. 在这种情况下,已经开发了几种用于比较蛋白质-蛋白质相互作用(PPI)网络的算法,通常称为网络对齐算法。

网络对齐问题有两个主要实例:全球协调通过寻找一整套蛋白质和来自不同物种的蛋白质相互作用的单一综合图谱来回答进化问题;局部定线搜索细胞机械进化保守的构建块,忽略网络之间的整体相似性。图论的形式主义为解决这两个问题提供了最好的框架。在这种形式中,PPI网络被表示为图(G)谁的节点()是蛋白质和边缘(E)是它们之间的相互作用。蛋白质网络比对问题是一个图对齐问题,即在两个(成对)或多个(多个)图之间寻找相同或相似的子图。形式上:给定两个输入图,保存图片、插图等对象名的外部文件是pone.0038107.e001.jpg保存图片、插图等对象名的外部文件是pone.0038107.e002.jpg,对齐问题保存图片、插图等对象名的外部文件是pone.0038107.e003.jpg保存图片、插图等对象名的外部文件是pone.0038107.e004.jpg可以表述为寻找映射的问题中的节点之间保存图片、插图等对象名的外部文件是pone.0038107.e005.jpg和中的节点保存图片、插图等对象名的外部文件是pone.0038107.e006.jpg(保存图片、插图等对象名的外部文件是pone.0038107.e007.jpg,与保存图片、插图等对象名的外部文件是pone.0038107.e008.jpg)最大化在节点和边上定义的关联相似函数。对于全局对齐,M是整个网络节点集之间的映射。相比之下,对于局部对齐,M被定义为最相似的节点子集之间的映射集。本文针对PPI网络的局部比对问题,提出了一种从两个PPI网络中提取保守蛋白质复合物的方法。

蛋白质复合物在这里被定义为具有相似功能或参与同一生物过程的蛋白质组。现有的检测蛋白质复合物的方法通常是基于这样的观察:复合物对应于高度相互作用的蛋白质集合,因此它们在PPI网络中寻找密集的子图。例如,两个版本的NetworkBLAST[5],[6]是基于这样的假设,从最初的路径爆炸演化而来[7]集中在守恒路径上。在我们提议的方法中,我们寻找相当地密集的节点群,即节点之间的交互比与网络的其他部分有更多的交互,对复合体的拓扑结构施加的约束较少。事实上,虽然拓扑学是信息丰富的,但它往往是不完整的,反映了对蛋白质的不统一的认识[8],[9]. 多个假阴性的存在导致稀疏图甚至物种间保守相互作用的稀疏集,导致只寻找稠密子图的方法无法检测到保守复合物。

有几种方法,如NetworkBLAST,依赖于在一个称为线形图. 排列图有对应于同源蛋白质对的节点和保守相互作用的边。为了处理缺失的信息,NetworkBLAST以及类似的方法引入了限制较少的排列图定义,允许在原始PPI网络中的同源蛋白质对的距离小于或等于时连接节点k(对于NetworkBLAST保存图片、插图等对象名的外部文件是pone.0038107.e009.jpg). 然而,以这种方式,可能会将几个不可靠的链接添加到路线图中,从而导致即使对于较小的值也不正确的解决方案k.

Mawish方法[10]将网络对齐作为一个最大权重诱导子图问题,结合进化模型来评估拓扑相似性。虽然有效,但正如我们在实验中观察到的,这个模型可能过于严格,导致只识别小的保守结构,而无法恢复更大的复合物。

其他算法,如Graemlin[11]以及它的新版本Graemlin 2.0[12],通过允许搜索更一般的拓扑来概括以前的方法。这些方法通过使用Inparanoid中蛋白质之间的副逻辑关系,增加了检测有意义排列的能力[13],KEGG路径注释[14],以及已知的路线。然而,这些方法没有充分利用拓扑信息,因为局部对齐步骤只检查每个节点的直接邻域,以贪婪的方式迭代地分组最佳邻居。

丰基[15]在考虑网络环境中的局部保守子网络方面向前迈进了一步:在选择了一组假定的同源序列之后,这种方法同时探索所有相邻的蛋白质,寻找高度保守的相互作用集。然而,所有交互都具有相同的可靠性,phunkey定义的网络上下文并没有超出直接交互的范围。最后,结合本工作的发展,提出了一种新的方法NetAligner[16],设计了一个蛋白质组比对的算法框架。NetAligner引入了一种识别进化保守相互作用的策略,该策略依赖于相互作用蛋白质的进化速度大大低于预期的偶然性。

虽然有关全局和本地网络对齐的可用算法的详细描述超出了本文的范围,但中提供了有关可用工具的更广泛的概要表1.

表1

网络对齐工具概要。
算法本地(L)/成对(P)/输入数据调整策略*
全球(G)多向(M)
马维什 [10] PPPI网络线形图
爆炸e值单节点扩展
重复发散
模型
探路者 [7] PPPI网络线形图
爆炸e值单节点扩展
守恒线性路径
提取
网络爆炸 [5] PPPI网络线形图
爆炸e值PPI可靠性得分
单节点扩展
守恒稠密网络
提取
网络爆破-M [6] PPI网络分层排列图
爆炸e值单节点扩展
守恒稠密网络
提取
格雷姆林 [11] PPI网络得分概率模型
正射测井曲线簇节点和边
节点等价类
单节点扩展
格雷姆林2[12] G/L公司PPI网络机器学习法
KEGG星团用于网络评分
已知对齐单扩展节点
等秩 [33] GPPPI网络蛋白质对的特征向量
协会
爆炸e值一致的关联集
提取
等秩-N [34] GPPI网络等秩的贪婪扩张
爆炸e值
格拉尔 [35] GPPPI网络纯粹基于拓扑
(另请参见[36],[37])爆炸e值蛋白质对评分依据
笔迹签名
HopeMap [38] PPI网络正射测井曲线簇
爆炸e值线形图
类星团强连通分量
KEGG星团提取
丰基 [15] PPPI网络膨胀过程
代谢网络加上相邻的
爆炸e值,COG模块
NetAligner公司 [16] PPPI网络相互作用守恒
爆炸对齐概率
*所有的方法,作为最后一步,根据相似性函数对解进行评分和排序。

我们在这里介绍一种方法AlignNemo(aligningnetworkmodules),它通过提供一个通用而有效的本地网络校准框架来解决上述问题。AlignNemo按照中概述的不同步骤进行操作图1. 首先,从输入网络中建立加权对齐图。节点代表一对假定的同源蛋白对,并按Inparanoid评分,反映了绘制蛋白质对的信心。相比之下,使用一种新的方法对边进行加权,该方法考虑了输入网络中的局部连通性(参见方法)。然后,从对齐图中提取出所有给定尺寸的连通子图,并根据节点和边的权重对它们进行排序。排名靠前的全连通子图将作为对齐解决方案的种子。最后,我们通过在每个步骤中添加多个子图,以迭代的方式扩展每个种子。这使我们能够探索一个解决方案的网络环境,而不仅仅是它的近邻。算法的形式化描述在方法部分提供。

保存图片、插图等对象名的外部文件是pone.0038107.g001.jpg
AlignNemo概述。

给定两个输入PPI网络(1),建立对齐图,并将分数分配给节点和边(2)。那么种子从对齐图(3)中提取具有大量高分链接和节点的小子图,并通过添加通过可靠链接(4)与之相对良好连接的小子图以贪婪的方式展开每个种子。

该方法的主要贡献是:1)通过两个给定节点之间的路径集合分析输入PPI网络的结构,并估计其可靠性和局部显著性;2)从种子开始,探索了一种新的迭代展开方法除了直接交互之外,每个步骤的对齐图的局部拓扑。这种结合提供了一种新的方法来解释拓扑结构和同源性,并被证明是有效的检测各种各样的蛋白质复合物的大小或程度的连接性。

在下一节中,我们将展示PPI网络对齐的原理性结果面包酵母,D、 黑腹菌,和H、 智者. 我们证明我们的比对方法比其他方法具有更好的拓扑和生物学特性。结果的质量通过各种方式进行评估:我们首先通过精确性和召回度来证明AlignNemo恢复已知蛋白质复合物的能力,然后我们使用应用于基因本体词汇的语义相似性概念来证明我们的解决方案在生物学上是可靠的,最后我们证明,即使在该方法施加的限制较少的情况下,所提取的模块仍然保持高连通性。

详细讨论了具有代表性的复合体,并与NetworkBLAST、Mawish和NetAligner等本地校准工具进行了比较,这些工具是软件可用且目前维护的唯一工具。我们选择NetworkBLAST和Mawish作为主要分析,因为它们可以用于用户定义的输入数据,而我们分别比较了AlignNemo和NetAligner,因为我们根据各自的数据和交互概率运行后者。AlignNemo以及本文中使用的适当文档和数据集可在http://www.bioinformatics.org/alignnemo.

结果与讨论

在本节中,我们将评估AlignNemo、NetworkBLAST和Mawish在D、 黑腹菌(果蝇),S、 酿酒(面包酵母),以及智人(人类)。我们在相同的数据集上运行这些方法,每个算法产生一组可能重叠的解决方案或模块。A模块是包含来自两个输入网络的一组蛋白质对的排列图的子图。我们将参考网络中的蛋白质组保存图片、插图等对象名的外部文件是pone.0038107.e010.jpg保存图片、插图等对象名的外部文件是pone.0038107.e011.jpg在里面作为保存图片、插图等对象名的外部文件是pone.0038107.e012.jpg保存图片、插图等对象名的外部文件是pone.0038107.e013.jpg分别。

从每一种方法得到的解被评估和比较在同调和拓扑学术语。首先,我们证明了alignenemo能够以高精度和召回率重述已知的蛋白质复合物。然后,我们将语义相似度的概念应用于基因本体词汇表,说明不同物种的蛋白质间的关联在生物学上是正确的。最后,我们证明了我们的解决方案比预期的更紧密地联系在一起。在结束这一节时,我们将重点放在几个具体案例上,以突出每种方法的弱点和优势。

输入数据

蛋白质相互作用D、 黑腹菌S、 酿酒来自相互作用蛋白质数据库(DIP-更新于2011年10月27日)[17]. 它们包括苍蝇中7548个蛋白质和22969个相互作用,以及5053个蛋白质和22254个在酵母中的相互作用。Inparanoid公司[13]从这两个网络中筛选出10045对假定同源蛋白,其中酵母1878个,果蝇1511个。智人PPI网络来源于嬉皮士数据库[18]它包括12113个蛋白质和78559个来自17个不同来源的加权相互作用。从Gerstein实验室获得了一组来自人类和苍蝇的假定同源蛋白对[19].

这些数据集集成了多个数据源,并包含了来自不同方法(包括高吞吐量和小规模实验)的交互作用。为了考虑这种多样性,我们给每个边分配一个可靠性分数。对于由DIP(果蝇和酵母)导出的两个网络,我们采用了中定义的最大似然估计程序[20]通过实验确定蛋白质相互作用的可靠性。这种基于时间相关性的蛋白质互作特征值的相关性评价方法是典型的基于时间相关性的蛋白质表达。在应用这种方法时,我们认为随机配对的蛋白质不知道是相互作用的真正的非交互作用蛋白质,以及小规模实验确定的相互作用真正的互动蛋白质,从这两个集合估计相关系数的各自分布。对于酵母蛋白,我们使用SGD数据库中报告的一组表达谱[21],并为DIP中描述的每个实验方法及其组合指定一个置信分数。苍蝇相互作用的得分是基于这样一个假设,即给定的实验方法在不同的生物体中同样有效,因此基于酵母数据的置信分数被转换为苍蝇相互作用。人类蛋白质相互作用网络的可靠性得分可通过网络服务器嬉皮士获得。

已知配合物的检测

我们通过评估每个方法找到的模块与已知配合物的一致性来评估结果的质量。给定一个模块和一个已知的复数,我们从信息检索中计算出两个广泛使用的度量:精度(保存图片、插图等对象名的外部文件是pone.0038107.e014.jpg)回忆和回忆(保存图片、插图等对象名的外部文件是pone.0038107.e015.jpg).保存图片、插图等对象名的外部文件是pone.0038107.e016.jpg定义为模块中也存在于复合物中的蛋白质百分比;回忆定义为复合物中也存在于模块中的蛋白质百分比。为了将这些指标整合到一个分数中,我们计算保存图片、插图等对象名的外部文件是pone.0038107.e017.jpg-分数函数定义为准确度和召回率的调和平均值。这些措施的正式定义如下:

公式图像

哪里总磷在溶液中也发现了一些阳性的蛋白质。类似地,计划生育FN公司是误报和漏报的数量。这个保存图片、插图等对象名的外部文件是pone.0038107.e019.jpg-分数范围在区间[0,1],1对应完全一致。在我们的分析中,我们匹配每个已知的物种复合体保存图片、插图等对象名的外部文件是pone.0038107.e020.jpg至所有模块保存图片、插图等对象名的外部文件是pone.0038107.e021.jpg从给定的算法中选择最匹配的模块保存图片、插图等对象名的外部文件是pone.0038107.e022.jpg-得分。

评估对齐结果S、 酿酒D、 黑腹菌,我们在CYC2008中提到了配合物[22],这是一个综合目录408酵母蛋白复合物从小规模实验和文献挖掘。为了对齐D、 黑腹菌智人,我们提到了CORUM中的复合物[23],1682个人类蛋白质复合物的数据集。我们观察到28%的CYC2008和球茎复合体仅由2或3种蛋白质组成(CYC2008为132,球茎为474)。这可能是个问题,因为统计指标往往很难解释这种小的复杂情况。因此,我们将分析限制在至少含有4种蛋白质的复合物上,但同时我们验证了每种方法回收小复合物(2-3种蛋白质)的能力。我们认为,如果一个小的复合物至少有2个蛋白质与一个排列溶液重叠,不包括超过20个节点的溶液,则可以回收。表2我们总结了这四种算法的性能。在表中,我们列出了每种算法找到的模块数,以及其中高质量模块的数量,即那些匹配已知复杂度与保存图片、插图等对象名的外部文件是pone.0038107.e023.jpg-得分大于0.3。总体分布保存图片、插图等对象名的外部文件是pone.0038107.e024.jpg-由AlignNemo、Mawish和NetworkBLAST获得的分数由各自的核密度分布估计,如所示图2(A–B)。图2(A–B)我们还分别报告了每种方法在精确度和召回率方面的表现。NetworkBLAST和AlignNemo在酵母苍蝇比对上都表现得更好,后者的精确度和召回率总体上都更高。Mawish发现的小溶液通常具有很高的精确度,但不可避免地无法回收复合物中的大多数蛋白质。

表2

AlignNemo、Mawish、NetworkBLAST和NetAligner的比较。
苍蝇酵母飞人
算法S数量。M、 美国。F1>0.3个S、 C.R.公司。S数量。M、 美国。F1>0.3S、 C.R.公司。
马维什17532291687376033
网络爆炸32946301845231324
NetAligner公司1403241 49 133408184
阿利尼莫24254 52 2711553 87 89
S数量。:溶液数量;M、 美国。:匹配溶液;S、 C.R.公司。:回收小型综合体。
第2列和第5列分别列出了酵母苍蝇和苍蝇人类比对的每种算法找到的解的数量(S数)。在第3列和第6列(M.S.-匹配解决方案)中报告了与至少一个已知复合物匹配的解决方案的数量。高质量匹配的大小复杂的数量保存图片、插图等对象名的外部文件是pone.0038107.e025.jpg第4栏和第7栏总结了4(保存图片、插图等对象名的外部文件是pone.0038107.e026.jpg),而回收的小复合物(2-3个蛋白质)数量在第5和第8列(S.C.R.—回收的小复合物)。
保存图片、插图等对象名的外部文件是pone.0038107.g002.jpg
AlignNemo、NetworkBLAST和Mawish的比较。

这三种算法都是在这两种算法中恢复已知的蛋白质复合物保存图片、插图等对象名的外部文件是pone.0038107.e027.jpg(CYC2008)和文件名为jpe028.10的图片(球茎)。匹配已知复合物的溶液通过精确性、召回率和F进行评分1分数。将每种方法的得分分布绘制在面板(A)中用于酵母苍蝇比对,面板(B)用于人类苍蝇比对。面板(C)和(D)显示了不同物种的蛋白质之间的平均语义相似性。每个解都由一个半径与解的大小成比例的圆表示。每种方法得到的解的大小差别很大,因此小(<7个节点)和大(保存图片、插图等对象名的外部文件是pone.0038107.e029.jpg7节点)解决方案单独显示。*百分比是指通过至少一种方法匹配的一组配合物。

完整的列表保存图片、插图等对象名的外部文件是pone.0038107.e030.jpg-分数,以及准确度和召回率的衡量标准,都可以作为补充材料(表S1). 对于每一个匹配,我们还报告了经多次测试修正后由Fisher精确检验得出的p值。AlignNemo在恢复已知复合物方面明显优于其他方法,显示出高质量模块的最高百分比。需要注意的是,虽然Mawish在苍蝇-人类比对中的表现相似,但这种方法产生的大多数模块尺寸较小,特别是90%的模块仅由2个节点组成。

种间蛋白质图谱

在上一节中,我们展示了alignemo能够重述已知的蛋白质复合物,并且检测到的保守子网络通常反映了每个物种的已知生物学特性。另一方面,来自不同物种的蛋白质之间的映射质量需要进一步评估。我们根据功能相似性来评估所发现映射的生物学相关性,即我们确定来自两个生物体的匹配蛋白质在多大程度上是功能相关的。

这种分析需要使用编码到本体论中的先验生物学知识。我们选择基因本体论(GO)框架及其注释来确定来自不同物种的两种蛋白质之间的功能相似性语义相似性 [24]. 在我们的分析中,我们使用GO中生物学过程(BP)和分子功能(MF)本体论的一组注释来计算每个解决方案的语义相似性。我们在这里报告BP的结果只是因为这个本体论更紧密地反映了蛋白质复合物作为参与特定过程的亚细胞单元的想法。完整结果报告于表S2.

给两个蛋白质保存图片、插图等对象名的外部文件是pone.0038107.e031.jpg保存图片、插图等对象名的外部文件是pone.0038107.e032.jpg,以及它们的GO注释集保存图片、插图等对象名的外部文件是pone.0038107.e033.jpg保存图片、插图等对象名的外部文件是pone.0038107.e034.jpgResnik相似性度量[25]用于对每对进行评分保存图片、插图等对象名的外部文件是pone.0038107.e035.jpg具有保存图片、插图等对象名的外部文件是pone.0038107.e036.jpg保存图片、插图等对象名的外部文件是pone.0038107.e037.jpg. 语义相似性一个外部对象,例如一个名为jpe038的外部对象保存图片、插图等对象名的外部文件是pone.0038107.e039.jpg被定义为每一个围棋术语的最佳匹配分数的平均值保存图片、插图等对象名的外部文件是pone.0038107.e040.jpg保存图片、插图等对象名的外部文件是pone.0038107.e041.jpg根据Resnik标准[26]. 使用FastSemSim工具计算语义相似度[27].

对于每一种蛋白质,我们用一种最大的方法,在每种蛋白质中,有35%和35%的蛋白质在5%和5%之间进行测试;对于每一种蛋白质,我们在5和5之间进行了测试。考虑到检测到的子网络在大小上的显著差异,我们分别给出了三种方法对小络合物的结果(保存图片、插图等对象名的外部文件是pone.0038107.e042.jpg蛋白质)和大分子(保存图片、插图等对象名的外部文件是pone.0038107.e043.jpg蛋白质)在图2(C–D)。

两种蛋白质网络比对的结果显示,三种算法在语义相似性方面表现出相似性,而在语义相似性方面,这三种算法的性能更好H、 智者-D、 黑腹菌蛋白质排列。

守恒模的拓扑

在这里,我们分析得到的解的拓扑结构。正如导言中所讨论的,蛋白质复合物通常由密集相互作用的蛋白质组成。然而,最近关于PPI网络中复合物的模块性和组织性的研究表明,它们往往由一个紧密连接的结构组成核心以及一个不那么紧密相连的集合蛋白附件. 后者通常存在于多个复合物中,允许潜在功能多样化[28].

按照这个模型,AlignNemo寻找相当地密集连接蛋白质,即蛋白质之间的相互作用比与网络的其他部分有更多的相互作用,而不是对候选解的拓扑结构施加刚性和固定的约束。

我们现在想测试这一策略是否会危及我们检测紧密连接核心的能力,包括在我们的解决方案中稀疏的子网络不太可能是真正的蛋白质复合物。为此,我们为每个PPI网络生成1000个随机网络,保持它们的节点度分布;然后我们评估每个模块在原始PPI网络和随机集中的连通性,即边数。因此,对于每个物种和每个解,我们估计其连通性的背景分布。我们量化了实际网络中观察到的连通性的偏差,保存图片、插图等对象名的外部文件是pone.0038107.e044.jpg,根据使用Z分数的背景分布:

公式图像

哪里保存图片、插图等对象名的外部文件是pone.0038107.e046.jpg是随机集合中这组蛋白质的平均连接性保存图片、插图等对象名的外部文件是pone.0038107.e047.jpg它的标准差。

首先,我们分别测试由每个溶液定义的两组蛋白质,每个物种一组,然后,我们将得到的两种溶液之间的最大Z值关联起来。在另一个物种中,当我们在另一个物种中以相对较低的方式相互作用时,另一个物种也以相对较差的方式相互作用。根据经验,从这个背景分布中为每个模块导出一个p值,它是由随机网络的数量给出的,这些随机网络在所有可能的网络中导致被测试模块的Z分数更大或相等。有趣的是,我们发现95%的解决方案,无论是人类苍蝇和酵母苍蝇的路线,显示出统计意义上更高的连通性,观察到的随机网络。

综上所述,AlignNemo比Mawish和NetworkBLAST在正确检测单个物种内的蛋白质复合物方面表现出色,因为它们之间存在相互作用体和正交关系。此外,不同物种之间的蛋白质映射在生物学上是可靠的,同一模块中蛋白质之间的平均语义相似性证明了这一点。最后,尽管AlignNemo没有对模块拓扑施加严格的约束,探索蛋白质复合物中不那么强连接的成分,但是提取的子网络的连接比预期的更加紧密。

与NetAligner的比较

NetAligner依靠一种新的算法方法来计算与保守相互作用相关的概率,基于不同物种蛋白质之间的蛋白质序列相似性。给定两对假定的正射测井曲线,NetAligner通过考虑两对正射测井曲线之间进化距离的差异来评估它们共享保守交互作用的可能性。我们在不同的配置和输入数据下测试了NetAligner,包括工具提供的原始蛋白质组和同源性。根据我们的分析,NetAligner在使用预测可能的保守相互作用设置,以及参考文件中建议的参数[16]. NetAligner在自己的数据集中提取更大、更可靠的对齐集。因此我们决定在NetAligner上运行它自己的数据集。

当溶液与参比配合物(cyc208和CORUM)相匹配时,这两种方法的性能相似(参见图3表2). AlignNemo再次显示出更好的整体性能保存图片、插图等对象名的外部文件是pone.0038107.e048.jpg-保存图片、插图等对象名的外部文件是pone.0038107.e049.jpg对齐。保存图片、插图等对象名的外部文件是pone.0038107.e050.jpg-保存图片、插图等对象名的外部文件是pone.0038107.e051.jpg调整后,NetAligner会找到一组得分较高的小型解决方案,但同时,一个包括463个节点的非常大的解决方案会生成多个匹配,从而导致较高的召回值,尽管精确度接近于零(图3).

保存图片、插图等对象名的外部文件是pone.0038107.g003.jpg
NetAligner与Nealigner的比较。

这两种算法都是从恢复已知的蛋白质复合物的角度来评估的保存图片、插图等对象名的外部文件是pone.0038107.e052.jpg(CYC2008)和保存图片、插图等对象名的外部文件是pone.0038107.e053.jpg(球茎)。匹配已知复合物的溶液通过精确性、召回率和F进行评分1分数。

保守配合物

在本节中,我们特别关注cyc208和CORUM的一些复合物,以便更好地剖析不同方法的性能。这里讨论的案例包括一个小的综合体,Arp2/3两个相对较大的,TFIID(通用转录因子)20S蛋白酶体,具有不同级别的连接性。表3我们报告了这些复合物的蛋白质,这些蛋白质至少在AlignNemo、NetworkBLAST和Mawish之间被正确关联和回收保存图片、插图等对象名的外部文件是pone.0038107.e054.jpg保存图片、插图等对象名的外部文件是pone.0038107.e055.jpg网络对齐。对于转录因子TFIID和Arp2/3复合物,alignenemo的表现更好1-分数与语义相似度。在检测20S蛋白酶体时,AlignNemo和NetworkBLAST对酵母苍蝇比对的召回率相当,但AlignNemo具有更高的精确度。此外,AlignNemo在人-蝇对齐中表现出优越的性能。我们的解决方案已经用GOTermFinder计算了显著丰富的GO类别[29]并在中报告表S3. 在这两个比对中,AlignNemo的跨物种语义相似性更高,这表明生物质量有所改善,详情将在下文讨论。

表3

arp2/3、TFIID和20S蛋白酶体复合物最佳匹配溶液的比较。
复合物名:肌动蛋白相关蛋白2/3(ARP 2/3)复杂大小:7种蛋白质
方法:马维什阿利尼莫N、 爆炸
溶液大小:-6-
蛋白质功能ID人类ID飞行正确选择
阿普3BARP3B公司P32392页
arp2/3亚单位2ARPC2公司Q9VIM5型
ARP 2/3亚单位3ARPC3公司Q9VX82型
arp2/3亚单位5ARPC5公司Q9VQD8型
复合物名:转录因子IID(TFIID) 复杂大小:13种蛋白质
方法: 马维什 阿利尼莫 N、 爆炸
溶液大小: 2 19 10
蛋白质功能ID人类ID飞行正确选择
TFIID亚单位1TAF1P51123页
类TFIID亚单位塔菲尔P51123页
TFIID亚单位10bTAF10型Q9XZT7型
TFIID亚单位11TAF11型4906页
TFIID亚单位6TAF6型P49847页
TFIID亚单位7TAF7Q9VHY5型
TFIID亚单位8TAF8Q9VWY6型
TFIID亚单位9塔夫9bQ27272号
TBP公司TBP公司P20227页
复合物名:20S蛋白酶体 复杂大小:14种蛋白质
方法: 马维什 阿利尼莫 N、 爆炸
溶液大小: 2 11 11
蛋白质功能ID人类ID飞行正确选择
蛋白酶体亚单位α-1型诗篇12881页
蛋白酶体亚单位α2型诗篇2P40301页
蛋白酶体亚单位α-3型诗篇3Q9V5C6
蛋白酶体亚单位α-4型诗篇4P18053
蛋白酶体亚单位α-5型诗篇5问题95083
蛋白酶体7型亚单位诗篇7P22769页
蛋白酶体β1型亚单位PSB1型0304页
蛋白酶体β2型亚单位PSB2Q9VQE5型
蛋白酶体β-3亚单位PSB3问题9XYN7
蛋白酶体亚单位β-7型PSB7型Q9VUJ1型
同源蛋白质正确包含在至少一种算法的最佳匹配解中。对于Arp2/3复合物,6个蛋白质中有4个真正参与了Arp2/3人类复合物,而另外2个(略)是错误地包含在溶液中的同源蛋白质。NetworkBLAST和Mawish没有提供与这个复杂系统重叠的任何解决方案。对于TFIID和20S蛋白酶体复合物,AlignNemo溶液的质量取决于属于该复合物但未经Mawish和NetworkBLAST选择的蛋白质对的数量。

转录因子TFIID复合物

RNA聚合酶(I,II,III)催化核基因的转录并依赖于一般的转录因子来识别靶启动子;特别是RNA聚合酶II依赖TFIID复合物来启动转录。转录因子TFIID主要由TATA盒结合蛋白(TBP)和一组TBP相关因子(TAF)组成文件名为jpe056s) 或者在物种间保存良好的亚单位[30].

AlignNemo在发现这种复合物方面表现优于现有的方法:它在19个节点的溶液中发现了9个TFIID的蛋白质;它正确地将人类蛋白质映射成与两个有机体中相同亚基对应的苍蝇蛋白质(见表3). Mawish的特点是只有2个节点的解决方案,也包括在我们的比对中,而NetworkBLAST返回了10个节点的解决方案,匹配属于TFIID复合物的4个蛋白质对。

由于这个复合体的高连通性,AlignNemo和NetworkBLAST解决方案超出了CORUM中定义的TFIID complex的边界。为了进一步验证这些溶液的质量,我们测试了其中的所有蛋白质,以确定GO项的富集程度。我们发现,在AlignNemo的溶液中,17种苍蝇蛋白中有16种蛋白质和19种人类蛋白质中,有18种蛋白质的GO含量相同,包括RNA聚合酶II启动子的转录(保存图片、插图等对象名的外部文件是pone.0038107.e057.jpg,保存图片、插图等对象名的外部文件是pone.0038107.e058.jpg). 相比之下,NetworkBLAST的解决方案只报告了两种网络中10种具有共同和特定生物学作用的蛋白质中的4种(见表S3).

Arp2/3

Arp2/3复合物由7个单元组成,在肌动蛋白细胞骨架的调节中起着重要作用。它是肌动蛋白细胞骨架的主要组成部分,在大多数含有真核细胞的肌动蛋白细胞骨架中都有发现[31].

有趣的是,在最初的PPI网络中,这些蛋白质之间的连接性水平差别很大,从在人类中发现的17种相互作用到在保存图片、插图等对象名的外部文件是pone.0038107.e059.jpg. 不完整的信息使这一复杂的恢复变得尤为困难。事实上,只有AlignNemo能够在保存图片、插图等对象名的外部文件是pone.0038107.e060.jpg保存图片、插图等对象名的外部文件是pone.0038107.e061.jpgblast和maworkin都没有重叠。表3列出在AlignNemo溶液中发现的正确检测到的同源蛋白质。所有4个都用肌动蛋白纤维聚合功能的调控GO术语(保存图片、插图等对象名的外部文件是pone.0038107.e062.jpg保存图片、插图等对象名的外部文件是pone.0038107.e063.jpg). 这个例子很好地说明了考虑保守路径而不仅仅是直接交互的重要性,以补充一个网络中缺失的信息。

20S蛋白酶体复合体

20S蛋白酶体是一种存在于多种生物体内的大蛋白复合物,尤其是在本文所讨论的所有三种生物体中。根据cyc208和CORUM的研究,20S蛋白酶体由酵母中的14个蛋白质和人和蝇的16个蛋白质组成。该复合体的拓扑结构相对密集,相互作用可靠。

对于保存图片、插图等对象名的外部文件是pone.0038107.e064.jpg-保存图片、插图等对象名的外部文件是pone.0038107.e065.jpg网络比对这三种方法的召回率具有可比性;至于精确度,NetworkBLAST由于在复合物外发现了多个蛋白质,因此获得的召回率要低得多。另一方面,AlignNemo在识别20S蛋白酶体复合体方面优于其他方法保存图片、插图等对象名的外部文件是pone.0038107.e066.jpg-保存图片、插图等对象名的外部文件是pone.0038107.e067.jpg网络对齐(请参见表3). 事实上,它在人类和苍蝇中正确地选择了20S蛋白酶体的11个蛋白质,而NetworkBLAST只在人类和苍蝇中发现了5个蛋白质,在这两个网络中只有2个。

方法

AlignNemo旨在识别不同物种的PPI网络之间保守的蛋白质模块或复合物。守恒模的搜索是在对齐图上进行的,它包括三个主要步骤。

  • 首先,从输入网络中构造对准图。排列图中的每个节点对应于一对假定的同源蛋白质,Inparanoid的分数用于加权每个节点。路线图的每一条边都是根据评分策略加权的,该计分策略包含了网络上下文的信息,包括在输入网络中连接其端点的路径的数量、可靠性和局部重要性。这个策略是通过一个辅助结构来实现的并集图,这对该方法的整体性能至关重要。

  • 第二,全连接k-子图(此处保存图片、插图等对象名的外部文件是pone.0038107.e068.jpg)从对齐图中提取并根据节点和边缘的权重进行评分。顶级全连接k-子图将用作对齐解决方案的种子。

  • 第三,通过探索当前解的局部邻域,使每个种子以迭代的方式展开。具体地说,我们定义了一个扩展过程,在每个步骤中,通过可靠的交互将所有子图添加到当前解决方案中,而不是网络的其他部分。

这种方法与最近关于网络中复合物的模块性和组织性的研究结果一致,根据这些发现,PPI网络中的复合物往往由核心零件和附件. 核心被定义为一小群功能相似、转录谱高度相关的蛋白质。核心被不太紧密连接的蛋白质包围,有明确的附着物,存在于多种复合物中,使潜在功能多样化[28]. 我们的解决方案结构充分反映了这种多样化。实际上,如前几节所示,我们确定了几个重叠的模块,而不是没有交集的分离子网。

线形图

路线图保存图片、插图等对象名的外部文件是pone.0038107.e069.jpg是一个加权图,其中节点代表同源蛋白质对和边缘保守的相互作用。如前所述,现有的路线图定义在两个节点之间设置边的方式不同。大多数表示利用有限数量的拓扑信息从输入,因为他们丢弃几乎所有不涉及同源关联及其相互作用的节点。

我们的目标是构建一个尽可能多地考虑两个网络结构的对齐图。我们设计了一种新的对齐图边缘评分策略,该策略融合了原始网络中存在的拓扑信息,即两个节点之间长度小于或等于2的路径的数量、可靠性和重要性。通过引入我们称之为的辅助结构来描述和实现这种策略是最好的并集图. 对齐图的构造和评分包括三个步骤:(i)将所有输入的网络数据合并到联合图中;(ii)对联合图进行处理以生成原始对齐图;最后(iii)对原始对齐图执行一些修剪操作,以消除噪声并加快整体计算速度。

并集图

联合图的目的是在不丢失信息的情况下将所有输入数据合并到一个图中。给定两个加权网络保存图片、插图等对象名的外部文件是pone.0038107.e070.jpg保存图片、插图等对象名的外部文件是pone.0038107.e071.jpg一组同源的关联保存图片、插图等对象名的外部文件是pone.0038107.e072.jpg的节点之间保存图片、插图等对象名的外部文件是pone.0038107.e073.jpg保存图片、插图等对象名的外部文件是pone.0038107.e074.jpg,并集图保存图片、插图等对象名的外部文件是pone.0038107.e075.jpg包含两种类型的节点:(i)复合节点代表一对同源蛋白质,每个网络有一个,如H,和(ii)简单节点表示两个输入网络中没有另一个网络中同源的蛋白质。其中一个输入网络中包含的任何边都通过在所有对应节点对之间添加一条边来表示,无论是简单的还是复合的。正式地:

定义1。这个并集图 保存图片、插图等对象名的外部文件是pone.0038107.e076.jpg是具有以下结构的图:

公式图像

公式图像

假设每个边e属于保存图片、插图等对象名的外部文件是pone.0038107.e079.jpg保存图片、插图等对象名的外部文件是pone.0038107.e080.jpg有一个可靠性评分保存图片、插图等对象名的外部文件是pone.0038107.e081.jpg,以及每个协会保存图片、插图等对象名的外部文件是pone.0038107.e082.jpg有一个可靠性评分保存图片、插图等对象名的外部文件是pone.0038107.e083.jpg. 然后是边缘保存图片、插图等对象名的外部文件是pone.0038107.e084.jpg在里面保存图片、插图等对象名的外部文件是pone.0038107.e085.jpg被分配一个分数保存图片、插图等对象名的外部文件是pone.0038107.e086.jpg由输入网络中相应边的分数给出;唯一的例外是j保存图片、插图等对象名的外部文件是pone.0038107.e087.jpg也就是说,它们是复合节点,在这种情况下,两个输入网络中都有对应的边保存图片、插图等对象名的外部文件是pone.0038107.e088.jpg两条原始边的分数之和。

图4给出了一个并集图的结构示例。

图片名为jpg0.04的外部对象
并集图示例。

联合图包括两者混合成的代表两个物种同源蛋白质对的节点(浅蓝色节点),以及简单的节点表示在另一个网络中没有同源的蛋白质(红色和绿色节点)。类似地,复合相互作用(黑边)和仅存在于一个物种中的相互作用(红边和绿边)都出现在联合图中。

原始对齐图

路线图保存图片、插图等对象名的外部文件是pone.0038107.e089.jpg可以看作是联合图的简化版本,其中只有复合节点被保留,如果联合图中的两个节点之间至少有一条长度小于或等于2的路径,则一条边连接两个节点。长度为2的路径的中间节点可以是简单的,也可以是复合的。对齐图定义的最重要部分包括一个边缘评分策略,该策略通过考虑连接联合图中满足一定条件的两个节点的所有路径来总结联合图的局部拓扑。这种策略是基于这样一个假设,即通过大量路径连接的同源蛋白质很可能在功能上相关。因此,两个节点之间的每一条路径都提供了它们之间相关性的额外证据。

在联合图中,考虑距离不大于2的节点对的选择是合理的。一方面,只考虑直接连接的节点对不适合于协调进化中的遥远物种,并且对于原始PPI网络中的缺失交互也不具有鲁棒性。另一方面,如我们的实验所示,在距离大于2的节点对之间添加边会显著增加对齐图的边数,而不会在结果质量方面提供任何好处。必须注意的是,联合图中长度为2的一些路径是虚假的,即它们不对应于输入网络中的路径。这种路径在我们的分析中被忽略了。

长度为2的路径,以下简称为间接路径,由于原始PPI网络中缺少交互,因此扮演了主要角色。然而,并非所有的间接路径都具有相同的意义。特别是,间接途径可以通过高度或松散相互作用的蛋白质。如果一个节点在联合图中高度交互,那么两个节点通过它进行通信的概率就很高。此外,组成不同路径的边可能具有不同的置信度,可能代表保守或非保守的交互作用。

为了考虑所有这些观察结果,我们设计了一个基于Jaccard指数的新分数[32]. 每个边缘保存图片、插图等对象名的外部文件是pone.0038107.e090.jpg图中的路径数是基于图中的路径数2b. 两个节点之间的边的最终分数b属于保存图片、插图等对象名的外部文件是pone.0038107.e091.jpg由两项之和得出:直接贡献保存图片、插图等对象名的外部文件是pone.0038107.e092.jpg以及间接贡献保存图片、插图等对象名的外部文件是pone.0038107.e093.jpg. 直接贡献被评估为直接路径得分的比率保存图片、插图等对象名的外部文件是pone.0038107.e094.jpg连接b在并集图中(如果存在的话)除以所有连接的直接路径的分数之和b到联合图中的任何其他复合节点。类似地,间接贡献被评估为长度为2的连接路径得分的比率b在并图中,长度为2的所有连接路径的分数之和除以b到联合图中的任何其他复合节点。形式上,我们将连接两个复合节点的路径集合定义为扩展局部交互体并得出如下分数:

定义2-扩展局部交互组(ELI)评分。保存图片、插图等对象名的外部文件是pone.0038107.e095.jpg表示边连接节点的得分b在并集图中(保存图片、插图等对象名的外部文件是pone.0038107.e096.jpg如果保存图片、插图等对象名的外部文件是pone.0038107.e097.jpg)以及保存图片、插图等对象名的外部文件是pone.0038107.e098.jpg是一条长路的分数k连接b. 那么,如果保存图片、插图等对象名的外部文件是pone.0038107.e099.jpg路径集是否连接向远处的邻居k,和保存图片、插图等对象名的外部文件是pone.0038107.e100.jpg是与这些路径相关的分数之和,我们有:

公式图像

公式图像

公式图像

这种评分策略的强大之处在于它能够再次解释对齐节点的局部邻域:而NetworkBLAST或Mawish等方法允许在对齐图中距离2处连接保守蛋白质的间隙或错配,我们解释了连接两对保守蛋白质的完整路径及其可靠性。

中提供了一个示例图4其中,为了简单起见,我们假设每个实心黑边的得分为1,并且仅存在于第一或第二网络中的每条边的得分分别为0.5和0.2。考虑标记的节点b. 直接连接路径b有得分保存图片、插图等对象名的外部文件是pone.0038107.e104.jpg. 节点保存图片、插图等对象名的外部文件是pone.0038107.e105.jpg有3个复合节点通过保守边连接,1个复合节点通过非保守边连接。节点b有3个复合节点通过保守边连接,0个复合节点通过未配对边连接。因此,直接路径的贡献是:

公式图像

有3条间接路径b分别打分保存图片、插图等对象名的外部文件是pone.0038107.e107.jpg. 节点有6条间接路径连接到其他复合节点,总分为7.6。节点b对于连接其他节点的间接路径,总分为7.8。因此,间接贡献j

公式图像

最后的分数是保存图片、插图等对象名的外部文件是pone.0038107.e109.jpg.

剪枝并图

由上述构造产生的对齐图往往非常密集,边缘分数分布在广泛的值范围内。因此,在下一步的对准过程中,为了简化对准图并降低计算成本,需要去除不太可靠的边。当观察边缘得分的分布时,会出现两个有趣的事实:

  • 很少有边的得分明显高于其他边。

  • 边缘分数在对齐图的不同区域之间有很大的差异,并且受拓扑特性(如交互密度)的影响。因此,基于全局阈值修剪边缘可能不合适。

根据这两个观察结果,我们设计了一个剪枝策略,可以同时处理所有与同一节点相关的边,并且只保留局部高分的边。使用了一个简单而有效的规则:

对于每个节点保存图片、插图等对象名的外部文件是pone.0038107.e110.jpg,让保存图片、插图等对象名的外部文件是pone.0038107.e111.jpg. 对于给定常数t,所有边缘保存图片、插图等对象名的外部文件是pone.0038107.e112.jpg,带分数保存图片、插图等对象名的外部文件是pone.0038107.e113.jpg被删除。

这种修剪策略可以通过改变阈值来调整t,从而可以创建更密集或更稀疏的网络。在我们的测试中保存图片、插图等对象名的外部文件是pone.0038107.e114.jpg. 修剪阈值t在0.3到0.7之间进行了测试,结果相似。这是意料之中的,因为同一节点上的高评分和低评分边缘之间的距离很明显,如图5. 另一方面,不修剪低得分的边缘(t = 0)引入大量伪边。实际上,此过程的应用导致对齐图的边数急剧减少。

保存图片、插图等对象名的外部文件是pone.0038107.g005.jpg
关联到节点的边根据其得分进行排序。

在曲线上绘制的值是对齐图中所有节点上与节点相关的同一秩的边的分数的平均值。为了获得可比较的值分布,我们选择了并集图上至少有100条边的所有节点。黑色曲线对应1578个节点的人类苍蝇排列图,红色曲线对应9325个节点的酵母苍蝇排列图。独立于排列的网络,分数呈指数下降,使得修剪步骤既重要又有效。

处理多个正射测井曲线

同源性关联通常是多对多的,与许多假定的正相关联的蛋白质将在排列图中显示为多个节点。当这些蛋白质被多次包含在同一溶液中时,这就变得至关重要了,这降低了最终绘图的准确性。

我们提出了一种利用网络拓扑结构来修正多个同源关联中连接节点的边的权重的策略。假设保存图片、插图等对象名的外部文件是pone.0038107.e115.jpg,保存图片、插图等对象名的外部文件是pone.0038107.e116.jpg,是的节点保存图片、插图等对象名的外部文件是pone.0038107.e117.jpg对应于同一节点的多个关联保存图片、插图等对象名的外部文件是pone.0038107.e118.jpg,与k节点保存图片、插图等对象名的外部文件是pone.0038107.e119.jpg属于保存图片、插图等对象名的外部文件是pone.0038107.e120.jpg. 此外,假设保存图片、插图等对象名的外部文件是pone.0038107.e121.jpg都与节点相邻在路线图中。我们想在这些可能相互冲突的关联中找出最有可能与真实互动对应的关联. 我们把边缘分类保存图片、插图等对象名的外部文件是pone.0038107.e122.jpg根据他们的分数保存图片、插图等对象名的外部文件是pone.0038107.e123.jpg并用保存图片、插图等对象名的外部文件是pone.0038107.e124.jpg边缘等级保存图片、插图等对象名的外部文件是pone.0038107.e125.jpg在已排序的列表中。用它的分数除以它的分数,我们:

公式图像

这种修正减少了边缘的重量,使最高得分的边缘不受影响。我们在上面描述的修剪边缘之前应用了这个过程。我们观察到在解的质量和计算成本方面都有显著的改进。为了简单起见,在手稿的其余部分中,我们将把这个修正后的分数称为保存图片、插图等对象名的外部文件是pone.0038107.e127.jpg.

表4报告为生成的路线图的统计信息保存图片、插图等对象名的外部文件是pone.0038107.e128.jpg-保存图片、插图等对象名的外部文件是pone.0038107.e129.jpg保存图片、插图等对象名的外部文件是pone.0038107.e130.jpg-保存图片、插图等对象名的外部文件是pone.0038107.e131.jpg网络对齐。

表4

关于并集图和对齐图大小的统计信息。
人-苍蝇粉酵母
并集图节点1853519844
并集图边51515303341
路线图节点19928809
(无多次正射测井校正)
路线图边352638789
(无多次正射测井校正)
路线图节点19415554
路线图边29734740
对于对齐图,需要考虑两种情况:当由于多个正交曲线(如我们的实验中所示)而对分配给边缘的权重进行了校正时,以及当不应用该校正时。

种子产生

种子由固定大小的排列图的一个子图组成k,即k-子图。首先,全部k-子图是从保存图片、插图等对象名的外部文件是pone.0038107.e132.jpg,允许任意重叠的节点和边,然后选择不重叠的得分最高的作为种子,其余的只用于迭代扩展。我们出发了保存图片、插图等对象名的外部文件是pone.0038107.e133.jpg在我们所有的实验中。

枚举全部k-具有任意重叠的子图可能非常耗时,因为即使从稀疏网络中也可以提取出大量的小子图。为了优化抽取过程,我们实现了一个简单的启发式算法来避免对同一个实例进行多次计数,从而使每个子图只找到一次。确切地说,我们首先在图的节点上加上一个任意的顺序保存图片、插图等对象名的外部文件是pone.0038107.e134.jpg,然后提取所有包含节点的子图美国,通过迭代查看距离小于k美国在图表中,保存图片、插图等对象名的外部文件是pone.0038107.e135.jpg,这样保存图片、插图等对象名的外部文件是pone.0038107.e136.jpg,每个保存图片、插图等对象名的外部文件是pone.0038107.e137.jpg.

我们给每个人打分k-子图基于子图的各个组成部分,即节点和边的得分。精确地说,给定一个子图g路线图的保存图片、插图等对象名的外部文件是pone.0038107.e138.jpg表示为保存图片、插图等对象名的外部文件是pone.0038107.e139.jpg保存图片、插图等对象名的外部文件是pone.0038107.e140.jpg子图的节点和边的集合g我们分别定义:

公式图像

哪里保存图片、插图等对象名的外部文件是pone.0038107.e142.jpg对两个同源的相关蛋白的可信度进行评分,以及保存图片、插图等对象名的外部文件是pone.0038107.e143.jpg是边缘的分数保存图片、插图等对象名的外部文件是pone.0038107.e144.jpg在上面定义的路线图中。

模块发现

一劳永逸k-提取子图并进行评分,算法根据子图的得分对子图进行排序,选出得分最高的子图为种子. 算法从种子开始,迭代扩展候选解。该算法由若干扩展步骤组成。在每个扩展步骤中,所有k-与模块相邻的子图,即与模块共享至少一个节点,被视为扩展的候选图。所有的k-满足特定需求的子图被添加到模块中,因此在每个步骤中都有一个或多个k-子图被添加到当前模块中。

选择k-要添加到模块中的子图是该方法的一个关键点,我们需要在这里提供一些定义。在下面,我们用保存图片、插图等对象名的外部文件是pone.0038107.e145.jpg图的边集保存图片、插图等对象名的外部文件是pone.0038107.e146.jpg节点上的事件,以及保存图片、插图等对象名的外部文件是pone.0038107.e147.jpg子图的边集g节点上的事件. 最后,对于一个子集S属于T我们用保存图片、插图等对象名的外部文件是pone.0038107.e148.jpg元素的子集T不在里面S. 给定当前模块,一个候选子图g,以及路线图的其余部分保存图片、插图等对象名的外部文件是pone.0038107.e149.jpg,节点上的一组边保存图片、插图等对象名的外部文件是pone.0038107.e150.jpg可以根据另一个端点所属的子集划分为子集,即。g,保存图片、插图等对象名的外部文件是pone.0038107.e151.jpg,或N. 正式地:

公式图像

首先,我们定义k-子图紧紧地如果连接到模块

公式图像

紧连接子图总是添加到模块中。松散地如果连接子图与模块连接时的链路比网络的其他部分更可靠,则会附加连接子图。

使用上面介绍的符号,对于给定的k-子图g我们定义:

公式图像

公式图像

连接边的权重之和g以及连接到模块的边的权重之和g分别发送到网络的其他部分。那么g在以下情况下添加到模块:

公式图像

在扩展阶段结束时全部接受k-子图立即添加到模块中。重复这个过程直到不再重复k-子图是可以加的,因此我们对可获得的复合物的大小不设上限。另一方面,我们要求我们的解决方案至少有5个节点,这是由种子大小(4个节点)和至少要完成一个扩展步骤的要求所限制的。需要注意的是,通过k-子图而不是一次只由一个节点来执行,这不仅对该方法的性能至关重要,而且也是解释蛋白质与其近邻之间的多重依赖关系的关键。

实施

AlignNemo完全是用Java实现的,没有外部库的依赖性。代码和支持文档可从以下网址获取:http://www.bioinformatics.org/alignnemo酿酒酵母和黑腹锦囊藻的比对需要3分30秒,而智人和黑腹锦囊藻的比对需要43秒。NetworkBLAST和Mawish都是用C编写的,尽管如此,我们获得的运行时间通常与NetworkBLAST相当,而Mawish显示了更快的性能,这两种对齐都需要10秒。

支持信息

表S1

已知配合物的回收。该表报告了通过每种方法回收的已知酵母(cyc208)和人(CORUM)复合物。已知的配合物通过它们的ID来识别,并且对于每个络合物,报告每种方法的最佳匹配溶液的ID。对于每个复合物,我们报告蛋白质的总数,与最佳匹配溶液重叠的蛋白质数量,精确度,召回率和F1-得分。

(四十)

表S2

语义相似性。下表显示了每种方法找到的比对的种间语义相似度得分。根据基因本体中定义的生物过程和分子功能词汇计算语义相似度。

(四十)

表S3

去丰富分析。基因本体丰富的解决方案类别,最匹配的Arp2-3,TFIID,和20S蛋白酶体复合物。

(四十)

致谢

作者感谢ProteinOn团队支持我们计算蛋白质之间的语义相似性。

脚注

竞争利益:作者声明不存在利益冲突。

基金:这项工作部分由CARIPARO项目“推断基因和蛋白质时间序列表达数据的系统生物学方法”资助。资助者在研究设计、数据收集和分析、决定发表或准备手稿方面没有任何作用。

工具书类

1Giot L,Bader JS,Brouwer C,Chaudhuri A,Kuang B等。果蝇蛋白质相互作用图谱。科学类.2003年;30217:236–1727页。[公共医疗][谷歌学者]
2Uetz P,Giot L,Cagney G,Mansfi TA,Judson RS等。酿酒酵母蛋白质相互作用的综合分析。自然.2002年;403:623–7。[公共医疗][谷歌学者]
三。于浩,布劳恩P,Yildirim MA,Lemmens I,Venkatesan K等。酵母相互作用组网络的高质量二元蛋白质相互作用图。科学类.2008年;322:104–110。 [PMC免费文章][公共医疗][谷歌学者]
4比较互动组学:比较苹果和梨?生物技术趋势10.2007年;25:448–454。[公共医疗][谷歌学者]
5Sharan R,Suthram S,Kelley RM,Kuhn T,McCuine S等。多物种蛋白质相互作用的保守模式。程序。纳特。Acad。科学。.美国.2005年;102:1974年至1979年。 [PMC免费文章][公共医疗][谷歌学者]
6Kalaev M,Bafna V,Sharan R.多种蛋白质网络的快速和精确校准。程序。.重新组合246-256年。2008
7Kelley BP,Yuan B,Lewitter F,Sharan R,Brent R等,全球蛋白质网络比对揭示的细菌和酵母中的保守路径。程序。纳特。阿卡德。科学。.美国.2003年;100:11394–11399。 [PMC免费文章][公共医疗][谷歌学者]
8de Silva E,Thorne T,Ingram P,Agrafioti I,Swire J等。不完全蛋白质相互作用数据对结构和进化推断的影响。BMC生物学.2006年;4:39。 [PMC免费文章][公共医疗][谷歌学者]
9Hakes L,Pinney JW,Robertson D,Lovell SC.蛋白质相互作用网络与生物学-什么是联系?自然生物技术,26.2008年;1:69–72。[公共医疗][谷歌学者]
10Koyuturk M,Grama A,Szpankowski W.蛋白质相互作用网络的成对排列。J、 计算机。生物。.2006年;13:182–199。[公共医疗][谷歌学者]
11Flannick J、Novak A、Srinivasan BS、McAdams HH、Batzoglou S.Graemlin:多个大型交互网络的一般和稳健对齐。基因组研究。,16.2006年;9:1169-1181年。 [PMC免费文章][公共医疗][谷歌学者]
12Frannick J,Novak A,Do CB,Srinivasan BS,Batzoglou S等,多局域网络对准的参数自动学习。J、 计算机。.生物。,16.2009年;8:1001–1022。 [PMC免费文章][公共医疗][谷歌学者]
13O'Brien KP,Remm M,Sonnhammer EL。Inparanoid:真核生物原核生物的综合数据库。核酸。.2005年;33:D476–D480。 [PMC免费文章][公共医疗][谷歌学者]
14Kanehisa M,Goto S.KEGG:京都基因和基因组百科全书。核酸研究。.2000年;28:27–30。 [PMC免费文章][公共医疗][谷歌学者]
15Cootes AP,Muggleton SH,Sternberg MJ。生物网络相似性的识别:在代谢组和交互组中的应用。分子生物学杂志,369.2007年;4:1126–39。[公共医疗][谷歌学者]
16Pache RA,Aloy P.《生物网络比较分析的新框架》。公共科学图书馆一号,7.2012年;2:e31220。 [PMC免费文章][公共医疗][谷歌学者]
17Salwinski L,Miller CS,Smith AJ,Pettit FK,Bowie JU等。相互作用蛋白质数据库:2004年更新核酸研究。,32(补充1),D449–451。2004[PMC免费文章][公共医疗]
18人整合蛋白-蛋白质相互作用参考文献。可用:http://cbdm.mdc-berlin.de/tools/hippie/information.php. (2011年获得)
19Gerstein实验室的Orthologo资源。可用:http://info.gersteinlab.org/Ortholog_资源. (2011年获得)
20邓M,孙F,陈T。蛋白质相互作用的可靠性评估和蛋白质功能预测。程序。.太平洋生物计算研讨会.2003年;8:140–151。[公共医疗][谷歌学者]
21Engel S,Balakrishnan R,Binkley G,Christie KR,Costanzo MC等,SGD:酵母菌基因组数据库。数字。.酸性溶液。,38(补充1),D433-D436。2010
22浦S,黄杰,特纳B,赵娥,沃达克SJ。酵母蛋白复合物的最新目录。数字。.酸性溶液37.2009年;:825–831。 [PMC免费文章][公共医疗][谷歌学者]
23Ruepp A,Brauner B,Dunger Kaltenbach I,Frishman G,Montrone C等,CORUM:哺乳动物蛋白质复合物的综合资源。数字。酸资源。.36(补充1),D646-D650。2007[PMC免费文章][公共医疗]
24Guzzi PH,Mina M,Guerra C,Cannataro M.蛋白质数据的语义相似性分析:用生物学特性和问题进行评估。简要生物信息,doi:10.1093/bib/bbr066。2011[公共医疗]
25分类学中的语义相似性:基于信息的度量及其在自然语言歧义问题中的应用。J、 人工智能研究。.1999年;11:95–130。 [谷歌学者]
26Faria D,Peskita C,Couto FM,Falcao A.蛋白质:蛋白质语义相似性的网络工具。里斯本大学信息学系技术报告,di-fcul-tr-07–6。2007
27语义相似性度量库和工具。可用:http://sourceforge.net/p/fastsemsim. (版本0.4)。
28Gavin AC,Aloy P,Grandi P,Krause P,Boesche P等。蛋白质组研究揭示了酵母细胞机械的模块化。自然,440.2006年;7084:631–636。[公共医疗][谷歌学者]
29通用基因本体术语查找器。可用:http://go.princeton.edu/cgi-bin/GOTermFinder. (2011年获得)
30伯克利,罗德。转录因子IID(TFIID)的生物化学和结构生物学。每年。版次。生物化学。.1996年;65:769–799。[公共医疗][谷歌学者]
31维特曼DM,Insall RH。黄蜂家族蛋白质的进化及其生理意义。分子生物学。.细胞,21.2010年;16:2880–93。 [PMC免费文章][公共医疗][谷歌学者]
32Liben Nowell D,Kleinberg J.社交网络的链接预测问题。第十二届信息和知识管理国际会议记录,556–559纽约,纽约。2003
33Singh R,Xu J,Berger B.通过邻域拓扑匹配实现蛋白质相互作用网络的成对全局对齐。计算分子生物学研究16-31岁,斯普林格。2007
34Singh R,Xu J,Berger B.多重蛋白质相互作用网络的全球比对。程序。.太平洋生物计算研讨会.2008年;13:303–314。[公共医疗][谷歌学者]
35Kuchaiev O,Milenkovic T,Memisevic V,Hayes W,Przulj N.拓扑网络比对揭示生物功能和系统发育。J、 R.Soc。.接口,7.2010年;50:1341–1354年。 [PMC免费文章][公共医疗][谷歌学者]
36综合网络比对揭示了酵母和人类在全球网络相似性的大区域。生物信息学,27.2011年;10:1390–1396。[公共医疗][谷歌学者]
37米伦科维奇T,梁文伟,普瑞杰N。基于图度向量的最优网络对准。癌症信息学,121–9。2010[PMC免费文章][公共医疗]
38田伟,Samatova NF。基于最大保守模式快速识别的交互网络成对对准。太平洋生物计算研讨会.2009年;14:99–110。[公共医疗][谷歌学者]

文章来自公共科学图书馆一号在这里提供公共科学图书馆