公共科学图书馆一号。2012; 7(6):e38107。
AlignNemo:一种集成同调和拓扑的局部网络对齐方法
,#1,*,¤ ,#1 ,2 ,2和1,三,*
乔瓦尼·西列洛
1意大利帕多瓦帕多瓦大学信息工程系
彼得罗·古齐
2意大利德马内托卡坦扎罗大格雷西亚大学外科和医学系
马里奥·卡纳塔罗
2意大利Germaneto Catanzaro Magna Graecia大学外科和医学科学系
康塞蒂娜·格拉
1意大利帕多瓦帕多瓦大学信息工程系
三美国乔治亚州亚特兰大乔治亚理工学院计算学院
帕特里克·阿洛伊,编辑器
1意大利帕多瓦帕多瓦大学信息工程系
2意大利德马内托卡坦扎罗大格雷西亚大学外科和医学系
三美国乔治亚州亚特兰大乔治亚理工学院计算学院
西班牙生物医学研究所
#贡献均等。
构思并设计了实验:GC-MM-CG。进行实验:GC MM PHG。分析数据:GC MM PHG。撰写论文:GC MM PHG CG。参与了论文的批判性审查:GC MM PHG MC CG。
¤当前地址:美国纽约州纽约市斯隆-凯特琳纪念癌症中心计算生物学系
收到日期:2011年6月27日;2012年5月2日验收。
这是一篇根据知识共享署名许可证条款分发的开放存取文章,该许可证允许在任何媒体上不受限制地使用、分发和复制,前提是原始作者和来源得到了适当的信任。
- 补充资料
表S1:
回收已知络合物。该表报告了通过每种方法回收的已知酵母(CYC2008)和人类(CORUM)复合物。已知配合物通过其ID进行识别,并报告每种方法的最佳匹配溶液的ID。对于每个复合物,我们报告了蛋白质的总数、与最佳匹配溶液重叠的蛋白质的数量、精确度、召回率和F1-得分。(XLS)
GUID:5E88C135-270E-47B0-804F-E98EB18ABF8E
表S2:
语义相似性。该表显示了每种方法找到的比对的种间语义相似性得分。根据基因本体中定义的生物过程和分子功能词汇计算语义相似度。(XLS)
GUID:BA1A8F10-BF27-4A89-B06E-DC938CE77C00
表S3:
GO富集分析。基因本体丰富了与Arp2-3、TFIID和20S蛋白酶体复合体最匹配的解决方案类别。(XLS)
GUID:EF860363-5CC6-4467-A143-CF335A31B1B8
摘要
局部网络比对是蛋白质相互作用网络分析的一个重要组成部分,可用于识别进化相关复合物。我们提出了AlignNemo,这是一种新的算法,考虑到两个生物体的网络,它可以揭示与生物功能和相互作用拓扑相关的蛋白质子网络。发现的保守子网络具有一般拓扑结构,不需要对应特定的交互模式,因此它们更符合文献中提出的功能复合体模型。该算法能够通过一个扩展过程处理稀疏的交互数据,该扩展过程在每一步探索直接与当前解决方案交互的蛋白质以外的网络的局部拓扑。为了评估AlignNemo的性能,我们使用统计方法和生物学知识运行了一系列基准测试。基于蛋白质复合物的参考数据集,AlignNemo在精确度和召回率方面均优于其他方法。我们使用应用于基因本体词汇的语义相似性概念,展示了我们的解决方案在生物学上是合理的。AlignNemo的二进制文件以及有关算法和实验的补充详细信息,请访问:sourceforge.net/p/AlignNemo。
介绍
在过去的几十年里,研究人员一直致力于研究基因组尺度上进化的影响,即如何通过分析基因组序列来重建进化。最近,关于蛋白质相互作用的高通量数据的可用性允许通过比较不同物种的蛋白质相互作用图(也称为相互作用体)来观察进化变化[1]——[3]该领域的目标包括鉴定物种间保守的相互作用模式以及鉴定新的同源关系[4]在这种情况下,已经开发了几种用于比较蛋白质相互作用(PPI)网络的算法,通常称为网络对齐算法。
网络对齐问题有两个主要实例:全球一致性通过搜索来自不同物种的整套蛋白质和蛋白质相互作用的单一综合图谱,回答了一个进化问题;局部对齐搜索细胞机制的进化保守构建块,忽略网络之间的整体相似性。图论的形式主义为解决这两个问题提供了最好的框架。在这种形式中,PPI网络表示为图(G公司)其节点(V(V))是蛋白质和边缘(E类)是它们之间的相互作用。蛋白质网络比对问题被描述为一个图比对问题,即在两个(成对)或多个(多元)图之间搜索相同或相似的子图。形式上:给定两个输入图,和、对齐问题和可以表示为查找映射的问题M(M)中的节点之间和中的节点(,带有)最大化定义在节点和边上的相关相似性函数。对于全局对齐,M是网络的整个节点集之间的映射。与局部对齐相比,M被定义为最相似的节点子集之间的映射集。本文重点研究了PPI网络的局部对齐,并提出了一种提取两个PPI网络中保守蛋白复合物的方法。
蛋白质复合物在这里被定义为执行类似功能或参与相同生物过程的蛋白质组。现有的检测蛋白质复合物的方法通常基于这样的观察,即复合物对应于高度相互作用的蛋白质集,因此它们在PPI网络中寻找稠密的子图。例如,两个版本的NetworkBLAST[5],[6]基于这样的假设,从最初的PathBLAST进化而来[7]专注于保守路径。在我们建议的方法中,我们寻找相当地密集的节点组,即节点之间的相互作用比与网络其余部分的相互作用更多,对复合体的拓扑施加的刚性约束更少。事实上,虽然拓扑结构信息丰富,但它往往是不完整的,反映了对蛋白质的不统一认识[8],[9]多个假负的存在导致物种间保守相互作用的稀疏图甚至稀疏集,导致仅寻找稠密子图的方法无法检测到保守复合体。
有几种方法,如NetworkBLAST,依赖于搜索名为对齐图排列图具有对应于成对同源蛋白质的节点和保守相互作用的边。为了处理丢失的信息,NetworkBLAST以及类似的方法引入了较少限制的对齐图定义,通过允许在原始PPI网络中的相应同源蛋白质对距离小于或等于时连接节点k(用于NetworkBLAST). 然而,通过这种方式,可能会在对齐图中添加几个不可靠的链接,从而导致不正确的解决方案,即使是较小的值k.
Mawish方法[10]将网络对齐作为一个最大权重诱导子图问题,并结合进化模型来评估拓扑相似性。虽然有效,但正如我们在实验中观察到的那样,该模型可能过于严格,导致只能识别较小的保守结构,而无法恢复较大的复合物。
其他算法,如Graemlin[11]及其新版本Graemlin 2.0[12],通过允许搜索更通用的拓扑来概括前面的方法。这些方法除了利用形态信息外,还利用了类偏执狂蛋白质之间的共生关系,从而提高了检测有意义比对的能力[13],KEGG路径注释[14]和已知路线。然而,这些方法并没有充分利用拓扑信息,因为局部对齐步骤只检查每个节点的直接邻域,以贪婪的方式迭代分组最佳邻域。
PHUNKEE公司[15]在考虑网络环境中的局部保守子网络方面向前迈出了一步:在选择了假定的同源序列集之后,该方法同时探索所有相邻蛋白质,寻找高度保守的相互作用集。然而,所有交互都具有相同的可靠性,PHUNKEE定义的网络上下文并不超越直接交互。最后,在开发这项工作的同时,一种新的方法,NetAligner[16],设计了蛋白质组比对的算法框架。NetAligner引入了一种识别进化保守相互作用的策略,该策略依赖于相互作用蛋白质的进化速度远低于偶然预期的原则。
虽然对全局和局部网络对齐的可用算法的详细描述超出了本文的范围,但在.
表1
网络对齐工具概要。
算法 | 本地(L)/ | 成对(P)/ | 输入数据 | 调整策略*
|
| 全球(G) | 多方向(M) | | |
马维什
[10]
| 我 | P(P) | PPI网络 | 对齐关系图 |
| | | BLAST e值 | 单节点扩展 |
| | | | 重复发散 |
| | | | 模型 |
PathBLAST(路径BLAST)
[7]
| 我 | P(P) | PPI网络 | 对齐关系图 |
| | | BLAST e值 | 单节点扩展 |
| | | | 保守线性路径 |
| | | | 提取 |
网络BLAST
[5]
| 我 | P(P) | PPI网络 | 对齐关系图 |
| | | BLAST e值 | PPI可靠性得分 |
| | | | 单节点扩展 |
| | | | 保守的密集网络 |
| | | | 提取 |
网络BLAST-M
[6]
| 我 | M(M) | PPI网络 | 分层对齐图 |
| | | BLAST e值 | 单节点扩展 |
| | | | 保守的密集网络 |
| | | | 提取 |
格雷姆林
[11]
| 我 | M(M) | PPI网络 | 得分概率模型 |
| | | 正交测井曲线簇 | 节点和边 |
| | | | 节点等价类 |
| | | | 单节点扩展 |
格雷姆林2[12]
| 总账 | M(M) | PPI网络 | 机器学习方法 |
| | | KEGG集群 | 用于网络评分 |
| | | 已知对齐方式 | 单节点扩展 |
ISORANK公司
[33]
| G公司 | P(P) | PPI网络 | 蛋白质对的特征向量 |
| | | | 协会 |
| | | BLAST e值 | 一致的关联集 |
| | | | 提取 |
等秩N
[34]
| G公司 | M(M) | PPI网络 | ISORANK的贪婪扩展 |
| | | BLAST e值 | |
GRAAL公司
[35]
| G公司 | P(P) | PPI网络 | 完全基于拓扑 |
(另请参见[36],[37]) | | | BLAST e值 | 蛋白质对得分依据 |
| | | | graphlet签名 |
希望地图
[38]
| 我 | M(M) | PPI网络 | 直向原木集群 |
| | | BLAST e值 | 对齐关系图 |
| | | Inparanoid集群 | 强连接组件 |
| | | KEGG集群 | 提取 |
PHUNKEE公司
[15]
| 我 | P(P) | PPI网络 | 膨胀过程 |
| | | 代谢网络 | 添加相邻项 |
| | | BLAST e值,COG | 模块 |
NetAligner(网络对齐器)
[16]
| 我 | P(P) | PPI网络 | 相互作用守恒 |
| | | BLAST定线 | 概率 |
我们在此介绍一种方法AlignNemo(Aligning Network Modules),该方法通过为本地网络对齐提供一个通用而有效的框架来解决上述问题。AlignNemo将按照首先,它从输入网络构建加权对齐图。节点代表假定的同源蛋白质对,并按Inparanoid评分,反映了绘制蛋白质对的信心。相反,边缘使用一种新的方法进行加权,该方法考虑了输入网络中的局部连通性(请参见方法)。然后,我们从对齐图中提取给定大小的所有连通子图,并根据节点和边上的权重对其进行排序。排名靠前的全连通子图将用作对齐解决方案的种子。最后,我们通过在每个步骤中添加多个子图,以迭代方式扩展每个种子。这使我们能够探索解决方案的网络环境,而不仅仅是它的近邻。方法部分提供了算法的正式描述。
AlignNemo概述。给定两个输入PPI网络(1),构建对齐图,并将分数分配给其节点和边(2)。然后种子即,从对齐图(3)中提取具有大量高得分链接和节点的小子图,并通过添加通过可靠链接(4)与之相对良好连接的小个子图,以贪婪的方式扩展每个种子。
我们的方法的主要贡献是:1)一种新的对齐图边缘评分策略,该策略通过给定节点之间的路径集合分析输入PPI网络的结构,并估计其可靠性和局部重要性;2) 一个新的迭代展开过程从种子开始,在直接交互之外的每一步探索对齐图的局部拓扑。这种组合提供了一种新的方法来解释拓扑结构和同源性,并证明可以独立于其大小或连接性程度检测多种蛋白质复合物。
在下一节中,我们将展示PPI网络对齐的原理证明结果面包酵母,D.黑食肉动物、和智人我们证明,与其他方法相比,我们的比对具有优越的拓扑和生物质量。结果的质量通过多种方式进行评估:我们首先通过精确性和召回率的测量来展示AlignNemo恢复已知蛋白质复合体的能力,然后使用应用于基因本体词汇表的语义相似性概念来证明我们的解决方案在生物学上是合理的,最后,我们表明,即使在该方法施加的约束较少的情况下,提取的模块仍然保持高连通性。
详细讨论了具有代表性的复合体,并与本地对齐工具(如NetworkBLAST、Mawish和NetAligner)进行了比较,这些工具是软件可用和当前维护的唯一工具。我们选择NetworkBLAST和Mawish作为主要分析对象,因为它们可用于用户定义的输入数据,同时我们分别比较了AlignNemo和NetAligner,因为我们根据其自身的数据和交互概率运行后者。AlignNemo以及本文中使用的适当文档和数据集可从以下网站获得:http://www.bioinformatics.org/alignemo.
结果和讨论
在本节中,我们将评估AlignNemo、NetworkBLAST和Mawish在以下公开数据集上的性能D.黑腹果蝇(果蝇),酿酒酵母(面包酵母),以及智人(人类)。我们在相同的数据集上运行这些方法,每个算法生成一组可能重叠的解决方案或模块。A模块M(M)是包含来自两个输入网络的一组蛋白质对的排列图的子图。我们将参考网络中的一组蛋白质和在里面M(M)作为和分别是。
对每种方法的解进行同源性和拓扑性评估和比较。首先,我们证明AlignNemo能够以高精度和召回率重述已知的蛋白质复合物。然后,我们将语义相似性的概念应用于基因本体词汇表,表明不同物种的蛋白质关联在生物学上是合理的。最后,我们证明了我们的解决方案比偶然预期的更紧密地联系在一起。我们通过关注几个具体案例来总结本节,以强调每种方法的弱点和优点。
输入数据
蛋白质相互作用D.黑腹果蝇和酿酒酵母来源于相互作用蛋白质数据库(DIP-2011年10月27日更新)[17]它们包括苍蝇中的7548种蛋白质和22969种相互作用,以及酵母中的5053种蛋白质和22254种相互作用。妄想狂[13]从这两个网络中筛选出10045对假定的同源蛋白,包括1878个酵母蛋白和1511个果蝇蛋白。智人PPI网络源自HIPPIE数据库[18]; 它包括来自17个不同来源的12113个蛋白质和78559个加权相互作用。Gerstein实验室从人类和苍蝇中获得了一组假定的同源蛋白对[19].
这些数据集集成了多个来源,并包括来自不同方法的交互,包括高通量和小规模实验。为了说明这种多样性,我们为每条边分配一个可靠性得分。对于源自DIP(果蝇和酵母)的两个网络,我们采用了中定义的最大似然估计程序[20]评估通过相同实验程序确定的蛋白质相互作用的可靠性。该方法基于以下观察结果,即不同时间点的基因表达谱相关性是评估PPI可靠性的良好特征:相互作用的蛋白质通常显示出较高的相关性值。在应用该方法时,我们考虑了未知的随机蛋白质对相互作用真正的非相互作用蛋白质和通过小规模实验确定的相互作用真正的相互作用蛋白质,从这两组估计相关系数的各自分布。对于酵母蛋白,我们使用了SGD数据库中报告的一组表达谱[21],并为DIP中描述的每个实验方法及其组合指定一个置信度得分。苍蝇相互作用的分数是基于以下假设计算的:给定的实验方法在不同的生物体中同样有效,因此基于酵母数据的置信分数被转移到苍蝇的相互作用中。通过网络服务器HIPPIE可以获得人类蛋白质相互作用网络的可靠性分数。
守恒模的拓扑
在这里,我们分析所获得的解的拓扑结构。正如引言中所讨论的,蛋白质复合物通常由紧密相互作用的蛋白质组成。然而,最近关于PPI网络中复合体的模块性和组织的研究表明,它们往往由紧密连接的核心定义了一个连接不太紧密的集合蛋白附件后者通常存在于多个复合体中,允许潜在功能多样化[28].
根据此模型,AlignNemo寻找相当地紧密连接的蛋白质,即它们之间的相互作用比与网络其余部分的相互作用更多的蛋白质,而不是对候选解决方案的拓扑施加刚性和固定的约束。
我们现在想测试这个策略是否会危及我们检测紧密连接核心的能力,包括我们的解决方案中不太可能是实际蛋白质复合物的稀疏子网络。为此,我们为每个PPI网络生成1000个随机网络,保持其节点度分布;然后我们评估每个模块在原始PPI网络和随机集中的连通性,即边数。因此,对于每个物种和每个解决方案,我们估计了其连接性的背景分布。我们量化了实际网络中观测到的连通性偏差,,根据使用Z分数的背景分布:
哪里是随机集中这组蛋白质的平均连接性其标准偏差。
首先,我们分别测试由每个溶液定义的两组蛋白质,每个物种一组,然后,我们将获得的两种溶液之间的最大Z分数关联到每个溶液。通过这种方式,我们还解释了一个物种中连接相对较差的蛋白质,而其他物种中对应的直系同源物则紧密相互作用。根据这个背景分布,从经验上推导出每个模块的p值,它是由在所有可能的网络中导致测试模块的Z得分更大或相等的随机网络的数量给出的。有趣的是,我们发现95%的解决方案,无论是针对人-蝇还是酵母-蝇比对,都显示出统计上显著高于在随机网络中观察到的连通性。
总之,AlignNemo在正确检测单个物种内的蛋白质复合物方面优于Mawish和NetworkBLAST,因为它们具有相互作用体和正态关系。此外,同一模块中蛋白质之间的平均语义相似性证明了不同物种之间的蛋白质映射在生物学上是合理的。最后,尽管AlignNemo没有对模块拓扑施加严格的约束,而是探索了蛋白质复合体中连接不太紧密的成分,但提取的子网络的连接比预期的更紧密。
与NetAligner的比较
NetAligner依靠一种新的算法方法,根据不同物种蛋白质之间的蛋白质序列相似性计算与保守相互作用相关的概率。给定两对假定的直系对数,NetAligner通过考虑两对直系对数之间进化距离的差异来评估它们共享保守相互作用的可能性。我们在不同的配置和输入数据下测试了NetAligner,包括工具提供的原始蛋白质组和同源性。根据我们的分析,NetAligner在使用预测可能的保守相互作用设置及其参考文件中建议的参数[16].NetAligner在自己的数据集上提取更大、更可靠的对齐集。因此,我们决定比较AlignNemo和NetAligner在各自的数据集上运行的情况。
当溶液与参考络合物(CYC2008和CORUM)匹配时,这两种方法的性能相似(参见和). AlignNemo在-对齐。在-对齐时,NetAligner会找到一组得分较高的小解决方案,但同时,包含463个节点的超大解决方案会产生多个匹配,尽管精度接近于零,但仍会产生较高的召回值().
AlignNemo和NetAligner的比较。这两种算法在恢复两种算法中已知的蛋白质复合物方面进行了评估(CYC2008)和(CORUM)。与已知复合物匹配的解决方案通过精确度、召回率和F进行评分1分数。
保守性复合体
在本节中,我们特别关注CYC2008和CORUM的几种复合物,以更好地剖析不同方法的性能。这里讨论的案例包括一个小型综合体,第2/3节和两个相对较大的复合体,TFIID(通用转录因子)和20S蛋白酶体,具有不同级别的连接性。在我们报告了这些复合物的蛋白质,这些复合物已经被AlignNemo、NetworkBLAST和Mawish之间的至少一个正确结合和恢复和网络对齐。对于转录因子TFIID和Arp2/3复合物,AlignNemo根据F和1-分数和语义相似性。在检测20S蛋白酶体时,AlignNemo和NetworkBLAST在酵母-苍蝇比对中具有相似的召回率,但AlignNe莫具有更高的精确度。此外,AlignNemo在人机对齐方面表现出卓越的性能。使用GOTermFinder计算了我们的解决方案中显著丰富的GO类别[29]和在中报告表S3。在这两种比对中,AlignNemo的跨物种语义相似性较高,表明生物质量有所改善,详细信息如下所述。
表3
Arp 2/3、TFIID和20S蛋白酶体复合物最佳匹配溶液的比较。
转录因子TFIID复合物
RNA聚合酶(I、II和III)催化核基因的转录,并依赖一般转录因子识别目标启动子;特别是RNA聚合酶II依赖TFIID复合物启动转录。通用转录因子TFIID主要由TATA盒结合蛋白(TBP)和一组TBP相关因子(TAF)组成s) 或跨物种保守的亚基[30].
AlignNemo在发现这种复合物方面优于现有方法:它在19个节点的溶液中发现了9个TFIID蛋白;它正确地将人类蛋白质映射成与两种生物体中相同亚单位相对应的苍蝇蛋白质(参见). Mawish的解决方案只有2个节点,也包括在我们的比对中,而NetworkBLAST返回了10个节点的解决方案,这些节点与属于TFIID复合体的4个蛋白质对相匹配。
由于此复合体的高连通性,AlignNemo和NetworkBLAST解决方案超出了CORUM中定义的TFIID复合体的边界。为了进一步验证这些溶液的质量,我们对其中的所有蛋白质进行GO项富集测试。我们发现AlignNemo溶液中17种苍蝇蛋白中有16种和19种人类蛋白中有18种富含相同的GO项,包括RNA聚合酶II启动子转录(,). 相比之下,NetworkBLAST的解决方案仅报告了两个网络中10种蛋白质中的4种具有共同和特定的生物作用(参见表S3).
20S蛋白酶体复合物
20S蛋白酶体是一种存在于多种生物中的大型蛋白质复合体,尤其是在本文所述的所有三种生物中。根据CYC2008和CORUM,20S蛋白酶体由酵母中的14种蛋白质和人类和苍蝇中的16种蛋白质组成。该综合体的拓扑结构相对密集,相互作用可靠。
对于以下情况-网络对齐所有三种方法都具有可比较的召回值;至于精确度,NetworkBLAST的值要低得多,因为它在复合物外发现了几个蛋白质。另一方面,AlignNemo在识别20S蛋白酶体复合体方面优于其他方法-网络对齐(请参见). 事实上,它在人类和苍蝇中正确地选择了11个20S蛋白酶体蛋白质,而NetworkBLAST在人类和果蝇中仅发现4个蛋白质,在两个网络中Mawish仅发现2个蛋白质。
方法
AlignNemo旨在识别不同物种PPI网络之间保守的蛋白质模块或复合物。搜索保守模块是在对齐图上执行的,由三个主要步骤组成。
首先,根据输入网络构造对准图。排列图中的每个节点对应一对假定的同源蛋白质,并使用Inparanoid的得分来衡量每个节点的权重。对齐图的每条边根据一种评分策略进行加权,该策略结合了网络上下文中连接其端点的路径在输入网络中的数量、可靠性和局部重要性方面的信息。该策略通过辅助结构实现并集图,这对该方法的整体性能至关重要。
第二,所有连接k-子图(此处)从对齐图中提取,并基于节点和边的权重进行评分。排名靠前的全连接k-子图将用作对齐解决方案的种子。 第三,通过探索当前解的局部邻域,超越其直接邻域,以迭代方式扩展每个种子。具体地说,我们定义了一个扩展过程,该过程在每个步骤都将所有通过可靠交互与当前解决方案紧密相连的子图添加到网络的其余部分中。
这种方法与网络中复合体的模块化和组织的最新研究结果一致,根据这些研究结果,PPI网络中的复合体往往由核心零件和附件核心被定义为功能相似且具有高度相关转录谱的一小组蛋白质。核心被连接不太紧密的蛋白质包围,这些蛋白质是固定的附着物,存在于多种复合物中,允许潜在功能的多样化[28]我们解决方案的结构很好地反映了这种多元化。实际上,如前几节所示,我们确定了几个重叠的模块,而不是没有交集的分离子网。
路线图
对齐图是一个加权图,其中节点表示同源蛋白质对和边保守的相互作用。如前所述,对齐图的现有定义在两个节点之间设置边的方式上有所不同。大多数表示从输入中利用有限的拓扑信息,因为它们丢弃了几乎所有不涉及同源关联及其交互的节点。
我们的目标是构建一个尽可能考虑两个网络结构的对齐图。我们为对齐图的边缘设计了一种新的评分策略,该策略结合了原始网络中存在的拓扑信息,包括两个节点之间长度小于或等于2的路径的数量、可靠性和重要性。通过引入一个我们称为并集图.对齐图的构造和评分包括三个步骤:(i)将所有输入网络数据合并到并集图中,(ii)处理并集图以创建原始对齐图,最后(iii)对原始对齐图执行一些修剪操作以消除噪声并加快整体计算。
原始对齐图
对齐图可以看作是联合图的简化版本,其中只保留复合节点,如果联合图中两个节点之间至少有一条长度小于或等于2的路径,则边连接两个节点。长度为2的路径的中间节点可以是简单的,也可以是复合的。对齐图定义中最重要的部分包括一个边缘评分策略,该策略通过考虑连接联合图中满足特定标准的两个节点的所有路径来总结联合图的局部拓扑。这种策略基于这样一种假设,即通过大量路径连接的同源蛋白质可能具有功能相关性。因此,这两个节点之间的每条路径都为它们的相关性提供了额外的证据。
在联合图中考虑距离不大于2的节点对的选择似乎是合理的。一方面,仅考虑直接连接的节点对不适合对齐进化的遥远物种,并且对原始PPI网络中缺失的交互也不鲁棒。另一方面,如我们的实验所示,在距离大于2的节点对之间添加边会显著增加对齐图的边数,而不会在结果质量方面带来任何好处。需要注意的是,并集图中一些长度为2的路径是虚假的,即它们与输入网络中的路径不对应。在我们的分析中,这些路径被忽略了。
长度为2的路径,以下简称为间接路径,由于原始PPI网络中缺少交互,发挥了重要作用。然而,并不是所有的间接路径都具有相同的意义。特别是,间接途径可能通过高度或松散相互作用的蛋白质。如果一个节点在联合图中高度交互,那么两个节点通过它进行通信的概率很高。此外,组成不同路径的边可能具有不同的置信度,并且可能代表保守或非保守的交互。
为了考虑所有这些观察结果,我们根据雅卡指数设计了一个新的分数[32].每个边缘在对齐图中,根据链接的长度为2的路径数进行评分一和b条.两个节点之间边缘的最终得分一和b条属于由两项之和给出:直接出资和间接贡献直接贡献按直接路径得分的比率进行评估连接一和b条在并集图中(如果存在)除以连接的所有直接路径的得分之和一或b条到联合图中的任何其他组合节点。类似地,间接贡献评估为长度为2的连接路径的得分比率一和b条在并集图中,除以长度为2的所有连接路径的得分之和一或b条到联合图中的任何其他组合节点。形式上,我们将连接两个复合节点的路径集合定义为扩展本地交互组并得出如下分数:
定义2-扩展本地交互(ELI)分数。让表示边连接节点的得分一和b条在并集图中(如果)和是一条长度路径的分数k连接一和b条然后,如果是连接的路径集一远在天边的邻居k、和是与这些路径相关的分数之和,我们有:
这种评分策略的威力在于它能够再次计算对齐节点的局部邻域:而NetworkBLAST或Mawish等方法允许间隙或不匹配连接对齐图中距离2的保守蛋白质,我们考虑了连接成对保守蛋白质的完整路径及其可靠性。
示例如所示为了简单起见,我们假设每个实心黑色边的得分为1,并且仅存在于第一个或第二个网络中的每条边的得分分别为0.5和0.2。考虑标记的节点一和b条.连接的直接路径一和b条有分数.节点有3个通过守恒边连接的复合节点,1个通过非守恒边相连的复合节点。节点b条有3个通过保守边连接的复合节点,0个通过不成对边连接的合成节点。因此,直接路径的作用是:
之间有3条间接路径一和b条分别得分.节点一有6条间接路径将其连接到其他复合节点,总分为7.6。节点b条有7条间接路径将其连接到其他复合节点,总分为8.2。因此我和j个是
最终得分为.
修剪并集图
上述构造产生的对齐图往往非常密集,边缘分数分布在广泛的值范围内。因此,为了简化对齐图并降低对齐过程下一步的计算成本,有必要删除不太可靠的边。在查看边缘分数的分布时,出现了两个有趣的事实:
根据这两个观察结果,我们设计了一种修剪策略,该策略一次性处理所有关联到同一节点的边,并且只保留局部得分较高的边。使用了一条简单而有效的规则:
对于每个节点,让.对于给定常数t吨,所有边缘,有分数被删除。
这种修剪策略可以通过改变阈值进行调整t吨从而可以创建更密集或更稀疏的网络。在我们的测试中,我们使用了.修剪阈值t吨在0.3~0.7范围内进行了测试,结果相似。这是意料之中的,因为入射到同一节点的高得分边缘和低得分边缘之间的距离很明显另一方面,不要修剪低得分边缘(t吨 = 0)引入大量虚假边缘。事实上,应用此过程会大大减少对齐图的边数。
关联到节点的边根据其分数进行排序。曲线上绘制的值是对齐图的所有节点上与节点相关的相同等级的边的分数的平均值。为了获得可比较的值分布,我们选择联合图上至少有100条边的所有节点。黑色曲线对应于1578个节点的人机对齐图,红色曲线对应于9325个节点的酵母-蝇对齐图。独立于对齐的网络,分数呈指数级下降,使得修剪步骤既重要又有效。
模块发现
一劳永逸k-子图已经被提取并打分,算法根据它们的得分对它们进行排序,并选择得分最高的子图作为种子算法从种子开始迭代扩展候选解。该算法由若干扩展步骤组成。在每个扩展步骤中k-与模块相邻的子图,即与模块共享至少一个节点,被视为扩展的候选图。所有k-将满足特定需求的子图添加到模块中,从而在每个步骤中添加一个或多个k-子图被添加到当前模块。
选择k-要添加到模块中的子图是该方法的关键点,我们需要在这里提供一些定义。在下面,我们表示为图的边集节点上的事件v(v),和子图的边集克节点上的事件v(v)最后,对于子集S公司属于T型我们表示为元素的子集T型不在里面的S公司.给定当前模块M(M),一个候选子图克,以及对齐图的其余部分,节点上的关联边集可以根据另一个端点所属的子集划分为子集,即。克,,或N个.正式:
首先,我们定义一个k-子图紧紧地连接到模块,如果
紧密连接的子图总是添加到模块中。松散地如果连接子图与模块的连接比与网络其余部分的连接更可靠,则会附加连接子图。
使用上面介绍的符号,对于给定的k-子图克我们定义:
连接边的权重之和克到模块,以及连接边的权重之和克分别连接到网络的其余部分。然后克在以下情况下添加到模块中:
在扩展阶段结束时,全部接受k-子图立即添加到模块中。重复该过程,直到不再k-子图可以加法,因此我们不会对可获得复数的大小设定上限。另一方面,我们要求我们的解决方案至少有5个节点,这是由种子(4个节点)的大小和至少要完成一个扩展步骤的要求所决定的限制。需要注意的是,将模块扩展为k-子图而不是一次只由一个节点生成,不仅对该方法的良好性能至关重要,而且也是解释蛋白质与其直接邻居之间多重依赖性的关键。
实施
AlignNemo是在Java中完全实现的,不依赖于外部库。代码和支持文档可从以下网址获得:网址:http://www.bioinformatics.org/alignemoa酿酒酵母和黑腹果蝇的比对需要3分30秒,而智人和黑腹果蝇的比对则需要43秒。NetworkBLAST和Mawish都是用C编写的,尽管如此,我们获得的运行时间通常与NetworkBLAST的运行时间相当,而Mawish显示出更快的性能,这两种对齐都需要10秒。
支持信息
表S1
回收已知络合物。该表报告了通过每种方法回收的已知酵母(CYC2008)和人类(CORUM)复合物。已知配合物通过其ID进行识别,并报告每种方法的最佳匹配溶液的ID。对于每个复合物,我们报告了总蛋白质数、与最佳匹配溶液重叠的蛋白质数、精确度、召回率和F1-得分。
(XLS)
表S2
语义相似性。该表显示了每种方法找到的比对的种间语义相似性得分。根据基因本体论中定义的生物过程和分子功能词汇计算语义相似性。
(XLS)
表S3
GO富集分析。基因本体丰富了与Arp2-3、TFIID和20S蛋白酶体复合体最匹配的解决方案类别。
(XLS)
致谢
作者感谢ProteinOn团队支持我们计算蛋白质之间的语义相似性。
脚注
竞争利益:提交人声明,不存在相互竞争的利益。
基金:这项工作的部分资金来自CARIPARO项目“推断基因和蛋白质时序表达数据的系统生物学方法”。资助者在研究设计、数据收集和分析、决定出版或编写手稿方面没有任何作用。
工具书类
1Giot L、Bader JS、Brouwer C、Chaudhuri A、Kuang B等。果蝇蛋白质相互作用图。科学类.2003;302:1727–36.[公共医学][谷歌学者] 2Uetz P、Giot L、Cagney G、Mansfi TA、Judson RS等,《酿酒酵母中蛋白质相互作用的综合分析》。自然.2002;403:623–7.[公共医学][谷歌学者] 三。Yu H,Braun P,Yildirim MA,Lemmens I,Venkatesan K等。酵母相互作用体网络的高质量二元蛋白质相互作用图。科学类.2008;322:104–110. [PMC免费文章][公共医学][谷歌学者] 4Kiemer L,Cesareni G。比较交互组学:比较苹果和梨?生物技术趋势10.2007;25:448–454.[公共医学][谷歌学者] 5Sharan R、Suthram S、Kelley RM、Kuhn T、McCuine S等。多物种蛋白质相互作用的保守模式。程序。美国国家科学院。科学。.美国.2005;102:1974–1979. [PMC免费文章][公共医学][谷歌学者] 6Kalaev M,Bafna V,Sharan R.多蛋白质网络快速准确对齐。程序。.重组, 246–256.2008. [公共医学] 7Kelley BP、Yuan B、Lewitter F、Sharan R、Brent R等。全球蛋白质网络比对揭示的细菌和酵母内的保守途径。程序。美国国家科学院。科学。.美国.2003;100:11394–11399. [PMC免费文章][公共医学][谷歌学者] 8de Silva E、Thorne T、Ingram P、Agrafioti I、Swire J等。不完全蛋白质相互作用数据对结构和进化推断的影响。BMC生物学.2006;4:39. [PMC免费文章][公共医学][谷歌学者] 9Hakes L、Pinney JW、Robertson D、Lovell SC。蛋白质相互作用网络和生物学-什么是联系?自然生物技术,26.2008;1:69–72.[公共医学][谷歌学者] 10Koyuturk M,Grama A,Szpankowski W。蛋白质相互作用网络的成对排列。J.计算。生物。.2006;13:182–199.[公共医学][谷歌学者] 11Flannick J、Novak A、Srinivasan BS、McAdams HH、Batzoglou S.Graemlin:多个大型交互网络的一般和稳健对齐。基因组研究。,16.2006;9:1169–1181. [PMC免费文章][公共医学][谷歌学者] 12Flannick J、Novak A、Do CB、Srinivasan BS、Batzoglou S等。多本地网络对齐的自动参数学习。J.计算。.生物。,16.2009;8:1001–1022. [PMC免费文章][公共医学][谷歌学者] 13O'Brien KP,Remm M,Sonnhammer EL。Inparanoid:真核生物同源基因的综合数据库。核酸研究。.2005;33:D476–D480。 [PMC免费文章][公共医学][谷歌学者] 14Kanehisa M,Goto S.KEGG:京都基因和基因组百科全书。核酸研究。.2000;28:27–30. [PMC免费文章][公共医学][谷歌学者] 15Cootes AP、Muggleton SH、Sternberg MJ。生物网络之间相似性的识别:应用于代谢组和相互作用组。分子生物学杂志,369.2007;4:1126–39.[公共医学][谷歌学者] 16Pache RA,Aloy P.《生物网络比较分析的新框架》。PLoS综合,7.2012;2:e31220。 [PMC免费文章][公共医学][谷歌学者] 17Salwinski L、Miller CS、Smith AJ、Pettit FK、Bowie JU等。相互作用蛋白质数据库:2004年更新核酸研究。,32(补充1),D449–451。2004[PMC免费文章][公共医学] 20邓明,孙凤,陈涛。蛋白质相互作用的可靠性评估和蛋白质功能预测。程序。.太平洋生物计算研讨会.2003;8:140–151.[公共医学][谷歌学者] 21Engel S、Balakrishnan R、Binkley G、Christie KR、Costanzo MC等。SGD:酵母基因组数据库。编号。.酸性研究。,38(补充1),D433-D436。2010[PMC免费文章][公共医学] 22Pu S,Wong J,Turner B,Cho E,Wodak SJ。酵母蛋白复合物的最新目录。编号。.酸类研究37.2009;三:825–831. [PMC免费文章][公共医学][谷歌学者] 23Ruepp A、Brauner B、Dunger-Kaltenbach I、Frishman G、Montrone C等。CORUM:哺乳动物蛋白质复合物的综合资源。编号。酸类研究。.36(补充1),D646-D650。2007[PMC免费文章][公共医学] 24Guzzi PH、Mina M、Guerra C、Cannataro M。蛋白质数据的语义相似性分析:生物特征和问题评估。生物信息简介,doi:10.1093/bib/bbr066。2011. [公共医学] 25Resnik P.分类学中的语义相似度:一种基于信息的度量方法及其在自然语言歧义问题中的应用。人工智能研究杂志。.1999年;11:95–130. [谷歌学者] 26Faria D,Pesquita C,Couto FM,Falcao A.ProteinOn:蛋白质语义相似性的网络工具。里斯本大学信息学系,技术报告,di-fcul-tr-07-6。2007
28Gavin AC、Aloy P、Grandi P、Krause P、Boesche P等。蛋白质组调查揭示了酵母细胞机械的模块性。自然,440.2006;7084:631–636。[公共医学][谷歌学者] 30Burley SK、Roeder RG。转录因子IID(TFIID)的生物化学和结构生物学。每年。生物化学评论。.1996;65:769–799.[公共医学][谷歌学者] 31Veltman DM,Insall RH。WASP家族蛋白质:它们的进化及其生理意义。分子生物学。.单元格,21.2010;16:2880–93. [PMC免费文章][公共医学][谷歌学者] 32Liben-Nowell D,Kleinberg J.社交网络的链接预测问题。在第十二届信息和知识管理国际会议记录纽约州纽约市556–559号。2003
33Singh R,Xu J,Berger B.通过匹配邻域拓扑实现蛋白质相互作用网络的成对全局对齐。计算分子生物学研究,16-31,斯普林格。2007
34Singh R,Xu J,Berger B.多重蛋白质相互作用网络的全球比对。程序。.太平洋生物计算研讨会.2008;13:303–314.[公共医学][谷歌学者] 35Kuchaiev O,Milenkovic T,Memisevic V,Hayes W,Przulj N.拓扑网络比对揭示了生物功能和系统发育。J.R.社会。.接口,7.2010;50:1341–1354. [PMC免费文章][公共医学][谷歌学者] 36Kuchaiev O,Przulj N.综合网络比对揭示了酵母和人类的大范围全球网络相似性。生物信息学,27.2011;10:1390–1396.[公共医学][谷歌学者] 37Milenkovic T,Leong W,Przulj N.带Graphlet度向量的最优网络对准。癌症信息学,9,121–137。2010[PMC免费文章][公共医学] 38田伟,萨马托娃NF。通过快速识别最大保守模式实现交互网络的成对对齐。太平洋生物计算研讨会.2009;14:99–110.[公共医学][谷歌学者]