AlignNemo: A Local Network Alignment Method to Integrate Homology and Topology

Giovanni Ciriello; Marco Mina; Pietro H. Guzzi; Mario Cannataro; Concettina Guerra

doi:10.1371/journal.pone.0038107

公共科学图书馆一号。2012; 7（6）：e38107。

2012年6月12日在线发布。数字对象标识：10.1371/journal.pone.0038107

预防性维修识别码：项目经理3373574

PMID：22719866

AlignNemo：一种集成同调和拓扑的局部网络对齐方法

乔瓦尼·西列洛,^#^1,^*,^¤ 马尔科·米纳,^#¹ 彼得罗·古齐,² 马里奥·卡纳塔罗,²和康塞蒂娜·格拉^1,^三,^*

帕特里克·阿洛伊，编辑器

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

补充资料: 表S1： 回收已知络合物。该表报告了通过每种方法回收的已知酵母（CYC2008）和人类（CORUM）复合物。已知配合物通过其ID进行识别，并报告每种方法的最佳匹配溶液的ID。对于每个复合物，我们报告了蛋白质的总数、与最佳匹配溶液重叠的蛋白质的数量、精确度、召回率和F₁-得分。
（XLS）
电话：0038107.s001.xls（275K）
GUID:5E88C135-270E-47B0-804F-E98EB18ABF8E
表S2： 语义相似性。该表显示了每种方法找到的比对的种间语义相似性得分。根据基因本体中定义的生物过程和分子功能词汇计算语义相似度。
（XLS）
电话：0038107.s002.xls（72K）
GUID:BA1A8F10-BF27-4A89-B06E-DC938CE77C00
表S3： GO富集分析。基因本体丰富了与Arp2-3、TFIID和20S蛋白酶体复合体最匹配的解决方案类别。
（XLS）
电话：0038107.s003.xls（67K）
GUID:EF860363-5CC6-4467-A143-CF335A31B1B8

摘要

局部网络比对是蛋白质相互作用网络分析的一个重要组成部分，可用于识别进化相关复合物。我们提出了AlignNemo，这是一种新的算法，考虑到两个生物体的网络，它可以揭示与生物功能和相互作用拓扑相关的蛋白质子网络。发现的保守子网络具有一般拓扑结构，不需要对应特定的交互模式，因此它们更符合文献中提出的功能复合体模型。该算法能够通过一个扩展过程处理稀疏的交互数据，该扩展过程在每一步探索直接与当前解决方案交互的蛋白质以外的网络的局部拓扑。为了评估AlignNemo的性能，我们使用统计方法和生物学知识运行了一系列基准测试。基于蛋白质复合物的参考数据集，AlignNemo在精确度和召回率方面均优于其他方法。我们使用应用于基因本体词汇的语义相似性概念，展示了我们的解决方案在生物学上是合理的。AlignNemo的二进制文件以及有关算法和实验的补充详细信息，请访问：sourceforge.net/p/AlignNemo。

介绍

在过去的几十年里，研究人员一直致力于研究基因组尺度上进化的影响，即如何通过分析基因组序列来重建进化。最近，关于蛋白质相互作用的高通量数据的可用性允许通过比较不同物种的蛋白质相互作用图（也称为相互作用体）来观察进化变化[1]——[3]该领域的目标包括鉴定物种间保守的相互作用模式以及鉴定新的同源关系[4]在这种情况下，已经开发了几种用于比较蛋白质相互作用（PPI）网络的算法，通常称为网络对齐算法。

网络对齐问题有两个主要实例：全球一致性通过搜索来自不同物种的整套蛋白质和蛋白质相互作用的单一综合图谱，回答了一个进化问题；局部对齐搜索细胞机制的进化保守构建块，忽略网络之间的整体相似性。图论的形式主义为解决这两个问题提供了最好的框架。在这种形式中，PPI网络表示为图(G公司)其节点(V（V）)是蛋白质和边缘(E类)是它们之间的相互作用。蛋白质网络比对问题被描述为一个图比对问题，即在两个（成对）或多个（多元）图之间搜索相同或相似的子图。形式上：给定两个输入图，保存图片、插图等的外部文件。对象名称为pone.0038107.e001.jpg 和、对齐问题和可以表示为查找映射的问题M（M）中的节点之间和中的节点(，带有)最大化定义在节点和边上的相关相似性函数。对于全局对齐，M是网络的整个节点集之间的映射。与局部对齐相比，M被定义为最相似的节点子集之间的映射集。本文重点研究了PPI网络的局部对齐，并提出了一种提取两个PPI网络中保守蛋白复合物的方法。

蛋白质复合物在这里被定义为执行类似功能或参与相同生物过程的蛋白质组。现有的检测蛋白质复合物的方法通常基于这样的观察，即复合物对应于高度相互作用的蛋白质集，因此它们在PPI网络中寻找稠密的子图。例如，两个版本的NetworkBLAST[5],[6]基于这样的假设，从最初的PathBLAST进化而来[7]专注于保守路径。在我们建议的方法中，我们寻找相当地密集的节点组，即节点之间的相互作用比与网络其余部分的相互作用更多，对复合体的拓扑施加的刚性约束更少。事实上，虽然拓扑结构信息丰富，但它往往是不完整的，反映了对蛋白质的不统一认识[8],[9]多个假负的存在导致物种间保守相互作用的稀疏图甚至稀疏集，导致仅寻找稠密子图的方法无法检测到保守复合体。

有几种方法，如NetworkBLAST，依赖于搜索名为对齐图排列图具有对应于成对同源蛋白质的节点和保守相互作用的边。为了处理丢失的信息，NetworkBLAST以及类似的方法引入了较少限制的对齐图定义，通过允许在原始PPI网络中的相应同源蛋白质对距离小于或等于时连接节点k（用于NetworkBLAST 保存图片、插图等的外部文件。对象名称为pone.0038107.e009.jpg ). 然而，通过这种方式，可能会在对齐图中添加几个不可靠的链接，从而导致不正确的解决方案，即使是较小的值k.

Mawish方法[10]将网络对齐作为一个最大权重诱导子图问题，并结合进化模型来评估拓扑相似性。虽然有效，但正如我们在实验中观察到的那样，该模型可能过于严格，导致只能识别较小的保守结构，而无法恢复较大的复合物。

其他算法，如Graemlin[11]及其新版本Graemlin 2.0[12]，通过允许搜索更通用的拓扑来概括前面的方法。这些方法除了利用形态信息外，还利用了类偏执狂蛋白质之间的共生关系，从而提高了检测有意义比对的能力[13]，KEGG路径注释[14]和已知路线。然而，这些方法并没有充分利用拓扑信息，因为局部对齐步骤只检查每个节点的直接邻域，以贪婪的方式迭代分组最佳邻域。

PHUNKEE公司[15]在考虑网络环境中的局部保守子网络方面向前迈出了一步：在选择了假定的同源序列集之后，该方法同时探索所有相邻蛋白质，寻找高度保守的相互作用集。然而，所有交互都具有相同的可靠性，PHUNKEE定义的网络上下文并不超越直接交互。最后，在开发这项工作的同时，一种新的方法，NetAligner[16]，设计了蛋白质组比对的算法框架。NetAligner引入了一种识别进化保守相互作用的策略，该策略依赖于相互作用蛋白质的进化速度远低于偶然预期的原则。

虽然对全局和局部网络对齐的可用算法的详细描述超出了本文的范围，但在表1.

表1

网络对齐工具概要。

算法	本地（L）/	成对（P）/	输入数据	调整策略^*
	全球（G）	多方向（M）
马维什 [10]	我	P（P）	PPI网络	对齐关系图
			BLAST e值	单节点扩展
				重复发散
				模型
PathBLAST（路径BLAST） [7]	我	P（P）	PPI网络	对齐关系图
			BLAST e值	单节点扩展
				保守线性路径
				提取
网络BLAST [5]	我	P（P）	PPI网络	对齐关系图
			BLAST e值	PPI可靠性得分
				单节点扩展
				保守的密集网络
				提取
网络BLAST-M [6]	我	M（M）	PPI网络	分层对齐图
			BLAST e值	单节点扩展
				保守的密集网络
				提取
格雷姆林 [11]	我	M（M）	PPI网络	得分概率模型
			正交测井曲线簇	节点和边
				节点等价类
				单节点扩展
格雷姆林2[12]	总账	M（M）	PPI网络	机器学习方法
			KEGG集群	用于网络评分
			已知对齐方式	单节点扩展
ISORANK公司 [33]	G公司	P（P）	PPI网络	蛋白质对的特征向量
				协会
			BLAST e值	一致的关联集
				提取
等秩N [34]	G公司	M（M）	PPI网络	ISORANK的贪婪扩展
			BLAST e值
GRAAL公司 [35]	G公司	P（P）	PPI网络	完全基于拓扑
（另请参见[36],[37])			BLAST e值	蛋白质对得分依据
				graphlet签名
希望地图 [38]	我	M（M）	PPI网络	直向原木集群
			BLAST e值	对齐关系图
			Inparanoid集群	强连接组件
			KEGG集群	提取
PHUNKEE公司 [15]	我	P（P）	PPI网络	膨胀过程
			代谢网络	添加相邻项
			BLAST e值，COG	模块
NetAligner（网络对齐器） [16]	我	P（P）	PPI网络	相互作用守恒
			BLAST定线	概率

在单独的窗口中打开

^*作为最后一步，所有方法都根据相似性函数对解决方案进行评分和排序。

我们在此介绍一种方法AlignNemo（Aligning Network Modules），该方法通过为本地网络对齐提供一个通用而有效的框架来解决上述问题。AlignNemo将按照图1首先，它从输入网络构建加权对齐图。节点代表假定的同源蛋白质对，并按Inparanoid评分，反映了绘制蛋白质对的信心。相反，边缘使用一种新的方法进行加权，该方法考虑了输入网络中的局部连通性（请参见方法）。然后，我们从对齐图中提取给定大小的所有连通子图，并根据节点和边上的权重对其进行排序。排名靠前的全连通子图将用作对齐解决方案的种子。最后，我们通过在每个步骤中添加多个子图，以迭代方式扩展每个种子。这使我们能够探索解决方案的网络环境，而不仅仅是它的近邻。方法部分提供了算法的正式描述。

保存图片、插图等的外部文件。对象名称为pone.0038107.g001.jpg

在单独的窗口中打开

图1

AlignNemo概述。

给定两个输入PPI网络（1），构建对齐图，并将分数分配给其节点和边（2）。然后种子即，从对齐图（3）中提取具有大量高得分链接和节点的小子图，并通过添加通过可靠链接（4）与之相对良好连接的小个子图，以贪婪的方式扩展每个种子。

我们的方法的主要贡献是：1）一种新的对齐图边缘评分策略，该策略通过给定节点之间的路径集合分析输入PPI网络的结构，并估计其可靠性和局部重要性；2）一个新的迭代展开过程从种子开始，在直接交互之外的每一步探索对齐图的局部拓扑。这种组合提供了一种新的方法来解释拓扑结构和同源性，并证明可以独立于其大小或连接性程度检测多种蛋白质复合物。

在下一节中，我们将展示PPI网络对齐的原理证明结果面包酵母,D.黑食肉动物、和智人我们证明，与其他方法相比，我们的比对具有优越的拓扑和生物质量。结果的质量通过多种方式进行评估：我们首先通过精确性和召回率的测量来展示AlignNemo恢复已知蛋白质复合体的能力，然后使用应用于基因本体词汇表的语义相似性概念来证明我们的解决方案在生物学上是合理的，最后，我们表明，即使在该方法施加的约束较少的情况下，提取的模块仍然保持高连通性。

详细讨论了具有代表性的复合体，并与本地对齐工具（如NetworkBLAST、Mawish和NetAligner）进行了比较，这些工具是软件可用和当前维护的唯一工具。我们选择NetworkBLAST和Mawish作为主要分析对象，因为它们可用于用户定义的输入数据，同时我们分别比较了AlignNemo和NetAligner，因为我们根据其自身的数据和交互概率运行后者。AlignNemo以及本文中使用的适当文档和数据集可从以下网站获得：http://www.bioinformatics.org/alignemo.

结果和讨论

在本节中，我们将评估AlignNemo、NetworkBLAST和Mawish在以下公开数据集上的性能D.黑腹果蝇（果蝇），酿酒酵母（面包酵母），以及智人（人类）。我们在相同的数据集上运行这些方法，每个算法生成一组可能重叠的解决方案或模块。A模块M（M）是包含来自两个输入网络的一组蛋白质对的排列图的子图。我们将参考网络中的一组蛋白质保存图片、插图等的外部文件。对象名称为pone.0038107.e010.jpg 和在里面M（M）作为和分别是。

对每种方法的解进行同源性和拓扑性评估和比较。首先，我们证明AlignNemo能够以高精度和召回率重述已知的蛋白质复合物。然后，我们将语义相似性的概念应用于基因本体词汇表，表明不同物种的蛋白质关联在生物学上是合理的。最后，我们证明了我们的解决方案比偶然预期的更紧密地联系在一起。我们通过关注几个具体案例来总结本节，以强调每种方法的弱点和优点。

输入数据

蛋白质相互作用D.黑腹果蝇和酿酒酵母来源于相互作用蛋白质数据库（DIP-2011年10月27日更新）[17]它们包括苍蝇中的7548种蛋白质和22969种相互作用，以及酵母中的5053种蛋白质和22254种相互作用。妄想狂[13]从这两个网络中筛选出10045对假定的同源蛋白，包括1878个酵母蛋白和1511个果蝇蛋白。智人PPI网络源自HIPPIE数据库[18]; 它包括来自17个不同来源的12113个蛋白质和78559个加权相互作用。Gerstein实验室从人类和苍蝇中获得了一组假定的同源蛋白对[19].

这些数据集集成了多个来源，并包括来自不同方法的交互，包括高通量和小规模实验。为了说明这种多样性，我们为每条边分配一个可靠性得分。对于源自DIP（果蝇和酵母）的两个网络，我们采用了中定义的最大似然估计程序[20]评估通过相同实验程序确定的蛋白质相互作用的可靠性。该方法基于以下观察结果，即不同时间点的基因表达谱相关性是评估PPI可靠性的良好特征：相互作用的蛋白质通常显示出较高的相关性值。在应用该方法时，我们考虑了未知的随机蛋白质对相互作用真正的非相互作用蛋白质和通过小规模实验确定的相互作用真正的相互作用蛋白质，从这两组估计相关系数的各自分布。对于酵母蛋白，我们使用了SGD数据库中报告的一组表达谱[21]，并为DIP中描述的每个实验方法及其组合指定一个置信度得分。苍蝇相互作用的分数是基于以下假设计算的：给定的实验方法在不同的生物体中同样有效，因此基于酵母数据的置信分数被转移到苍蝇的相互作用中。通过网络服务器HIPPIE可以获得人类蛋白质相互作用网络的可靠性分数。

已知络合物的检测

我们通过评估每种方法发现的模块与已知络合物的一致性来评估结果的质量。给定一个模块和一个已知复数，我们从信息检索中计算出两个广泛使用的度量：精度( 保存图片、插图等的外部文件。对象名称为pone.0038107.e014.jpg )和召回().定义为复合物中也存在的模块中蛋白质的百分比；回忆定义为复合物中也存在于模块中的蛋白质百分比。为了将这些度量值集成到单个分数中，我们计算-分数函数定义为准确度和召回率的调和平均值。这些措施的正式定义如下：

哪里TP（转移定价）是真阳性的数量，即溶液中也存在于复合物中的蛋白质数量。类似地，FP公司和FN公司是误报和漏报的数量。这个保存图片、插图等的外部文件。对象名称为pone.0038107.e019.jpg -分数范围在区间[0,1]内，1表示完全一致。在我们的分析中，我们匹配每个已知的物种复合体到所有模块从给定的算法中选择最匹配的模块-得分。

评估校准结果酿酒酵母和D.黑腹果蝇，我们在CYC2008中提到复合物[22]这是一个从小规模实验和文献挖掘中获得的408个酵母蛋白复合物的综合目录。用于对齐D.黑腹果蝇和智人，我们指的是CORUM中的复合物[23]，一个包含1682个人类蛋白质复合物的数据集。我们观察到，28%的CYC2008和CORUM复合物仅由2或3个蛋白质组成（CYC208132个，CORUM 474个）。这可能是有问题的，因为统计测量往往很难对这种小的复合体进行解释。因此，我们将分析限制在至少含有4个蛋白质的复合物上，但同时我们验证了每种方法恢复小复合物（2-3个蛋白质）的能力。我们认为，如果一个小的复合物至少有2个蛋白质与校准溶液重叠，则需要恢复，但不包括超过20个节点的溶液。在表2我们总结了这四种算法的性能。在表中，我们列出了每种算法找到的模块数，其中包括高质量模块数，即与已知复数匹配的模块数保存图片、插图等的外部文件。对象名称为pone.0038107.e023.jpg -得分大于0.3。The overall distribution of-AlignNemo、Mawish和NetworkBLAST获得的分数由各自的核密度分布估计，如所示图2（A–B）。在图2（A–B）我们还分别报告了每种方法在精确度和召回方面的性能。NetworkBLAST和AlignNemo在酵母飞比对上都表现得更好，后者的准确度和召回率总体上都更高。Mawish发现的小溶液通常具有高精度，但不可避免地无法回收复合物中的大多数蛋白质。

表2

AlignNemo、Mawish、NetworkBLAST和NetAligner的比较。

	酵母粉				飞人
算法	S的编号。	医学硕士。	F类₁>0.3	S.C.R.公司。	S的编号。	医学硕士。	F1>0.3	S.C.R.公司。
马维什	175	32	29	16	87	37	60	33
网络BLAST	329	46	30	18	45	23	13	24
NetAligner（网络对齐器）	140	32	41	49	133	40	81	84
AlignNemo（对齐Nemo）	242	54	52	27	115	53	87	89

在单独的窗口中打开

S的编号。：解决方案数量；医学硕士。：匹配解决方案；S.C.R.公司。：已恢复小型综合体。

第2列和第5列分别列出了酵母菌-苍蝇和蝇-人比对中每种算法找到的解的数量（S的数量）。在第3列和第6列（M.S.-匹配解决方案）中报告了与至少一个已知复合体匹配的解决方案的数量。大小复合体的高质量匹配数保存图片、插图等的外部文件。对象名称为pone.0038107.e025.jpg

保存图片、插图等的外部文件。对象名称为pone.0038107.e025.jpg

第4列和第7列总结了第4项( 保存图片、插图等的外部文件。对象名称为pone.0038107.e026.jpg

)而回收的小复合体（2-3个蛋白质）的数量在第5列和第8列中（S.C.R.-回收的小复合物）。

保存图片、插图等的外部文件。对象名称为pone.0038107.g002.jpg

在单独的窗口中打开

图2

AlignNemo、NetworkBLAST和Mawish的比较。

这三种算法在恢复两种算法中已知的蛋白质复合物方面进行了评估保存图片、插图等的外部文件。对象名称为pone.0038107.e027.jpg （CYC2008）和（CORUM）。与已知复合物匹配的解决方案通过精确度、召回率和F进行评分₁分数。将每种方法获得的分数分布绘制在面板（A）中，用于酵母-苍蝇比对，面板（B）用于人机比对。面板（C）和（D）显示了每个溶液映射的不同物种蛋白质之间的平均语义相似性。每个解决方案都由一个半径与解决方案大小成比例的圆表示。每种方法的解的大小差异很大，因此小（<7个节点）和大( 保存图片、插图等的外部文件。对象名称为pone.0038107.e029.jpg 7个节点）解决方案单独显示。*百分比是指通过至少一种方法匹配的一组复合物。

以下各项的完整列表保存图片、插图等的外部文件。对象名称为pone.0038107.e030.jpg -分数以及准确度和召回率的衡量标准可以作为补充材料(表S1). 对于每场比赛，我们还报告了多次测试修正后Fisher精确测试得出的p值。AlignNemo在恢复已知复合物方面明显优于其他方法，显示出高质量模块的最高百分比。值得注意的是，虽然Mawish在飞人对准方面表现类似，但该方法生成的大多数模块都较小，特别是其中90%仅由2个节点组成。

物种间蛋白质图谱

在上一节中，我们展示了AlignNemo能够重述已知的蛋白质复合体，并且检测到的保守子网络通常反映了每个物种内的已知生物学。另一方面，不同物种蛋白质之间的映射质量需要进一步评估。我们根据功能相似性评估所发现映射的生物相关性，即我们确定来自两种生物体的匹配蛋白质在多大程度上具有功能相关性。

这种分析需要使用编码到本体中的先前生物知识。我们选择基因本体论（GO）框架及其注释，通过使用语义相似性 [24]在我们的分析中，对于每个解决方案，我们使用GO中生物过程（BP）和分子功能（MF）本体的注释集计算语义相似性。我们在这里只报道了BP的结果，因为这个本体更紧密地反映了蛋白质复合体作为参与特定过程的亚细胞单位的想法。完整结果报告于表S2.

给定两种蛋白质保存图片、插图等的外部文件。对象名称为pone.0038107.e031.jpg 和，及其GO注释集和Resnik相似性度量[25]用于对每一对进行评分具有和。的语义相似性和定义为每个GO学期最佳匹配的平均分数和根据Resnik的测量[26]。使用工具FastSemSim计算语义相似性[27].

我们总共测试了356种AlignNemo溶液，其中85%含有5到15种蛋白质，最大的93种蛋白质；362种NetworkBLAST溶液，每种溶液包括5至15种蛋白质，后者是该方法施加的限制；和260种Mawish溶液，每种溶液包括2到6种蛋白质。鉴于检测到的子网络在大小方面存在显著差异，我们分别显示了三种方法对小络合物的结果( 保存图片、插图等的外部文件。对象名称为pone.0038107.e042.jpg 蛋白质）和大型蛋白质(蛋白质）图2（C–D）。

两种蛋白质网络比对的结果表明，这三种算法在语义相似性方面的性能相似，在智人-D.黑食肉动物蛋白质比对。

守恒模的拓扑

在这里，我们分析所获得的解的拓扑结构。正如引言中所讨论的，蛋白质复合物通常由紧密相互作用的蛋白质组成。然而，最近关于PPI网络中复合体的模块性和组织的研究表明，它们往往由紧密连接的核心定义了一个连接不太紧密的集合蛋白附件后者通常存在于多个复合体中，允许潜在功能多样化[28].

根据此模型，AlignNemo寻找相当地紧密连接的蛋白质，即它们之间的相互作用比与网络其余部分的相互作用更多的蛋白质，而不是对候选解决方案的拓扑施加刚性和固定的约束。

我们现在想测试这个策略是否会危及我们检测紧密连接核心的能力，包括我们的解决方案中不太可能是实际蛋白质复合物的稀疏子网络。为此，我们为每个PPI网络生成1000个随机网络，保持其节点度分布；然后我们评估每个模块在原始PPI网络和随机集中的连通性，即边数。因此，对于每个物种和每个解决方案，我们估计了其连接性的背景分布。我们量化了实际网络中观测到的连通性偏差，保存图片、插图等的外部文件。对象名称为pone.00381007.e0044.jpg ，根据使用Z分数的背景分布：

哪里保存图片、插图等的外部文件。对象名称为pone.0038107.e046.jpg 是随机集中这组蛋白质的平均连接性其标准偏差。

首先，我们分别测试由每个溶液定义的两组蛋白质，每个物种一组，然后，我们将获得的两种溶液之间的最大Z分数关联到每个溶液。通过这种方式，我们还解释了一个物种中连接相对较差的蛋白质，而其他物种中对应的直系同源物则紧密相互作用。根据这个背景分布，从经验上推导出每个模块的p值，它是由在所有可能的网络中导致测试模块的Z得分更大或相等的随机网络的数量给出的。有趣的是，我们发现95%的解决方案，无论是针对人-蝇还是酵母-蝇比对，都显示出统计上显著高于在随机网络中观察到的连通性。

总之，AlignNemo在正确检测单个物种内的蛋白质复合物方面优于Mawish和NetworkBLAST，因为它们具有相互作用体和正态关系。此外，同一模块中蛋白质之间的平均语义相似性证明了不同物种之间的蛋白质映射在生物学上是合理的。最后，尽管AlignNemo没有对模块拓扑施加严格的约束，而是探索了蛋白质复合体中连接不太紧密的成分，但提取的子网络的连接比预期的更紧密。

与NetAligner的比较

NetAligner依靠一种新的算法方法，根据不同物种蛋白质之间的蛋白质序列相似性计算与保守相互作用相关的概率。给定两对假定的直系对数，NetAligner通过考虑两对直系对数之间进化距离的差异来评估它们共享保守相互作用的可能性。我们在不同的配置和输入数据下测试了NetAligner，包括工具提供的原始蛋白质组和同源性。根据我们的分析，NetAligner在使用预测可能的保守相互作用设置及其参考文件中建议的参数[16].NetAligner在自己的数据集上提取更大、更可靠的对齐集。因此，我们决定比较AlignNemo和NetAligner在各自的数据集上运行的情况。

当溶液与参考络合物（CYC2008和CORUM）匹配时，这两种方法的性能相似（参见图3和表2). AlignNemo在保存图片、插图等的外部文件。对象名称为pone.0038107.e048.jpg -对齐。在-对齐时，NetAligner会找到一组得分较高的小解决方案，但同时，包含463个节点的超大解决方案会产生多个匹配，尽管精度接近于零，但仍会产生较高的召回值(图3).

保存图片、插图等的外部文件。对象名称为pone.0038107.g003.jpg

在单独的窗口中打开

图3

AlignNemo和NetAligner的比较。

这两种算法在恢复两种算法中已知的蛋白质复合物方面进行了评估保存图片、插图等的外部文件。对象名称为pone.0038107.e052.jpg （CYC2008）和（CORUM）。与已知复合物匹配的解决方案通过精确度、召回率和F进行评分₁分数。

保守性复合体

在本节中，我们特别关注CYC2008和CORUM的几种复合物，以更好地剖析不同方法的性能。这里讨论的案例包括一个小型综合体，第2/3节和两个相对较大的复合体，TFIID（通用转录因子）和20S蛋白酶体，具有不同级别的连接性。在表3我们报告了这些复合物的蛋白质，这些复合物已经被AlignNemo、NetworkBLAST和Mawish之间的至少一个正确结合和恢复保存图片、插图等的外部文件。对象名称为pone.0038107.e054.jpg 和网络对齐。对于转录因子TFIID和Arp2/3复合物，AlignNemo根据F和₁-分数和语义相似性。在检测20S蛋白酶体时，AlignNemo和NetworkBLAST在酵母-苍蝇比对中具有相似的召回率，但AlignNe莫具有更高的精确度。此外，AlignNemo在人机对齐方面表现出卓越的性能。使用GOTermFinder计算了我们的解决方案中显著丰富的GO类别[29]和在中报告表S3。在这两种比对中，AlignNemo的跨物种语义相似性较高，表明生物质量有所改善，详细信息如下所述。

表3

Arp 2/3、TFIID和20S蛋白酶体复合物最佳匹配溶液的比较。

复合物名称：肌动蛋白相关蛋白2/3（ARP 2/3）					复杂尺寸：7个蛋白质
方法：					马维什	AlignNemo（对齐Nemo）		N.BLAST公司
解决方案大小：					-	6		-
蛋白质功能	ID人类		ID飞行		正确选择
ARP 3B机场	ARP3B机场		第32392页			•
ARP 2/3亚单位2	ARPC2系统		Q9VIM5型			•
ARP 2/3亚单位3	ARPC3系统		Q9VX82型			•
ARP 2/3亚单位5	平均收入5		Q9VQD8型			•
复合物名称：转录因子IID（TFIID）					复合物大小：13个蛋白质
方法：					马维什		AlignNemo（对齐Nemo）	N.BLAST公司
解决方案大小：					2		19	10
蛋白质功能	ID人类		ID飞行		正确选择
TFIID亚单位1	TAF1型		第51123页				•	•
TFIID亚单位1样	TAF1L公司		第51123页				•	•
TFIID亚单位10b	TAF10型		Q9XZT7型		•		•
TFIID亚单位11	TAF11型		第49906页				•
TFIID亚单位6	TAF6型		第49847页				•	•
TFIID亚单位7	TAF7型		Q9VHY5型				•
TFIID亚单位8	TAF8（目标8）		第9季度第6季度		•		•
TFIID亚单位9	TAF9B型		Q27272问题				•
TBP（待定）	TBP（待定）		第20227页				•	•
复合物名称：20S蛋白酶体					复杂尺寸：14个蛋白质
方法：					马维什		AlignNemo（对齐Nemo）	N.BLAST公司
解决方案大小：					2		11	11
蛋白质功能		ID人类		ID飞行	正确选择
蛋白酶体亚单位α-1型		PSA1型		第12881页			•	•
蛋白酶体亚单位α-2型		PSA2系统		第40301页			•	•
蛋白酶体亚基α-3型		PSA3型		第9季度第5季度第6季度			•
蛋白酶体亚基α-4型		PSA4型		第18053页			•	•
蛋白酶体亚基α-5型		PSA5型		问题95083			•
蛋白酶体亚单位α-7型		PSA7系列		第22769页	•		•	•
蛋白酶体亚基β-1型		PSB1型		第40304页			•
蛋白酶体亚基β2型		PSB2型		问题9VQE5			•
蛋白酶体亚基β-3型		PSB3型		Q9XYN7号机组	•		•
蛋白酶体亚单位β-7型		PSB7型		Q9VUJ1型			•

在单独的窗口中打开

同源蛋白质正确地包含在至少一种算法的最佳匹配溶液中。对于Arp 2/3复合物，6个蛋白质中有4个真正参与Arp2/3人类复合物，而其他2个（略）是溶液中错误包含的同源蛋白质。NetworkBLAST和Mawish没有提供与此复杂系统重叠的任何解决方案。对于TFIID和20S蛋白酶体复合体，AlignNemo溶液的质量取决于属于该复合体但未被Mawish和NetworkBLAST选择的蛋白质对的数量。

转录因子TFIID复合物

RNA聚合酶（I、II和III）催化核基因的转录，并依赖一般转录因子识别目标启动子；特别是RNA聚合酶II依赖TFIID复合物启动转录。通用转录因子TFIID主要由TATA盒结合蛋白（TBP）和一组TBP相关因子（TAF）组成保存图片、插图等的外部文件。对象名称为pone.0038107.e056.jpg s）或跨物种保守的亚基[30].

AlignNemo在发现这种复合物方面优于现有方法：它在19个节点的溶液中发现了9个TFIID蛋白；它正确地将人类蛋白质映射成与两种生物体中相同亚单位相对应的苍蝇蛋白质（参见表3). Mawish的解决方案只有2个节点，也包括在我们的比对中，而NetworkBLAST返回了10个节点的解决方案，这些节点与属于TFIID复合体的4个蛋白质对相匹配。

由于此复合体的高连通性，AlignNemo和NetworkBLAST解决方案超出了CORUM中定义的TFIID复合体的边界。为了进一步验证这些溶液的质量，我们对其中的所有蛋白质进行GO项富集测试。我们发现AlignNemo溶液中17种苍蝇蛋白中有16种和19种人类蛋白中有18种富含相同的GO项，包括RNA聚合酶II启动子转录( 保存图片、插图等的外部文件。对象名称为pone.0038107.e057.jpg ,). 相比之下，NetworkBLAST的解决方案仅报告了两个网络中10种蛋白质中的4种具有共同和特定的生物作用（参见表S3).

第2/3节

Arp2/3复合物由7个单元组成，在肌动蛋白细胞骨架的调节中发挥重要作用。它是肌动蛋白细胞骨架的主要成分，存在于大多数含肌动蛋白的真核细胞中[31].

有趣的是，原始PPI网络中这些蛋白质之间的连接水平差异很大，从人类中发现的17种相互作用到保存图片、插图等的外部文件。对象名称为pone.0038107.e059.jpg 。不完整的信息使这一复杂情况尤其难以恢复。事实上，只有AlignNemo能够在和而NetworkBLAST和Mawish都没有与之重叠的任何解决方案。表3列出了AlignNemo溶液中正确检测到的同源蛋白质。所有4个都带有注释肌动蛋白纤维聚合功能的调控GO术语( 保存图片、插图等的外部文件。对象名称为pone.00381007.e062.jpg 和). 这个案例很好地说明了考虑保守路径而不仅仅是直接交互的重要性，以补充一个网络中缺失的信息。

20S蛋白酶体复合物

20S蛋白酶体是一种存在于多种生物中的大型蛋白质复合体，尤其是在本文所述的所有三种生物中。根据CYC2008和CORUM，20S蛋白酶体由酵母中的14种蛋白质和人类和苍蝇中的16种蛋白质组成。该综合体的拓扑结构相对密集，相互作用可靠。

对于以下情况保存图片、插图等的外部文件。对象名称为pone.0038107.e064.jpg -网络对齐所有三种方法都具有可比较的召回值；至于精确度，NetworkBLAST的值要低得多，因为它在复合物外发现了几个蛋白质。另一方面，AlignNemo在识别20S蛋白酶体复合体方面优于其他方法保存图片、插图等的外部文件。对象名称为pone.00381007.e066.jpg -网络对齐（请参见表3). 事实上，它在人类和苍蝇中正确地选择了11个20S蛋白酶体蛋白质，而NetworkBLAST在人类和果蝇中仅发现4个蛋白质，在两个网络中Mawish仅发现2个蛋白质。

方法

AlignNemo旨在识别不同物种PPI网络之间保守的蛋白质模块或复合物。搜索保守模块是在对齐图上执行的，由三个主要步骤组成。

首先，根据输入网络构造对准图。排列图中的每个节点对应一对假定的同源蛋白质，并使用Inparanoid的得分来衡量每个节点的权重。对齐图的每条边根据一种评分策略进行加权，该策略结合了网络上下文中连接其端点的路径在输入网络中的数量、可靠性和局部重要性方面的信息。该策略通过辅助结构实现并集图，这对该方法的整体性能至关重要。
第二，所有连接k-子图（此处)从对齐图中提取，并基于节点和边的权重进行评分。排名靠前的全连接k-子图将用作对齐解决方案的种子。
第三，通过探索当前解的局部邻域，超越其直接邻域，以迭代方式扩展每个种子。具体地说，我们定义了一个扩展过程，该过程在每个步骤都将所有通过可靠交互与当前解决方案紧密相连的子图添加到网络的其余部分中。

这种方法与网络中复合体的模块化和组织的最新研究结果一致，根据这些研究结果，PPI网络中的复合体往往由核心零件和附件核心被定义为功能相似且具有高度相关转录谱的一小组蛋白质。核心被连接不太紧密的蛋白质包围，这些蛋白质是固定的附着物，存在于多种复合物中，允许潜在功能的多样化[28]我们解决方案的结构很好地反映了这种多元化。实际上，如前几节所示，我们确定了几个重叠的模块，而不是没有交集的分离子网。

路线图

对齐图保存图片、插图等的外部文件。对象名称为pone.0038107.e069.jpg 是一个加权图，其中节点表示同源蛋白质对和边保守的相互作用。如前所述，对齐图的现有定义在两个节点之间设置边的方式上有所不同。大多数表示从输入中利用有限的拓扑信息，因为它们丢弃了几乎所有不涉及同源关联及其交互的节点。

我们的目标是构建一个尽可能考虑两个网络结构的对齐图。我们为对齐图的边缘设计了一种新的评分策略，该策略结合了原始网络中存在的拓扑信息，包括两个节点之间长度小于或等于2的路径的数量、可靠性和重要性。通过引入一个我们称为并集图.对齐图的构造和评分包括三个步骤：（i）将所有输入网络数据合并到并集图中，（ii）处理并集图以创建原始对齐图，最后（iii）对原始对齐图执行一些修剪操作以消除噪声并加快整体计算。

并集图

联合图的目的是将所有输入数据合并到一个图中，而不会丢失信息。给定两个加权网络保存图片、插图等的外部文件。对象名称为pone.0038107.e070.jpg 和和一组同源关联节点之间和，并集图包含两种类型的节点：（i）复合节点代表同源蛋白质对，每个网络一个，如下所示H（H）和（ii）简单节点表示在另一个网络中没有同源物的两个输入网络的蛋白质。其中一个输入网络中包含的任何边在并集图中通过在所有对应的节点对（简单节点或复合节点）之间添加边来表示。正式地：

定义1。这个并集图 保存图片、插图等的外部文件。对象名称为pone.0038107.e076.jpg 是具有以下结构的图形：

假设每条边e（电子）属于保存图片、插图等的外部文件。对象名称为pone.0038107.e079.jpg 和标有可靠性得分和每个关联标有可靠性得分.然后是边缘在里面被分配分数由输入网络中相应边的得分给出；唯一的例外是当两者都我和j个在中，即它们是复合节点，并且在这种情况下，在两个输入网络中都有相应的边缘保存图片、插图等的外部文件。对象名称为pone.0038107.e088.jpg 是两条原始边的得分之和。

图4给出了一个并集图的结构示例。

保存图片、插图等的外部文件。对象名称为pone.0038107.g004.jpg

在单独的窗口中打开

图4

并集图示例。

联合图包括这两者混合成的代表两个物种同源蛋白质对的节点（浅蓝色节点），以及简单的代表其他网络中没有同源物的蛋白质的节点（红色和绿色节点）。类似地，组合相互作用（黑边）和仅存在于一个物种中的相互作用（红边和绿边）都存在于并集图中。

原始对齐图

对齐图保存图片、插图等的外部文件。对象名称为pone.00381007.e089.jpg 可以看作是联合图的简化版本，其中只保留复合节点，如果联合图中两个节点之间至少有一条长度小于或等于2的路径，则边连接两个节点。长度为2的路径的中间节点可以是简单的，也可以是复合的。对齐图定义中最重要的部分包括一个边缘评分策略，该策略通过考虑连接联合图中满足特定标准的两个节点的所有路径来总结联合图的局部拓扑。这种策略基于这样一种假设，即通过大量路径连接的同源蛋白质可能具有功能相关性。因此，这两个节点之间的每条路径都为它们的相关性提供了额外的证据。

在联合图中考虑距离不大于2的节点对的选择似乎是合理的。一方面，仅考虑直接连接的节点对不适合对齐进化的遥远物种，并且对原始PPI网络中缺失的交互也不鲁棒。另一方面，如我们的实验所示，在距离大于2的节点对之间添加边会显著增加对齐图的边数，而不会在结果质量方面带来任何好处。需要注意的是，并集图中一些长度为2的路径是虚假的，即它们与输入网络中的路径不对应。在我们的分析中，这些路径被忽略了。

长度为2的路径，以下简称为间接路径，由于原始PPI网络中缺少交互，发挥了重要作用。然而，并不是所有的间接路径都具有相同的意义。特别是，间接途径可能通过高度或松散相互作用的蛋白质。如果一个节点在联合图中高度交互，那么两个节点通过它进行通信的概率很高。此外，组成不同路径的边可能具有不同的置信度，并且可能代表保守或非保守的交互。

为了考虑所有这些观察结果，我们根据雅卡指数设计了一个新的分数[32].每个边缘保存图片、插图等的外部文件。对象名称为pone.0038107.e090.jpg 在对齐图中，根据链接的长度为2的路径数进行评分一和b条.两个节点之间边缘的最终得分一和b条属于由两项之和给出：直接出资和间接贡献直接贡献按直接路径得分的比率进行评估保存图片、插图等的外部文件。对象名称为pone.0038107.e094.jpg 连接一和b条在并集图中（如果存在）除以连接的所有直接路径的得分之和一或b条到联合图中的任何其他组合节点。类似地，间接贡献评估为长度为2的连接路径的得分比率一和b条在并集图中，除以长度为2的所有连接路径的得分之和一或b条到联合图中的任何其他组合节点。形式上，我们将连接两个复合节点的路径集合定义为扩展本地交互组并得出如下分数：

定义2-扩展本地交互（ELI）分数。让保存图片、插图等的外部文件。对象名称为pone.00381007.e095.jpg 表示边连接节点的得分一和b条在并集图中(如果)和是一条长度路径的分数k连接一和b条然后，如果是连接的路径集一远在天边的邻居k、和是与这些路径相关的分数之和，我们有：

这种评分策略的威力在于它能够再次计算对齐节点的局部邻域：而NetworkBLAST或Mawish等方法允许间隙或不匹配连接对齐图中距离2的保守蛋白质，我们考虑了连接成对保守蛋白质的完整路径及其可靠性。

示例如所示图4为了简单起见，我们假设每个实心黑色边的得分为1，并且仅存在于第一个或第二个网络中的每条边的得分分别为0.5和0.2。考虑标记的节点一和b条.连接的直接路径一和b条有分数保存图片、插图等的外部文件。对象名称为pone.0038107.e104.jpg .节点有3个通过守恒边连接的复合节点，1个通过非守恒边相连的复合节点。节点b条有3个通过保守边连接的复合节点，0个通过不成对边连接的合成节点。因此，直接路径的作用是：

之间有3条间接路径一和b条分别得分保存图片、插图等的外部文件。对象名称为pone.0038107.e107.jpg .节点一有6条间接路径将其连接到其他复合节点，总分为7.6。节点b条有7条间接路径将其连接到其他复合节点，总分为8.2。因此我和j个是

最终得分为保存图片、插图等的外部文件。对象名称为pone.0038107.e109.jpg .

修剪并集图

上述构造产生的对齐图往往非常密集，边缘分数分布在广泛的值范围内。因此，为了简化对齐图并降低对齐过程下一步的计算成本，有必要删除不太可靠的边。在查看边缘分数的分布时，出现了两个有趣的事实：

很少有边缘的得分明显高于其他边缘。
边缘得分在对齐图的不同区域之间差异很大，并且受拓扑特征（如交互密度）的影响。因此，基于全局阈值修剪边可能不合适。

根据这两个观察结果，我们设计了一种修剪策略，该策略一次性处理所有关联到同一节点的边，并且只保留局部得分较高的边。使用了一条简单而有效的规则：

对于每个节点保存图片、插图等的外部文件。对象名称为pone.0038107.e110.jpg ，让.对于给定常数t吨，所有边缘，有分数被删除。

这种修剪策略可以通过改变阈值进行调整t吨从而可以创建更密集或更稀疏的网络。在我们的测试中，我们使用了保存图片、插图等的外部文件。对象名称为pone.0038107.e114.jpg .修剪阈值t吨在0.3～0.7范围内进行了测试，结果相似。这是意料之中的，因为入射到同一节点的高得分边缘和低得分边缘之间的距离很明显图5另一方面，不要修剪低得分边缘(t吨 = 0）引入大量虚假边缘。事实上，应用此过程会大大减少对齐图的边数。

保存图片、插图等的外部文件。对象名称为pone.0038107.g005.jpg

在单独的窗口中打开

图5

关联到节点的边根据其分数进行排序。

曲线上绘制的值是对齐图的所有节点上与节点相关的相同等级的边的分数的平均值。为了获得可比较的值分布，我们选择联合图上至少有100条边的所有节点。黑色曲线对应于1578个节点的人机对齐图，红色曲线对应于9325个节点的酵母-蝇对齐图。独立于对齐的网络，分数呈指数级下降，使得修剪步骤既重要又有效。

处理多个正交曲线

同源关联通常是多对多的，与许多假定的直系同源关联的蛋白质将在排列图中显示为多个节点。当这些蛋白质在同一溶液中多次被包含，降低了最终绘图的准确性时，这一点变得至关重要。

我们提出了一种策略，利用网络的拓扑结构来校正多个同源关联中连接节点的边的权重。假设保存图片、插图等的外部文件。对象名称为pone.0038107.e115.jpg ,，是的节点对应于同一节点的多个关联，带有k节点属于此外，假设都与节点相邻x个在对齐图中。我们希望在这些可能相互冲突的关联中找出最有可能与x个.我们对边缘进行排序保存图片、插图等的外部文件。对象名称为pone.0038107.e122.jpg 根据他们的分数并表示为边缘的等级在排序列表中。然后，我们通过将分数除以等级来更正每个分数：

该修正减少了边缘的重量，而得分最高的边缘不受影响。我们在如上所述修剪边之前应用了此过程。我们观察到在解的质量和计算成本方面都有了显著的改进。为了简单起见，在手稿的其余部分中，我们将把这个修正后的分数称为保存图片、插图等的外部文件。对象名称为pone.0038107.e127.jpg .

表4报告为生成的对齐图的统计信息保存图片、插图等的外部文件。对象名称为pone.0038107.e128.jpg -和-网络路线。

表4

并集图和对齐图大小的统计信息。

	人-蝇	苍蝇酵母
并集图节点	18535	19844
并集图边	51515	303341
路线图节点	1992	8809
（无多阶校正）
对齐图形边缘	3526	38789
（无多阶校正）
路线图节点	1941	5554
对齐图形边缘	2973	4740

在单独的窗口中打开

对于对齐图，考虑了两种情况：由于多个正交图（如我们的实验中所示）而对分配给边的权重进行校正时，以及未应用此校正时。

种子的产生

种子由固定大小的对齐图的一个子图组成k，即ak-子图。首先，所有k-子图是从保存图片、插图等的外部文件。对象名称为pone.0038107.e132.jpg ，允许节点和边任意重叠，然后选择非重叠的得分最高的节点作为种子，而其余的节点只用于迭代扩展。我们设置了在我们所有的实验中。

正在枚举全部k-具有任意重叠的子图可能非常耗时，因为即使从稀疏网络中也可以提取大量的小子图。为了优化提取过程，我们实现了一个简单的启发式算法，以避免对同一个实例进行多次计数，从而使每个子图只找到一次。准确地说，我们首先在图的节点上施加任意顺序保存图片、插图等的外部文件。对象名称为pone.0038107.e134.jpg ，然后我们提取所有包含节点的子图u个，通过迭代查看距离小于的节点k从u个在图中，，因此，每个.

我们为每个人指定一个分数k-基于其组件（即节点和边）的单个分数的子图。准确地说，给定一个子图克对齐图的保存图片、插图等的外部文件。对象名称为pone.0038107.e138.jpg 并表示为和子图的节点集和边集克我们分别定义：

哪里保存图片、插图等的外部文件。对象名称为pone.0038107.e142.jpg 对这两种相关蛋白的同源性进行评分是边缘的得分在上面定义的对齐图中。

模块发现

一劳永逸k-子图已经被提取并打分，算法根据它们的得分对它们进行排序，并选择得分最高的子图作为种子算法从种子开始迭代扩展候选解。该算法由若干扩展步骤组成。在每个扩展步骤中k-与模块相邻的子图，即与模块共享至少一个节点，被视为扩展的候选图。所有k-将满足特定需求的子图添加到模块中，从而在每个步骤中添加一个或多个k-子图被添加到当前模块。

选择k-要添加到模块中的子图是该方法的关键点，我们需要在这里提供一些定义。在下面，我们表示为保存图片、插图等的外部文件。对象名称为pone.0038107.e145.jpg 图的边集节点上的事件v（v），和子图的边集克节点上的事件v（v）最后，对于子集S公司属于T型我们表示为元素的子集T型不在里面的S公司.给定当前模块M（M），一个候选子图克，以及对齐图的其余部分保存图片、插图等的外部文件。对象名称为pone.0038107.e149.jpg ，节点上的关联边集可以根据另一个端点所属的子集划分为子集，即。克,，或N个.正式：

首先，我们定义一个k-子图紧紧地连接到模块，如果

紧密连接的子图总是添加到模块中。松散地如果连接子图与模块的连接比与网络其余部分的连接更可靠，则会附加连接子图。

使用上面介绍的符号，对于给定的k-子图克我们定义：

连接边的权重之和克到模块，以及连接边的权重之和克分别连接到网络的其余部分。然后克在以下情况下添加到模块中：

在扩展阶段结束时，全部接受k-子图立即添加到模块中。重复该过程，直到不再k-子图可以加法，因此我们不会对可获得复数的大小设定上限。另一方面，我们要求我们的解决方案至少有5个节点，这是由种子（4个节点）的大小和至少要完成一个扩展步骤的要求所决定的限制。需要注意的是，将模块扩展为k-子图而不是一次只由一个节点生成，不仅对该方法的良好性能至关重要，而且也是解释蛋白质与其直接邻居之间多重依赖性的关键。

实施

AlignNemo是在Java中完全实现的，不依赖于外部库。代码和支持文档可从以下网址获得：网址：http://www.bioinformatics.org/alignemoa酿酒酵母和黑腹果蝇的比对需要3分30秒，而智人和黑腹果蝇的比对则需要43秒。NetworkBLAST和Mawish都是用C编写的，尽管如此，我们获得的运行时间通常与NetworkBLAST的运行时间相当，而Mawish显示出更快的性能，这两种对齐都需要10秒。

支持信息

表S1

回收已知络合物。该表报告了通过每种方法回收的已知酵母（CYC2008）和人类（CORUM）复合物。已知配合物通过其ID进行识别，并报告每种方法的最佳匹配溶液的ID。对于每个复合物，我们报告了总蛋白质数、与最佳匹配溶液重叠的蛋白质数、精确度、召回率和F₁-得分。

（XLS）

单击此处查看其他数据文件。^{（275K，xls）}

表S2

语义相似性。该表显示了每种方法找到的比对的种间语义相似性得分。根据基因本体论中定义的生物过程和分子功能词汇计算语义相似性。

（XLS）

单击此处查看其他数据文件。^{（72K，xls）}

表S3

GO富集分析。基因本体丰富了与Arp2-3、TFIID和20S蛋白酶体复合体最匹配的解决方案类别。

（XLS）

单击此处查看其他数据文件。^{（67K，xls）}

致谢

作者感谢ProteinOn团队支持我们计算蛋白质之间的语义相似性。

脚注

竞争利益：提交人声明，不存在相互竞争的利益。

基金：这项工作的部分资金来自CARIPARO项目“推断基因和蛋白质时序表达数据的系统生物学方法”。资助者在研究设计、数据收集和分析、决定出版或编写手稿方面没有任何作用。

工具书类

1Giot L、Bader JS、Brouwer C、Chaudhuri A、Kuang B等。果蝇蛋白质相互作用图。科学类.2003;302:1727–36.[公共医学][谷歌学者]

2Uetz P、Giot L、Cagney G、Mansfi TA、Judson RS等，《酿酒酵母中蛋白质相互作用的综合分析》。自然.2002;403:623–7.[公共医学][谷歌学者]

三。Yu H，Braun P，Yildirim MA，Lemmens I，Venkatesan K等。酵母相互作用体网络的高质量二元蛋白质相互作用图。科学类.2008;322:104–110. [PMC免费文章][公共医学][谷歌学者]

4Kiemer L，Cesareni G。比较交互组学：比较苹果和梨？生物技术趋势10.2007;25:448–454.[公共医学][谷歌学者]

5Sharan R、Suthram S、Kelley RM、Kuhn T、McCuine S等。多物种蛋白质相互作用的保守模式。程序。美国国家科学院。科学。.美国.2005;102:1974–1979. [PMC免费文章][公共医学][谷歌学者]

6Kalaev M，Bafna V，Sharan R.多蛋白质网络快速准确对齐。程序。.重组, 246–256.2008. [公共医学]

7Kelley BP、Yuan B、Lewitter F、Sharan R、Brent R等。全球蛋白质网络比对揭示的细菌和酵母内的保守途径。程序。美国国家科学院。科学。.美国.2003;100:11394–11399. [PMC免费文章][公共医学][谷歌学者]

8de Silva E、Thorne T、Ingram P、Agrafioti I、Swire J等。不完全蛋白质相互作用数据对结构和进化推断的影响。BMC生物学.2006;4:39. [PMC免费文章][公共医学][谷歌学者]

9Hakes L、Pinney JW、Robertson D、Lovell SC。蛋白质相互作用网络和生物学-什么是联系？自然生物技术,26.2008;1:69–72.[公共医学][谷歌学者]

10Koyuturk M，Grama A，Szpankowski W。蛋白质相互作用网络的成对排列。J.计算。生物。.2006;13:182–199.[公共医学][谷歌学者]

11Flannick J、Novak A、Srinivasan BS、McAdams HH、Batzoglou S.Graemlin：多个大型交互网络的一般和稳健对齐。基因组研究。,16.2006;9:1169–1181. [PMC免费文章][公共医学][谷歌学者]

12Flannick J、Novak A、Do CB、Srinivasan BS、Batzoglou S等。多本地网络对齐的自动参数学习。J.计算。.生物。,16.2009;8:1001–1022. [PMC免费文章][公共医学][谷歌学者]

13O'Brien KP，Remm M，Sonnhammer EL。Inparanoid：真核生物同源基因的综合数据库。核酸研究。.2005;33：D476–D480。 [PMC免费文章][公共医学][谷歌学者]

14Kanehisa M，Goto S.KEGG：京都基因和基因组百科全书。核酸研究。.2000;28:27–30. [PMC免费文章][公共医学][谷歌学者]

15Cootes AP、Muggleton SH、Sternberg MJ。生物网络之间相似性的识别：应用于代谢组和相互作用组。分子生物学杂志,369.2007;4:1126–39.[公共医学][谷歌学者]

16Pache RA，Aloy P.《生物网络比较分析的新框架》。PLoS综合,7.2012;2：e31220。 [PMC免费文章][公共医学][谷歌学者]

17Salwinski L、Miller CS、Smith AJ、Pettit FK、Bowie JU等。相互作用蛋白质数据库：2004年更新核酸研究。，32（补充1），D449–451。2004[PMC免费文章][公共医学]

18人类综合蛋白质相互作用参考。可用：http://cbdm.mdc-berlin.de/tools/hippie/information.php（2011年访问）

19Gerstein实验室的Ortholog资源。可用：http://info.gersteinlab.org/正交资源（2011年访问）

20邓明，孙凤，陈涛。蛋白质相互作用的可靠性评估和蛋白质功能预测。程序。.太平洋生物计算研讨会.2003;8:140–151.[公共医学][谷歌学者]

21Engel S、Balakrishnan R、Binkley G、Christie KR、Costanzo MC等。SGD：酵母基因组数据库。编号。.酸性研究。，38（补充1），D433-D436。2010[PMC免费文章][公共医学]

22Pu S，Wong J，Turner B，Cho E，Wodak SJ。酵母蛋白复合物的最新目录。编号。.酸类研究37.2009;三:825–831. [PMC免费文章][公共医学][谷歌学者]

23Ruepp A、Brauner B、Dunger-Kaltenbach I、Frishman G、Montrone C等。CORUM：哺乳动物蛋白质复合物的综合资源。编号。酸类研究。.36（补充1），D646-D650。2007[PMC免费文章][公共医学]

24Guzzi PH、Mina M、Guerra C、Cannataro M。蛋白质数据的语义相似性分析：生物特征和问题评估。生物信息简介，doi:10.1093/bib/bbr066。2011. [公共医学]

25Resnik P.分类学中的语义相似度：一种基于信息的度量方法及其在自然语言歧义问题中的应用。人工智能研究杂志。.1999年；11:95–130. [谷歌学者]

26Faria D，Pesquita C，Couto FM，Falcao A.ProteinOn：蛋白质语义相似性的网络工具。里斯本大学信息学系，技术报告，di-fcul-tr-07-6。2007

27语义相似性度量的库和工具。可用：http://sourceforge.net/p/fastsemsim（版本0.4）。

28Gavin AC、Aloy P、Grandi P、Krause P、Boesche P等。蛋白质组调查揭示了酵母细胞机械的模块性。自然,440.2006;7084：631–636。[公共医学][谷歌学者]

29通用基因本体术语查找器。可用：http://go.princeton.edu/cgi-bin/GOTermFinder网站（2011年访问）

30Burley SK、Roeder RG。转录因子IID（TFIID）的生物化学和结构生物学。每年。生物化学评论。.1996;65:769–799.[公共医学][谷歌学者]

31Veltman DM，Insall RH。WASP家族蛋白质：它们的进化及其生理意义。分子生物学。.单元格,21.2010;16:2880–93. [PMC免费文章][公共医学][谷歌学者]

32Liben-Nowell D，Kleinberg J.社交网络的链接预测问题。在第十二届信息和知识管理国际会议记录纽约州纽约市556–559号。2003

33Singh R，Xu J，Berger B.通过匹配邻域拓扑实现蛋白质相互作用网络的成对全局对齐。计算分子生物学研究，16-31，斯普林格。2007

34Singh R，Xu J，Berger B.多重蛋白质相互作用网络的全球比对。程序。.太平洋生物计算研讨会.2008;13:303–314.[公共医学][谷歌学者]

35Kuchaiev O，Milenkovic T，Memisevic V，Hayes W，Przulj N.拓扑网络比对揭示了生物功能和系统发育。J.R.社会。.接口,7.2010;50:1341–1354. [PMC免费文章][公共医学][谷歌学者]

36Kuchaiev O，Przulj N.综合网络比对揭示了酵母和人类的大范围全球网络相似性。生物信息学,27.2011;10:1390–1396.[公共医学][谷歌学者]

37Milenkovic T，Leong W，Przulj N.带Graphlet度向量的最优网络对准。癌症信息学，9，121–137。2010[PMC免费文章][公共医学]

38田伟，萨马托娃NF。通过快速识别最大保守模式实现交互网络的成对对齐。太平洋生物计算研讨会.2009;14:99–110.[公共医学][谷歌学者]

文章来自PLOS ONE系列由以下人员提供普洛斯

AlignNemo：一种集成同调和拓扑的局部网络对齐方法

乔瓦尼·西列洛

马可·米纳

彼得罗·古齐

马里奥·卡纳塔罗

康塞蒂娜·格拉

关联数据

摘要

介绍

表1

结果和讨论

输入数据

已知络合物的检测

表2

物种间蛋白质图谱

守恒模的拓扑

与NetAligner的比较

保守性复合体

表3

转录因子TFIID复合物

第2/3节

20S蛋白酶体复合物

方法

路线图

并集图

原始对齐图

修剪并集图

处理多个正交曲线

表4

种子的产生

模块发现

实施

支持信息

表S1

表S2

表S3

致谢

脚注

工具书类