介绍
在过去的几十年里,研究者们一直致力于在基因组尺度上研究进化的影响,即如何通过分析基因组序列来重建进化。最近,蛋白质-蛋白质相互作用的高通量数据的可用性使得通过比较不同物种的蛋白质相互作用图(也称为相互作用体)来观察进化变化[1]–[3]. 这一领域的目标包括确认物种间相互作用的保守模式,以及识别新的正位关系[4]. 在这种情况下,已经开发了几种用于比较蛋白质-蛋白质相互作用(PPI)网络的算法,通常称为网络对齐算法。
网络对齐问题有两个主要实例:全球协调通过寻找一整套蛋白质和来自不同物种的蛋白质相互作用的单一综合图谱来回答进化问题;局部定线搜索细胞机械进化保守的构建块,忽略网络之间的整体相似性。图论的形式主义为解决这两个问题提供了最好的框架。在这种形式中,PPI网络被表示为图(G)谁的节点(五)是蛋白质和边缘(E)是它们之间的相互作用。蛋白质网络比对问题是一个图对齐问题,即在两个(成对)或多个(多个)图之间寻找相同或相似的子图。形式上:给定两个输入图,
和
,对齐问题
和
可以表述为寻找映射的问题米中的节点之间
和中的节点
(
,与
)最大化在节点和边上定义的关联相似函数。对于全局对齐,M是整个网络节点集之间的映射。相比之下,对于局部对齐,M被定义为最相似的节点子集之间的映射集。本文针对PPI网络的局部比对问题,提出了一种从两个PPI网络中提取保守蛋白质复合物的方法。
蛋白质复合物在这里被定义为具有相似功能或参与同一生物过程的蛋白质组。现有的检测蛋白质复合物的方法通常是基于这样的观察:复合物对应于高度相互作用的蛋白质集合,因此它们在PPI网络中寻找密集的子图。例如,两个版本的NetworkBLAST[5],[6]是基于这样的假设,从最初的路径爆炸演化而来[7]集中在守恒路径上。在我们提议的方法中,我们寻找相当地密集的节点群,即节点之间的交互比与网络的其他部分有更多的交互,对复合体的拓扑结构施加的约束较少。事实上,虽然拓扑学是信息丰富的,但它往往是不完整的,反映了对蛋白质的不统一的认识[8],[9]. 多个假阴性的存在导致稀疏图甚至物种间保守相互作用的稀疏集,导致只寻找稠密子图的方法无法检测到保守复合物。
有几种方法,如NetworkBLAST,依赖于在一个称为线形图. 排列图有对应于同源蛋白质对的节点和保守相互作用的边。为了处理缺失的信息,NetworkBLAST以及类似的方法引入了限制较少的排列图定义,允许在原始PPI网络中的同源蛋白质对的距离小于或等于时连接节点k(对于NetworkBLAST
). 然而,以这种方式,可能会将几个不可靠的链接添加到路线图中,从而导致即使对于较小的值也不正确的解决方案k.
Mawish方法[10]将网络对齐作为一个最大权重诱导子图问题,结合进化模型来评估拓扑相似性。虽然有效,但正如我们在实验中观察到的,这个模型可能过于严格,导致只识别小的保守结构,而无法恢复更大的复合物。
其他算法,如Graemlin[11]以及它的新版本Graemlin 2.0[12],通过允许搜索更一般的拓扑来概括以前的方法。这些方法通过使用Inparanoid中蛋白质之间的副逻辑关系,增加了检测有意义排列的能力[13],KEGG路径注释[14],以及已知的路线。然而,这些方法没有充分利用拓扑信息,因为局部对齐步骤只检查每个节点的直接邻域,以贪婪的方式迭代地分组最佳邻居。
丰基[15]在考虑网络环境中的局部保守子网络方面向前迈进了一步:在选择了一组假定的同源序列之后,这种方法同时探索所有相邻的蛋白质,寻找高度保守的相互作用集。然而,所有交互都具有相同的可靠性,phunkey定义的网络上下文并没有超出直接交互的范围。最后,结合本工作的发展,提出了一种新的方法NetAligner[16],设计了一个蛋白质组比对的算法框架。NetAligner引入了一种识别进化保守相互作用的策略,该策略依赖于相互作用蛋白质的进化速度大大低于预期的偶然性。
虽然有关全局和本地网络对齐的可用算法的详细描述超出了本文的范围,但中提供了有关可用工具的更广泛的概要.
表1
网络对齐工具概要。
算法 | 本地(L)/ | 成对(P)/ | 输入数据 | 调整策略*
|
| 全球(G) | 多向(M) | | |
马维什
[10]
| 我 | P | PPI网络 | 线形图 |
| | | 爆炸e值 | 单节点扩展 |
| | | | 重复发散 |
| | | | 模型 |
探路者
[7]
| 我 | P | PPI网络 | 线形图 |
| | | 爆炸e值 | 单节点扩展 |
| | | | 守恒线性路径 |
| | | | 提取 |
网络爆炸
[5]
| 我 | P | PPI网络 | 线形图 |
| | | 爆炸e值 | PPI可靠性得分 |
| | | | 单节点扩展 |
| | | | 守恒稠密网络 |
| | | | 提取 |
网络爆破-M
[6]
| 我 | 米 | PPI网络 | 分层排列图 |
| | | 爆炸e值 | 单节点扩展 |
| | | | 守恒稠密网络 |
| | | | 提取 |
格雷姆林
[11]
| 我 | 米 | PPI网络 | 得分概率模型 |
| | | 正射测井曲线簇 | 节点和边 |
| | | | 节点等价类 |
| | | | 单节点扩展 |
格雷姆林2[12]
| G/L公司 | 米 | PPI网络 | 机器学习法 |
| | | KEGG星团 | 用于网络评分 |
| | | 已知对齐 | 单扩展节点 |
等秩
[33]
| G | P | PPI网络 | 蛋白质对的特征向量 |
| | | | 协会 |
| | | 爆炸e值 | 一致的关联集 |
| | | | 提取 |
等秩-N
[34]
| G | 米 | PPI网络 | 等秩的贪婪扩张 |
| | | 爆炸e值 | |
格拉尔
[35]
| G | P | PPI网络 | 纯粹基于拓扑 |
(另请参见[36],[37]) | | | 爆炸e值 | 蛋白质对评分依据 |
| | | | 笔迹签名 |
HopeMap
[38]
| 我 | 米 | PPI网络 | 正射测井曲线簇 |
| | | 爆炸e值 | 线形图 |
| | | 类星团 | 强连通分量 |
| | | KEGG星团 | 提取 |
丰基
[15]
| 我 | P | PPI网络 | 膨胀过程 |
| | | 代谢网络 | 加上相邻的 |
| | | 爆炸e值,COG | 模块 |
NetAligner公司
[16]
| 我 | P | PPI网络 | 相互作用守恒 |
| | | 爆炸对齐 | 概率 |
我们在这里介绍一种方法AlignNemo(aligningnetworkmodules),它通过提供一个通用而有效的本地网络校准框架来解决上述问题。AlignNemo按照中概述的不同步骤进行操作. 首先,从输入网络中建立加权对齐图。节点代表一对假定的同源蛋白对,并按Inparanoid评分,反映了绘制蛋白质对的信心。相比之下,使用一种新的方法对边进行加权,该方法考虑了输入网络中的局部连通性(参见方法)。然后,从对齐图中提取出所有给定尺寸的连通子图,并根据节点和边的权重对它们进行排序。排名靠前的全连通子图将作为对齐解决方案的种子。最后,我们通过在每个步骤中添加多个子图,以迭代的方式扩展每个种子。这使我们能够探索一个解决方案的网络环境,而不仅仅是它的近邻。算法的形式化描述在方法部分提供。
AlignNemo概述。给定两个输入PPI网络(1),建立对齐图,并将分数分配给节点和边(2)。那么种子从对齐图(3)中提取具有大量高分链接和节点的小子图,并通过添加通过可靠链接(4)与之相对良好连接的小子图以贪婪的方式展开每个种子。
该方法的主要贡献是:1)通过两个给定节点之间的路径集合分析输入PPI网络的结构,并估计其可靠性和局部显著性;2)从种子开始,探索了一种新的迭代展开方法除了直接交互之外,每个步骤的对齐图的局部拓扑。这种结合提供了一种新的方法来解释拓扑结构和同源性,并被证明是有效的检测各种各样的蛋白质复合物的大小或程度的连接性。
在下一节中,我们将展示PPI网络对齐的原理性结果面包酵母,D、 黑腹菌,和H、 智者. 我们证明我们的比对方法比其他方法具有更好的拓扑和生物学特性。结果的质量通过各种方式进行评估:我们首先通过精确性和召回度来证明AlignNemo恢复已知蛋白质复合物的能力,然后我们使用应用于基因本体词汇的语义相似性概念来证明我们的解决方案在生物学上是可靠的,最后我们证明,即使在该方法施加的限制较少的情况下,所提取的模块仍然保持高连通性。
详细讨论了具有代表性的复合体,并与NetworkBLAST、Mawish和NetAligner等本地校准工具进行了比较,这些工具是软件可用且目前维护的唯一工具。我们选择NetworkBLAST和Mawish作为主要分析,因为它们可以用于用户定义的输入数据,而我们分别比较了AlignNemo和NetAligner,因为我们根据各自的数据和交互概率运行后者。AlignNemo以及本文中使用的适当文档和数据集可在http://www.bioinformatics.org/alignnemo.
结果与讨论
在本节中,我们将评估AlignNemo、NetworkBLAST和Mawish在D、 黑腹菌(果蝇),S、 酿酒(面包酵母),以及智人(人类)。我们在相同的数据集上运行这些方法,每个算法产生一组可能重叠的解决方案或模块。A模块米是包含来自两个输入网络的一组蛋白质对的排列图的子图。我们将参考网络中的蛋白质组
和
在里面米作为
和
分别。
从每一种方法得到的解被评估和比较在同调和拓扑学术语。首先,我们证明了alignenemo能够以高精度和召回率重述已知的蛋白质复合物。然后,我们将语义相似度的概念应用于基因本体词汇表,说明不同物种的蛋白质间的关联在生物学上是正确的。最后,我们证明了我们的解决方案比预期的更紧密地联系在一起。在结束这一节时,我们将重点放在几个具体案例上,以突出每种方法的弱点和优势。
输入数据
蛋白质相互作用D、 黑腹菌和S、 酿酒来自相互作用蛋白质数据库(DIP-更新于2011年10月27日)[17]. 它们包括苍蝇中7548个蛋白质和22969个相互作用,以及5053个蛋白质和22254个在酵母中的相互作用。Inparanoid公司[13]从这两个网络中筛选出10045对假定同源蛋白,其中酵母1878个,果蝇1511个。智人PPI网络来源于嬉皮士数据库[18]它包括12113个蛋白质和78559个来自17个不同来源的加权相互作用。从Gerstein实验室获得了一组来自人类和苍蝇的假定同源蛋白对[19].
这些数据集集成了多个数据源,并包含了来自不同方法(包括高吞吐量和小规模实验)的交互作用。为了考虑这种多样性,我们给每个边分配一个可靠性分数。对于由DIP(果蝇和酵母)导出的两个网络,我们采用了中定义的最大似然估计程序[20]通过实验确定蛋白质相互作用的可靠性。这种基于时间相关性的蛋白质互作特征值的相关性评价方法是典型的基于时间相关性的蛋白质表达。在应用这种方法时,我们认为随机配对的蛋白质不知道是相互作用的真正的非交互作用蛋白质,以及小规模实验确定的相互作用真正的互动蛋白质,从这两个集合估计相关系数的各自分布。对于酵母蛋白,我们使用SGD数据库中报告的一组表达谱[21],并为DIP中描述的每个实验方法及其组合指定一个置信分数。苍蝇相互作用的得分是基于这样一个假设,即给定的实验方法在不同的生物体中同样有效,因此基于酵母数据的置信分数被转换为苍蝇相互作用。人类蛋白质相互作用网络的可靠性得分可通过网络服务器嬉皮士获得。
守恒模的拓扑
在这里,我们分析得到的解的拓扑结构。正如导言中所讨论的,蛋白质复合物通常由密集相互作用的蛋白质组成。然而,最近关于PPI网络中复合物的模块性和组织性的研究表明,它们往往由一个紧密连接的结构组成核心以及一个不那么紧密相连的集合蛋白附件. 后者通常存在于多个复合物中,允许潜在功能多样化[28].
按照这个模型,AlignNemo寻找相当地密集连接蛋白质,即蛋白质之间的相互作用比与网络的其他部分有更多的相互作用,而不是对候选解的拓扑结构施加刚性和固定的约束。
我们现在想测试这一策略是否会危及我们检测紧密连接核心的能力,包括在我们的解决方案中稀疏的子网络不太可能是真正的蛋白质复合物。为此,我们为每个PPI网络生成1000个随机网络,保持它们的节点度分布;然后我们评估每个模块在原始PPI网络和随机集中的连通性,即边数。因此,对于每个物种和每个解,我们估计其连通性的背景分布。我们量化了实际网络中观察到的连通性的偏差,
,根据使用Z分数的背景分布:
哪里
是随机集合中这组蛋白质的平均连接性
它的标准差。
首先,我们分别测试由每个溶液定义的两组蛋白质,每个物种一组,然后,我们将得到的两种溶液之间的最大Z值关联起来。在另一个物种中,当我们在另一个物种中以相对较低的方式相互作用时,另一个物种也以相对较差的方式相互作用。根据经验,从这个背景分布中为每个模块导出一个p值,它是由随机网络的数量给出的,这些随机网络在所有可能的网络中导致被测试模块的Z分数更大或相等。有趣的是,我们发现95%的解决方案,无论是人类苍蝇和酵母苍蝇的路线,显示出统计意义上更高的连通性,观察到的随机网络。
综上所述,AlignNemo比Mawish和NetworkBLAST在正确检测单个物种内的蛋白质复合物方面表现出色,因为它们之间存在相互作用体和正交关系。此外,不同物种之间的蛋白质映射在生物学上是可靠的,同一模块中蛋白质之间的平均语义相似性证明了这一点。最后,尽管AlignNemo没有对模块拓扑施加严格的约束,探索蛋白质复合物中不那么强连接的成分,但是提取的子网络的连接比预期的更加紧密。
与NetAligner的比较
NetAligner依靠一种新的算法方法来计算与保守相互作用相关的概率,基于不同物种蛋白质之间的蛋白质序列相似性。给定两对假定的正射测井曲线,NetAligner通过考虑两对正射测井曲线之间进化距离的差异来评估它们共享保守交互作用的可能性。我们在不同的配置和输入数据下测试了NetAligner,包括工具提供的原始蛋白质组和同源性。根据我们的分析,NetAligner在使用预测可能的保守相互作用设置,以及参考文件中建议的参数[16]. NetAligner在自己的数据集中提取更大、更可靠的对齐集。因此我们决定在NetAligner上运行它自己的数据集。
当溶液与参比配合物(cyc208和CORUM)相匹配时,这两种方法的性能相似(参见和). AlignNemo再次显示出更好的整体性能
-
对齐。在
-
调整后,NetAligner会找到一组得分较高的小型解决方案,但同时,一个包括463个节点的非常大的解决方案会生成多个匹配,从而导致较高的召回值,尽管精确度接近于零().
NetAligner与Nealigner的比较。这两种算法都是从恢复已知的蛋白质复合物的角度来评估的
(CYC2008)和
(球茎)。匹配已知复合物的溶液通过精确性、召回率和F进行评分1分数。
保守配合物
在本节中,我们特别关注cyc208和CORUM的一些复合物,以便更好地剖析不同方法的性能。这里讨论的案例包括一个小的综合体,Arp2/3两个相对较大的,TFIID(通用转录因子)和20S蛋白酶体,具有不同级别的连接性。在我们报告了这些复合物的蛋白质,这些蛋白质至少在AlignNemo、NetworkBLAST和Mawish之间被正确关联和回收
和
网络对齐。对于转录因子TFIID和Arp2/3复合物,alignenemo的表现更好1-分数与语义相似度。在检测20S蛋白酶体时,AlignNemo和NetworkBLAST对酵母苍蝇比对的召回率相当,但AlignNemo具有更高的精确度。此外,AlignNemo在人-蝇对齐中表现出优越的性能。我们的解决方案已经用GOTermFinder计算了显著丰富的GO类别[29]并在中报告表S3. 在这两个比对中,AlignNemo的跨物种语义相似性更高,这表明生物质量有所改善,详情将在下文讨论。
表3
arp2/3、TFIID和20S蛋白酶体复合物最佳匹配溶液的比较。
转录因子TFIID复合物
RNA聚合酶(I,II,III)催化核基因的转录并依赖于一般的转录因子来识别靶启动子;特别是RNA聚合酶II依赖TFIID复合物来启动转录。转录因子TFIID主要由TATA盒结合蛋白(TBP)和一组TBP相关因子(TAF)组成
s) 或者在物种间保存良好的亚单位[30].
AlignNemo在发现这种复合物方面表现优于现有的方法:它在19个节点的溶液中发现了9个TFIID的蛋白质;它正确地将人类蛋白质映射成与两个有机体中相同亚基对应的苍蝇蛋白质(见). Mawish的特点是只有2个节点的解决方案,也包括在我们的比对中,而NetworkBLAST返回了10个节点的解决方案,匹配属于TFIID复合物的4个蛋白质对。
由于这个复合体的高连通性,AlignNemo和NetworkBLAST解决方案超出了CORUM中定义的TFIID complex的边界。为了进一步验证这些溶液的质量,我们测试了其中的所有蛋白质,以确定GO项的富集程度。我们发现,在AlignNemo的溶液中,17种苍蝇蛋白中有16种蛋白质和19种人类蛋白质中,有18种蛋白质的GO含量相同,包括RNA聚合酶II启动子的转录(
,
). 相比之下,NetworkBLAST的解决方案只报告了两种网络中10种具有共同和特定生物学作用的蛋白质中的4种(见表S3).
20S蛋白酶体复合体
20S蛋白酶体是一种存在于多种生物体内的大蛋白复合物,尤其是在本文所讨论的所有三种生物体中。根据cyc208和CORUM的研究,20S蛋白酶体由酵母中的14个蛋白质和人和蝇的16个蛋白质组成。该复合体的拓扑结构相对密集,相互作用可靠。
对于
-
网络比对这三种方法的召回率具有可比性;至于精确度,NetworkBLAST由于在复合物外发现了多个蛋白质,因此获得的召回率要低得多。另一方面,AlignNemo在识别20S蛋白酶体复合体方面优于其他方法
-
网络对齐(请参见). 事实上,它在人类和苍蝇中正确地选择了20S蛋白酶体的11个蛋白质,而NetworkBLAST只在人类和苍蝇中发现了5个蛋白质,在这两个网络中只有2个。
方法
AlignNemo旨在识别不同物种的PPI网络之间保守的蛋白质模块或复合物。守恒模的搜索是在对齐图上进行的,它包括三个主要步骤。
首先,从输入网络中构造对准图。排列图中的每个节点对应于一对假定的同源蛋白质,Inparanoid的分数用于加权每个节点。路线图的每一条边都是根据评分策略加权的,该计分策略包含了网络上下文的信息,包括在输入网络中连接其端点的路径的数量、可靠性和局部重要性。这个策略是通过一个辅助结构来实现的并集图,这对该方法的整体性能至关重要。
第二,全连接k-子图(此处
)从对齐图中提取并根据节点和边缘的权重进行评分。顶级全连接k-子图将用作对齐解决方案的种子。
第三,通过探索当前解的局部邻域,使每个种子以迭代的方式展开。具体地说,我们定义了一个扩展过程,在每个步骤中,通过可靠的交互将所有子图添加到当前解决方案中,而不是网络的其他部分。
这种方法与最近关于网络中复合物的模块性和组织性的研究结果一致,根据这些发现,PPI网络中的复合物往往由核心零件和附件. 核心被定义为一小群功能相似、转录谱高度相关的蛋白质。核心被不太紧密连接的蛋白质包围,有明确的附着物,存在于多种复合物中,使潜在功能多样化[28]. 我们的解决方案结构充分反映了这种多样化。实际上,如前几节所示,我们确定了几个重叠的模块,而不是没有交集的分离子网。
线形图
路线图
是一个加权图,其中节点代表同源蛋白质对和边缘保守的相互作用。如前所述,现有的路线图定义在两个节点之间设置边的方式不同。大多数表示利用有限数量的拓扑信息从输入,因为他们丢弃几乎所有不涉及同源关联及其相互作用的节点。
我们的目标是构建一个尽可能多地考虑两个网络结构的对齐图。我们设计了一种新的对齐图边缘评分策略,该策略融合了原始网络中存在的拓扑信息,即两个节点之间长度小于或等于2的路径的数量、可靠性和重要性。通过引入我们称之为的辅助结构来描述和实现这种策略是最好的并集图. 对齐图的构造和评分包括三个步骤:(i)将所有输入的网络数据合并到联合图中;(ii)对联合图进行处理以生成原始对齐图;最后(iii)对原始对齐图执行一些修剪操作,以消除噪声并加快整体计算速度。
原始对齐图
路线图
可以看作是联合图的简化版本,其中只有复合节点被保留,如果联合图中的两个节点之间至少有一条长度小于或等于2的路径,则一条边连接两个节点。长度为2的路径的中间节点可以是简单的,也可以是复合的。对齐图定义的最重要部分包括一个边缘评分策略,该策略通过考虑连接联合图中满足一定条件的两个节点的所有路径来总结联合图的局部拓扑。这种策略是基于这样一个假设,即通过大量路径连接的同源蛋白质很可能在功能上相关。因此,两个节点之间的每一条路径都提供了它们之间相关性的额外证据。
在联合图中,考虑距离不大于2的节点对的选择是合理的。一方面,只考虑直接连接的节点对不适合于协调进化中的遥远物种,并且对于原始PPI网络中的缺失交互也不具有鲁棒性。另一方面,如我们的实验所示,在距离大于2的节点对之间添加边会显著增加对齐图的边数,而不会在结果质量方面提供任何好处。必须注意的是,联合图中长度为2的一些路径是虚假的,即它们不对应于输入网络中的路径。这种路径在我们的分析中被忽略了。
长度为2的路径,以下简称为间接路径,由于原始PPI网络中缺少交互,因此扮演了主要角色。然而,并非所有的间接路径都具有相同的意义。特别是,间接途径可以通过高度或松散相互作用的蛋白质。如果一个节点在联合图中高度交互,那么两个节点通过它进行通信的概率就很高。此外,组成不同路径的边可能具有不同的置信度,可能代表保守或非保守的交互作用。
为了考虑所有这些观察结果,我们设计了一个基于Jaccard指数的新分数[32]. 每个边缘
图中的路径数是基于图中的路径数2一和b. 两个节点之间的边的最终分数一和b属于
由两项之和得出:直接贡献
以及间接贡献
. 直接贡献被评估为直接路径得分的比率
连接一和b在并集图中(如果存在的话)除以所有连接的直接路径的分数之和一或b到联合图中的任何其他复合节点。类似地,间接贡献被评估为长度为2的连接路径得分的比率一和b在并图中,长度为2的所有连接路径的分数之和除以一或b到联合图中的任何其他复合节点。形式上,我们将连接两个复合节点的路径集合定义为扩展局部交互体并得出如下分数:
定义2-扩展局部交互组(ELI)评分。让
表示边连接节点的得分一和b在并集图中(
如果
)以及
是一条长路的分数k连接一和b. 那么,如果
路径集是否连接一向远处的邻居k,和
是与这些路径相关的分数之和,我们有:
这种评分策略的强大之处在于它能够再次解释对齐节点的局部邻域:而NetworkBLAST或Mawish等方法允许在对齐图中距离2处连接保守蛋白质的间隙或错配,我们解释了连接两对保守蛋白质的完整路径及其可靠性。
中提供了一个示例其中,为了简单起见,我们假设每个实心黑边的得分为1,并且仅存在于第一或第二网络中的每条边的得分分别为0.5和0.2。考虑标记的节点一和b. 直接连接路径一和b有得分
. 节点
有3个复合节点通过保守边连接,1个复合节点通过非保守边连接。节点b有3个复合节点通过保守边连接,0个复合节点通过未配对边连接。因此,直接路径的贡献是:
有3条间接路径一和b分别打分
. 节点一有6条间接路径连接到其他复合节点,总分为7.6。节点b对于连接其他节点的间接路径,总分为7.8。因此,间接贡献我和j是
最后的分数是
.
剪枝并图
由上述构造产生的对齐图往往非常密集,边缘分数分布在广泛的值范围内。因此,在下一步的对准过程中,为了简化对准图并降低计算成本,需要去除不太可靠的边。当观察边缘得分的分布时,会出现两个有趣的事实:
根据这两个观察结果,我们设计了一个剪枝策略,可以同时处理所有与同一节点相关的边,并且只保留局部高分的边。使用了一个简单而有效的规则:
对于每个节点
,让
. 对于给定常数t,所有边缘
,带分数
被删除。
这种修剪策略可以通过改变阈值来调整t,从而可以创建更密集或更稀疏的网络。在我们的测试中
. 修剪阈值t在0.3到0.7之间进行了测试,结果相似。这是意料之中的,因为同一节点上的高评分和低评分边缘之间的距离很明显,如. 另一方面,不修剪低得分的边缘(t = 0)引入大量伪边。实际上,此过程的应用导致对齐图的边数急剧减少。
关联到节点的边根据其得分进行排序。在曲线上绘制的值是对齐图中所有节点上与节点相关的同一秩的边的分数的平均值。为了获得可比较的值分布,我们选择了并集图上至少有100条边的所有节点。黑色曲线对应1578个节点的人类苍蝇排列图,红色曲线对应9325个节点的酵母苍蝇排列图。独立于排列的网络,分数呈指数下降,使得修剪步骤既重要又有效。
模块发现
一劳永逸k-提取子图并进行评分,算法根据子图的得分对子图进行排序,选出得分最高的子图为种子. 算法从种子开始,迭代扩展候选解。该算法由若干扩展步骤组成。在每个扩展步骤中,所有k-与模块相邻的子图,即与模块共享至少一个节点,被视为扩展的候选图。所有的k-满足特定需求的子图被添加到模块中,因此在每个步骤中都有一个或多个k-子图被添加到当前模块中。
选择k-要添加到模块中的子图是该方法的一个关键点,我们需要在这里提供一些定义。在下面,我们用
图的边集
节点上的事件五,以及
子图的边集g节点上的事件五. 最后,对于一个子集S属于T我们用
元素的子集T不在里面S. 给定当前模块米,一个候选子图g,以及路线图的其余部分
,节点上的一组边
可以根据另一个端点所属的子集划分为子集,即。g,
,或N. 正式地:
首先,我们定义k-子图紧紧地如果连接到模块
紧连接子图总是添加到模块中。松散地如果连接子图与模块连接时的链路比网络的其他部分更可靠,则会附加连接子图。
使用上面介绍的符号,对于给定的k-子图g我们定义:
连接边的权重之和g以及连接到模块的边的权重之和g分别发送到网络的其他部分。那么g在以下情况下添加到模块:
在扩展阶段结束时全部接受k-子图立即添加到模块中。重复这个过程直到不再重复k-子图是可以加的,因此我们对可获得的复合物的大小不设上限。另一方面,我们要求我们的解决方案至少有5个节点,这是由种子大小(4个节点)和至少要完成一个扩展步骤的要求所限制的。需要注意的是,通过k-子图而不是一次只由一个节点来执行,这不仅对该方法的性能至关重要,而且也是解释蛋白质与其近邻之间的多重依赖关系的关键。
实施
AlignNemo完全是用Java实现的,没有外部库的依赖性。代码和支持文档可从以下网址获取:http://www.bioinformatics.org/alignnemo酿酒酵母和黑腹锦囊藻的比对需要3分30秒,而智人和黑腹锦囊藻的比对需要43秒。NetworkBLAST和Mawish都是用C编写的,尽管如此,我们获得的运行时间通常与NetworkBLAST相当,而Mawish显示了更快的性能,这两种对齐都需要10秒。