跳到主要内容

QPath:一种查询蛋白质相互作用网络中通路的方法

摘要

背景

序列比较是生物学研究中最重要的工具之一,有助于研究基因功能和进化。用于测量蛋白质相互作用的高通量技术的快速发展要求将这一基本操作扩展到蛋白质网络中的通路水平。

结果

我们提出了一个使用路径查询进行蛋白质网络搜索的综合框架。给定一个线性查询路径和一个感兴趣的网络,我们的算法QPath有效地搜索网络中的同源路径,允许在已识别的路径中插入和删除蛋白质。匹配的路径会根据它们与查询路径的差异自动进行评分,包括它们使用的蛋白质插入和删除、组成蛋白质与查询蛋白质的序列相似性以及组成相互作用的可靠性。我们应用QPath从酵母中广泛收集了271条假定途径,系统推断了苍蝇的蛋白质途径。QPath鉴定了69个保守的通路,其成员在功能上富集并一致表达。由此产生的路径倾向于保留原始查询路径的功能,使我们能够推导出苍蝇保守蛋白质路径的第一个注释图。

结论

使用QPath的路径同源性搜索为识别具有生物学意义的路径并推断其功能提供了一种强大的方法。公共数据库中越来越多的蛋白质交互强调了我们的网络查询框架对于挖掘蛋白质网络数据的重要性。

背景

序列同源性搜索在过去30年里一直是生物信息学的主要任务,为研究基因和蛋白质的功能和进化提供了手段。大规模测量蛋白质相互作用(PPI)的最新技术进展,如酵母双杂交筛选[1,2]和蛋白质共免疫沉淀分析[5]使我们能够将视角从单个基因和蛋白质转移到更复杂的功能单元,例如蛋白质通路和复合物。研究蛋白质模块的功能和进化强调了将同源搜索工具从单基因水平扩展到网络水平的重要性。

与基因和蛋白质同源性检测的大量研究相比,在网络层面上的同源性检测研究很少,包括PPI网络的研究[68],代谢网络[912]和基因表达网络[1316]. 这些研究大多集中于识别在几个物种中保存的网络区域。Kelley等人对查询搜索问题进行了初步尝试,即在给定网络中搜索查询子网的实例[6]和Pinter等人[12]但这两种方法的适用性都有限。Kelley等人的PathBLAST算法旨在比较两个蛋白质网络并识别保守路径(相互作用蛋白质的线性非分支路径)。通过将其中一个网络约束为单个路径,PathBLAST也应用于查询搜索。在这种情况下使用PathBLAST算法有几个缺点:(a)蛋白质可能在已确定的匹配路径中出现多次,这在生物学上是不可信的;(b) 该算法为识别非行为路径匹配提供了有限的支持,支持的蛋白质从查询路径中最多只能一次连续删除,也不超过一次连续将蛋白质插入匹配路径;(c)算法的运行时间涉及路径长度的阶乘函数,限制了其对短路径的适用性(实际上,它被应用于最多5个蛋白质的路径)。Pinter等人最近开发了一种称为MetaPathwayHunter的路径对齐工具,并将其应用于挖掘代谢网络。该算法能够快速查询更通用的路径,这些路径采用树的形式(没有循环的子网络)。然而,它仅限于在树集合中搜索,而不是在一般网络中搜索。最后,Leser开发了一种用于挖掘生物网络的查询语言[17].

在这里,我们给出了一个新的综合框架,用于查询给定网络中的线性路径。我们的算法QPath搜索由不同蛋白质组成的匹配路径,这些蛋白质在序列和交互模式上与查询蛋白质相似。匹配的路径根据其与查询路径在蛋白质插入和删除方面的差异程度、组成蛋白质与查询蛋白质的序列相似性以及组成相互作用的可靠性进行评分。我们提供了一种计算方法,用于估计这些术语在总分中的权重,以便最大化识别出的具有功能重要性的匹配路径的比例。

我们应用QPath分析酵母的PPI网络酿酒酵母,苍蝇D.黑腹果蝇,和人类,旨在解决两个由序列分析引发的耦合的基本问题:(i)通路同源性能否用于识别功能重要的通路?(ii)人们可以根据通路同源性信息推断通路的功能吗?我们为这两个问题提供了积极的答案。值得注意的是,我们发现苍蝇中的匹配路径倾向于保留其在酵母中相应查询路径的功能,这使我们能够推导出苍蝇中从酵母中保存的蛋白质路径的首次注释图。

结果

QPath算法

我们开发了一种新的算法,用于查询具有感兴趣的线性路径的给定蛋白质网络。该算法搜索在序列和交互模式中与查询相似的匹配路径。它依赖于高效的图论技术,使其能够在几分钟内处理长路径(最多10种蛋白质)(见方法和补充。1表3)。虽然该算法可以用于查询任何基因或蛋白质网络,但我们将重点讨论其在PPI网络挖掘中的应用。QPath接收由相互作用蛋白的线性链组成的查询路径作为输入;PPI网络及其交互可靠性得分;以及查询蛋白和网络蛋白之间的序列相似性得分(图第1页). 与序列比对类似,该算法将查询路径与目标网络中的假定路径进行比对,以便相似位置的蛋白质序列相似。每个匹配的路径可能包含一定数量的蛋白质插入,代表与查询蛋白不对齐的蛋白质,以及蛋白质缺失,代表对某些查询蛋白的匹配缺失(图1亿). 路径根据序列得分,它测量它们与查询路径的序列相似性;一个交互作用得分,衡量其组成部分相互作用的可靠性;以及他们使用的蛋白质插入和删除的数量。使用基于动态编程的算法确定得分最高的路径,该算法确保匹配的路径将由不同的蛋白质组成。算法的输出是一组非冗余、重要的匹配路径。QPath程序可根据要求提供。

图1
图1

QPath算法流程(a)给定查询路径、加权PPI网络以及查询蛋白和网络蛋白之间的序列相似性得分,QPath算法识别一组匹配路径。对这些进行评分是为了捕捉其组成蛋白质具有连贯功能的趋势。(b) 诱导蛋白质插入(F')和缺失(C)的对齐示例。

酵母和苍蝇网络中的路径查询

为了评估我们的算法在分析PPI网络中的实用性,我们将其应用于酵母和苍蝇蛋白质相互作用网络,这是公共数据库中规模最大、研究最深入的网络[18]. 作为算法的第一个测试,类似于[6],我们使用酵母丝状生长MAPK级联查询酵母网络。该算法正确地恢复了两条已知的同源MAPK通路作为顶级匹配(补充图6)。接下来,我们希望对算法在酵母和苍蝇网络上的性能进行系统评估。由于酵母网络得到了更多大规模实验的支持[18]因此,我们推断,通过查询fly网络中假定的酵母途径,我们可以揭示其中新的功能途径,从而利用酵母中更完整的信息,这有望更加完整和准确。

为了在酵母的PPI网络中获得一组全面的假定途径,我们应用了QPath算法的修改版本来搜索网络中具有高交互得分的途径(不是基于特定的查询途径,请参阅方法)。当应用QPath查询这些路径时,搜索仅限于由6个蛋白质组成的路径,以获得合理的运行时间,同时允许(最多3个)插入和删除。我们确定了一组271条非冗余路径,其得分超过99%的随机选择路径(见方法)。已识别路径的完整列表显示在补充网站上[19].

我们使用了两种标准方法来评估这些路径的质量(参见方法和表1):(i)功能富集——代表通路蛋白质具有连贯基因本体(GO)功能的趋势;和(ii)表达一致性-测量不同实验条件下通路编码基因表达谱的相似性。总的来说,80%的酵母途径功能丰富。此外,由此产生的通路显著一致表达(Wilcoxon秩p<1e-300). 已识别通路的显著功能富集和表达一致性表明这些通路具有生物学意义。与预期的苍蝇网络质量较低一致,我们在分析苍蝇中模拟计算的高得分途径时观察到功能富集和表达一致性较低的速率(表1).

表1酵母和苍蝇途径的功能重要性。酵母和苍蝇PPI网络中高相互作用评分路径和随机路径的功能富集和表达一致性。

对于酵母中的每个重要路径,我们执行QPath算法来搜索苍蝇中的匹配路径。总的来说,63%的酵母查询中有最多三次插入和删除的动态匹配。给定一个酵母查询,在苍蝇中找到匹配路径的概率与查询的交互得分高度相关(Spearmanp=2.1e-04). 只有少数查询具有没有插入或删除的匹配路径,这意味着算法对插入和删除的支持对于识别匹配路径至关重要(图2a个和补充。1表2a)。

图2
图2

不同indel类别中匹配路径的特性(a)在不同indel类别的所有酵母查询中,具有可识别匹配飞行路径的酵母查询所占的比例。(b) 在每个indel类别的所有匹配飞行路径中,功能丰富的匹配飞行路径的比例。未包含在任何匹配路径中的索引类别标记为具有0%功能富集路径。

查询路径可能会产生多个匹配路径,每个路径具有不同的序列分数、交互分数和indel类别,由路径使用的插入和删除数定义。为了比较来自不同indel类别的通路的序列和相互作用得分,我们分别通过蛋白质数量和它们包含的相互作用对它们的得分进行了标准化。我们发现,匹配路径的功能丰富性与其标准化相互作用和序列得分之间存在统计上显著的相关性(Spearman第页=4e-15和第页=0.003(交互作用和序列得分分别为0.003)。此外,还发现一条通路的indel类别与其功能丰富性相关:正如预期的那样,表现出较少蛋白质插入和缺失(因此,更好地保存查询蛋白)的苍蝇通路往往比更遥远的通路匹配物更具功能丰富性(图第2页和补充。1表2b)。

受这些观察结果的启发,我们设计了一种评分方案,该方案为每条通路分配一个分数,反映其在其固有特征(即其使用的插入和缺失数量及其归一化的相互作用和序列分数)的情况下被功能富集的估计概率(方法)。对于每个酵母查询,我们将获得最高分数的匹配路径称为最佳匹配通路。

为了评估苍蝇中最佳匹配路径的生物学意义,我们将其功能丰富性和表达一致性与非查询结果的苍蝇路径进行了比较。总的来说,51%的最佳匹配路径功能丰富。在20%的最佳匹配路径中,预计功能富集的概率最高,91%的路径确实功能富集(图3a年). 相比之下,具有相同长度和相互作用分数分布的一组飞行路径中功能丰富路径的百分比为5%,显著低于(p<1e-4). 最佳匹配路径的表达一致性也显著高于随机选择的路径(p<1e-4,图第3页). 这些结果表明,最佳匹配途径具有生物学意义。

图3
图3

最佳匹配途径的功能意义与非查询结果的苍蝇路径相比,QPath获得的苍蝇最佳匹配路径的功能富集(a)和表达一致性(b)。x轴:飞行中最佳匹配路径的分数。(a)中的y轴:(b)中x轴确定的一组通路中功能丰富的通路的分数:x确定的通路的平均表达一致性。随机通路曲线显示了为在飞行中随机选择通路组而计算的功能丰富和表达一致性的平均值和标准偏差。

酵母到苍蝇途径中的功能保护

接下来,我们研究了路径相似性是否可以用于根据相应查询路径的已知功能推断匹配路径的功能。总的来说,在171条具有已确定的苍蝇最佳匹配路径的酵母查询路径中,69条具有功能丰富的苍蝇最匹配路径。此外,对于64%的这些查询,苍蝇最佳匹配路径保留了相应酵母查询路径的一个或多个功能。相反,当随机改变苍蝇路径和酵母查询之间的匹配时,只有31%的苍蝇路径表现出功能保守性(第页<1e-04)。有趣的是,基于路径的功能保守性也远高于酵母-苍蝇最佳序列匹配蛋白的功能保护性水平,估计为40%[6].

我们使用观察到的函数守恒,基于酵母中相应查询的丰富函数,导出所有苍蝇最佳匹配路径的函数注释。4在一张带注释的保守苍蝇(最佳匹配)途径图中总结了这些结果。该图展示了一个模块化结构,其中路径组重叠以定义具有共同功能的不同网络区域(聚类系数为0.26,显著高于保留顶点度的随机网络(第页< 0.05)). 为了评估这些预测注释的统计意义,我们计算了每个最佳匹配路径的预测注释在其蛋白质中的流行率(使用超几何分数),并将这些统计数据与酵母和苍蝇路径之间随机匹配的结果进行了比较。发现预测注释明显更普遍(第页<1e-04)。

图4
图4

飞行最佳匹配路径图.苍蝇中酵母最佳匹配途径图。节点代表最匹配的路径,边缘连接至少共享两个蛋白质的路径。每个节点根据酵母中相应查询路径的丰富功能进行着色。其预测注释也在其组成蛋白质中丰富的路径显示为方框;所有其他路径都显示为椭圆。具体路径可以根据其编号在补充网站上查找[19]。

查询酵母和人类的已知信号通路

为了演示以类似BLAST的方式使用我们的算法查询已知的蛋白质通路,我们将其应用于搜索苍蝇网络,以匹配由酵母和人类的已知信号通路组成的查询。作为第一个例子,我们使用酵母中的泛素连接途径来查询苍蝇网络(图5a级). 我们在苍蝇中发现了一条可能与蛋白质降解有关的同源途径。五分之三的蛋白质被注释为参与泛素依赖性蛋白质降解:Ubp64E是一种推测的泛素特异性蛋白酶;morge被注释为参与凋亡的泛素结合酶;ago是SCF泛素连接酶复合物的真正成分[20,21]. Ubp64E和以前的突变体常见的眼部生长缺陷可能表明该途径在生长和凋亡的调节中起作用。

图5
图5

酵母和人类的查询及其在苍蝇中的最佳匹配酵母和人类路径查询及其在果蝇中的最佳匹配。(a) 苍蝇中酵母泛素连接途径查询。(b) 飞行中的人类MAPK通路查询。星号表示的路径是查询PPI和遗传相互作用组合网络的结果(以红色显示)。(c) 人类刺猬飞行路径查询。

作为第二个示例,我们使用人类的两条信号通路作为对飞行网络的查询:MAPK级联和Hedgehog信号通路。每个案例中得分最高的路径与已知的功能注释非常吻合。MAPK查询及其最佳匹配如图所示5亿如预期的基于MAPK的信号级联,Nek2是一种假定的受体信号蛋白丝氨酸/苏氨酸激酶。基于其EGF-like结构域,Tsp可能是一种生长因子,可以作为Nek2的配体。实验证明,Dap160和Fur2分别参与受体加工和内化[22]. 虽然没有关于Rgl、Rap21、Epac和pkc98E的实验信息,但所有可用的注释都符合G蛋白偶联受体蛋白信号通路:Rgl是假定的RAL GDP解离刺激物,Rap21具有假定的GTPase活性,Epac具有假定的环核苷酸依赖的鸟苷酸交换因子活性,pkc98E和cdc2c都被注释为蛋白丝氨酸/苏氨酸激酶。有趣的是,针对cdc2c的RNAi会导致培养细胞的异常生长[23]突变体Nek2的表型与有丝分裂的调控有关[24]. 综上所述,这些证据表明,推断的通路可能参与调节细胞增殖的细胞间通信信号级联。

5厘米显示了最符合人类刺猬信号查询的飞行路径。该通路蛋白的已知注释与它在刺猬信号传导中的假定作用非常一致:ptc是刺猬的一个bona-fide受体,位于质膜上[25]. Csk被注释为一种蛋白酪氨酸激酶,可以进一步从ptc下游传递信号。细胞周期素依赖性蛋白激酶Cdk5与细胞周期素CycE结合,可以将信号进一步传递给最终的转录因子ci。大量实验数据表明,ci与ptc一样参与刺猬信号通路,刺猬在苍蝇中调节许多组织的细胞生长[25].

讨论和结论

我们提出了一个用于查询PPI网络中线性路径的新框架,允许从查询路径中删除蛋白质并将蛋白质插入匹配路径。根据与查询路径的差异、其蛋白质与查询蛋白质的序列相似性以及其组成相互作用的可靠性,对匹配路径进行评分,以反映其功能丰富的趋势。

该算法在使用酵母和人类的蛋白质通路查询苍蝇PPI网络中的有效性得到了证明。当应用该算法搜索苍蝇中的酵母路径查询时,与苍蝇网络中的任意路径相比,匹配路径的功能显著丰富。生成的路径倾向于保留原始查询路径的功能,用BLAST预测基因和蛋白质功能的方法来证明我们的工具在预测通路功能方面的适用性。

与任何PPI网络研究一样,处理蛋白质相互作用数据中存在的大量噪声非常重要[2628]. 为了处理假阳性交互,我们对交互进行了置信度评分。为了检验置信分数对发现生物意义上的通路的贡献,我们对从酵母和苍蝇网络中随机选择的通路集重复了功能富集和表达一致性分析,这些通路集是通过丢弃相互作用置信分数获得的。在这些随机集中发现的功能富集途径的百分比和表达一致性比率明显低于高得分途径的百分比(表1,补充图7)。此外,对于酵母和苍蝇,我们发现相互作用分数和功能富集之间存在统计上显著的相关性(Spearman相关性分别为0.47和0.29p<1e-300).

适应假阴性是一个困难的挑战,但QPath通过允许将蛋白indels引入匹配路径在一定程度上解决了这些问题。将遗传相互作用纳入网络也可能有助于解决假阴性问题,因为遗传相互作用可能表明蛋白质之间的物理相互作用[29]. 特别是,对于苍蝇,FlyGRID中报告的一组遗传相互作用[30]与物理网络有显著重叠,具有超几何特征第页-的值3.9电子-7为了测试基因和物理相互作用的融合是否有助于识别功能重要的通路,我们应用QPath在融合的苍蝇网络中重新查询人类MAPK通路(图5亿). 所鉴定的途径是EGFR受体激酶信号级联的一个变体,其七种蛋白质中有五种出现在KEGG的同源苍蝇途径中[31]. 假设的信号被传送到EGF受体,并通过ksr和C3G(一种经证实的激酶和一种注释的Ras鸟苷酸-核苷酸交换因子)进一步传递到Ras85D。实验表明,后者可以激活phl[32]. 推测的信号进一步传递到MAP激酶激酶Dsor1,下游传递到rl,rl是一种可能激活特定转录因子的带注释的核MAP激酶。此外,ksr、phl、Dsor1和rl都是调节EGFR-介导的Ras85D有丝分裂反应所必需的[33]. 使用遗传相互作用对确定这一途径至关重要,因为它的7个相互作用中有5个是遗传的。这一结果表明,融合遗传和物理相互作用可能有助于处理未检测到的蛋白质相互作用。

我们才刚刚开始探索蛋白质网络的世界,人类PPI网络的初稿刚刚发布[34,35]. 随着越来越多的基因组测序和蛋白质相互作用网络的恢复,开发用于解释这些数据的工具以提供跨生物体细胞机械的详细模型变得越来越重要。我们期望QPath在这一探索中发挥越来越大的作用,为利用现有知识推断新的途径及其功能提供必要的手段。

方法

数据采集和处理

酵母和苍蝇的蛋白质相互作用数据从DIP下载([18] ; 2005年4月下载),其中包含酵母中4726个蛋白质之间的15166个交互作用,以及苍蝇中7028个蛋白质之间22837个交互作用(对于苍蝇,我们通过以下交互作用来补充DIP数据:[36]). 从FlyGRID下载了另外2378个苍蝇的基因相互作用[30]. 为了给这些交互作用分配置信度,我们使用了[8]. 简单地说,使用真正交互和真负交互来训练逻辑回归模型,该模型根据该交互的实验证据为每个交互分配一个可靠性分数,其中包括观察交互的实验类型,以及每个实验类型中的观察次数。对于酵母,我们将实验分为四类:免疫共沉淀筛选[,4],酵母双杂交分析[2,37,38],大规模实验(其他研究表示为经验:gDIP类)和小规模实验(表示为经验:sDIP等级)。对于fly,由于可用的交互屏幕数量较少,我们使用了三个可用的大型屏幕中的每一个[36,39,40]作为单独的类别。此外,我们使用小规模飞行实验作为第四类。

通道对齐

我们使用无向加权图表示PPI网络G公司带一套V(V)属于n个顶点,表示蛋白质,集合E类表示相互作用的m条边和边权重函数w(·,·)表示交互可靠性。给定路径查询Q=(Q 1 ,...,q个 k个 ),让小时(q个 ,j)表示查询节点之间的序列相似性得分q个 和顶点j个 V(V).对齐在里面G公司定义为一对(P、M),其中P=(P 1 ,...,第页 k个 )是中的匹配路径G公司、和M(M)是查询节点到的映射P(P) {0}。对齐允许最多N个 英寸 插入和最多N个 德尔 删除,其中已删除的查询节点映射到0通过M(M)。路线的重量是交互作用分数, = 1 负极 1 w个 ( 第页 , 第页 + 1 ) 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciacaGaaeqabaqababeGadaaadaaeWbqaaabdEha3naabmaabaGaemiCaa3aaSbaaqaaabbMgaPbqabaGccqGGSalcqWGWbaCdaWgaaWcbaGaemyAaKMaey4kaSIaeGymaedabaaaaOGaayjkaiaaw McaaWcbagaemyAakayypa0JaeGymaebaGaemiBaWMaeyOe10IaeGymediabagHiLdaaaa@4123@ 序列得分, = 1 , 第页 0 k个 小时 ( q个 , M(M) ( 第页 ) ) 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciacaGaaeqabaqababeGadaaadaaeWbqaaabdIgaOnaabmaabaGaemyCae3aaSbaaSqaaibdMgaPbqabaGccqGGSalcqWGnbqtqdaqadaqaaaiabdchaWnaaBaaalaaacqWGPbqAaeqaaGccaGLOAGAayzkaaaaGLOAGaayzkaaaaaaaaaaaleaaacqWGP bqAcqGH9aqaqiXaqmcqGGSaalcuWGWbacqGgaqbabamaaBaaaaaaqWGPb bqaqaaaqaSGaeyiyIKraeGimaa adabaGaem4AaSganiabggHiLdaaaa@469F@ 边缘权重设置为相应交互的可靠性估计的对数。序列相似性得分,小时(q个 ,j),在查询节点q之间 和顶点j个V(V)设置为相应蛋白质之间BLAST E值的对数,并通过所有配对的最大得分标准化。

路径搜索模块

该算法的目标是识别具有不同顶点的匹配路径,从而产生与查询的最佳对齐。为此,我们采用了Alon等人的颜色编码技术[41],用于查找固定长度的简单路径(即具有不同顶点的路径)k个在图表中。在颜色编码中,指定一个随机选择的颜色{1,…,k}到图中的每个顶点,转换求简单长度的问题-k个找到长度路径的路径k个跨越不同颜色的。由于任何特定路径都可能被指定为非独特的颜色,因此无法被发现,因此执行了许多随机着色试验。下面,我们描述一个针对查询用例定制的颜色编码迭代。

我们的算法从分配每个顶点开始v(v) V(V)一种颜色c(c)(v(v))从集合中随机均匀绘制C类={1,...,k个+N个 英寸 }对于给定的颜色,我们使用动态规划来寻找最佳匹配路径。我们让W公司(i、 j、S、θ 德尔 )表示第一条路线的最大重量查询中以顶点结束的节点j个V(V),诱导θ 德尔 删除,并访问中每种颜色的顶点S公司.W公司(i、 j、S、θ 德尔 )按如下方式递归计算:

W公司 ( , j个 , S公司 , θ 德尔 ) = 最大值 V(V) { W公司 ( 负极 1 , , S公司 负极 c(c) ( j个 ) , θ 德尔 ) + w个 ( , j个 ) + 小时 ( q个 , j个 ) ( , j个 ) E类 W公司 ( , , S公司 负极 c(c) ( j个 ) , θ 德尔 ) + w个 ( , j个 ) ( , j个 ) E类 W公司 ( 负极 1 , j个 , S公司 , θ 德尔 负极 1 ) θ 德尔 N个 d日 e(电子) 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciacaGaaeqabaqababeGadaakaacqWGxbWvdaqaadaqaaabdMgaPjabcYcaSiabdQgaQjabcYca SiabdofatjabcYcasiabeI7aXnaaBaaalaaacqGKbazcqqGbqqqqGSbaeqaaaGccaGLOAGaayzkaaGaeyypa0ZaaCbeaacyGGTbqBcqGghbqycqqqgGG4baSqaaiabqaqaqqaqiqaqbqaQaqaaqaQabaqaq TjabAfabqabaq Gcqaqaba GcqaababqaacqWGxbWvdaqadaqaaaiabdMgaPjabgkHiTiabigdaXiabcYcaSiabd2gaTjabcYcaSIabdofatjabgHiTiabdogaJnaabmaabaGaemOAaOgacaGLOAGaayzkaaGaeilaWIaeqiUde3aaSbaaSqaaiaabsgaKjabbwgaLjabbYgaSbqabaaaaqaaaaaaqagIcagaagGLPaaacqGHRaWkcqWG3bWDdaqadaqaiabd2ga Tjabc YcabQaqaqaQaqaaabd2GaemOAa OgaajjkaiwMcaabgUcaUcaRiabdIga OnaabmaaGaemyCae3aaSbaaSqaaabdMgaPbqabaGccqGGSalcqWGQbGAaiaawIcacaGLPaaaaadaqaaaiabd2gaTjabcYcaSiabdQgaQbGaayjkaiaawMcaaiabgIGiolabdweafqaaabd EfaxnaabmaabaGaemyAaKMaeiilaWIaemyBa0MaeiilaWIaaem4uamLaeyOeIaem4yam2aaaWaaeaacqWGqbGAaiawIcaCAGLPaaaacqaGGSaalcqaH4oqCdaWgaaWcbaGaeeiza qMaeeyzauMaeeiBaWgabeaaaaAOGaayjkaiaawMcaaiabgUcaRiabdEha3naabmaabaGaemyBa0MaeiilaWIaemOAaOgacaGLOAGaayzkaaaabaWaaeaaacqWGTbqBcqGGSalcqWGQbGAaiaawIcacaGLPaaacqGHiiIZcqWGfbqraeaacqWGxbWvdaqaadaqaaabdMgaPjabgkHiTiabigdaXiabgYcaSiabdQgabcYcaSiadofatjabcYcaSiAbaI7aXnaaBaaaaaa cqqGKbazcqqGLbqzcqq GSbaBaeqaaOGaeyOeI0Iae健身房GLOAGaayzkaaaabaGaeqiUde3aaSbaaSqaaibsgaKjabbwgaLjabbYgaSbqabaGccqGHKjYOcqWGobGtdaWgaaWgaa GaemizaqMaemyzauMaemiBaWgabeaaaaaaawUhaaaa@B894@

路线的最大重量为 最大值 j个 V(V) , S公司 C类 , θ N个 d日 e(电子) 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciacaGaaeqabaqabebeGadaaakadaWfqaqaaaiGbc2gaTjabcggaHjabcIha4bWcbaGaemOAaOMaeyicI4SaemOvayLaeiilaWIaem4uamLaeyOHI0Saem4qamKaeiilaWiaeqiUdeNaeyizImQaemOta40aaSbaaWqaaabdsgaKjabdwgaLjabdYgaSbqabaaleqaaaaaaaaaaaaaaa@43ED@ ,W公司(k、 j、S,θ),并通过标准动态规划回溯获得相应的对齐。事实上,该算法不仅输出最佳匹配,还输出一组针对所使用的插入和删除次数的每种组合的高得分匹配。每次试用的运行时间取决于查询的长度、网络的大小以及允许的插入和删除次数,为2O(运行)(k个+)百万牛顿 德尔 。指定任何给定路径的概率k个不同的颜色至少是e(电子)-k个-尼恩斯因此,对于任何ε(0,1),获得概率至少为1-ε的最优匹配的算法的运行时间为ln(n/ε)2O(运行)(k个+尼恩斯)百万牛顿 德尔 我们对算法的所有运行都使用ε=0.01,每个查询的实际时间为几分钟(补充。1表3)。对产生的通路进行过滤,以去除重叠至少20%蛋白质的通路。

为了在网络中搜索具有高交互分数的路径,无论具体查询是什么,我们都使用虚拟路径查询运行算法,虚拟路径查询由定义为对所有网络顶点具有相同序列相似性分数的虚拟蛋白质组成。为了在网络中搜索随机路径,不管它们的交互作用得分如何,我们为所有交互作用分配了相等的交互作用分数。

路径计分模块

我们为蛋白质通路分配了一个功能显著性评分,该评分表示蛋白质通路功能丰富的趋势,给出了表征每个通路的四个参数:标准化序列评分、标准化交互评分、插入次数和缺失次数。给定一组匹配的路径,逻辑回归[42]用于仅基于这些参数预测其功能富集。为了避免过度拟合,将路径集划分为五个相等的部分。对于每个部分,我们对剩下的四个部分进行逻辑回归训练,并使用推断的参数推导出遗漏部分的路径得分。

功能富集

基于GO过程注释计算蛋白质途径的功能富集[43]它们的蛋白质。酵母GO注释来自SGD[44]和fly GO注释是从FlyBase获得的[45]. 对于给定的路径P(P)和一个给定的术语t吨,功能增强得分计算如下:假设P(P)已出租n(吨)用术语注释的蛋白质t吨(或使用更具体的术语)。p(吨)是观测的超几何概率n(吨)或多个用术语注释的蛋白质t吨在大小的蛋白质子集中|P(P)|.找到一个术语t吨0以最小概率p(吨0),分数设为第页-术语下的浓缩价值t吨0,通过比较计算p(吨0)具有10000个随机大小蛋白质集的类似概率|P(P)|.

表达式一致性

一条通路的表达一致性被测量为编码该通路蛋白质的基因表达模式之间成对皮尔逊相关性的平均绝对值。为了评估一组通路表达一致性的重要性,我们将其与具有相同大小分布的一组随机通路的表达一致性分布进行了比较。基因表达测量数据来自斯坦福微阵列数据库[46]包括酵母和苍蝇的973和170个条件。

工具书类

  1. 字段S,歌曲O:检测蛋白质相互作用的新型遗传系统。 自然1989年,340(6230):245–246。10.1038/340245a0

    第条 中国科学院 公共医学 谷歌学者 

  2. Uetz P、Giot L、Cagney G、Mansfield TA、Judson RS、Knight JR、Lockshon D、Narayan V、Srinivasan M、Pochart P、Qureshi-Emili A、Li Y、Godwin B、Conover D、Kalbfleisch T、Vijayadamodar G、Yang M、Johnston M、Fields S、Rothberg JM:酿酒酵母蛋白质相互作用的综合分析。 自然2000,403(6770):623–627. 10.1038/35001009

    第条 中国科学院 公共医学 谷歌学者 

  3. Gavin AC、Bosche M、Krause R、Grandi P、Marzioch M、Bauer A、Schultz J、Rick JM、Michon AM、Critical CM、Remor M、Hofert C、Schelder M、Brajenovic M、Ruffner H、Merino A、Klein K、Hudak M、Dickson D、Rudi T、Gnau V、Bauch A、Bastuck S、Huhse B、Leutwin C、Heurtier MA、Copley RR、Edelmann A、Querfurth E、Rybin V、Drewes G、Raida M、Bouwmeester T,Bork P、Seraphin B、Kuster B、Neubauer G、Superti Furga G:通过蛋白质复合物的系统分析对酵母蛋白质组进行功能组织。 自然2002,415(6868):141–147. 10.1038/415141a

    第条 中国科学院 公共医学 谷歌学者 

  4. Ho Y、Gruhler A、Heilbut A、Bader GD、Moore L、Adams SL、Millar A、Taylor P、Bennett K、Boutiler K、Yang L、Wolting C、Donaldson I、Schandorff S、Shewnarane J、Vo M、Taggart J、Goudreault M、Muskat B、Alfarano C、Dewar D、Lin Z、Michalickova K、Willems AR、Sassi H、Nielsen PA、Rasmussen KJ、Andersen JR、Johansen LE、Hansen LH、Jesperssen H、,Podtelejnikov A、Nielsen E、Crawford J、Poulsen V、Sorensen BD、Matthiesen J、Hendrickson RC、Gleeson F、Pawson T、Moran MF、Durocher D、Mann M、Hogue CW、Figeys D、Tyers M:用质谱法系统鉴定酿酒酵母中的蛋白质复合物。 自然2002,415(6868):180–183. 10.1038/415180a

    第条 中国科学院 公共医学 谷歌学者 

  5. Aebersold R、Mann M:基于质谱的蛋白质组学。 自然2003,422(6928):198–207. 10.1038/性质01511

    第条 中国科学院 公共医学 谷歌学者 

  6. Kelley BP、Sharan R、Karp RM、Sittler T、Root DE、Stockwell BR、Ideker T:全球蛋白质网络比对揭示了细菌和酵母中的保守路径。 美国国家科学院程序2003,100(20):11394–11399. 10.1073/pnas.1534710100

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  7. Matthews LR、Vaglio P、Reboul J、Ge H、Davis BP、Garrels J、Vincent S、Vidal M:使用基于序列的保守蛋白质相互作用或“interologs”搜索来识别潜在的相互作用网络。 基因组研究2001,11(12):2120–2126. 105301克

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  8. Sharan R、Suthram S、Kelley RM、Kuhn T、McCuine S、Uetz P、Sittler T、Karp RM、Ideker T:多物种蛋白质相互作用的保守模式。 美国国家科学院程序2005,102(6) :1974年至1979年。10.1073/pnas.0409522102

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  9. Dandekar T、Schuster S、Snel B、Huynen M、Bork P:路径比对:应用于糖酵解酶的比较分析。 生物化学杂志1999,343第1部分:115–124. 10.1042/0264-6021:3430115

    第条 中国科学院 公共医学 谷歌学者 

  10. Ogata H、Fujibuchi W、Goto S、Kanehisa M:一种启发式图比较算法及其在检测功能相关酶簇中的应用。 核酸研究2000,28(20):4021–4028. 10.1093/nar/28.20.4021

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  11. 福斯特简历,舒尔滕K:代谢途径的系统发育分析。 J摩尔进化2001,52(6):471–489.

    第条 中国科学院 公共医学 谷歌学者 

  12. Pinter RY、Rokhlenko O、Yeger-Lotem E、Ziv-Ukelson M:代谢途径的调整。 生物信息学2005,21(16):3401–3408. 10.1093/生物信息学/bti554

    第条 中国科学院 公共医学 谷歌学者 

  13. Enard W、Khaitovich P、Klose J、Zollner S、Heissig F、Giavalisco P、Nieselt-Struwe K、Muchmore E、Varki A、Ravid R、Doxiadis总经理、Bontrop RE、Paabo S:灵长类基因表达模式的种内和种间变异。 科学类2002,296(5566):340–343. 10.1126/科学.1068996

    第条 中国科学院 公共医学 谷歌学者 

  14. Stuart JM、Segal E、Koller D、Kim SK:用于全球发现保守遗传模块的基因表达网络。 科学类2003,302(5643):249–255. 10.1126/科学.1087447

    第条 中国科学院 公共医学 谷歌学者 

  15. Bergmann S、Ihmels J、Barkai N:六种生物体全基因组表达数据的相似性和差异性。 公共科学图书馆生物2004,2(1) :E9。10.1371/journal.pbio.0020009

    第条 公共医学中心 公共医学 谷歌学者 

  16. Sohler F、Zimmer R:使用通路查询从表达数据中识别活性转录因子和激酶。 生物信息学2005,21(suppl_2):ii115-ii122。10.1093/生物信息学/bti1120

    中国科学院 公共医学 谷歌学者 

  17. 莱瑟U:生物网络的查询语言。 生物信息学2005,21补充2:ii33-ii39。10.1093/生物信息学/bti1105

    公共医学 谷歌学者 

  18. Salwinski L、Miller CS、Smith AJ、Pettit FK、Bowie JU、Eisenberg D:相互作用蛋白质数据库:2004年更新。 核酸研究2004,32(数据库问题):D449–51。10.1093/nar/gkh086

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  19. 网站:QPath补充网站。[网址:http://www.cs.tau.ac.il/~什洛米托/Q帕斯/]

  20. Moberg KH、Mukherjee A、Veraksa A、Artavanis-Tsakonas S、Hariharan IK:果蝇F盒蛋白群岛调节体内dMyc蛋白水平。 当前生物2004,14(11):965–974. 10.1016/j.cub.2004.04.040

    第条 中国科学院 公共医学 谷歌学者 

  21. Moberg KH、Bell DW、Wahrer DC、Haber DA、Hariharan IK:群岛调节果蝇的细胞周期蛋白E水平,并在人类癌症细胞系中发生突变。 自然2001,413(6853):311–316. 10.1038/35095068

    第条 中国科学院 公共医学 谷歌学者 

  22. Roebroek AJ、Ayoubi TA、Creemers JW、Pauli IG、Van de Ven WJ:黑腹果蝇的Dfur2基因:遗传组织、胚胎发生期间的表达及其翻译产物Dfurin2的原蛋白加工活性。 DNA细胞生物学1995,14(3):223–234.

    第条 中国科学院 公共医学 谷歌学者 

  23. Boutros M、Kiger AA、Armknecht S、Kerr K、Hild M、Koch B、Haas SA、联合体HF、Paro R、Perrimon N:果蝇细胞生长和生存能力的全基因组RNAi分析。 科学类2004,303(5659):832–835. 10.1126/科学1091266

    第条 中国科学院 公共医学 谷歌学者 

  24. Prigent C、Glover DM、Giet R:果蝇Nek2蛋白激酶敲除导致中心体成熟缺陷,而过度表达导致中心体碎裂和胞质分裂失败。 Exp单元Res2005,303(1):1–13.

    中国科学院 公共医学 谷歌学者 

  25. 宾夕法尼亚州比奇Lum L:刺猬反应网络:传感器、交换机和路由器。 科学类2004,304(5678):1755–1759。10.1126/科学.1098020

    第条 中国科学院 公共医学 谷歌学者 

  26. 邓M,孙F,陈T:蛋白质相互作用的可靠性评估和蛋白质功能预测。 Pac-Symp生物计算机2003, 140–151.

    谷歌学者 

  27. Sprinzak E、Sattath S、Margalit H:实验性蛋白质相互作用数据的可靠性如何? 分子生物学2003,5(327):919–923.

    第条 谷歌学者 

  28. von Mering C、Krause R、Snel B、Cornell M、Oliver SG、Fields S、Bork P:蛋白质-蛋白质相互作用的大规模数据集的比较评估。 自然2002年,417(6887):399–403. 10.1038/自然750

    第条 中国科学院 公共医学 谷歌学者 

  29. Wong SL、Zhang LV、Tong AH、Li Z、Goldberg DS、King OD、Lesage G、Vidal M、Andrews B、Bussey H、Boone C、Roth FP:结合生物网络预测遗传相互作用。 美国国家科学院程序2004,101(44):15682–15687. 10.1073/pnas.0406614101

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  30. Breitkreutz BJ、Stark C、Tyers M:GRID:交互数据集的通用存储库。 基因组生物学2003,4(3) :R23。10.1186/gb-2003-4-3-r23

    第条 公共医学中心 公共医学 谷歌学者 

  31. Kanehisa M、Goto S:KEGG:京都基因和基因组百科全书。 核酸研究2000,28(1):27–30. 10.1093/nar/28.127

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  32. Li W、Melnick M、Perrimon N:Ras在Raf激活中的双重功能。 开发1998,125(24):4999–5008.

    中国科学院 公共医学 谷歌学者 

  33. Karim FD、Rubin总经理:活化Ras1的异位表达诱导果蝇影像组织增生生长和细胞死亡增加。 开发1998,125(1):1–9.

    中国科学院 公共医学 谷歌学者 

  34. Rual JF、Venkatesan K、Hao T、Hirozane-Kishikawa T、Dricot A、Li N、Berriz GF、Gibbons FD、Dreze M、Ayiv-Guedehoussou N、Klitgord N、Simon C、Boxem M、Milstein S、Rosenberg J、Goldberg DS、Zhang LV、Wong SL、Franklin G、Li S、Albala JS、Lim J、Fraughton C、Llamosas E、Cevik S、Bex C、Lamesch P、Sikorski RS、Vandenhaute J、Zoghbi HY、Smolyar A、,Bosak S、Sequerra R、Doucete-Stamm L、Cusick ME、Hill DE、Roth FP、Vidal M:人类蛋白质相互作用网络的蛋白质组尺度图。 自然2005

    谷歌学者 

  35. Stelzl U、Worm U、Lalowski M、Haenig C、Brembeck FH、Goehler H、Stroedicke M、Zenkner M、Schoenhrr A、Koepen S、Timm J、Mintzlaff S、Abraham C、Bock N、Kietzmann S、Goedde A、Toksoz E、Droege A、Krobitsch S、Korn B、Birchmeier W、Lehrach H、Wanker EE:人类蛋白质相互作用网络:蛋白质组注释资源。 单元格2005,122(6):957–968. 2016年10月10日/j.cell.2005.08.029

    第条 中国科学院 公共医学 谷歌学者 

  36. Stanyon CA、Liu G、Mangiola BA、Patel N、Giot L、Kuang B、Zhang H、Zhong J、Finley RLJ:以细胞周期调节器为中心的果蝇蛋白质相互作用图。 基因组生物学2004,5(12) :R96。10.1186/gb-2004-5-12-r96

    第条 公共医学中心 公共医学 谷歌学者 

  37. 伊藤T、千叶T、小泽R、吉田M、服部M、坂木Y:综合双杂交分析探索酵母蛋白相互作用组。 美国国家科学院程序2001年,98(8) :4569–4574。10.1073/pnas.061034498

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  38. Ito T、Tashiro K、Muta S、Ozawa R、Chiba T、Nishizawa M、Yamamoto K、Kuhara S、Sakaki Y:芽殖酵母的蛋白质相互作用图:一个综合系统,用于检查酵母蛋白质之间所有可能组合中的双杂交相互作用。 美国国家科学院程序2000,97(3):1143–1147. 10.1073/pnas.97.3.1143

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  39. Formstecher E、Aresta S、Collura V、Hamburger A、Meil A、Trehin A、Reverdy C、Betin V、Maire S、Brun C、Jacq B、Arpin M、Bellaiche Y、Bellusci S、Benaroch P、Bornens M、Chanet R、Chavrier P、Delattre O、Doye V、Fehon R、Faye G、Galli T、Girault JA、Goud B、de Gunzburg J、Johanes L、Junier MP、Mirouse V、Mukherjee A、Papadopoulo D、Perez F、,Plessis A、Rosse C、Saule S、Stoppa-Lyonnet D、Vincent A、White M、Legrain P、Wojcik J、Camonis J、Daviet L:蛋白质相互作用图谱:果蝇案例研究。 基因组研究2005,15(3):376–384. 10.1101/克2659105

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  40. Giot L、Bader JS、Brouwer C、Chaudhuri A、Kuang B、Li Y、Hao YL、Ooi CE、Godwin B、Vitols E、Vijayadamodar G、Pochart P、Machinei H、Welsh M、Kong Y、Zerhusen B、Malcolm R、Varrone Z、Collis A、Minto M、Burgess S、McDaniel L、Stimpson E、Spriggs F、Williams J、Neurath K、Ioime N、Agee M、Voss E、Furtak K、Renzulli R、Aanensen N、Carrolla S、,Bickelhaupt E、Lazovatsky Y、DaSilva A、Zhong J、Stanyon CA、Finley RLJ、White KP、Braverman M、Jarvie T、Gold S、Leach M、Knight J、Shimkets RA、McKenna MP、Chant J、Rothberg JM:黑腹果蝇蛋白质相互作用图。 科学类2003,302(5651):1727–1736. 10.1126/科学.1090289

    第条 中国科学院 公共医学 谷歌学者 

  41. Alon N、Yuster R、Zwick U:颜色编码。 美国医学会杂志1995,42(4):844–856. 10.1145/210332.210337

    第条 谷歌学者 

  42. Hastie T、Tibshirani R、Friedman JH:统计学习的要素。Springer Verlag;2001

    第章 谷歌学者 

  43. Ashburner M、Ball CA、Blake JA、Botstein D、Butler H、Cherry JM、Davis AP、Dolinski K、Dwight SS、Eppig JT、Harris MA、Hill DP、Issel-Tarver L、Kasarskis A、Lewis S、Matese JC、Richardson JE、Ringwald M、Rubin GM、Sherlock G:基因本体论:生物学统一的工具。基因本体联盟。 自然基因2000,25(1):25–29. 10.1038/75556

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  44. Issel Tarver L、Christie KR、Dolinski K、Andrada R、Balakrishnan R、Ball CA、Binkley G、Dong S、Dwight SS、Fisk DG、Harris M、Schroeder M、Sethuraman A、Tse K、Weng S、Botstein D、Cherry JM:酿酒酵母基因组数据库。 酶学方法2002,350:329–346.

    第条 中国科学院 公共医学 谷歌学者 

  45. Drysdale RA,马萨诸塞州克罗斯比:FlyBase:基因和基因模型。 核酸研究2005,33(数据库问题):D390–5。10.1093/nar/gki046年10月10日

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  46. Ball CA、Awad IA、Demeter J、Gollub J、Hebert JM、Hernandez-Boussard T、Jin H、Matese JC、Nitzberg M、Wymore F、Zachariah ZK、Brown PO、Sherlock G:斯坦福微阵列数据库可容纳额外的微阵列平台和数据格式。 核酸研究2005,33(数据库问题):D580–2。10.1093/nar/gki006年

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

下载参考资料

致谢

我们感谢Trey Ideker和Vineet Bafna的有益讨论。T.S.感谢Tauber基金的慷慨支持。E.R由复杂性科学中心提供支持。R.S.由Alon奖学金资助。这项研究部分得到了以色列科学技术部的研究资助。

作者信息

作者和附属机构

作者

通讯作者

通信至罗德·沙兰.

其他信息

作者的贡献

TS进行了计算分析。DS进行了生物分析。所有作者都参与了研究的设计和手稿的编写。

电子辅助材料

12859_2005_938_MOESM1_ESM.doc

附加文件1:补充图表。该文件包含补充图6和7以及表2和3。(文档190 KB)

作者提交的原始图像文件

权利和权限

开放式访问本文经BioMed Central Ltd.许可发布。这是一篇开放存取文章,根据知识共享署名许可条款分发(https://creativecommons.org/licenses/by/2.0),允许在任何媒体上不受限制地使用、分发和复制,前提是正确引用了原作。

转载和许可

关于本文

引用这篇文章

Shlomi,T.、Segal,D.、Ruppin,E。等。QPath:一种查询蛋白质相互作用网络中通路的方法。BMC生物信息学 7, 199 (2006). https://doi.org/10.1186/1471-2105-7-199

下载引文

  • 已接收:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1471-2105-7-199

关键词