跳到主要内容

一种在大型蛋白质相互作用网络中寻找分子复合物的自动化方法

摘要

背景

蛋白质组学技术的最新进展,如双杂交、噬菌体展示和质谱,使我们能够创建生物分子相互作用网络的详细地图。最初的绘图工作已经产生了大量数据。随着交互集大小的增加,将需要数据库和计算方法来存储、可视化和分析信息,以便有效地帮助知识发现。

结果

本文描述了一种新的图论聚类算法“分子复合物检测”(MCODE),该算法检测可能代表分子复合物的大型蛋白质相互作用网络中的密集连接区域。该方法基于局部邻域密度的顶点加权和局部稠密种子蛋白的向外遍历,根据给定的参数分离稠密区域。与其他图形聚类方法相比,该算法具有有向模式的优势,该模式允许在不考虑网络其余部分的情况下微调感兴趣的簇,并允许检查与蛋白质网络相关的簇互连性。酵母的蛋白质相互作用和复杂信息酿酒酵母用于评估。

结论

蛋白质相互作用网络的密集区域可以仅基于连接性数据找到,其中许多对应于已知的蛋白质复合物。该算法不受高通量交互技术数据中已知高误报率的影响。该程序可从ftp://ftp.mshri.on.ca/pub/BIND/Tools/MCODE.

背景

最近发表的论文科学类自然其中包括大规模蛋白质组学实验,这些实验产生了大量蛋白质相互作用和分子复合物的数据集[17]。蛋白质结构[8]和基因表达数据[9]也在快速积累。用于存储、管理、可视化和分析这一新数据财富的生物信息系统必须跟上步伐。我们之前发表了一种简单的图论方法,该方法确定了酵母蛋白Las17周围的功能蛋白复合体,该复合体参与肌动蛋白细胞骨架重排[10]。在这里,我们扩展了该方法,以更好地将其应用于蛋白质网络中的积累信息。

目前,大多数蛋白质组学数据可用于模型生物体酿酒酵母凭借定义的和相对稳定的蛋白质组的可用性,全基因组克隆库[11]建立了分子生物学实验技术和各种精心设计的基因组数据库[1214]。使用生物分子相互作用网络数据库(BIND–网址:http://www.bind.ca) [15]作为一个集成平台,我们收集了4825个蛋白质(约占酵母蛋白质组的75%)之间的15143个酵母蛋白质相互作用。比这大得多的数据集最终将可用于其他经过充分研究的模式生物以及人类蛋白质组。这些复杂的数据集为计算生物学开发用于知识发现的自动数据挖掘分析提出了一个艰巨的挑战。

在这里,我们提出了第一份报告,该报告使用聚类算法识别来自异质实验来源的大型蛋白质相互作用网络中的分子复合物。根据我们之前的观察,网络中高度互联或密集的区域可能代表复合物[10],“分子复合物检测”(MCODE)算法已经在我们的酵母蛋白相互作用汇编中实现并评估,该汇编使用了最近对蛋白质组进行的系统质谱研究中的已知分子复合物数据[7]和MIPS数据库[13].

从蛋白质相互作用数据预测分子复合物非常重要,因为它比其他逐组关联方法提供了另一层次的功能注释。由于分子复合物的亚单位通常朝着相同的生物学目标发挥作用,预测未知蛋白质作为复合物的一部分也可以提高对该蛋白质注释的信心。

MCODE还通过提取感兴趣的蛋白质周围的致密区域,使大型网络的可视化变得易于管理。这一点很重要,因为现在很明显,当前的可视化工具存在于许多交互数据库中[15],最初基于Sun Microsystems嵌入式弹簧图布局Java小程序,无法很好地扩展到大型网络(http://java.sun.com/applets/jdk/1.1/demo/GraphLayout/example1.html).

算法

MCODE算法分为三个阶段,即顶点加权、复杂预测和选择性后处理,以根据特定的连接性标准过滤或添加合成复合物中的蛋白质。

相互作用的分子网络可以直观地建模为一个图,其中顶点是分子,边是分子相互作用。如果时间路径或细胞信号信息已知,可以创建一个有向图,用弧表示化学作用的方向或信息流的方向,否则使用无向图。使用这种生物系统的图形表示可以应用图论方法来帮助分析和解决生物问题。这种图论方法已被其他生物分子相互作用数据库项目使用,如DIP[16]、CSNDB[17],传输路径[18],经济周期[19]和WIT[20]Wagner和Fell对此进行了讨论[21].

寻找图的簇或局部稠密区域的算法是计算机科学中一个正在进行的研究课题,通常基于网络流/最小割理论[2223]或者最近,光谱聚类[24]。为了找到图的局部密集区域,MCODE使用了基于聚类系数C的顶点加权方案,它测量顶点邻域的“压缩性”[25]。C= 2n个/k个 (k个 -1) 其中k个 是顶点邻域的顶点大小n个是邻域中的边数(v(v)不包括v(v)). 团被定义为最大连通图。密度没有标准的图论定义,但定义通常基于图的连接性水平。图的密度G=(V,E),顶点数|V|,边数|E|在这里定义为|E|;除以图可能的理论最大边数,|E|最大值。对于带循环的图(连接回其原始顶点的边),|E|最大值=|V|(|V|+1)/2,对于没有循环的图,|E|最大值=|V|(|V|-1)/2。所以,G,D的密度G公司=|E|/|E|最大值因此,它是一个从0.0到1.0的实数。

MCODE的第一阶段,顶点权重,使用最高的k个-顶点邻域的核心。一个k个-核心是最小度图k个(图G,适用于所有v(v)单位为G,度(v(v)) >=k个). 最高的k个-图的核心是最紧密连接的中心子图。我们在这里定义了顶点的核聚类系数,v(v),为最高密度k个-近邻的核心v(v)(直接连接到的顶点v(v))包括v(v)(注意C不包括v(v)). 这里使用核心聚集系数而不是聚集系数,因为它放大了高度互联的图形区域的权重,同时删除了许多通常是生物分子相互作用网络(称为无标度)的一部分的不太相连的顶点[6212629]。无标度网络具有遵循幂律的顶点连通性分布,具有相对较少的高连通顶点(高次)和许多低阶顶点。给定的高度连通顶点,v(v)在图的稠密区域中,可以连接到多个一次顶点(单连通顶点)。这些低阶顶点在v(v)这样会降低聚类系数,但不会降低核心聚类系数。给顶点的最终权重是顶点核聚类系数和最高值的乘积k个-核心层,k个最大值,表示顶点的直接邻域。该权重方案进一步提高了密集连接顶点的权重。该特定加权函数基于本地网络密度。许多其他函数是可能的,并且有些函数可能具有更好的性能,但这里不评估这些函数。

第二阶段,分子复合体预测,以顶点加权图为输入,种子具有最高加权顶点的复合体,并递归地从种子顶点向外移动,包括复合体中权重高于给定阈值的顶点,即距离种子顶点权重的给定百分比。这是顶点权重百分比(VWP)参数。如果包含一个顶点,则会以相同的方式递归检查其邻域,以查看它们是否是复合体的一部分。顶点不会被多次检查,因为在算法的这个阶段,复合体不能重叠(有关可能的重叠条件,请参阅下文)。一旦无法根据给定阈值将更多顶点添加到复合体中,此过程将停止,并对网络中第二个最高的不可见加权顶点重复此过程。这样,网络中最密集的区域将被识别。顶点权重阈值参数定义生成的复合体的密度。更接近种子顶点权重的阈值标识种子顶点周围更小、更密集的网络区域。

第三阶段是后处理。如果复合物不包含至少2核(最小度为2的图形),则会对其进行过滤。该算法可以使用“fluff”选项运行,该选项根据0.0到1.0之间的给定“fluf”参数增加复数的大小。对于复合体中的每个顶点,v(v),如果尚未看到其邻居,并且邻居密度(包括v(v))高于给定的fluff参数。由fluff参数添加的顶点没有标记为可见的顶点,因此可以使用fluf参数集在预测的复合体之间重叠。如果使用“理发”选项运行算法,则生成的复合体是2核的,从而删除与核心复合体单独连接的顶点。如果同时指定了这两个选项,则首先运行fluff,然后运行理发。

对算法产生的复合物进行评分和排序。复分数定义为复子图C=(V,E)、密度和复子图(D)中顶点数的乘积C×|V|)。这在结果中对更大更致密的络合物进行了排名。其他评分方案也是可行的,但此处不进行评估。

MCODE也可以在定向模式下运行,其中种子顶点被指定为参数。在这种模式下,MCODE只运行一次,以预测指定种子所属的单个复合体。通常,在分析给定网络中的复合物时,会发现存在所有复合物(无向模式),然后切换到感兴趣的复合物的定向模式。定向模式允许人们根据现有的系统生物学知识,用MCODE参数进行实验,以微调合成物的大小。在定向模式下,MCODE将首先对输入网络进行预处理,以忽略顶点权重高于种子顶点的所有顶点。如果不这样做,MCODE将优先分支到图中密度较大的区域(如果存在),这些区域可能属于单独但密度较大的复合体。因此,定向模式的种子顶点应始终是疑似复合体中密度最高的顶点。有一个选项可以关闭此预处理步骤,如果需要,这将允许种子复合体分支到图形的更密集区域。

整个算法的时间复杂度为多项式O(毫微小时)其中n个是顶点数,是边的数量小时是输入图中平均顶点邻域的顶点大小,G。这来自顶点加权步骤。在图中查找k-核的过程是逐步删除度<k的顶点,直到所有剩余的顶点通过度k或更多彼此连接,因此为O(n个2). 最高的k核是通过尝试从一个开始查找k核,直到找到所有顶点,并且不能超过图中最高阶数的步数。因此,最高k核阶跃为O(n个). 由于此k核步骤仅对顶点的邻域进行操作n个在这种情况下,是顶点平均邻域中的顶点数,小时算法的内环只对输入图中的每条边操作两次,因此为O(2金属氢). 外循环对输入图中的所有顶点操作一次,因此加权阶段的整个时间复杂度为O(n个2金属氢)=O(毫微小时). 复杂预测阶段为O(n个)并且可选的后处理步骤可以达到O(反恐精英2),其中c(c)是上一步中发现的络合物数量是最大复数-O中的顶点数(反恐精英2)为每个复合物找到一次2核。

即使最快的最小割图聚类算法更快,在O(n个2日志n个) [30],MCODE具有许多优点。由于权重只需完成一次,并且包含了大部分时间复杂性,因此可以尝试使用O中的许多算法参数(n个),称重完成后。这在评估许多不同的参数时很有用。MCODE相对容易实现,因为它是基于局部密度的,具有定向模式和复杂连接模式的优点。这两种模式在典型的聚类应用中通常不有用,但在检查分子相互作用网络时有用。此外,只有那些高于给定局部密度阈值的蛋白质才被分配给复合物。这与许多集群应用程序不同,这些应用程序强制所有数据点成为集群的一部分,无论它们是否真的应该成为集群的组成部分。

伪代码

第1阶段:顶点权重

程序MCODE-VERTEX称重

   输入:图表:G=(V,E)

   对所有人来说 v(v)单位:G

N=查找的邻居v(v)至深度1

K=最高k个-N的核心图

      k个=获得最高k个-N中的芯数

      d日=获得K的密度

设置重量v(v)=k个×d日

   结束

结束程序

第二阶段:分子复合物预测

程序MCODE风机复合装置

   输入:图表:G=(V,E);顶点权重:W;

      顶点权重百分比:d日;子顶点:

   如果 已经看过了然后返回

   对所有人来说 v(v)的邻居

      如果重量v(v)>(重量)(1 -d日)然后添加v(v)到复数C

      呼叫:MCODE-FIND-COMPLEX(G,W,d日v(v))

   结束

结束程序

程序MCODE-FIND-组件

   输入:图表:G=(V,E);顶点权重:W;

      顶点权重百分比:d日

   对所有人来说 v(v)单位:G

      如果尚未看到v然后打电话:MCODE-FIND-COMPLEX(G,W,d日v(v))

   结束

结束程序

第3阶段:后处理(可选)

程序复合式离合器MCODE

   输入:图表:G=(V,E);顶点权重:W;

      绒毛密度阈值:d日;复数图:C=(U,F)

   对所有人来说 u个单位:C

      如果的重量u个>d日 然后添加u个到复数C

   结束

结束程序

程序MCODE后处理

   输入:图表:G=(V,E);顶点权重:W;理发旗:小时;绒毛旗:(f);

      绒毛密度阈值:t吨;预测复图集:C

   对所有人来说 c(c)单位:C

      如果 c(c)非2芯然后滤波器

      如果 小时为TRUE然后2芯复合体

      如果 (f)为TRUE然后打电话:MCODE-FLUFF-COMPLEX(G、W、,t吨c(c))

   结束

结束程序

整体流程

程序MCODE公司

   输入:图表:G=(V,E);顶点权重百分比:d日;

      理发旗:小时;绒毛旗:(f);绒毛密度阈值:t吨;

      预测复图集:C

   呼叫:W=MCODE-VERTEX-加权(G)

   呼叫:C=MCODE-FIND-COMPLEXES(G,W,d日)

   呼叫:MCODE-POST-PROCESS(G、W、,小时(f)t吨,C)

结束程序

实施

MCODE已使用跨平台NCBI工具包在ANSI C中实现;网址:http://www.ncbi.nlm.nih.gov/IEB以及SLRI工具箱中的BIND图库;http://sourceforge.net/projects/slritools。这两个源代码库都是免费的。实际的MCODE源代码尚未免费提供。MCODE程序已在UNIX、Mac OS X和Windows上编译和测试。因为酵母基因名称字典用于识别输入和生成输出,所以MCODE可执行文件目前仅以用户友好的方式对酵母蛋白质起作用。然而,通过图论抽象,该算法对任何图形,从而对任何生物分子相互作用网络都是完全通用的ftp://ftp.mshri.on.ca/pub/BIND/Tools/MCODE.

结果

MCODE评估

MCODE的评估需要一组实验确定的生物分子相互作用和一组相关的实验确定的分子复合物。目前,此类数据的最大来源是来自芽殖酵母的蛋白质,酿酒酵母最近,Gavin等人进行了大规模质谱研究[7]提供了大量蛋白质与人工注释的分子复合物相互作用的数据集。还提供了MIPS的蛋白质相互作用和复杂表格[13]和YPD[14]。MCODE用于在我们收集的蛋白质相互作用数据集中自动预测蛋白质复合物。然后使用重叠分数将得到的配合物与Gavin等人(Gavin基准)和MIPS基准的已知分子配合物进行匹配。然后根据给定的基准,使用参数优化来最大化预测复合物的生物相关性。未使用YPD,因为无法获取当前版本。

为了确保MCODE不会受到大规模交互数据集中预期的高假阳性率的过度影响,对大规模MCODE预测和文献推导的MCODE预计进行了比较。然后,使用MCODE预测我们可以为酵母收集的整套机器可读的蛋白质-蛋白质相互作用中的复合物。然后使用MCODE的定向模式和复杂连接性模式进一步检查感兴趣的复合体。

使用蛋白质相互作用和复合物的Gavin数据集评估MCODE

在本研究中,我们希望使用所有形式的可用蛋白质相互作用数据,这需要混合不同类型的实验,例如酵母双杂交和联合免疫沉淀。两个杂交结果本质上是成对的,而铜提纯结果是一组或多个已鉴定的蛋白质。对于copurification结果,只有大小为2的一组可以直接视为成对交互作用,否则必须将其建模为一组假设交互作用。生化铜净化可以被认为是具有一些潜在的成对蛋白质相互作用拓扑结构的复合物群体,而这些拓扑结构在实验中是未知的。在Gavin等人使用的纯化的一般情况下,使用一种亲和力标记的蛋白质作为诱饵,从酵母细胞裂解液中提取相关蛋白质。单一纯化实验中复合物种群拓扑结构的两个极端情况是最小连接的“辐条”模型,其中数据被建模为直接的毒饵相关蛋白质成对相互作用,以及最大连接的“矩阵”模型,其中数据被建模为连接到集合中所有其他蛋白质的所有蛋白质。蛋白质组的真正拓扑结构必须位于这两个极端之间。

综合体数量:C= {b、 c、d、e} (b=诱饵)

轮辐模型假设交互: S公司 ==============================================================================={b-c、b-d、b-e}

矩阵模型假设交互作用; M(M) = {b-b、b-c、b-d、b-e、c-c、c-d、c-e、d-d、d-e、e-e}

辐条模型的优点是它具有生物直观性,生物学家经常以这种方式表示他们的铜提纯结果,并且比矩阵模型精确约3倍[31]。缺点是它可能歪曲交互。另外,矩阵模型也不能歪曲交互,因为所有可能的交互都会生成,但这是以生成大量虚假交互为代价的。矩阵拓扑在物理上也不适用于较大的配合物,因为如果所有亚基都与所有其他亚基相互作用,则空间位阻的可能性会增加。最终,辐条模型在评估MCODE时应该是合理的。

Gavin等人使用上述辐条模型表示588个生化纯化的原始数据,以获得1363个蛋白质之间的3225个假设蛋白质相互作用,以输入MCODE。根据Gavin等人报告的原始纯化数据,筛选了232个手动注释的蛋白质复合物列表,以删除五个报告的“复合物”,每个复合物由单个蛋白质组成,以及数据集中已作为较大复合物一部分的两个或三个蛋白质的六个复合物。这产生了一组221个用于评估MCODE的过滤复合物,尽管其中一些复合物与该组中的其他复合物有显著重叠。

为了评估哪种参数选择能够从辐条模型Gavin等人的交互集中自动预测与手动注释的复合物最匹配的蛋白质复合物,使用两个布尔参数的所有四种可能组合运行MCODE(shirt:true/false,fluff:true/falise)在20个顶点权重百分比(VWP)和绒毛参数(0到0.95,增量为0.05)的完整范围内。在此参数优化过程中,MCODE仅限于找到大小为2或更大的复合体。

开发了一种评分方案,以确定MCODE预测的复合体与基准复合体集合中的复合体匹配的有效性。在本例中,基准复数集是Gavin等人的手注复数集。重叠分数定义为ω=2/*b,其中是预测复数与已知复数的交集大小,是预测复合体的大小b是已知复合体的大小。只有当蛋白质存在于预测的和已知的复合物中时,它才是交集的一部分。因此,已知复合物中没有蛋白质的预测复合物具有ω=0,与已知复合物完全匹配的预测复合体具有ω=1。此外,完全重叠但比任何已知络合物大得多或小得多的预测络合物将得到低ω。假设复合物的基准集具有生物学相关性,则预测复合物与基准复合物的重叠分数是预测的生物学意义的度量。在这个蛋白质相互作用数据集上,MCODE的最佳参数选择是预测最大的复合体集,该复合体集与阈值ω以上的最大数量的基准复合体匹配。由于Gavin基准复合体数据库中存在重叠,因此预测的复合体可能会匹配多个具有高ω的已知复合体。

为了选择在不过滤掉太多预测的情况下使预测复合物的生物相关性最大化的重叠分数,在参数优化阶段测试840个参数组合中的每一个。MCODE预测的络合物数量与匹配的已知络合物数量在ω阈值范围内(从“无阈值”到0.1到0.9(增量为0.1))绘制。如果没有使用ω阈值,则预测的复合物只需要与已知复合物共有至少一个蛋白质即可被视为匹配。如果仅当ω高于特定阈值时,预测的和已知的络合物才被视为匹配,那么匹配络合物的数量会随着ω阈值的增加而减少,如图所示1有趣的是,匹配的已知复合物的平均和最大数量从零下降到ω阈值0.2的速度比从0.2下降到0.9的速度更快,这表明许多预测的复合物只有一个或几个与已知复合物重叠的蛋白质。因此,0.2到0.3的ω阈值似乎可以过滤掉与已知络合物没有明显重叠的大多数预测络合物。

图1
图1

重叠分数阈值对Gavin评估中预测和匹配的已知络合物数量的影响图例:在MCODE参数优化过程中看到的预测和匹配的已知复合物的平均和最大数量(840个参数组合)绘制为重叠得分阈值的函数。随着预测复合物必须与已知复合物匹配的紧密程度的增加(重叠分数的增加),与已知复合体匹配的预测复合物更少。请注意,这些曲线并不对应于最佳参数集,而是所有尝试的参数组合结果的平均值。

2显示了在所有尝试的MCODE参数中,预测的络合物数量范围和匹配0.2Ω阈值的已知络合物数量。此外,还绘制了一条y=x线,以表明由于Gavin复数基准中的冗余,数据点倾向于倾向于比预测复数更多的匹配已知复数。最靠近图右上部分的数据点最大化了匹配的已知复数和预测复数。产生这些数据点的MCODE参数组合因此在此数据集上优化MCODE(根据重叠分数阈值)。这一结果表明,预测的络合物数量应该与匹配的已知络合物数量相似,这样参数选择才合理,尽管匹配的已知复合物数量可能会更大,因为基准集中的络合物之间存在一些共性。重叠得分阈值为0.2时,与最佳数据点(63,88)相对应的参数组合为first=FALSE,fluff=TRUE,VWP=0.05,fluf密度阈值介于0和0.1之间。在该数据集上,MCODE的这些参数优化结果在ω阈值范围内(高达0.5)是稳定的。高于0.5时,结果不稳定,因为具有高重叠分数的预测复合物通常太少(图1).

图2
图2

重叠分数阈值为0.2时预测和匹配的已知复合物数量图图例:与MCODE预测复合物相匹配的已知复合物数量与MCODE预测复合物数量对比,两者的重叠分数均大于0.2。

特异性与敏感性分析[32]也执行了。将真阳性数(TP)定义为ω超过阈值的MCODE预测复数,假阳性数(FP)定义为预测MCODE复数减去TP的总数。假阴性数(FN)等于已知基准复合体的数量,而预测复合体与之不匹配。敏感性被定义为[TP/(TP+FN)],特异性被定义为[PP/(TP+FP)]。优化特异性和敏感性的MCODE参数选择与上述分析相同。该分析的最佳灵敏度为~0.31,相应的特异性为~0.79。

63个MCODE预测的复合物仅与已知数据集中221个复合物中的88个匹配,这表明MCODE无法仅使用蛋白质连接性信息来重述大多数Gavin复合物基准。如上所述,由于基准中存在一些冗余,因此匹配的复合物比预测的多。这种低灵敏度并不奇怪,因为许多人工合成的复合物是直接从单一的联合免疫沉淀结果中创建的,在辐条模型中没有高度互联。例如,Cdc3被用作诱饵以共同免疫沉淀Cdc10、Cdc11、Cdc12和Ydl225w。一个复合物被注释为含有这五种蛋白质,但只有Cdc3被用作诱饵。如果复合物中有更多的元素被用作诱饵,这些蛋白质就会变得更加相互关联,也更容易被MCODE预测。Arp2/3复合体就是一个很好的例子,它在真核生物中高度保守,参与肌动蛋白细胞骨架重排。这种复合物的结构由X射线晶体学所知[33]因此,结构上的实际蛋白质相互作用可以与联合免疫沉淀结果相匹配。MCODE使用优化的参数预测了Arp2/3复合晶体结构的所有七个组分和五个额外的蛋白质。Gavin等人将七个Arp2/3亚基中的六个亚基用作诱饵,所得基准复合体包括MCODE也预测的五个不在晶体结构中的额外蛋白质(Nog2、Pfk1、Prt1、Cct8和Cct5)。已知Cct5和Cct8参与肌动蛋白组装,但Nog2、Pfk1和Prt1不参与。在实验方法中,这些额外的蛋白质可能代表非特异性结合。这两种情况如图所示有趣的是,使用理发参数可以去除所有不在晶体结构中的五种额外蛋白质,只留下七种存在的蛋白质。这表明,虽然参数优化允许最大限度地匹配手部已知复合物,但这些复合物可能并不都是生理相关的,因此另一个参数集可以更好地预测“真实”复合物。

图3
图3

MCODE错过并命中Gavin基准复合体的示例图图例:蛋白质复合物用辐条模型表示为图形。顶点代表蛋白质,边缘代表实验确定的相互作用。在加文等人的研究中,蓝色顶点是诱饵。A) Gavin等人发明的一种Cdc3复合体,由于子组件之间缺乏连通性信息,MCODE遗漏了该复合体。这个复杂的注释是单一免疫共沉淀实验的结果。B) Gavin等人注释的Arp2/3复合体以及MCODE发现的参数根据数据集进行了优化。请注意,五个额外的蛋白质与主簇的连接最小。C) 从Arp2/3复合物的晶体结构看蛋白质连接图。晶体结构来自Bos金牛(奶牛),但基于奶牛和酵母Arp2/3亚基之间的高度相似性,假设与酵母非常相似。

为了探索某些MCODE参数对预测的复合物的影响,在改变特定参数并保持所有其他参数不变的情况下,研究了这些复合物的各种特征。线性增加VWP参数会以指数方式增加预测络合物的大小,同时减少以线性方式预测的络合物数量。4在关闭绒毛和理发参数的情况下显示了这种效果。在高VWP值下,预测了非常大的复合体,这些复合体包含了大部分数据集,因此不是很有用。

图4
图4

顶点权重百分比参数对预测复杂尺寸的影响图例:随着MCODE的顶点权重百分比(VWP)参数的增加,预测复合物的数量稳步减少,预测复合体的平均和最大尺寸呈指数级增加。y轴遵循对数刻度。作为参考,MIPS基准复合体的平均和最大大小分别为6和81,Gavin基准复合体分别为11.8和88。

因为使用first=TRUE将使MCODE能够完美预测Arp2/3络合物(根据上文讨论的晶体结构),所以我们检查了first参数是否对匹配预测络合物的数量有任何一般影响。将折扣设置为TRUE对高ω阈值下预测的复合物数量没有显著影响,但与折扣设置为FALSE相比,低ω阈值(0到0.1)下匹配的已知复合物数量通常会减少。由于剪发=TRUE选项删除了预测复合物边缘上连接较少的蛋白质,这减少了具有低重叠分数的预测复合物的数量,这些边缘蛋白质可能会导致已知复合物的低重叠(<0.2ω)。

我们还研究了当fluff=TRUE时改变绒毛密度阈值对匹配的基准复合体数量的影响。在MCODE后处理步骤中线性增加绒毛密度阈值可以线性减少重叠分数0.2以上的匹配复合物数量。

使用蛋白质相互作用和复合物的MIPS数据集评估MCODE

由于Gavin等人的数据集仅由一个小组使用单一的实验方法开发,因此它可能无法准确地表示酵母的蛋白质复合物知识。MIPS蛋白质复合物目录http://mips.gsf.de/proj/yeast/catalogies/complex/是根据文献汇编的一组260个酵母蛋白复合物的精选集,因此是一个更真实的数据集,由许多实验室使用不同技术进行的各种实验组成。过滤掉50个“复合物”后,每个复合物由一个蛋白质和两个高度相似的复合物组成,剩下208个复合物用于MIPS已知集合。这组数据不包括最近大规模质谱研究的信息[67]。虽然MIPS复合物目录可能不完整,但据我们所知,它是目前酵母蛋白复合物的最佳公共资源。

MCODE再次以完整的参数组合运行,这一次涉及4379个蛋白质之间的9088个蛋白质相互作用,其中不包括最近的大规模质谱研究,但包括MIPS的所有相互作用,YPD和PreBIND数据库以及迄今为止大多数大规模酵母双杂交实验[241034]。该交互集被称为“Pre-HTMS”。这组中的所有相互作用都是在MIPS蛋白质复合物目录上指定的最后一次更新之前发布的,其中许多包含在MIPS蛋白质相互作用表中,因此我们假设MIPS复合物目录考虑了已知相互作用表中的信息。将MCODE在这组中发现的蛋白质复合物与MIPS蛋白质复合物目录进行比较,以评估MCODE定位蛋白质复合物的性能从头算.

使用Gavin等人的数据集对MCODE进行的评估与MIPS数据集进行的评估相同。从该分析中,包括特异性与敏感性曲线(优化的敏感性=约0.27,特异性=约0.31),MIPS复合基准优化参数为firth=TRUE,fluff=TRUE,VWP=0.1,fluf密度阈值为0.2。该结果稳定到ω阈值0.6,之后很难评估结果,因为高于高ω阈值的预测络合物通常太少。该参数组合使MCODE预测了166个复合物,其中52个匹配64个MIPS复合物,ω至少为0.2。检查该参数集的ω分布表明,即使该预测得到了优化,大多数预测的复合物与已知MIPS集中的复合物也没有重叠(图5). 这里预测的络合物也与根据加文相互作用数据预测的络合物不同。九个复合体在这两组之间的重叠得分高于0.2,最高重叠得分为0.43,其余均低于0.27。这可能意味着MIPS复杂目录不完整,MCODE运行的数据集中没有足够的数据,或者复杂的人工注释定义与基于图形密度的定义不完全匹配。

图5
图5

预HTMS和全酵母相互作用集与MIPS复杂基准优化MCODE参数集的重叠分数分布图图例:显示了与MIPS基准复合物集相比,具有给定重叠分数阈值的预大规模质谱(pre-HTMS)和AllYeast蛋白-蛋白质相互作用集中MCODE预测复合物的数量。大多数预测复合物的重叠分数为零,这意味着它们与已知MIPS蛋白复合物的目录没有重叠。

VWP参数对络合物大小的影响以及剪毛和绒毛参数对匹配络合物数量的影响与在Gavin络合物基准上评估MCODE时看到的非常相似。

数据集属性对MCODE的影响

由于已知来自酵母的许多大规模蛋白质相互作用数据集包含高水平的假阳性[35],我们检查了这些可能对MCODE预测的影响。绘制了MCODE预测的敏感性与特异性对比图,所选参数用于根据不同数据集的MIPS和Gavin复合基准在ω阈值0.2下最大化这些值(图6).

图6
图6

不同数据集中MCODE结果的敏感性与特异性图图图例:针对MIPS(面板A)和Gavin(面板B)复杂基准,在重叠得分高于0.2的情况下,绘制了特异性与最佳MCODE结果敏感性的对比图。面板A显示,由显著不同的实验方法产生的相互作用数据集之间没有太大的内在差异(数据集:灵敏度、特异性;Y2H:10.10,0.27;基准:0.29,0.36;仅HTP:0.14;0.24;前HTMS:0.27,0.31;AllYeast:0.27,0.26;Gavin Spoke:0.10,0.38)。B组显示,Gavin基准预期偏向于Gavin相互作用数据集,因此不应用作一般基准(数据集:敏感性、特异性;Y2H:0.03,0.10;基准:0.11,0.16;仅HTP:0.24;0.33;Pre-HTMS:0.10,0.13;AllYeast:0.27,0.26;Gavin轮辐:0.31,0.79)。

MCODE对高通量数据集(称为“Gavin Spoke”、“Y2H”和“仅HTP”)的预测与文献衍生的交互数据集一样具体,但没有那么敏感(图6A级). MCODE对包含文献衍生基准(标记为“基准”、“Pre-HTMS”和“AllYeast”)的交互数据集的预测通常比仅包含大规模交互集的预测更为敏感和具体。由于特异性从Benchmark下降到Pre-HTMS,再到AllYeast,随着大量大规模数据的增加,可以认为添加这些数据会对MCODE产生负面影响。然而,众所周知,大规模数据包含大量假阳性,因此应该预计这些假阳性不会随机促成密集区域的形成,而密集区域极不可能偶然发生(见下文)。随着大规模数据的增加,应预测更多的复合物,假设该数据探索了相互作用组之前未发现的区域,但与添加的相互作用量相比,大量假阳性应限制新复合物的数量。这里使用的MIPS复合物基准预计不包含大规模研究中新发现的复合物,这解释了特异性降低的原因。这正是我们分析中发生的情况。为了进一步测试大规模数据对MCODE预测性能的影响,Benchmark交互作用数据集通过添加大规模实验中的交互作用进行了扩充,这些交互作用仅将Benchmart集中的蛋白质相互连接。向Benchmark数据集中添加了3100多个交互,创建了一组6400多个交互。MIPS复杂基准优化MCODE预测了52个复杂匹配66个MIPS基准复杂,几乎与使用自己设置的基准发现的复杂数量完全相同(表1). 这些分析强烈表明,添加大规模实验衍生的相互作用不会过度影响MCODE对络合物的预测。

表1不同数据集上最佳参数的MCODE结果汇总。

从图中可以看出6亿Gavin复杂基准集偏向于Gavin等人的轮辐建模交互数据。这是意料之中的,也是为什么在整个工作中使用偏少的MIPS复数集而不是Gavin集作为基准的主要原因。

由于联合免疫沉淀实验的结果是一组蛋白质,我们使用辐条法将其建模为二元相互作用,因此我们希望评估与产生纯二元相互反应结果的实验系统(如酵母双杂交)相比,这是否影响复杂预测。如表所示1,MCODE确实在只包含酵母双杂交结果的“Y2H”集合中找到了已知的复合物,因此该集合确实包含已知蛋白质复合物的致密区域。这就是说,Y2H集合是这里研究的所有数据集合中密度最低的,因此网络中密度较小的区域,因此集合中每个蛋白质的MCODE可预测复合物较少。MCODE预测了类似数量的复合物,并在Y2H和Gavin Spoke数据集中发现了类似数量已知复合物,这表明这些数据集所包含的密集网络区域的数量彼此之间没有显著差异,尽管它们的大小不同。综合后一结果和图中的结果6亿表明辐条模型是Gavin等人串联亲和纯化数据的合理表示。

预测酵母相互作用体中的复合物

鉴于MCODE在测试数据上表现相当好,我们决定在一个更大的网络中预测复合物[27101314]。收集并整合,形成一个由15143个实验确定的酵母蛋白相互作用组成的非冗余集合,其中包含4825个蛋白质,约占蛋白质组的四分之三。这组被称为“全酵母”。如上所述,使用MIPS基准对MCODE进行了参数优化。得到的最佳参数集为sharth=TRUE,fluff=TRUE,VWP=0,fluf密度阈值为0.1。利用这些参数,MCODE预测了209个复合物,其中54个与63个MIPS基准复合物匹配,重叠分数高于0.2(参见附加文件1). 以这种方式发现的复合物应该在定向模式下使用MCODE进行进一步研究,方法是指定一个种子顶点,并尝试不同的参数,以检查在添加看似生物无关的蛋白质之前复合物的大小(见下文)。

5结果表明,即使将一大组相互作用用作MCODE的输入,大多数MCODE预测的络合物与MIPS中的已知络合物也不匹配。MCODE预测复合体的复合体大小分布与MIPS集合的形状相匹配,但MCODE复合体平均更大(平均MIPS大小=6.0,平均MCODE预计大小=9.7)。MCODE预测复合物中每个蛋白质的YPD和GO功能注释项的平均数量与MIPS复合物相似(表2). 这似乎表明MCODE正在预测功能相关的复合物。此外,对得分最高、中间和最低的五种MCODE复合物进行更仔细的检查表明,MCODE可以预测生物相关复合物(表).

表2复杂集合中YPD和GO注释项的平均数目。
表3所有已知酵母蛋白相互作用数据集中发现的前五位、中五位和后五位评分优化MCODE预测复合物的统计

209个预测复合物中的许多是大小为2(9个预测复合物)或3(54个预测复合物)的。这种大小的复杂度可能并不重要,因为很容易创建大小为2或3的高密度子图,但随着子图大小的增加,随机创建高密度子图形在组合上变得更加困难。为了检查这些大小为2或3的小预测复合物的相关性,我们计算了优化MCODE预测相对于MIPS复合物基准的灵敏度和特异性,同时忽略了小复合物。首先,从优化的MCODE预测络合物集中移除大小为2的络合物,然后移除大小为3的络合物。单独删除这些集合只会导致较小的敏感性和特异性变化。因为这两个集合都与MIPS基准重叠,所以小的复合体被报告为预测。此外,由于MCODE在高局部密度区域发现了这些小复合体,因此它们可能是在定向模式下用MCODE进行进一步检查的好核心,特别是因为这里启用了剪切选项来生成它们。

较大和密度较大的配合物在MCODE中排名较高,这些配合物通常对应于已知的配合物(见下文)。有趣的是,一些MCODE复合体包含与已知复合体亚基高度连接的未知蛋白质。例如,排名第二高的MCODE复合物参与RNA处理/修饰,并包含已知的多聚腺苷酸化因子I复合物(Cft1、Cft2、Fip1、Pap1、Pfs2、Pta1、Ysh1、Yth1和Ykl059c)。其他七种主要参与RNA处理/修饰(Fir1、Hca4、Pcf11、Pti1、Ref2、Rna14、Ssu72)和蛋白质降解(Uba2和Ufd1)的蛋白质在该预测复合物中高度连接。两种未知蛋白Pti1和Yor179c与RNA加工/修饰蛋白高度相关,因此可能参与相同的过程(图7). Pti1可能是多聚腺苷化因子I复合物的未知成分。第23页第三方排名最高的预测复合物很有趣,因为它涉及细胞极性和胞质分裂,并且包含两种功能未知的蛋白质,即Yhr033w和Yal027w。Yal027w与两种激酶Gin4和Kcc4相互作用,这两种激酶又与Septin复合物的成分(Cdc3、Cdc10、Cdc11和Cdc12)相互作用(图8).

图7
图7

排名第二的MCODE预测复合物参与RNA加工和修饰图图例:该复合物包含已知的多聚腺苷酸化因子I复合物(Cft1、Cft2、Fip1、Pap1、Pfs2、Pta1、Ysh1、Yth1和Ykl059c),并包含与该复合物高度连接的其他蛋白质,一些功能未知。事实上,未知蛋白质(Yor179c和Pti1)与已知RNA加工/修饰蛋白质的连接比与更大数据集中的其他蛋白质的连接更多,这可能表明这些蛋白质在RNA加工/改造中起作用。MCODE将该复合物从AllYeast相互作用集的预测复合物中排名第二。

图8
图8

一种与细胞分裂有关的MCODE预测复合物图例:该预测复合物包含已知的参与胞质分裂和其他胞质分裂相关蛋白的Septin复合物(Cdc3、Cdc10、Cdc11和Cdc12)。Yal027w蛋白的功能未知,但根据此图,可能在细胞周期控制中发挥作用,可能在胞质分裂中发挥作用。该综合体排名第23位第三方由MCODE根据AllYeast相互作用集中的预测复合物。

MCODE预测的重要性

天真地说,从蛋白质相互作用网络中随机选取已知蛋白质复合体的机会取决于复合体和网络的大小。从较小的网络中随机挑选较小的已知复合体更容易。例如,在我们4825个蛋白质之间15143个相互作用的网络中,挑选一个已知的三号特定复合体的概率约为1.9×1010(4825选择3)。一个更现实的模型会假设蛋白质是连接的,因此只考虑三种蛋白质都连接的三种大小的复杂选择。现在,选择的数量取决于网络的拓扑结构。在我们的大型网络中,有6799个三级完全连接的子网和313057个三级子网,只有两个交互(来自Pajek的三元人口普查功能)。因此,现在我们选择一个更现实的复合体的机会是319856(1/(6799+313057)=3.1×10-6). 随着复数大小的增加,可能的复杂拓扑的数量呈指数级增加,在具有合理密度的连接网络中,可能表示复数的可能子图的数量也呈指数级增长。我们的大型蛋白质相互作用网络的密度为0.0013,并且大多数是相连的(4689个蛋白质位于一个相连的组分中)。因此,预计如果在MCODE与已知复合体匹配的网络中发现复合体,结果将非常显著。为了进一步了解复杂预测的重要性,必须大体了解蛋白质相互作用网络的拓扑结构,以便建立一个空模型进行比较。

复杂系统建模的最新研究[212527]发现诸如万维网、代谢网络等网络[26]和蛋白质相互作用网络[36]无标度。也就是说,图的顶点的连通性分布遵循幂律,低阶顶点多,高阶顶点少。众所周知,无标度网络具有较大的聚类系数或图的聚类区域。在生物网络中,至少在酵母中,这些聚集区域似乎对应于分子复合物,这些子图是MCODE设计的目的。

为了测试生物网络中聚集区域的重要性,对15143个酵母相互作用的大集合进行了100次随机排列。如果要随机化的图被视为两个顶点之间的一组边(v(v)1v(v)2),网络排列是通过随机排列所有v(v)2顶点。随机网络与原始网络具有相同数量的边和顶点,并且与原始数据集一样遵循幂律连接性分布[37]。在100个随机网络上使用与原始网络相同的参数运行MCODE(sharth=TRUE,fluff=TRUE,VWP=0,fluf密度阈值为0.1),每个网络平均产生27.4(SD=4.4)个复合体。MCODE发现的复合体的大小分布与原始网络中发现的复数的大小分布不匹配,因为在随机网络中发现的一些复合物由>1500个蛋白质组成。使用MIPS基准对一个具有近似平均预测复合物数量(27)的随机网络进行参数优化,以了解参数选择如何影响预测复合物的大小分布和数量。理发参数=TRUE、绒毛密度=TRUE,VWP=0.1和绒毛密度阈值为零的参数产生了该网络最大数量的81个复合物,但这些复合物平均由27个蛋白质组成(不计算1961大小的异常复合物),远大于正常值(例如,大于MIPS集平均值6.0)。这些预测的复合物中没有一个与重叠分数0.1以上的任何MIPS复合物相匹配。此外,与原始网络上的MIPS或MCODE相比,随机网络复合物每个复合物每个蛋白质的YPD和GO注释项的平均数量要高得多(表2). 这表明,与原始网络中的复合物相比,随机网络复合物由更高水平的无关蛋白质组成。因此,MCODE在所有酵母相互作用的大集合中预测的复合物的数量、大小和功能组成极不可能偶然发生。

为了评估评分方案的有效性,我们对不同评分阈值下MCODE预测的准确性进行了检查,该评分方案对较大、更密集的复合体评分高于较小、更稀疏的复合体。随着复合物纳入分数阈值的增加,纳入的复合物更少,但纳入的复合物质与基准中的复合物匹配的比例更高。这是以牺牲敏感性为代价的,因为许多基准匹配复合物没有以更高的分数阈值纳入(图9). 例如,在MCODE得分大于或等于6的10个预测复合物中,有9个在MIPS或Gavin基准中匹配高于0.2阈值重叠得分的已知复合物,产生90%的准确率。MCODE得分高于或等于7个已知配合物的五个配合物中的100%。因此,在我们简单的基于密度的评分方案中得分很高的复合体很可能是真实的。

图9
图9

复分阈值对MCODE预测精度的影响图图例:将等于或大于特定分数的MCODE复合体与包含MIPS和Gavin组合基准的基准进行比较。准确度的计算方法是,更好或等于阈值分数的已知复合物数量除以该阈值下预测复合物(匹配和非匹配)的总数。如果复合体的重叠分数高于0.2,则认为该复合体与已知复合体匹配。在每个得分阈值下与已知复合物匹配的预测复合物的数量在图上显示为标签。

MCODE的定向模式

为了模拟一个明显的例子,即MCODE的定向模式是有用的,与AllYeast网络上的最佳参数相比,MCODE以宽松的参数运行(shirt=TRUE,fluff=TRUE,VWP=0.05,fluff密度阈值为0.2),显示了两个聚集的成分,并代表两个蛋白质复合物,蛋白酶体和RNA加工复合物,两者都存在于细胞核中(图10). 这是一个较低的VWP参数更优越的示例,因为它会将这个大型复合体分为两个功能更相关的复合体。图中两个密集区域中心的最高加权顶点10是Rpt1和Lsm4蛋白质。MCODE以直接模式运行,从这两个蛋白质开始,VWP参数范围从0到0.2,增量为0.05。对于Lsm4,使用参数集first=TRUE,fluff=FALSE,VWP=0来查找核心复合物,其中包含9个彼此完全连接的蛋白质(Dcp1、Kem1、Lsm2、Lsm3、Lsm4、Lsm5、Lsm6、Lsm7和Pat1)。在这个VWP参数以上,核心复合物分支成蛋白酶体亚单位蛋白,这些蛋白不是Lsm复合物的一部分(见图第11页). 使用该VWP参数,结合理发和绒毛参数,进一步扩展核心复合体。当预测的复合物开始包括与种子顶点具有足够不同的已知生物功能的蛋白质时,这一过程停止。蛋白质,如Vam6和Yor320c,在中等绒毛参数(0.4–0.6)下包含在复合物中,但在较高绒毛参数下不包含,这些已知定位于细胞核外的膜中,因此可能与Lsm复合物蛋白质在功能上无关。因此,上述9种蛋白质被确定为最终复合物(图11亿). 这是直观的,因为它们的最大密度(9团)。

图10
图10

MCODE预测复数太大(松弛参数)图例:一个包含两种复合物的预测复合物的例子,蛋白酶体(左)和RNA加工复合物(右)。这些可能应该被预测为单独的复合体,可以通过该布局一侧与另一侧(紫色与蓝色)的生物角色注释的明显区别看到。然而,该图显示了这两个综合体之间的大量整体连通性。MCODE将该复合物从AllYeast相互作用集合中的预测复合物中排名第四,与优化预测相比,参数稍微放宽。

图11
图11

MCODE处于定向模式图图例:MCODE用于定向模式,以进一步研究图中的复合体10通过使用来自此复合体两部分的高密度区域的种子顶点。A) 使用过于宽松的MCODE参数检查Lsm复合体的结果(shirt=TRUE,fluff=FALSE,VWP=0.05)。B) 最终的Lsm复数使用MCODE参数,即sharth=TRUE、fluff=FALSE和VWP=0,并用Lsm4播种。C) 最后的26S蛋白酶体复合体使用MCODE参数first=TRUE、fluff=TRUE和VWP=0.2接种Rpt1。可见,该复合物中有两个密度区域,分别对应于20S蛋白水解酶亚基(左侧-主要是前蛋白)和19S调节亚基(右侧-主要是Rpt和Rpn蛋白)。

使用已知生物作用的相同方法“滴定”Rpt1发现34个蛋白质的复合物(Gal4、Gcn4、Hsm3、Lhs1、Nas6、Pre1、Pre2、Pre3、Pre4、Pre5、Pre6、Pre7、Pre9、Pup3、Rpn10、Rpn11、Rpn13、Rpn3、Rpn5、Rpn6、Rpn7、Rpn8、Rpn9、Rpt1、Rpt2、Rpt3、Rpt4、Rpt6、Rri1、Scl1、Sts1、Ubp6、Ydr179c、Ygl004c)和160次交互,使用参数集haird=TRUE、fluff=TRUE,VWP=0.2和fluff密度阈值0.3。这里可以看到两个密度区域,对应于26S蛋白酶体的两个已知亚单位。蛋白酶体的20S蛋白水解亚基由15种蛋白质(Pre1至Pre10、Pup1、Pup2、Pup3、Scl1和Ump1)组成,其中在MCODE中未发现Pre7、Pre8、Pre10、Pup1、Pup2和Ump1。已知蛋白酶体的19S调节亚基有21个亚基(Nas6、Rpn1到Rpn13、Rpt1到Rpt6和Ubp6),其中Rpn1、Rpn2、Rpn4、Rpn12和Rpt5在MCODE中未发现。MCODE没有发现的已知复杂组分在相互作用网络的足够高的局部密度区域不存在,可能是因为我们的数据集中没有足够的涉及这些蛋白质的实验。11摄氏度显示了最终的Rpt1种子复合体。值得注意的是,Ygl004c是未知的,它几乎与复合物中的每个Rpt和Rpn蛋白结合,尽管所有这些相互作用都来自一个单一的免疫沉淀实验[6]。此外,Rri1和Ydr179c具有未知功能,两者相互绑定并绑定到Rpn5。因此,可以预测这三种未知蛋白质与26S蛋白酶体一起或作为其一部分发挥作用。蛋白质Hsm3与其他八个19S亚单位结合,参与DNA错配修复途径,但尚不清楚它是蛋白酶体的一部分,尽管所有这些Hsm3相互作用都来自一个特定的大规模实验[7]。有趣的是,半乳糖代谢相关的转录因子Gal4被发现是蛋白酶体复合体的一部分。虽然这种代谢功能似乎与蛋白质降解无关,但最近的研究表明,这种结合在生理上是相关的[38]。这些案例说明了功能注释和相互作用数据可能不可靠,但如果MCODE发现看似无关的蛋白质是复合物的一部分,则不应立即忽略。

值得注意的是,26S蛋白酶体的已知拓扑结构[39]与复杂的图形可视化相比11摄氏度不考虑化学计量。因此,如果已知足够多的相互作用,可视化复合物可能会揭示大型复合物的大致结构轮廓。在处理实际的物理蛋白质-蛋白质相互作用时,这应该是意料之中的,因为考虑到蛋白质亚单位之间定义的相互作用和空间位阻的特定集合,大型复合物几乎没有允许的拓扑结构。

复杂的连接性

MCODE也可用于检查分子复合物之间的连接性和关系。一旦使用定向模式知道复数,就可以放宽MCODE参数,以允许分支到其他复数。还必须关闭MCODE定向模式预处理步骤,以允许MCODE分支到其他连接的复合体,这些复合体可能位于图中比种子顶点更密集的区域中。例如,这是用Lsm4种子复合体完成的(图12). MCODE参数放宽至hirst=TRUE,fluff=FALSE,VWP=0.2,尽管它们可以进一步放宽以扩大网络范围。

图12
图12

使用MCODE检查复杂连接图例:这里显示的复合物是已知的核定位复合物,涉及蛋白质降解(19S蛋白酶体亚基)、mRNA加工(Lsm复合物和mRNA裂解/聚腺苷酸化复合物)、细胞周期(后期促进复合物)和转录(SAGA转录激活复合物)。

讨论

这种方法代表了利用许多大规模蛋白质相互作用研究产生的蛋白质功能数据的第一步。随着实验方法的进一步发展,将产生越来越多的数据,这将需要计算方法来进行有效解释。这里描述的算法允许从定性蛋白质相互作用数据中自动预测蛋白质复合体,因此能够帮助预测未知蛋白质的功能,并有助于理解细胞中分子复合体的功能连接性。该方法的一般性质也允许对蛋白质以外的分子进行复杂预测,例如包括小分子的代谢复合物。

MCODE无法独立完成此任务;它必须与图形可视化系统相结合,以便于理解数据集中分子之间的关系。我们使用Pajek程序进行大型网络分析[40]使用Kamada-Kawai图形布局算法[41]。Kamada-Kawai将图中的边建模为弹簧,随机将顶点置于高能状态,然后尝试在多个时间步长内最小化系统的能量。结果是,平面中的欧氏距离接近于顶点之间的图形理论距离或路径距离。这些顶点是基于连通性进行可视化聚集的。从生物学角度来看,如果已知足够的相互作用,这种可视化可以让人们看到大型复合物的大致结构轮廓,正如上面的蛋白酶体复合物分析所证明的那样(图11摄氏度).

重要的是要注意和理解当前实验方法的局限性(例如酵母双杂交和联合免疫沉淀)以及这些技术在分析结果数据时产生的蛋白质相互作用网络。由许多不同的实验方法产生的一类常见的假阳性相互作用是间接相互作用。例如,使用特定的实验方法可以看到两个蛋白质之间的相互作用,但实际上,这些蛋白质并没有物理上相互结合,通常属于同一复合物的一个或多个其他分子介导了观察到的相互作用。如图所示,Arp2/3复合体当研究复合物中所有蛋白质组合之间的成对相互作用时,这会创建一个非常密集的图形。有趣的是,这种假阳性效应通常被认为是一个缺点,但使用MCODE是一个优点,因为它增加了包含复数的图形区域的密度,从而更容易预测。

除了导致假阳性和假阴性相互作用的实验因素外,在计算上也存在代表性限制。交互网络中目前没有描述时间和空间信息。MCODE方法发现的复合物可能并不实际存在,即使所有组成蛋白都相互结合在体外这些蛋白质可能永远不会在同一时间和地点出现。例如,执行不同功能的分子复合物有时具有与三种真核RNA聚合酶相同的亚单位。

生物数据的另一个重要方面,复杂化学计量学也没有表示出来。虽然可以在生物分子相互作用网络的图形表示中包含完整的化学计量,但许多实验方法都不提供此信息,因此同源多聚物通常表示为简单的同源二聚体。当实验确实提供化学计量信息时,它不会存储在大多数当前数据库中,例如MIPS和YPD。因此,人们不得不回到原始文献中提取数据,这对于大型数据集来说是一项非常耗时的任务。

当集成大规模方法的结果时,会出现一些定量和统计信息,这在我们当前的图形模型中没有使用。例如,发现相同交互作用的不同类型实验的数量、实验的质量、实验进行的日期(较新的方法可能在某些方面更优越)与交互可靠性有关的其他因素都可以考虑,以确定图中边的可靠性指标或p值。例如,在确定相互作用数据的质量时,人们可能希望将高影响力期刊上发表的结果排在其他期刊之上(反之亦然),并将经典纯化方法排在高通量酵母双杂交技术之上。也可以通过其他质量标准对图上的顶点进行加权,例如某个蛋白质是否是根据基因预测假设的,或者某个蛋白质在细胞中的特定时间和地点表达。例如,如果有人对细胞周期的某一阶段感兴趣,那么与存在的蛋白质相比,已知在该阶段缺失的蛋白质的重量(MCODE中的VWP)可能会减少。应该注意的是,任何试图评估交互质量的加权方案都可能做出错误的假设,从而阻止新的有趣数据的发现。

本文表明,生物网络的结构可以定义复合物,可以将其视为密集区域。这可能归因于文献中积累的间接交互作用。因此,脱离上下文的交互数据可能是错误的。例如,如果一个人收集了来自不同实验室在不同时间进行的各种不同实验的蛋白质相互作用,这些实验来自形成集团的特定复合物,如果他从这个集团中选择了一种相互作用,那么他如何验证它是否是间接的。只有当我们从原始论文中对实验进行了非常详细的描述时,我们才开始知道,在原始论文中,我们可以知道测量每个交互作用所需的工作量和工作质量。因此,参照Dobzhansky,只有交互的定性观点[42],生物分子相互作用网络中的任何东西都没有意义,除非考虑到分子复合物及其之间的功能联系。如果人们对每一种相互作用都有一个高度详细的表示,包括时间、地点、实验条件、实验次数、结合位点、化学作用和化学状态信息,那么人们将能够通过计算深入研究分子复合物,以解决拓扑、结构、功能和机制,直至原子水平。这些信息还将有助于判断相互作用的生物相关性。因此,我们需要像BIND这样的数据库[15]以存储此信息。以机器可读的格式整合已知的定性和定量分子相互作用数据,应允许越来越准确的蛋白质相互作用、分子复合物和通路预测,包括序列和结构背景中的实际结合位点和机制信息。

基于我们的无标度网络分析,似乎真实生物网络的组织方式与无标度随机网络模型不同,因为它们在特定区域(复合体)周围具有较高的聚类系数,并且这些区域中的顶点通过生物功能相互关联。因此,仅使用无标度网络的统计数据以全球方式对生物网络及其演化进行建模的尝试可能行不通,而建模应尽可能考虑到现有的生物知识。

MCODE的未来工作可能包括研究不同的(可能是自适应的)顶点评分函数,以考虑到,例如,通过顶点的直接邻域的网络局部密度,以及在边上包含函数注释和p值。时间、空间和化学计量也应在网络和可视化系统中表示。MCODE定向模式下的“功能注释滴定”过程可以自动化。

结论

MCODE仅基于连接性数据就有效地找到了分子相互作用网络的密集连接区域,其中许多区域对应于已知的分子复合物。鉴于这种分析蛋白质相互作用网络的方法使用最少的定性信息表现良好,这意味着大量可用的知识被埋藏在大型蛋白质相互作用网中。可以构建更准确的数据挖掘算法和系统模型,通过考虑更多现有的生物知识来理解和预测相互作用、复合物和途径。结构化分子相互作用数据资源(如BIND)在创建这些资源时至关重要。

方法

数据来源

来自MIPS的所有蛋白质相互作用数据集[13]、基因本体[43]和PreBINDhttp://bioinfo.mshri.on.ca/prebind/如前所述收集[6]。YPD蛋白质相互作用数据来自2001年3月,最初要求Proteome公司提供。http://www.proteome.com网站其他交互数据集来自BIND网址:http://www.bind.ca开发了一个BIND酵母导入实用程序来整合来自SGD的数据[12],参考序列[44],基因注册http://genome-www.standord.edu/Saccharomyces/registry.html,酵母缺失联合体的必需基因列表[11]和GO术语[43]。该数据库确保了酵母基因名称在多个数据集之间的正确匹配,这些数据集可能对相同的基因使用不同的名称。此处使用的酵母蛋白质组由SGD和RefSeq定义,包含6334个ORF,包括线粒体染色体。在进行比较之前,将各种交互数据集作为成对蛋白质交互记录输入BIND的本地实例。MIPS复杂目录于2002年2月下载。

这里使用的蛋白质相互作用数据集组成如下。”“Gavin Spoke”是Gavin等人的原始纯化的辐条模型[7]. 'Y2H’是众所周知的大型[2510]结合MIPS的正常酵母双杂交结果。”仅HTP“是高吞吐量或大规模数据[2710]如前所述,“基准”集合由MIPS、YPD和PreBIND构建[6]. '除最近的大规模质谱数据集外,Pre-HTMS由所有酵母集组成[67]. '“AllYeast”是上述所有数据集的组合。所有数据集都是非冗余的。

网络可视化

使用Pajek程序对大型网络分析进行网络可视化[40]http://vlado.fmf.uni-lj.si/pub/networks/pajek/如前所述[610]。使用Kamada-Kawai图形布局算法,然后进行手动顶点调整,并使用CorelDraw 10进行格式化。幂律分析也如前所述完成[6].

工具书类

  1. 字段S:蛋白质组学。基因组领域的蛋白质组学。 科学类2001,291:1221–1224. 10.1126/科学291.5507.1221

    第条 中国科学院 公共医学 谷歌学者 

  2. Uetz P、Giot L、Cagney G、Mansfield TA、Judson RS、Knight JR、,.:酿酒酵母蛋白质相互作用的综合分析。 自然2000,403:623–627. 10.1038/35001009

    第条 计算机辅助系统 公共医学 谷歌学者 

  3. 伊藤T、千叶T、小泽R、吉田M、服部M、坂木Y:综合双杂交分析探索酵母蛋白相互作用组。 美国国家科学院程序2001,98:4569–4574. 10.1073/pnas.061034498

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  4. Drees BL、Sundin B、Brazeau E、Caviston JP、Chen GC、Guo W、,.:细胞极性发育的蛋白质相互作用图。 J细胞生物学2001,154:549–571. 10.1083/jcb.200104057

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  5. Fromont Racine M、Mayes AE、Brunet Simon A、Rain JC、Colley A、Dix I、,.:全基因组蛋白质相互作用筛选揭示了涉及类Sm蛋白的功能网络。 酵母2000,17:95–110.10.1002/1097-0061(20000630)17:2<95::AID-YEA16>3.0.CO;2-H型

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  6. Ho Y、Gruhler A、Heilbut A、Bader GD、Moore L、Adams SL、,.:用质谱法系统鉴定酿酒酵母中的蛋白质复合物。 自然2002,415:180–183. 10.1038/415180a

    第条 中国科学院 公共医学 谷歌学者 

  7. Gavin AC、Bosche M、Krause R、Grandi P、Marzioch M、Bauer A、,.:通过蛋白质复合物的系统分析对酵母蛋白质组进行功能组织。 自然2002,415:141–147. 10.1038/415141a

    第条 计算机辅助系统 公共医学 谷歌学者 

  8. Christendat D、Yee A、Dharamsi A、Kluger Y、Savchenko A、Cort JR、,.:古菌的结构蛋白质组学。 自然结构生物2000,7:903–909. 10.1038/82823

    第条 计算机辅助系统 公共医学 谷歌学者 

  9. Kim SK、Lund J、Kiraly M、Duke K、Jiang M、Stuart JM、,.:秀丽隐杆线虫基因表达图谱。 科学类2001,293:2087–2092. 10.1126/科学.1061603

    第条 中国科学院 公共医学 谷歌学者 

  10. Tong AH、Drees B、Nardelli G、Bader GD、Brannetti B、Castagnoli L、,.:一种结合实验和计算的策略,用于定义肽识别模块的蛋白质相互作用网络。 科学类2002,295:321–324. 10.1126/科学.1064987

    第条 中国科学院 公共医学 谷歌学者 

  11. Winzeler EA、鞋匠DD、Astromoff A、Liang H、Anderson K、Andre B、,.:通过基因缺失和平行分析对酿酒酵母基因组进行功能表征。 科学类1999年,285:901–906. 10.1126/科学285.5429.901

    第条 中国科学院 公共医学 谷歌学者 

  12. Chervitz SA、Hester ET、Ball CA、Dolinski K、Dwight SS、Harris MA、,.:使用酵母基因组数据库(SGD)分析蛋白质相似性和结构。 核酸研究1999年,27:74–78.10.1093/nar/27.174

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  13. Mewes HW、Frishman D、Gruber C、Geier B、Haase D、Kaps A、,.:MIPS:基因组和蛋白质序列数据库。 核酸研究2000,28:37–40.10.1093/nar/28.1.37

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  14. Costanzo MC、Crawford ME、Hirschman JE、Kranz JE、Olsen P、Robertson LS、,.:YPD、PombePD和WormPD:生物知识库的模型生物体积,蛋白质信息的集成资源。 核酸研究2001年,29:75–79.10.1093/nar/29.1.75

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  15. Bader GD、Donaldson I、Wolting C、Ouellette BF、Pawson T、Hogue CW:BIND-生物分子相互作用网络数据库。 核酸研究2001,29日:242–245. 10.1093/nar/29.1.242

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  16. Xenarios I、Salwinski L、Duan XJ、Higney P、Kim SM、Eisenberg D:DIP,相互作用蛋白质数据库:研究蛋白质相互作用的细胞网络的研究工具。 核酸研究2002,30:303–305. 10.1093/nar/30.1.303

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  17. Takai-Igarashi T、Nadaoka Y、Kaminuma T:用于细胞信号网络的数据库。 计算机生物学杂志1998,5:747–754.

    第条 中国科学院 公共医学 谷歌学者 

  18. Wingender E、Chen X、Hehl R、Karas H、Liebich I、Matys V、,.:TRANSFAC:基因表达调控的集成系统。 核酸研究2000,28:316–319. 10.1093/nar/28.1.316

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  19. Karp PD、Riley M、Saier M、Paulsen IT、Paley SM、Pellegrini-Toole A:EcoCyc和MetaCyc数据库。 核酸研究2000,28:56–59.10.1093/nar/28.156

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  20. Overbeek R、Larsen N、Pusch GD、D'Souza M、Selkov EJ、Kyrpides N、,.:WIT:高通量基因组序列分析和代谢重建集成系统。 核酸研究2000,28:123–125. 10.1093/nar/28.1123

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  21. Wagner A,Fell DA:大代谢网络中的小世界。 Proc R Soc Lond B生物科学2001,268:1803–1810. 10.1098/rspb.2001.1711

    第条 中国科学院 谷歌学者 

  22. Flake GW、Lawrence S、Giles CL、Coetzee FM:网络的自我组织和社区的识别。 IEEE计算机2002,35:66–71. 10.1109/2.989932

    第条 谷歌学者 

  23. Goldberg AV公司:查找最大密度子图。 加州大学伯克利分校UCB/CSD技术报告1984.,84:

    谷歌学者 

  24. Ng A、Jordan M、Weiss Y:关于谱聚类:分析和算法。 神经信息处理系统的进展14:2001年会议记录2001

    谷歌学者 

  25. Watts DJ、Strogatz SH:“小世界”网络的集体动态。 自然1998,393页:440–442. 10.1038/30918

    第条 中国科学院 公共医学 谷歌学者 

  26. Jeong H、Tombor B、Albert R、Oltvai ZN、Barabasi AL:代谢网络的大规模组织。 自然2000,407:651–654页。10.1038/35036627

    第条 中国科学院 公共医学 谷歌学者 

  27. Albert R、Jeong H、Barabasi AL:复杂网络的容错和攻击。 自然2000,406中:378–382. 10.1038/35019019

    第条 中国科学院 公共医学 谷歌学者 

  28. Barabasi AL、Albert R:随机网络中尺度的出现。 科学类1999年,286页:509–512. 10.1126/科学286.5439.509

    第条 公共医学 谷歌学者 

  29. 费尔·DA,瓦格纳A:新陈代谢的小世界。 Nat生物技术2000,18日:1121–1122. 10.1038/81025

    第条 计算机辅助系统 公共医学 谷歌学者 

  30. Hartuv E、Shamir R:一种基于图连通性的聚类算法。 信息处理信函1999年,76:175–181. 10.1016/S0020-0190(00)00142-3

    第条 谷歌学者 

  31. Bader GD,霍格CW:分析从不同来源获得的酵母蛋白质相互作用数据。 Nat生物技术2002,20:991–997. 10.1038/nbt1002-991

    第条 中国科学院 公共医学 谷歌学者 

  32. Baldi P、Brunak S、Chauvin Y、Andersen CA、Nielsen H:评估分类预测算法的准确性:概述。 生物信息学2000,16日:412–424. 10.1093/生物信息学/16.5.412

    第条 中国科学院 公共医学 谷歌学者 

  33. Robinson RC、Turbedsky K、Kaiser DA、Marchand JB、Higgs HN、Choe S、,.:Arp2/3配合物的晶体结构。 科学类2001,294:1679–1684. 10.1126/科学.1066333

    第条 中国科学院 公共医学 谷歌学者 

  34. Mayes AE、Verdone L、Legrain P、Beggs JD:酵母中类Sm蛋白的特征及其与U6 snRNA的关联。 欧洲工商管理硕士J1999年,18日:4321–4331. 10.1093/emboj/18.15.4321

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  35. von Mering C、Krause R、Snel B、Cornell M、Oliver SG、Fields S、,.:蛋白质相互作用大规模数据集的比较评估。 自然2002,417:399–403. 10.1038/自然750

    第条 中国科学院 公共医学 谷歌学者 

  36. Jeong H、Mason SP、Barabasi AL、Oltvai ZN:蛋白质网络中的致死性和中心性。 自然2001,411:41–42. 10.1038/35075138

    第条 中国科学院 公共医学 谷歌学者 

  37. 马斯洛夫·S、斯内彭·K:蛋白质网络拓扑的特异性和稳定性。 科学类2002,296:910–913. 10.1126/科学.1065103

    第条 中国科学院 公共医学 谷歌学者 

  38. Gonzalez F、Delahode A、Kodadek T、Johnston SA:激活启动子招募19S蛋白酶体亚复合物。 科学类2002,296:548–550. 10.1126/科学.1069490

    第条 中国科学院 公共医学 谷歌学者 

  39. Bochtler M、Ditzel L、Groll M、Hartmann C、Huber R:蛋白酶体。 生物物理生物分子结构年鉴1999年,28:295–317. 10.1146/anurev.biophys.28.1.295

    第条 中国科学院 公共医学 谷歌学者 

  40. Batagelj V、Mrvar A:Pajek–大型网络分析程序。 连接1998,2:47–57.

    谷歌学者 

  41. Kamada T、Kawai S:绘制一般间接图的算法。 信息处理信函1989,31:7–15. 10.1016/0020-0190(89)90102-6

    第条 谷歌学者 

  42. 多布赞斯基T:除了从进化的角度来看,生物学中没有任何东西是有意义的。 美国生物教师1973,35:125–129.

    第条 谷歌学者 

  43. 基因本体联盟:基因本体论:生物学统一的工具。 自然基因2000,25:25–29. 10.1038/75556

    第条 公共医学中心 谷歌学者 

  44. 普鲁特KD,马格洛特DR:RefSeq和LocusLink:NCBI以基因为中心的资源。 核酸研究2001,29:137–140. 10.1093/nar/29.1.137

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

下载参考资料

致谢

米歇尔·杜蒙蒂(Michel Dumonier)、谢丽·凯利(Sherrie Kelly)、卡特琳娜·米查利科娃(Katerina Michalickova)、托尼·鲍森(Tony Pawson)和迈克·泰勒(Mike Tyers)提供了有益的讨论。这项工作得到了加拿大卫生研究院(CIHR)、安大略研究与发展挑战基金和MDS-Sciex向C.H.G.D.B.提供的部分资助,并得到了安大略省研究生奖学金(OGS)的支持。

作者信息

作者和附属机构

作者

通讯作者

与的通信克里斯托弗·霍格.

其他信息

作者的贡献

作为CH.CH实验室的博士生,GB构思了该研究,并进行了所有编程和分析。CH.CH监督了该研究并为评估分析提供了有价值的输入。

电子辅助材料

12859_2002_52_MOESM1_ESM.zip

附加文件1:AllYeastPredictedComplexes.zip zip文件,其中包含使用MCODE在此处报告的所有酵母相互作用集合中发现的所有209个复合物的Pajek.net和注释文件。还包括来自MCODE的各种报告文件以及使用Pajek的基本说明。(邮政编码510 KB)

作者提交的原始图像文件

权利和权限

转载和许可

关于本文

引用这篇文章

Bader,G.D.,Hogue,C.W.一种在大型蛋白质相互作用网络中寻找分子复合物的自动化方法。BMC生物信息学 4, 2 (2003). https://doi.org/10.1186/1471-2105-4-2

下载引文

  • 收到:

  • 已接受:

  • 出版:

  • DOI程序:https://doi.org/10.1186/1471-2105-4-2

关键词