MCODE评估
MCODE的评估需要一组实验确定的生物分子相互作用和一组相关的实验确定的分子复合物。目前,此类数据的最大来源是来自芽殖酵母的蛋白质,酿酒酵母最近,Gavin等人进行了大规模质谱研究[7]提供了大量蛋白质与人工注释的分子复合物相互作用的数据集。还提供了MIPS的蛋白质相互作用和复杂表格[13]和YPD[14]。MCODE用于在我们收集的蛋白质相互作用数据集中自动预测蛋白质复合物。然后使用重叠分数将得到的配合物与Gavin等人(Gavin基准)和MIPS基准的已知分子配合物进行匹配。然后根据给定的基准,使用参数优化来最大化预测复合物的生物相关性。未使用YPD,因为无法获取当前版本。
为了确保MCODE不会受到大规模交互数据集中预期的高假阳性率的过度影响,对大规模MCODE预测和文献推导的MCODE预计进行了比较。然后,使用MCODE预测我们可以为酵母收集的整套机器可读的蛋白质-蛋白质相互作用中的复合物。然后使用MCODE的定向模式和复杂连接性模式进一步检查感兴趣的复合体。
使用蛋白质相互作用和复合物的Gavin数据集评估MCODE
在本研究中,我们希望使用所有形式的可用蛋白质相互作用数据,这需要混合不同类型的实验,例如酵母双杂交和联合免疫沉淀。两个杂交结果本质上是成对的,而铜提纯结果是一组或多个已鉴定的蛋白质。对于copurification结果,只有大小为2的一组可以直接视为成对交互作用,否则必须将其建模为一组假设交互作用。生化铜净化可以被认为是具有一些潜在的成对蛋白质相互作用拓扑结构的复合物群体,而这些拓扑结构在实验中是未知的。在Gavin等人使用的纯化的一般情况下,使用一种亲和力标记的蛋白质作为诱饵,从酵母细胞裂解液中提取相关蛋白质。单一纯化实验中复合物种群拓扑结构的两个极端情况是最小连接的“辐条”模型,其中数据被建模为直接的毒饵相关蛋白质成对相互作用,以及最大连接的“矩阵”模型,其中数据被建模为连接到集合中所有其他蛋白质的所有蛋白质。蛋白质组的真正拓扑结构必须位于这两个极端之间。
综合体数量:C= {b、 c、d、e} (b=诱饵)
轮辐模型假设交互:我
S公司
==============================================================================={b-c、b-d、b-e}
矩阵模型假设交互作用;我
M(M)
= {b-b、b-c、b-d、b-e、c-c、c-d、c-e、d-d、d-e、e-e}
辐条模型的优点是它具有生物直观性,生物学家经常以这种方式表示他们的铜提纯结果,并且比矩阵模型精确约3倍[31]。缺点是它可能歪曲交互。另外,矩阵模型也不能歪曲交互,因为所有可能的交互都会生成,但这是以生成大量虚假交互为代价的。矩阵拓扑在物理上也不适用于较大的配合物,因为如果所有亚基都与所有其他亚基相互作用,则空间位阻的可能性会增加。最终,辐条模型在评估MCODE时应该是合理的。
Gavin等人使用上述辐条模型表示588个生化纯化的原始数据,以获得1363个蛋白质之间的3225个假设蛋白质相互作用,以输入MCODE。根据Gavin等人报告的原始纯化数据,筛选了232个手动注释的蛋白质复合物列表,以删除五个报告的“复合物”,每个复合物由单个蛋白质组成,以及数据集中已作为较大复合物一部分的两个或三个蛋白质的六个复合物。这产生了一组221个用于评估MCODE的过滤复合物,尽管其中一些复合物与该组中的其他复合物有显著重叠。
为了评估哪种参数选择能够从辐条模型Gavin等人的交互集中自动预测与手动注释的复合物最匹配的蛋白质复合物,使用两个布尔参数的所有四种可能组合运行MCODE(shirt:true/false,fluff:true/falise)在20个顶点权重百分比(VWP)和绒毛参数(0到0.95,增量为0.05)的完整范围内。在此参数优化过程中,MCODE仅限于找到大小为2或更大的复合体。
开发了一种评分方案,以确定MCODE预测的复合体与基准复合体集合中的复合体匹配的有效性。在本例中,基准复数集是Gavin等人的手注复数集。重叠分数定义为ω=我2/一*b,其中我是预测复数与已知复数的交集大小,一是预测复合体的大小b是已知复合体的大小。只有当蛋白质存在于预测的和已知的复合物中时,它才是交集的一部分。因此,已知复合物中没有蛋白质的预测复合物具有ω=0,与已知复合物完全匹配的预测复合体具有ω=1。此外,完全重叠但比任何已知络合物大得多或小得多的预测络合物将得到低ω。假设复合物的基准集具有生物学相关性,则预测复合物与基准复合物的重叠分数是预测的生物学意义的度量。在这个蛋白质相互作用数据集上,MCODE的最佳参数选择是预测最大的复合体集,该复合体集与阈值ω以上的最大数量的基准复合体匹配。由于Gavin基准复合体数据库中存在重叠,因此预测的复合体可能会匹配多个具有高ω的已知复合体。
为了选择在不过滤掉太多预测的情况下使预测复合物的生物相关性最大化的重叠分数,在参数优化阶段测试840个参数组合中的每一个。MCODE预测的络合物数量与匹配的已知络合物数量在ω阈值范围内(从“无阈值”到0.1到0.9(增量为0.1))绘制。如果没有使用ω阈值,则预测的复合物只需要与已知复合物共有至少一个蛋白质即可被视为匹配。如果仅当ω高于特定阈值时,预测的和已知的络合物才被视为匹配,那么匹配络合物的数量会随着ω阈值的增加而减少,如图所示1有趣的是,匹配的已知复合物的平均和最大数量从零下降到ω阈值0.2的速度比从0.2下降到0.9的速度更快,这表明许多预测的复合物只有一个或几个与已知复合物重叠的蛋白质。因此,0.2到0.3的ω阈值似乎可以过滤掉与已知络合物没有明显重叠的大多数预测络合物。
图2显示了在所有尝试的MCODE参数中,预测的络合物数量范围和匹配0.2Ω阈值的已知络合物数量。此外,还绘制了一条y=x线,以表明由于Gavin复数基准中的冗余,数据点倾向于倾向于比预测复数更多的匹配已知复数。最靠近图右上部分的数据点最大化了匹配的已知复数和预测复数。产生这些数据点的MCODE参数组合因此在此数据集上优化MCODE(根据重叠分数阈值)。这一结果表明,预测的络合物数量应该与匹配的已知络合物数量相似,这样参数选择才合理,尽管匹配的已知复合物数量可能会更大,因为基准集中的络合物之间存在一些共性。重叠得分阈值为0.2时,与最佳数据点(63,88)相对应的参数组合为first=FALSE,fluff=TRUE,VWP=0.05,fluf密度阈值介于0和0.1之间。在该数据集上,MCODE的这些参数优化结果在ω阈值范围内(高达0.5)是稳定的。高于0.5时,结果不稳定,因为具有高重叠分数的预测复合物通常太少(图1).
特异性与敏感性分析[32]也执行了。将真阳性数(TP)定义为ω超过阈值的MCODE预测复数,假阳性数(FP)定义为预测MCODE复数减去TP的总数。假阴性数(FN)等于已知基准复合体的数量,而预测复合体与之不匹配。敏感性被定义为[TP/(TP+FN)],特异性被定义为[PP/(TP+FP)]。优化特异性和敏感性的MCODE参数选择与上述分析相同。该分析的最佳灵敏度为~0.31,相应的特异性为~0.79。
63个MCODE预测的复合物仅与已知数据集中221个复合物中的88个匹配,这表明MCODE无法仅使用蛋白质连接性信息来重述大多数Gavin复合物基准。如上所述,由于基准中存在一些冗余,因此匹配的复合物比预测的多。这种低灵敏度并不奇怪,因为许多人工合成的复合物是直接从单一的联合免疫沉淀结果中创建的,在辐条模型中没有高度互联。例如,Cdc3被用作诱饵以共同免疫沉淀Cdc10、Cdc11、Cdc12和Ydl225w。一个复合物被注释为含有这五种蛋白质,但只有Cdc3被用作诱饵。如果复合物中有更多的元素被用作诱饵,这些蛋白质就会变得更加相互关联,也更容易被MCODE预测。Arp2/3复合体就是一个很好的例子,它在真核生物中高度保守,参与肌动蛋白细胞骨架重排。这种复合物的结构由X射线晶体学所知[33]因此,结构上的实际蛋白质相互作用可以与联合免疫沉淀结果相匹配。MCODE使用优化的参数预测了Arp2/3复合晶体结构的所有七个组分和五个额外的蛋白质。Gavin等人将七个Arp2/3亚基中的六个亚基用作诱饵,所得基准复合体包括MCODE也预测的五个不在晶体结构中的额外蛋白质(Nog2、Pfk1、Prt1、Cct8和Cct5)。已知Cct5和Cct8参与肌动蛋白组装,但Nog2、Pfk1和Prt1不参与。在实验方法中,这些额外的蛋白质可能代表非特异性结合。这两种情况如图所示三有趣的是,使用理发参数可以去除所有不在晶体结构中的五种额外蛋白质,只留下七种存在的蛋白质。这表明,虽然参数优化允许最大限度地匹配手部已知复合物,但这些复合物可能并不都是生理相关的,因此另一个参数集可以更好地预测“真实”复合物。
为了探索某些MCODE参数对预测的复合物的影响,在改变特定参数并保持所有其他参数不变的情况下,研究了这些复合物的各种特征。线性增加VWP参数会以指数方式增加预测络合物的大小,同时减少以线性方式预测的络合物数量。图4在关闭绒毛和理发参数的情况下显示了这种效果。在高VWP值下,预测了非常大的复合体,这些复合体包含了大部分数据集,因此不是很有用。
因为使用first=TRUE将使MCODE能够完美预测Arp2/3络合物(根据上文讨论的晶体结构),所以我们检查了first参数是否对匹配预测络合物的数量有任何一般影响。将折扣设置为TRUE对高ω阈值下预测的复合物数量没有显著影响,但与折扣设置为FALSE相比,低ω阈值(0到0.1)下匹配的已知复合物数量通常会减少。由于剪发=TRUE选项删除了预测复合物边缘上连接较少的蛋白质,这减少了具有低重叠分数的预测复合物的数量,这些边缘蛋白质可能会导致已知复合物的低重叠(<0.2ω)。
我们还研究了当fluff=TRUE时改变绒毛密度阈值对匹配的基准复合体数量的影响。在MCODE后处理步骤中线性增加绒毛密度阈值可以线性减少重叠分数0.2以上的匹配复合物数量。
使用蛋白质相互作用和复合物的MIPS数据集评估MCODE
由于Gavin等人的数据集仅由一个小组使用单一的实验方法开发,因此它可能无法准确地表示酵母的蛋白质复合物知识。MIPS蛋白质复合物目录http://mips.gsf.de/proj/yeast/catalogies/complex/是根据文献汇编的一组260个酵母蛋白复合物的精选集,因此是一个更真实的数据集,由许多实验室使用不同技术进行的各种实验组成。过滤掉50个“复合物”后,每个复合物由一个蛋白质和两个高度相似的复合物组成,剩下208个复合物用于MIPS已知集合。这组数据不包括最近大规模质谱研究的信息[6,7]。虽然MIPS复合物目录可能不完整,但据我们所知,它是目前酵母蛋白复合物的最佳公共资源。
MCODE再次以完整的参数组合运行,这一次涉及4379个蛋白质之间的9088个蛋白质相互作用,其中不包括最近的大规模质谱研究,但包括MIPS的所有相互作用,YPD和PreBIND数据库以及迄今为止大多数大规模酵母双杂交实验[2–4,10,34]。该交互集被称为“Pre-HTMS”。这组中的所有相互作用都是在MIPS蛋白质复合物目录上指定的最后一次更新之前发布的,其中许多包含在MIPS蛋白质相互作用表中,因此我们假设MIPS复合物目录考虑了已知相互作用表中的信息。将MCODE在这组中发现的蛋白质复合物与MIPS蛋白质复合物目录进行比较,以评估MCODE定位蛋白质复合物的性能从头算.
使用Gavin等人的数据集对MCODE进行的评估与MIPS数据集进行的评估相同。从该分析中,包括特异性与敏感性曲线(优化的敏感性=约0.27,特异性=约0.31),MIPS复合基准优化参数为firth=TRUE,fluff=TRUE,VWP=0.1,fluf密度阈值为0.2。该结果稳定到ω阈值0.6,之后很难评估结果,因为高于高ω阈值的预测络合物通常太少。该参数组合使MCODE预测了166个复合物,其中52个匹配64个MIPS复合物,ω至少为0.2。检查该参数集的ω分布表明,即使该预测得到了优化,大多数预测的复合物与已知MIPS集中的复合物也没有重叠(图5). 这里预测的络合物也与根据加文相互作用数据预测的络合物不同。九个复合体在这两组之间的重叠得分高于0.2,最高重叠得分为0.43,其余均低于0.27。这可能意味着MIPS复杂目录不完整,MCODE运行的数据集中没有足够的数据,或者复杂的人工注释定义与基于图形密度的定义不完全匹配。
VWP参数对络合物大小的影响以及剪毛和绒毛参数对匹配络合物数量的影响与在Gavin络合物基准上评估MCODE时看到的非常相似。
数据集属性对MCODE的影响
由于已知来自酵母的许多大规模蛋白质相互作用数据集包含高水平的假阳性[35],我们检查了这些可能对MCODE预测的影响。绘制了MCODE预测的敏感性与特异性对比图,所选参数用于根据不同数据集的MIPS和Gavin复合基准在ω阈值0.2下最大化这些值(图6).
MCODE对高通量数据集(称为“Gavin Spoke”、“Y2H”和“仅HTP”)的预测与文献衍生的交互数据集一样具体,但没有那么敏感(图6A级). MCODE对包含文献衍生基准(标记为“基准”、“Pre-HTMS”和“AllYeast”)的交互数据集的预测通常比仅包含大规模交互集的预测更为敏感和具体。由于特异性从Benchmark下降到Pre-HTMS,再到AllYeast,随着大量大规模数据的增加,可以认为添加这些数据会对MCODE产生负面影响。然而,众所周知,大规模数据包含大量假阳性,因此应该预计这些假阳性不会随机促成密集区域的形成,而密集区域极不可能偶然发生(见下文)。随着大规模数据的增加,应预测更多的复合物,假设该数据探索了相互作用组之前未发现的区域,但与添加的相互作用量相比,大量假阳性应限制新复合物的数量。这里使用的MIPS复合物基准预计不包含大规模研究中新发现的复合物,这解释了特异性降低的原因。这正是我们分析中发生的情况。为了进一步测试大规模数据对MCODE预测性能的影响,Benchmark交互作用数据集通过添加大规模实验中的交互作用进行了扩充,这些交互作用仅将Benchmart集中的蛋白质相互连接。向Benchmark数据集中添加了3100多个交互,创建了一组6400多个交互。MIPS复杂基准优化MCODE预测了52个复杂匹配66个MIPS基准复杂,几乎与使用自己设置的基准发现的复杂数量完全相同(表1). 这些分析强烈表明,添加大规模实验衍生的相互作用不会过度影响MCODE对络合物的预测。
从图中可以看出6亿Gavin复杂基准集偏向于Gavin等人的轮辐建模交互数据。这是意料之中的,也是为什么在整个工作中使用偏少的MIPS复数集而不是Gavin集作为基准的主要原因。
由于联合免疫沉淀实验的结果是一组蛋白质,我们使用辐条法将其建模为二元相互作用,因此我们希望评估与产生纯二元相互反应结果的实验系统(如酵母双杂交)相比,这是否影响复杂预测。如表所示1,MCODE确实在只包含酵母双杂交结果的“Y2H”集合中找到了已知的复合物,因此该集合确实包含已知蛋白质复合物的致密区域。这就是说,Y2H集合是这里研究的所有数据集合中密度最低的,因此网络中密度较小的区域,因此集合中每个蛋白质的MCODE可预测复合物较少。MCODE预测了类似数量的复合物,并在Y2H和Gavin Spoke数据集中发现了类似数量已知复合物,这表明这些数据集所包含的密集网络区域的数量彼此之间没有显著差异,尽管它们的大小不同。综合后一结果和图中的结果6亿表明辐条模型是Gavin等人串联亲和纯化数据的合理表示。
预测酵母相互作用体中的复合物
鉴于MCODE在测试数据上表现相当好,我们决定在一个更大的网络中预测复合物[2–7,10,13,14]。收集并整合,形成一个由15143个实验确定的酵母蛋白相互作用组成的非冗余集合,其中包含4825个蛋白质,约占蛋白质组的四分之三。这组被称为“全酵母”。如上所述,使用MIPS基准对MCODE进行了参数优化。得到的最佳参数集为sharth=TRUE,fluff=TRUE,VWP=0,fluf密度阈值为0.1。利用这些参数,MCODE预测了209个复合物,其中54个与63个MIPS基准复合物匹配,重叠分数高于0.2(参见附加文件1). 以这种方式发现的复合物应该在定向模式下使用MCODE进行进一步研究,方法是指定一个种子顶点,并尝试不同的参数,以检查在添加看似生物无关的蛋白质之前复合物的大小(见下文)。
图5结果表明,即使将一大组相互作用用作MCODE的输入,大多数MCODE预测的络合物与MIPS中的已知络合物也不匹配。MCODE预测复合体的复合体大小分布与MIPS集合的形状相匹配,但MCODE复合体平均更大(平均MIPS大小=6.0,平均MCODE预计大小=9.7)。MCODE预测复合物中每个蛋白质的YPD和GO功能注释项的平均数量与MIPS复合物相似(表2). 这似乎表明MCODE正在预测功能相关的复合物。此外,对得分最高、中间和最低的五种MCODE复合物进行更仔细的检查表明,MCODE可以预测生物相关复合物(表三).
209个预测复合物中的许多是大小为2(9个预测复合物)或3(54个预测复合物)的。这种大小的复杂度可能并不重要,因为很容易创建大小为2或3的高密度子图,但随着子图大小的增加,随机创建高密度子图形在组合上变得更加困难。为了检查这些大小为2或3的小预测复合物的相关性,我们计算了优化MCODE预测相对于MIPS复合物基准的灵敏度和特异性,同时忽略了小复合物。首先,从优化的MCODE预测络合物集中移除大小为2的络合物,然后移除大小为3的络合物。单独删除这些集合只会导致较小的敏感性和特异性变化。因为这两个集合都与MIPS基准重叠,所以小的复合体被报告为预测。此外,由于MCODE在高局部密度区域发现了这些小复合体,因此它们可能是在定向模式下用MCODE进行进一步检查的好核心,特别是因为这里启用了剪切选项来生成它们。
较大和密度较大的配合物在MCODE中排名较高,这些配合物通常对应于已知的配合物(见下文)。有趣的是,一些MCODE复合体包含与已知复合体亚基高度连接的未知蛋白质。例如,排名第二高的MCODE复合物参与RNA处理/修饰,并包含已知的多聚腺苷酸化因子I复合物(Cft1、Cft2、Fip1、Pap1、Pfs2、Pta1、Ysh1、Yth1和Ykl059c)。其他七种主要参与RNA处理/修饰(Fir1、Hca4、Pcf11、Pti1、Ref2、Rna14、Ssu72)和蛋白质降解(Uba2和Ufd1)的蛋白质在该预测复合物中高度连接。两种未知蛋白Pti1和Yor179c与RNA加工/修饰蛋白高度相关,因此可能参与相同的过程(图7). Pti1可能是多聚腺苷化因子I复合物的未知成分。第23页第三方排名最高的预测复合物很有趣,因为它涉及细胞极性和胞质分裂,并且包含两种功能未知的蛋白质,即Yhr033w和Yal027w。Yal027w与两种激酶Gin4和Kcc4相互作用,这两种激酶又与Septin复合物的成分(Cdc3、Cdc10、Cdc11和Cdc12)相互作用(图8).
MCODE预测的重要性
天真地说,从蛋白质相互作用网络中随机选取已知蛋白质复合体的机会取决于复合体和网络的大小。从较小的网络中随机挑选较小的已知复合体更容易。例如,在我们4825个蛋白质之间15143个相互作用的网络中,挑选一个已知的三号特定复合体的概率约为1.9×1010(4825选择3)。一个更现实的模型会假设蛋白质是连接的,因此只考虑三种蛋白质都连接的三种大小的复杂选择。现在,选择的数量取决于网络的拓扑结构。在我们的大型网络中,有6799个三级完全连接的子网和313057个三级子网,只有两个交互(来自Pajek的三元人口普查功能)。因此,现在我们选择一个更现实的复合体的机会是319856(1/(6799+313057)=3.1×10-6). 随着复数大小的增加,可能的复杂拓扑的数量呈指数级增加,在具有合理密度的连接网络中,可能表示复数的可能子图的数量也呈指数级增长。我们的大型蛋白质相互作用网络的密度为0.0013,并且大多数是相连的(4689个蛋白质位于一个相连的组分中)。因此,预计如果在MCODE与已知复合体匹配的网络中发现复合体,结果将非常显著。为了进一步了解复杂预测的重要性,必须大体了解蛋白质相互作用网络的拓扑结构,以便建立一个空模型进行比较。
复杂系统建模的最新研究[21,25,27]发现诸如万维网、代谢网络等网络[26]和蛋白质相互作用网络[36]无标度。也就是说,图的顶点的连通性分布遵循幂律,低阶顶点多,高阶顶点少。众所周知,无标度网络具有较大的聚类系数或图的聚类区域。在生物网络中,至少在酵母中,这些聚集区域似乎对应于分子复合物,这些子图是MCODE设计的目的。
为了测试生物网络中聚集区域的重要性,对15143个酵母相互作用的大集合进行了100次随机排列。如果要随机化的图被视为两个顶点之间的一组边(v(v)1,v(v)2),网络排列是通过随机排列所有v(v)2顶点。随机网络与原始网络具有相同数量的边和顶点,并且与原始数据集一样遵循幂律连接性分布[37]。在100个随机网络上使用与原始网络相同的参数运行MCODE(sharth=TRUE,fluff=TRUE,VWP=0,fluf密度阈值为0.1),每个网络平均产生27.4(SD=4.4)个复合体。MCODE发现的复合体的大小分布与原始网络中发现的复数的大小分布不匹配,因为在随机网络中发现的一些复合物由>1500个蛋白质组成。使用MIPS基准对一个具有近似平均预测复合物数量(27)的随机网络进行参数优化,以了解参数选择如何影响预测复合物的大小分布和数量。理发参数=TRUE、绒毛密度=TRUE,VWP=0.1和绒毛密度阈值为零的参数产生了该网络最大数量的81个复合物,但这些复合物平均由27个蛋白质组成(不计算1961大小的异常复合物),远大于正常值(例如,大于MIPS集平均值6.0)。这些预测的复合物中没有一个与重叠分数0.1以上的任何MIPS复合物相匹配。此外,与原始网络上的MIPS或MCODE相比,随机网络复合物每个复合物每个蛋白质的YPD和GO注释项的平均数量要高得多(表2). 这表明,与原始网络中的复合物相比,随机网络复合物由更高水平的无关蛋白质组成。因此,MCODE在所有酵母相互作用的大集合中预测的复合物的数量、大小和功能组成极不可能偶然发生。
为了评估评分方案的有效性,我们对不同评分阈值下MCODE预测的准确性进行了检查,该评分方案对较大、更密集的复合体评分高于较小、更稀疏的复合体。随着复合物纳入分数阈值的增加,纳入的复合物更少,但纳入的复合物质与基准中的复合物匹配的比例更高。这是以牺牲敏感性为代价的,因为许多基准匹配复合物没有以更高的分数阈值纳入(图9). 例如,在MCODE得分大于或等于6的10个预测复合物中,有9个在MIPS或Gavin基准中匹配高于0.2阈值重叠得分的已知复合物,产生90%的准确率。MCODE得分高于或等于7个已知配合物的五个配合物中的100%。因此,在我们简单的基于密度的评分方案中得分很高的复合体很可能是真实的。
MCODE的定向模式
为了模拟一个明显的例子,即MCODE的定向模式是有用的,与AllYeast网络上的最佳参数相比,MCODE以宽松的参数运行(shirt=TRUE,fluff=TRUE,VWP=0.05,fluff密度阈值为0.2),显示了两个聚集的成分,并代表两个蛋白质复合物,蛋白酶体和RNA加工复合物,两者都存在于细胞核中(图10). 这是一个较低的VWP参数更优越的示例,因为它会将这个大型复合体分为两个功能更相关的复合体。图中两个密集区域中心的最高加权顶点10是Rpt1和Lsm4蛋白质。MCODE以直接模式运行,从这两个蛋白质开始,VWP参数范围从0到0.2,增量为0.05。对于Lsm4,使用参数集first=TRUE,fluff=FALSE,VWP=0来查找核心复合物,其中包含9个彼此完全连接的蛋白质(Dcp1、Kem1、Lsm2、Lsm3、Lsm4、Lsm5、Lsm6、Lsm7和Pat1)。在这个VWP参数以上,核心复合物分支成蛋白酶体亚单位蛋白,这些蛋白不是Lsm复合物的一部分(见图第11页). 使用该VWP参数,结合理发和绒毛参数,进一步扩展核心复合体。当预测的复合物开始包括与种子顶点具有足够不同的已知生物功能的蛋白质时,这一过程停止。蛋白质,如Vam6和Yor320c,在中等绒毛参数(0.4–0.6)下包含在复合物中,但在较高绒毛参数下不包含,这些已知定位于细胞核外的膜中,因此可能与Lsm复合物蛋白质在功能上无关。因此,上述9种蛋白质被确定为最终复合物(图11亿). 这是直观的,因为它们的最大密度(9团)。
使用已知生物作用的相同方法“滴定”Rpt1发现34个蛋白质的复合物(Gal4、Gcn4、Hsm3、Lhs1、Nas6、Pre1、Pre2、Pre3、Pre4、Pre5、Pre6、Pre7、Pre9、Pup3、Rpn10、Rpn11、Rpn13、Rpn3、Rpn5、Rpn6、Rpn7、Rpn8、Rpn9、Rpt1、Rpt2、Rpt3、Rpt4、Rpt6、Rri1、Scl1、Sts1、Ubp6、Ydr179c、Ygl004c)和160次交互,使用参数集haird=TRUE、fluff=TRUE,VWP=0.2和fluff密度阈值0.3。这里可以看到两个密度区域,对应于26S蛋白酶体的两个已知亚单位。蛋白酶体的20S蛋白水解亚基由15种蛋白质(Pre1至Pre10、Pup1、Pup2、Pup3、Scl1和Ump1)组成,其中在MCODE中未发现Pre7、Pre8、Pre10、Pup1、Pup2和Ump1。已知蛋白酶体的19S调节亚基有21个亚基(Nas6、Rpn1到Rpn13、Rpt1到Rpt6和Ubp6),其中Rpn1、Rpn2、Rpn4、Rpn12和Rpt5在MCODE中未发现。MCODE没有发现的已知复杂组分在相互作用网络的足够高的局部密度区域不存在,可能是因为我们的数据集中没有足够的涉及这些蛋白质的实验。图11摄氏度显示了最终的Rpt1种子复合体。值得注意的是,Ygl004c是未知的,它几乎与复合物中的每个Rpt和Rpn蛋白结合,尽管所有这些相互作用都来自一个单一的免疫沉淀实验[6]。此外,Rri1和Ydr179c具有未知功能,两者相互绑定并绑定到Rpn5。因此,可以预测这三种未知蛋白质与26S蛋白酶体一起或作为其一部分发挥作用。蛋白质Hsm3与其他八个19S亚单位结合,参与DNA错配修复途径,但尚不清楚它是蛋白酶体的一部分,尽管所有这些Hsm3相互作用都来自一个特定的大规模实验[7]。有趣的是,半乳糖代谢相关的转录因子Gal4被发现是蛋白酶体复合体的一部分。虽然这种代谢功能似乎与蛋白质降解无关,但最近的研究表明,这种结合在生理上是相关的[38]。这些案例说明了功能注释和相互作用数据可能不可靠,但如果MCODE发现看似无关的蛋白质是复合物的一部分,则不应立即忽略。
值得注意的是,26S蛋白酶体的已知拓扑结构[39]与复杂的图形可视化相比11摄氏度不考虑化学计量。因此,如果已知足够多的相互作用,可视化复合物可能会揭示大型复合物的大致结构轮廓。在处理实际的物理蛋白质-蛋白质相互作用时,这应该是意料之中的,因为考虑到蛋白质亚单位之间定义的相互作用和空间位阻的特定集合,大型复合物几乎没有允许的拓扑结构。
复杂的连接性
MCODE也可用于检查分子复合物之间的连接性和关系。一旦使用定向模式知道复数,就可以放宽MCODE参数,以允许分支到其他复数。还必须关闭MCODE定向模式预处理步骤,以允许MCODE分支到其他连接的复合体,这些复合体可能位于图中比种子顶点更密集的区域中。例如,这是用Lsm4种子复合体完成的(图12). MCODE参数放宽至hirst=TRUE,fluff=FALSE,VWP=0.2,尽管它们可以进一步放宽以扩大网络范围。