跳到主要内容

人类中枢蛋白质组的初步表征

摘要

背景

根据从七个人类细胞系测量的大型蛋白质组数据集,我们认为它们的交集是人类中心蛋白质组的近似值,即在所有人类细胞中普遍表达的蛋白质组。通过生物信息学分析研究中心蛋白质组的组成和性质。

结果

我们使用最先进的质谱和蛋白质鉴定生物信息学,通过实验鉴定了一个由1124种蛋白质组成的中心蛋白质组,这些蛋白质在人类细胞中普遍且大量表达。其主要代表功能是蛋白质平衡、初级代谢和增殖。考虑到基因结构、保守性、相互作用网络、通路、药物靶点和生物过程的协调,我们进一步表征了中心蛋白质组。在其他新发现中,我们发现中心蛋白质组是由富含外显子的基因编码的,这表明通过选择性剪接来适应多种环境的调节灵活性增加,连接中央蛋白质组的蛋白质相互作用网络对于同步翻译与其他生物过程非常有效。令人惊讶的是,至少10%的中央蛋白质组没有或非常有限的功能注释。

结论

与之前的结果相比,我们的数据和分析为人类中心蛋白质组提供了新的、更深入的描述,从而扩展和补充了我们对常见表达的人类蛋白质的了解。所有数据均公开,以帮助其他研究人员,例如,需要将重点数据集与共同背景进行比较或链接的研究人员。

背景

在系统水平上理解活细胞越来越被认为是生物学和医学研究的重要组成部分[1——9]. 蛋白质相互作用的生物途径和网络是将分子与生物功能联系起来的关键范例,通过这样做,可以弥合基因型与表型之间的差距,并了解生物物质组织的特性[10——13]. 在这项工作中,我们旨在回答三个简单但基本的问题:i)在不同的细胞类型中广泛表达的人类蛋白质的补体是什么?ii)是否中心蛋白质组(C.Prot)[14]显示与其他属性不同的属性?iii)人们能确定这个中心蛋白质组的全球特征吗?

基因表达微阵列允许分析多种转录组[15]一些使用mRNA检测或丰度作为蛋白质表达或浓度代理的研究揭示了与组织特异性相关的基因集的重要特性[16——18]. 最近,博西和莱纳[19]结果表明,组织特异性蛋白质相互作用较少,但与核心细胞成分和普通蛋白质结合。富含组织特异性基因的结构域往往是后生动物特异性的,并且是非必需的[20]. 众所周知,广泛表达的基因编码参与蛋白质降解、细胞骨架或RNA结合的蛋白质域[20].

众所周知,转录物和蛋白质丰度之间的相关性是可变的[21]而且,作为一般经验法则,仅在三分之一的观察实体中观察到良好的相关性。随后的调控机制可以显著解耦蛋白质和转录物的丰度[22]. 因此,我们认为直接从蛋白质组学数据中研究中心蛋白质组非常重要。如我们的数据所示,质谱灵敏度已达到允许此类直接方法的水平。Schirle等人也进行了类似的工作[14]他首先创造了中心蛋白质组这一术语,并像我们一样使用人类细胞系,尽管他们将分析局限于与蛋白质组学技术相关的技术方面。Kislinger等人[23]六个小鼠器官的蛋白质表达谱。另一个相关项目是人类蛋白质图谱[24]通过一组选定的抗体映射人类组织中的蛋白质表达。

与上述转录组学和蛋白质组学研究相比,我们的工作重点有所不同。在对中心蛋白质组中存在的蛋白质的功能进行简单和经典的分析后,与基因微阵列结果相匹配,我们揭示了有关编码中心蛋白质组的基因的基因结构、与药物靶点相关的通路位置、,以及连接中央蛋白质组的相互作用网络的全局特性。此外,我们还展示了常见蛋白质的几个特征是如何随着蛋白质丰度的变化而变化的。

本研究产生的大量数据构成了一个独特且同质的数据集,其他研究人员应该对此感兴趣。数据作为补充材料提供,可从ProteomeCommons.org Tranche公共存储库访问。

结果

细胞系、蛋白质组学和蛋白质鉴定

我们使用1D SDS-Page和LC-MS/MS测量了来自三个胚层(HaCat、HepG2、K562、HEK293、Namalwa、U937、HeLa)的七个细胞系的蛋白质组。每个蛋白质组包含2031到4154个蛋白质(见表1). 蛋白质鉴定是通过结合两个数据库搜索引擎Mascot的生物信息学平台完成的[25]和Phenyx[26]以及一种创新且非常严格的验证策略,在蛋白质组上强制执行0.25%的最大错误发现率(FDR)[27]. 此外,不完全由选择性剪接变异体(2%)组成的蛋白质组被丢弃。特定肽使我们能够确定一些变体的存在。

表1蛋白质组学数据中确定的蛋白质组和不同肽的数量。

每个细胞系在技术复制中分析两次(合并结果见表1)在鉴定的蛋白质中观察到适度的变异性(<4%)。

中心蛋白质组

在每个细胞系中鉴定出大量蛋白质(表1). 我们建造了中心蛋白质组(C.Prot)通过选择所有7个细胞系中的蛋白质,即1124个蛋白质。其他人已经观察到,HEK293细胞系产生了显著更多的蛋白质鉴定[14]. 此外,如上所述,所有细胞系的技术复制品都具有高度的重复性。因此,HEK293较高的蛋白质数量不太可能是由实验偏差引起的。事实上,HEK293细胞为表达许多蛋白质提供了一个方便的系统,特别是在亲和纯化MS实验中[28].

我们将7个细胞系和C.Prot中鉴定的蛋白质与UniProtKB/Swiss-Prot中列出的所有人类蛋白质进行了比较[29]确定分子量、等电点、疏水性和脂肪族指数方面可能存在的实验偏差[30]; 参见附加文件1:补充图1。我们观察到,在C.Prot中,蛋白质向更大(平均+2.3%)和更酸性(-5.5%)方向转变的幅度非常小。这些轻微的偏差是所使用的分析技术的结果,我们认为它们不会对后续情况产生任何重大影响。

根据HPA检测强度,C.Prot和人类蛋白Altlas(HPA)之间的重叠度小于40%。也就是说,HPA包含除Namalwa之外的所有细胞系,我们考虑了HPA中6个共享细胞系的交叉点。我们发现852个蛋白质强表达(其中178个在C.Prot中,16%在C.Prot中),3314个至少弱表达(413个在C.Prot中,37%)。我们还考虑了所有46个HPA细胞系中表达的所有(联合)蛋白质,无论是弱表达还是更好表达,我们发现4314个蛋白质(445个在C.Prot中,占40%)。

在中央蛋白质组中发现的1124个蛋白质的接入码、ID、描述和基因名称作为附加文件提供2.

中央蛋白质组的主要功能

我们使用瘦基因本体(通用GO-slim)对C.Prot中存在的主要蛋白质类别进行分类[31]和KEGG[32,33]. GO术语统计数据通过topGO获得[34]P值的截止值为5%(“weight.log”方法)。

C.Prot主要用于细胞的重要过程,见表2以及补充图2。GO的种类广泛,从蛋白质平衡(如翻译和蛋白质运输)到代谢过程,再到细胞周期和死亡。代谢过程主要由初级代谢组成,初级代谢对维持和增殖至关重要。C.Prot覆盖的主要分解代谢KEGG途径是蛋白酶体、柠檬酸循环、氧化磷酸化、糖酵解/糖异生、磷酸戊糖途径、脂肪酸降解和少量氨基酸降解途径。在生物合成方面,我们发现翻译、大多数氨酰-tRNA生物合成酶和嘧啶代谢。GO类别“细胞成分组织和生物发生”包含重要的复合物,如信号识别颗粒、互变异蛋白复合物和脾小体。最后,细胞周期以及DNA代谢和细胞死亡也得到了丰富,这是细胞群体中生活的重要功能。除了由于蛋白质组学技术限制和细胞系的使用而导致的质膜和细胞外,在C.Prot的分子功能和细胞定位方面也可以观察到同样广泛的覆盖范围,参见补充图3和4。

表2发现中央蛋白质组中5%水平的基因本体术语(生物过程)显著。

值得注意的是,topGO R包支持的高级GO分析,其中详细的GO注释将报告给祖先术语(如果它们仅不能产生显著结果),再加上通用GO slim,这在很大程度上有助于处理大型数据集(如C.Prot)。经典的浓缩分析方法高估了非常一般的类别和/或返回了大量非常详细的结果。我们发现topGO的“重量比”方法过于严格,而“经典”方法过于“冗长”。

由富含外显子的基因编码的一组非常保守的蛋白质

蛋白质在许多物种中的存在是高度保守性和基本功能作用的标志。因此,我们从Ensembl查询了人类基因组的所有同源基因,并通过计算每个人类蛋白质具有一个同源基因的物种数量来测量保守性。我们发现,平均而言,C.Prot蛋白比取自SwissProt的人类蛋白(P=0,Wilcoxon)多5.9个同源序列,也就是说,它们存在于更多物种中,因此表明它们的保守性更高。

为了对比我们的结果,我们想与细胞特异性蛋白质进行比较。由于可用的细胞株数量有限,因此不可能定义这种特定蛋白质。因此,我们使用组织特异性基因作为代理[15]. 在Su等人的数据集中,睾丸基因约占三分之一,因此我们定义了一个特定转录组(Spe.Trans),忽略了睾丸特异性。事实上,睾丸基因表达的这种多样性会掩盖许多其他组织的基因特异性。没有睾丸基因,Spe。与参考Swiss-Prot数据库相比,Trans包含282个基因,平均具有-0.6个同源基因(P=0.06)。

真核生物蛋白质的一个重要特征是它们可能存在于不同的剪接变体中。外显子总数表明组合多样性。值得注意的是,在C.Prot中,外显子计数显著向更高的值偏移,平均偏移高达+3.7(P=0,Wilcoxon)。相反,Spe。Trans的平均外显子数为-0.7(P=0.5)。为了通过我们数据中蛋白质序列长度的轻微偏差来防止外显子计数的潜在偏差,我们通过自举程序比较了C.Prot和Swiss-Prot中的外显子数,以从Swiss-Pro中得出适当的序列长度分布。

一个连接良好的中央蛋白质组

使用一个集成的相互作用数据库,我们提取了包含9495个蛋白质和70083个相互作用的人类相互作用组。我们计算了5个常用的连接性度量(介度和特征向量中心度、聚类系数、度、k核分数),以反映C.Prot所占据位置上相互作用组拓扑的各种局部和全局方面。所有5项指标均显示出显著的积极偏差,即更集中、更高连接性和更频繁地参与蛋白质复合物。值得注意的是,观察到大量的C.Prot蛋白进一步显著增加。节点度和特征向量中心度统计如图所示第1页1B年作为示例。

图1
图1

网络和路径统计.(A)节点度(边数)。注意C.Prot向更高值的强烈转变。我们还观察到组织特异性基因(Spe.Trans)没有转移,并且从低丰度的保护性梭菌实体逐渐转移到高丰度的实体。(B) 特征向量中心度值也显示出类似的偏移,尽管在这种情况下是Spe。Trans甚至扭转了这一趋势,低丰度和高丰度C.Prot之间的差异更为温和。(C) 路径中的相对位置;0=开始,1=结束。对C.Prot没有真正的偏见,但对其丰富蛋白质的中心位置有强烈的偏好。规格。Trans和低丰度C.Prot在所有可能的位置上分布更广。(D) 药物靶点也是如此。请注意,抗梭菌药物靶标的初始位置发生了强烈转变,这大大增强了药物靶标对此类位置的现有偏好。

C.Prot与DrugBank中列出的药物靶点有显著关联[35](1465个目标中有176个,P=1.6E-23,bootstrappedχ2参见方法)。在人类相互作用组中,我们观察到药物靶点更集中,连接更多的节点,正如其他人之前报道的那样[8]. 我们没有看到这一趋势持续增长,目标仅限于C.Prot。相反,考虑到路径中的相对位置(参见方法),与一般靶点相比,C.Prot中的药物靶点显示出显著不同的特征。不局限于C.Prot的靶点似乎优先出现在路径的开始位置,而不是更多的中心位置(P<0.0E-2)。当局限于C.Prot时,这一趋势显著增强(P<1.4E-34)。NCI-PID公司[36]我们使用的通路数据库包括759个DrugBank靶点(21%),其中133个位于C.Prot(12%)。

中心交互组

定义中央相互作用体作为C.Prot蛋白之间直接相互作用形成的网络;这种网络可能存在于所有人类细胞中。计算了最短路径距离分布(图2安培). 我们还发现中心和整体相互作用组都是无标度的[37],中心相互作用组包含更多高度连接的区域(蛋白质复合物),见图2B型中心相互作用组含有几种必需的蛋白质复合物,见图2摄氏度中心相互作用组可被视为生物过程通过蛋白质相互作用交换信息的平台。因此,我们引入了生物过程之间流量的概念。如方法中所述,可以对由蛋白-蛋白质相互作用(PPI)介导的生物过程(BPs)之间的通量进行评分,我们比较了中心相互作用组上的通量与中心相互作用体外的通量以及C.Prot和非C.Prot蛋白质之间的通量。在每种情况下,我们都生成了随机交互网络和GO注释,以确定哪些通量比网络拓扑和GO项频率的偶然预期强度要大得多。在1%的显著性水平上,随机网络模拟在中心相互作用组内产生57个显著的GO-BP通量,在不超过5个细胞系的C.Prot和人类相互作用组蛋白之间产生135个显著的GO-BP通量以及在中心相互影响组外产生365个显著的GO-BP通量。在每种情况下,预期的数字都是12.75。请参见图.

图2
图2

中央交互组(A)最短路径距离分布。我们首先注意到,C.Prot实体(红色)之间的距离比人类相互作用组(黑色)蛋白质之间的距离更近,即低于4的短距离(即平均距离和中间距离)被过度表示。值得注意的是,C.Prot与非C.Prot蛋白(橙色)的平均值也更接近。丰富的C.Prot蛋白彼此之间以及与非C.Prot蛋白质(青色和蓝色)之间更为接近。它表明,C.Prot(及其最丰富的成分)“均匀”嵌入人类蛋白质组。(B) 整个人类相互作用组与中心相互作用组的幂律分布。中央交互组的连接更紧密(指数为-1.1),即高节点度的频率降低速度慢于整体(指数为-18)。(C) 中央相互作用组与映射的重要生物过程(表2)。在C.Prot中没有显著丰富的流程为黑色,多个GO注释由一个圆形(随机选择的颜色)描述,而不是单个GO的方形。删除了节点上的共享GO术语祖先,以消除琐碎的多个注释,并保持在最特定的级别。我们注意到,除少数外,过程在这个网络中并没有很强的局部化。它并不代表并列的路径,而是一个交换平台。我们还观察到大多数蛋白质具有多个GO-BP注释(圆形节点形状)事实上的在基本细胞过程之间建立额外的交换。最后,我们识别了一些重要的复合物:(a)胞外体,(b)泛素细胞色素c还原酶,(c)NADH脱氢酶,(d)寡糖转移酶,(e)蛋白酶体,(f)COPI,(g)核糖核蛋白/脾体,(h)质子转运ATP合成酶,(i)核糖体,(j)信号识别颗粒,(k)细胞色素c氧化酶亚基,(l)丙酮酸/2-氧戊二酸脱氢酶复合物,(m)预折叠蛋白,(n)缩合蛋白,(o)信号肽酶复合物、(p)COPII,(q)七肽复合物。使用Cytoscape可视化网络[56].

图3
图3

通过中央交互组进行生物间过程交换生物过程之间的高通量为我们总结中央相互作用组的主要功能提供了一种方法,中央相互作用体是人类相互作用组中的一个子集,可能在所有人类细胞中表达。在我们的评分方案中,高分表示GO项频率和蛋白质连接性的通量比预期的要强烈得多,即蛋白质相互作用显著支持的交换。GO生物过程用节点和边缘厚度的分数表示。(A) 中央交互部分内的通量。中心有平移(红色)的星形拓扑图表明,大多数交换都会使其他细胞进程与平移同步。翻译类别和GO类别(蓝色)之间的串扰最强,GO类别包含许多核酸代谢成员(mRNA生成所需)和复合物,如信号识别颗粒、互变异蛋白复合物和脾小体。(B) C.Prot蛋白和不在C.Prot中的蛋白之间的通量。一旦焦点从中心互动体转移出去,翻译就失去了中心传播者的角色。C.Prot和非C.Prot之间的通信不太专业。此外,请注意蓝色集群失去的互连性,这反映了上述过程的活动减少。(C) 这种趋势在蛋白质之间的外部流动中得到进一步放大,蛋白质不在C.Prot中,它们基本上是全球性的,并且忽略了翻译。

讨论

中心蛋白质组数据集

我们展示了表征人类中枢蛋白质组(C.Prot)的结果,即人类细胞通常表达的一组蛋白质。虽然以前的相关研究都是在转录组学数据的基础上成功进行的,但我们的工作是基于蛋白质组学数据。蛋白质组学可能会产生额外的见解,因为它可以直接测量感兴趣的实体,只要它达到足够的灵敏度,并且不会引入过多的实验偏差。此外,我们的结果包括转录组学研究从未涉及的几个重要新发现。

我们将C.Prot定义为7个细胞系共享的蛋白质,这些细胞系的总细胞裂解物通过最先进的蛋白质组学进行分析,然后进行非常严格的蛋白质生物信息学鉴定;它含有1124个蛋白质。显然,大量细胞系的交叉将是一个过于严格的标准,但我们发现它适用于7个细胞系。实验偏差在我们的数据中是适度的(补充图1)。

我们无法从公共存储库中找到可比较的人类数据集[38,39]以补充我们的数据并覆盖更多的细胞系或组织。Schirle等人的数据集[14]在映射到Swiss-Prot(5-10次)后,它要小得多,并且基本上被我们的数据覆盖(>92%)。未涵盖的适度8%当然可以用MS检测和样品制备可变性来解释。此外,这两个数据集中包含的少量假阳性进一步减少了重叠。

人类蛋白质图谱数据[24](HPA)不适合完成我们的研究,因为它们来源于对蛋白质和抗体可用性的有偏见的先验选择。基于抗体的检测在敏感性上也可能变化很大,因此很难比较不同蛋白质的表达谱。尽管如此,HPA是一种非常有价值的资源,与我们的数据进行比较表明,在我们研究的7种HPA细胞系中,有6种常见的强HPA检测具有相似的大小(852个蛋白质),而包括弱检测,这一数字急剧增加到3314。与C.Prot的重叠在这两种情况下都是适度的:分别为178和413个蛋白质(17%和37%)。这表明,与广泛的无偏MS分析相比,基于靶向抗体的分析具有更高的灵敏度,这一点也不奇怪。这也表明,迄今为止,HPA尚未涵盖C.Prot的重要部分。

HPA数据可以揭示我们数据的一个重要特征:如果我们考虑所有46个HPA细胞系中表达的所有蛋白质弱或强,我们发现4314个蛋白质(C.Prot中445个,40%),与上述413个相比,这是一个非常小的改进,尽管HPA检测从3314个上升到4314个。这表明,在当前MS检测能力的限制范围内,我们已经用7个细胞系鉴定出了MS可测量中央蛋白质组的重要部分。为了提高中央蛋白质组的覆盖率,提高MS敏感性比增加细胞株数量更重要。

我们将C.Prot与不在C.Prot中的7种细胞系中检测到的最丰富的蛋白质进行了比较(见方法)。两个数据集的GO注释差异很大(补充图2-4)。事实上,非中心丰度蛋白质没有强大的功能关联,这表明单一丰度不足以与功能关联,不再是中心蛋白质组中包含的主要因素。

来自Su等人[15]微阵列数据我们组装了一个中心转录组(C.Trans),以比较每个组织中表达的基因的交叉点(通常使用MAS5>200),从而得出2002个基因的列表。C.Trans仅覆盖了C.Prot的501个蛋白质。Su等人的芯片含有1124个C.Prot蛋白中的917个,这意味着我们检测到的45%的蛋白将被转录组学方法遗漏。通过要求除4个样本外的所有样本(而不是全部样本)中的基因来发布中央转录组包含标准,我们将其大小增加到3197个基因,并覆盖683个蛋白质,即缺失部分,占26%。这种损失很可能是由于低降解率的蛋白质不需要其编码基因的永久表达。

分析

功能分析显示,参与蛋白质平衡、RNA结合、初级代谢、细胞周期和细胞死亡的蛋白质普遍存在(表2,补充图2和3)。特定基因的转录组学数据集(Spe.Trans)[15]与信号传递和多细胞组织相关的不同生物过程相关,而重要的生物过程则不太普遍(补充图2)。规格。因此,Trans似乎在通过细胞间信号建立不同解剖结构方面发挥着重要作用,而C.Prot则涵盖了更“古老”的需求,这是由其成员的高度保守所支持的。这些观察结果证实了之前从转录组学数据中发现的结果[20]. 跨多种细胞类型表达的蛋白质需要增强基因表达灵活性以适应当地条件。我们的发现是,与所有人类蛋白质相比,C.Prot蛋白质平均有近4个额外的外显子,这表明进化倾向于以这种经济方式获得公共部分的灵活性,而不是通过重复事件增加其数量。规格。反式减少外显子计数对比良好。

Kislinger等人[23]没有从他们的数据中提取出中心蛋白质组。通过6个器官数据集的交集并将小鼠蛋白映射到人类同源基因,我们获得了393个Swiss-Prot条目,这些条目也偏向于高外显子计数(+3)。

在细胞生命的中心过程中,PPI的增加和对复合物形成的参与以及相互作用网络中的中心位置自然地反映了这一点。我们计算的5种不同的全局和局部网络拓扑测量结果显示,与平均值相比,人类相互作用体中的常见蛋白质更为紧密和集中。组织特异性基因的这种趋势发生了逆转,此外,我们观察到与蛋白质丰度的显著依赖性:蛋白质越丰富,连通性/中心性越强反之亦然,见图第1页1B年这种观察可能被认为是虚假的,因为在相互作用数据库中常见的蛋白质可能会被过度表示,而大量表达的蛋白质可能在PPI实验中更为成功。为了排除这种潜在的混淆效应,我们将C.Prot映射到酵母,在那里可以获得大规模的无偏见数据。使用我们的集成数据库,我们获得了一个酵母相互作用组,该组包含仅发布了至少5000个物理相互作用的数据集,并证实了C.Prot增加的连接性/中心性在酵母中仍然有效(所有5个测量值P<2.0E-7)。

由于人类交互组数据已在多种细胞类型和条件下收集,我们不认为较高的连接性必然意味着C.Prot实体与更多的合作伙伴永久相连。我们认为这有力地表明,在进化过程中,这些蛋白质获得了在需要时与更多伙伴结合的能力;增强对各种环境适应性的另一种方法。GO分子功能“蛋白结合”的顶部过度表达证实了这一点,参见补充图3。

为了研究我们的发现对中心蛋白质组的不太严格的定义的稳健性,我们检查了外显子计数和网络统计偏差,要么使用任何六个细胞系的交集,要么使用七分之六的细胞系中发现的蛋白质。在每种情况下,结果几乎没有变化。

考虑PPI后,很自然地会转移到生物物质的更高层次组织,即生物途径。我们定义了一个沿路径相对位置的直观概念(0=来源,1=终点,参见方法和补充。图5),我们观察到C.Prot位置仅遵循人类蛋白质的典型分布(图1摄氏度). 对于最丰富的常见蛋白质来说,情况不再如此,它们往往占据中心位置。这表明丰富的蛋白质更有可能位于非速率限制的中心位置,而关键步骤受到更严格的表达控制[40]. 这也得到了Spe更均匀的存在的支持。沿路径的转基因和低丰度常见蛋白质(图1摄氏度).

药物在哪里触及中央蛋白质组?药物靶点和C.Prot之间重叠的大小明显较大(176个蛋白质,P=1.6E-23)。通常,药物靶点主要针对催化蛋白、转运蛋白和受体设计,参见补充图3和图4。普罗氏梭菌的药物靶点主要是酶(146),酶在初级代谢过程中起关键作用(130)。氨基酸代谢、前体生成和碳水化合物代谢的生物过程具有强烈的针对性。观察到对核苷酸结合蛋白(例如50个ATP结合物)和电子载体活性过程的偏好。通路位置分析表明药物靶点明显向通路来源转移,见图1天考虑到C。Prot药物靶点,这一趋势得到了大力加强。4特征GO分析沿着通路定位,并显示在所有生物过程中靶向的中心位置较少。我们认为,进一步向初始途径位置转移的原因是,C.Prot靶点主要包含代谢蛋白。事实上,以代谢途径为靶点的药物通常是针对限速酶设计的,例如ATP或NAD-结合蛋白,这些酶在代谢途径的开始就被发现。

图4
图4

药物靶点GO术语沿路径变化整合GO生物过程(BP)分析和路径位置。将C.Prot中途径的来源(0-0.2)、中心(0.4-0.6)和末端(0.8-1)的蛋白质以及仅限于C.Prot的药物靶标提交GO分析。至少有一例报告了P值<0.1%的所有BP项,我们发现中枢通路位置的普遍强烈降低(图1D)在BP上相当一致。条形图表示GO项的覆盖范围。

在人类相互作用组中,就最短路径距离而言,C.Prot实体往往比整个人类相互作用组中的平均值更接近自身和非C.Prot蛋白,图2安培。这种偏见在大量的C.Prot实体中增加。这表明,C.Prot非常均匀地嵌入相互作用组中,并不构成孤立的岛,这无疑增加了C.Prot与其他蛋白质组之间通过PPI通信的健壮性。

为了更好地理解C.Prot内部和与C.Prot的内部和外部交流,我们引入了中心相互作用组,并测量了它如何优先同步某些生物过程(BP)。显然,所有(真正的)PPI在生物学上都是相关的,但我们的分析旨在确定主要的通信流。BP之间的高核心交换(流量)总结了交互网络最有效的通信。从图中3A级我们看到,中央交互组中的大多数交换都用于同步BP和翻译。保护儿童和非保护儿童之间以及在中心互动组之外的BP交流不再是专门化的,翻译的作用微乎其微。

我们对C.Prot中的这些基本成分了解多少?令人惊讶的是,C.Prot含有22种蛋白质,在PubMed中缺乏任何信息(网址:http://www.ncbi.nlm.nih.gov/)检索带有基因符号及其同义词的文摘;73个蛋白质出现在不超过3个摘要中,112个出现在不多于6个摘要中。参见补充图6和补充表1。

结论

我们通过实验确定了一种适合于分析其整体特性的人类中心蛋白质组近似值。它由相当保守的蛋白质组成,通过获得额外的外显子获得了额外的表达灵活性。这些蛋白质主要参与蛋白质平衡、初级代谢、细胞周期和死亡。它们往往通过PPI与其他蛋白质连接良好。随机网络模拟表明,中心交互组通过进化非常有效地协调翻译与其他生物过程,或通过翻译间接协调后者。更丰富的蛋白质往往位于生物途径的中心位置。这些中心位置通常没有药物靶点,尤其是当它们是中心蛋白质组的一部分时,这突出了这些蛋白质的基本作用,其活性不应改变。令人惊讶的是,这些常见蛋白质中有10%基本上没有特征。我们的数据可以帮助其他研究人员在分析重点数据集时优先考虑蛋白质特征或作为背景。它们通过期刊网站(附加文件2)以及一个公共存储库:每个细胞系中蛋白质/肽鉴定的完整列表和光谱已保存在ProteomeCommons.org Tranche中(hash=“JUrzEy1ShYDDUoKVrxHaoMrAu/CGbqv3xqOS/zuErFvlD8MOrVPRu5kOSlcxwK+/EYdA9WoLN5eMeprBzh9rPMIuYksAAAAAAPLQ==”);在每个细胞系中以表格格式发现的所有标识的更紧凑版本(无光谱)也存放在Tranche中(hash=“DrsqOg2DmUzUlJVLom+O6AHQTyJa2v+Ekhbw8az6OfF4hv51cyWqCKmaOHZZnOKJTUDL9ziTdCKpEzirhmjt9csAAAAAAAANKw==”)。

方法

蛋白质组学

野生型K562、HEK293、Namalwa、HaCat、HepG2、U937、HeLa细胞(总蛋白50μg)的总裂解物通过1D SDS-PAGE进行还原、烷基化和分离。考马斯蓝对蛋白质进行可视化后,将整个凝胶层切成50个等份并消化就地用改良猪胰蛋白酶[41]. 从凝胶切片中提取得到的肽混合物,并使用定制的反相阶段尖端进行脱盐[42]. 每个细胞系在适当的培养基中生长完成融合。

通过数据依赖性纳米毛细管反相LC-MSMS将每个胰蛋白酶消化样品的约10%作为技术复制品进行分析。肽分离是通过定制的50μm内径色谱柱进行的,该色谱柱填充有3μm直径的C18 Reprosil珠,并连接到LTQ-Orbitrap XL混合质谱仪(ThermoFisher Scientific,Waltham,MA)。每四个MSMS通道使用一个MS通道进行100分钟的数据相关采集,并对60秒的选定离子进行动态排除。

蛋白质鉴定

蛋白质鉴定组合吉祥物[25]和Phenyx[26]均具有4 ppm/0.3 Da的母体/片段质量耐受性,最大1个缺失裂解,氨基甲酰半胱氨酸作为固定修饰,蛋氨酸氧化变量,最小肽长6个氨基酸。对UniProtKB/Swiss-Prot进行搜索(版本56.1)[29]人体切片,包括所有亚型。两个引擎的结果分别进行分析,至少需要2个不同的肽超过评分阈值。单肽命中率(SPH)也被接受,但高于更高的得分阈值,并且蛋白质序列覆盖率为2.5%或更高,见下文。在合并结果时,我们放弃了两个搜索引擎分配给不同肽的光谱。通过该选择的鉴定蛋白质根据共享肽进行分组,没有特定肽的组被丢弃(1%),补充图S7。基于反向数据库搜索,我们设定了0.25%的蛋白质组FDR,参见补充图S8,这导致了以下马斯科特阈值:离子得分为18或以上的2个肽,输出所有得分为10或以上的额外肽,离子得分至少为50的SPH;和Phenyx阈值:2个z评分为4.5或以上、P值为0.001或以下的肽,输出z评分高于3.5、SPHs z评分高于6的所有其他肽。

我们通过测定限制蛋白质组FDR的得分阈值所诱导的肽假阳性(FP)率来表征蛋白质组的稳健性。我们观察到该FP率<0.1%。由于我们丢弃了不含任何特定肽的蛋白质组(补充图7),因此一个组虽然是伪事实,但由于单一FP特定肽鉴定而未被检测到的概率小于0.1%。

我们用Phenyx鉴定出的蛋白质比用Mascot鉴定出的多(平均+4%),并且序列覆盖率更好:30%的蛋白质用Pheny鉴定出的序列覆盖率更高,而15%的蛋白质用Mascot鉴定出的顺序覆盖率更大。用于此项工作的Phenyx评分功能作为附加文件提供.

蛋白质丰度估算

众所周知,光谱和肽计数可以提供蛋白质丰度的合理估计[43——45]. 我们决定雇佣emPAI[45]这是一种考虑到仪器质量范围的修正光谱计数,因为它已经过作者的仔细验证,并且得到了广泛接受。我们使用的质量范围为698至2370 Da,涵盖99%的检测肽。

为了在下面的分析中区分常见的存在和唯一的丰度,我们构建了一个比较数据集Top。CL代表不常见表达的丰富蛋白质。对于每种蛋白质,我们用emPAI估计了其在7个细胞系中的丰度,为了获得一个单一的数字,我们取了中位数。然后,考虑到没有出现在5个以上细胞系中的蛋白质,Top。CL被定义为最高25%中值emPAI中的蛋白质(463个蛋白质)。为了区分C.Prot中的不同表达水平,我们遵循了类似的程序并定义了Low。C.Prot(低25%,278个蛋白质)和Top。C.蛋白质(前25%,281种蛋白质)。

蛋白质相互作用数据和途径

我们集成了五个包含人类蛋白质相互作用(PPI)(MINT)的公共数据库[46],国际法案[47]、HPRD[48]、生物网格[49],NCI-PID中发现的蛋白质复合物[36])将所有登录代码映射到Swiss-Prot。从这个集成数据库中,仅限于通过串联亲和纯化(TAP)对PPI进行物理测量,我们提取了9495种不同人类蛋白质之间的70083个相互作用,并建立了人类相互作用组的网络模型;在这个网络中发现了859个C.Prot蛋白(76%)。

已经提出了许多措施来表征网络中的连接性[50]. 我们保留了从节点中心性到可能参与复合体和模块的5个成熟的度量:中间中心性[51],它测量通过给定节点的最短路径数与最短路径总数的比率,即蛋白质相互作用序列(路径)通过该节点的可能性有多大;特征向量中心性[52]测量邻域自身中心性依赖的中心性,即当节点连接到自身为中心的节点时,节点的中心性增加;节点度是节点的邻居数量;聚类系数[53]测量节点及其直接邻居跨越的子网络中理论上可能的最大边数与实际边数之间的比率;k个-核心得分衡量最大数量k个节点位于k个-堆芯,堆芯[54]. A类k个-核心是一个子网络,所有节点至少连接到k个子网络的节点。

为了比较拓扑度量的分布,例如上述聚类系数,对于不同的蛋白质组,例如C.Prot与C.Trans,我们应用了一个goodness-of-fit检验。使用经典χ2测试得出的P值太小,因为有很多数据点可用,而且差异非常小。为了避免这个问题,我们对数据进行了1000次重新采样,使用两个集合中每个集合的500个数据点进行比较,并计算出χ2统计(10个箱子)。因此我们得到1000χ2统计,取中位数,从χ中获得P值2分配。

为了研究蛋白质在生物途径中的位置,我们使用了NCI-PID数据库[36]包括BioCarta(http://www.biocarta.com/)和Reactome[55]除NCI-PID独特途径外,还有其他途径。我们在这些途径中发现了573个蛋白质(55%),并计算了每个蛋白质的相对位置。相对位置的定义考虑了到最近源节点和端节点的最短路径,示例参见补充图S5。如果一个蛋白质在一条通路中出现多次,则取相对位置的平均值。我们没有区分分离的蛋白质和复合物中的蛋白质,并且平均了几种途径中的蛋白质出现次数。将到最近源/端节点的最短路径替换为到所有源/端点的所有最短路径的平均值,这是一个合理的替代度量,我们获得了几乎相同的结果(未显示数据)。

GO焊剂

测量GO之间的通量[31]通过PPI介导的生物过程(BPs),我们计算了成对的GO项。也就是说,给定两个相互作用的蛋白质,P1用BPs A、B和P注释2用C、D和E注释后,AC、AD、AE、BC、BD和BE对的计数为1。所有PPI的计数相加。为了避免“重新发现”GO结构,我们删除了在每个蛋白质中发现的GO术语的所有共同祖先。

为了确定由于GO项的频率和相互作用组中的蛋白质连接性而导致的强于预期的GO通量,我们生成了100个随机相互作用网络和GO注释。我们使用90个这样的随机注释网络来确定BP之间随机流量的平均值和标准偏差:平均值随机的,随机的(英国石油公司,英国石油公司j个),sd随机的,随机的(英国石油公司,英国石油公司j个). 然后将标准化分数定义为NScore(BP,英国石油公司j个)=(通量(BP,英国石油公司j个)-平均值随机的,随机的(英国石油公司,英国石油公司j个))/标准偏差随机的,随机的(英国石油公司,英国石油公司j个)并使所有术语达到一个共同的尺度,与它们的频率无关。最后10个随机网络用于学习归一化分数零分布,该零分布呈钟形。随机网络由拓扑结构、GO术语频率和与原始数据匹配的中心蛋白质组节点生成。我们考虑了随机网络,其中节点度和GO项频率被单独保留,但被解耦。

缩写

信用证:

液相色谱法

微软:

质谱法

MSMS:

串联质谱法

PPI:

物理蛋白质相互作用

项目控股股东:

单肽命中

GO(执行):

基因本体

英国石油公司:

生物过程

emPAI:

指数修正的蛋白质丰度指数

C.保护:

中心蛋白质组

顶部。氯:

前25%最丰富的蛋白质不在中央蛋白质组中

顶部。C.保护:

中央蛋白质组中前25%最丰富的蛋白质

低。C.保护:

中央蛋白质组中蛋白质含量低25%

规格。事务处理:

组织特异性转录物(睾丸除外)

HPA(HPA):

图谱

工具书类

  1. Hood L、Heath JR、Phelps ME、Lin B:系统生物学和新技术使预测和预防医学成为可能。科学。2004, 306 (5696): 640-643. 10.1126/科学1104635

    第条 中国科学院 公共医学 谷歌学者 

  2. Gavin AC、Aloy P、Grandi P、Krause R、Boesche M、Marzioch M、Rau C、Jensen LJ、Bastuck S、Dumpelfeld B等:蛋白质组调查揭示了酵母细胞机制的模块性。自然。2006, 440 (7084): 631-636. 10.1038/性质04532

    第条 中国科学院 公共医学 谷歌学者 

  3. Krogan NJ、Cagney G、Yu H、Zhong G、Guo X、Ignatchenko A、Li J、Pu S、Datta N、Tikuisis AP等:酿酒酵母蛋白质复合物的全球景观。自然。2006, 440 (7084): 637-643. 10.1038/性质04670

    第条 中国科学院 公共医学 谷歌学者 

  4. Kashtan N,Alon U:模块化和网络基序的自发进化。美国国家科学院院刊2005,102(39):13773-13778。10.1073/pnas.0503610102

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  5. de Chassey B、Navratil V、Tafforeau L、Hiet MS、Aublin Gex A、Agaugue S、Meiffren G、Pradezynski F、Faria BF、Chantier T等:丙型肝炎病毒感染蛋白网络。分子系统生物学。2008年4月23日-10.1038/msb.2008.66

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  6. Goh KI、Cusick ME、Valle D、Childs B、Vidal M、Barabasi AL:人类疾病网络。美国国家科学院院刊,2007,104(21):8685-8690。10.1073/编号0701361104

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  7. Pujana MA、Han JD、Starita LM、Stevens KN、Tewari M、Ahn JS、Rennert G、Moreno V、Kirchhoff T、Gold B等:网络建模与乳腺癌易感性和中心体功能障碍相关。自然遗传学。2007, 39 (11): 1338-1349. 2007.2年10月10日

    第条 中国科学院 公共医学 谷歌学者 

  8. Yildirim MA、Goh KI、Cusick ME、Barabasi AL、Vidal M:Drug-target network、Nat Biotechtol。2007, 25 (10): 1119-1126. 10.1038/nbt1338

    第条 中国科学院 公共医学 谷歌学者 

  9. Church GM:从系统生物学到合成生物学。分子系统生物学。2005, 1 (2005): 0032-

    公共医学 谷歌学者 

  10. Brehme M、Hantschel O、Colinge J、Kaupe I、Planyavsky M、Kocher T、Mechtler K、Bennett KL、Superti-Furga G:绘制药物靶点Bcr-Abl的分子网络图。2009年美国国家科学院院刊,

    谷歌学者 

  11. Bergholdt R、Storling ZM、Lage K、Karlberg EO、Olason PI、Aalund M、Nerup J、Brunak S、Workman CT、Pociot F:寻找糖尿病和其他复杂疾病相关基因和网络的综合分析。基因组生物学。2007,8(11):R253-10.1186/gb-2007-8-11-R253

    第条 公共医学中心 公共医学 谷歌学者 

  12. Lage K、Hansen NT、Karlberg EO、Eklund AC、Roque FS、Donahoe PK、Szallasi Z、Jensen TS、Brunak S:人类疾病基因和复合体的组织特异性病理学和基因表达的大规模分析。美国国家科学院院刊2008,105(52):20870-20875。10.1073/pnas.0810772105

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  13. Pawson T,Nash P:通过蛋白质相互作用域组装细胞调节系统。科学。2003, 300 (5618): 445-452. 10.1126/科学1083653

    第条 中国科学院 公共医学 谷歌学者 

  14. Schirle M,Heurtier MA,Kuster B:通过一维聚丙烯酰胺凝胶电泳和液相色谱-串联质谱分析人类细胞系的核心蛋白质组。分子细胞蛋白质组学。2003, 2 (12): 1297-1305. 10.1074/mcp。M300087-MCP200型

    第条 中国科学院 公共医学 谷歌学者 

  15. Su AI、Cooke MP、Ching KA、Hakak Y、Walker JR、Wiltshire T、Orth AP、Vega RG、Sapinoso LM、Moqrich A等:人类和小鼠转录组的大规模分析。美国国家科学院院刊,2002,99(7):4465-4470。10.1073/pnas.012025199

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  16. Muller FJ、Laurent LC、Kostka D、Ulitsky I、Williams R、Lu C、Park IH、Rao MS、Shamir R、Schwartz PH等:监管网络定义了人类干细胞系的表型类别。自然。2008, 455 (7211): 401-405. 10.1038/自然07213

    第条 公共医学中心 公共医学 谷歌学者 

  17. Lattin JE、Schroder K、Su AI、Walker JR、Zhang J、Wiltshire T、Saijo K、Glass CK、Hume DA、Kellie S等:小鼠巨噬细胞G蛋白偶联受体的表达分析。免疫学研究2008,4(1):5-10.1186/1745-7580-4-5

    第条 公共医学中心 公共医学 谷歌学者 

  18. Walker JR、Su AI、Self-DW、Hogenesch JB、Lapp H、Maier R、Hoyer D、Bilbe G:大鼠多组织基因表达数据集的应用。《基因组研究》2004,14(4):742-749。10.1101克/克2161804

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  19. Bossi A,Lehner B:组织特异性和人类蛋白质相互作用网络。分子系统生物学。2009年5月26日-10.1038/msb.2009.17

    第条 公共医学中心 公共医学 谷歌学者 

  20. Lehner B,Fraser AG:富含哺乳动物组织特异性或广泛表达基因的蛋白质结构域。趋势Genet。2004, 20 (10): 468-472. 2016年10月10日/j.tig.2004.08.002

    第条 中国科学院 公共医学 谷歌学者 

  21. Gry M、Rimini R、Stromberg S、Asplund A、Ponten F、Uhlen M、Nilsson P:23种人类细胞系中RNA和蛋白质表达谱之间的相关性。BMC基因组学。2009, 10: 365- 10.1186/1471-2164-10-365

    第条 公共医学中心 公共医学 谷歌学者 

  22. Lu P,Vogel C,Wang R,Yao X,Marcotte EM:绝对蛋白表达谱估计转录和翻译调控的相对贡献。国家生物技术。2007, 25 (1): 117-124. 10.1038/nbt1270

    第条 中国科学院 公共医学 谷歌学者 

  23. Kislinger T、Cox B、Kannan A、Chung C、Hu P、Ignatchenko A、Scott MS、Gramolini AO、Morris Q、Hallett MT等:小鼠器官和细胞器蛋白表达的全球调查:蛋白质组学和转录组学联合分析。单元格。2006, 125 (1): 173-186. 2016年10月10日/j.cell.2006.01.044

    第条 中国科学院 公共医学 谷歌学者 

  24. Ponten F、Gry M、Fagerberg L、Lundberg E、Asplund A、Berglund L、Oksvold P、Bjorling E、Hober S、Kampf C等:人类细胞、组织和器官中蛋白质表达的全球观点。分子系统生物学。2009年5月337日-10.1038/msb.2009.93

    第条 公共医学中心 公共医学 谷歌学者 

  25. Perkins DN、Pappin DJ、Creasy DM、Cottrell JS:通过使用质谱数据搜索序列数据库进行基于概率的蛋白质鉴定。电泳。1999, 20: 3551-3567. 10.1002/(SICI)1522-2683(19991201)20:18<3551::AID-ELPS3551>3.0.CO;2-2

    第条 中国科学院 公共医学 谷歌学者 

  26. Colinge J、Masselot A、Giron M、Dessingy T、Magnin J:OLAV:走向高通量串联质谱数据识别。蛋白质组学。2003, 3 (8): 1454-1463. 10.1002/pmic.200300485

    第条 中国科学院 公共医学 谷歌学者 

  27. 科林奇J,贝内特KL:计算蛋白质组学导论。公共科学图书馆计算生物学。2007年,3(7):e114-10.1371/journal.pcbi.0030114

    第条 公共医学中心 公共医学 谷歌学者 

  28. Glatter T、Wepf A、Aebersold R、Gstaiger M:绘制人类相互作用蛋白质组的集成工作流:对PP2A系统的见解。分子系统生物学。2009年5月23日-10.1038/msb.2008.75

    第条 公共医学中心 公共医学 谷歌学者 

  29. Wu CH、Apweiler R、Bairoch A、Natale DA、Barker WC、Boeckmann B、Ferro S、Gasteiger E、Huang H、Lopez R:通用蛋白质资源(UniProt):蛋白质信息的扩展领域。《核酸研究》,2006年,D187-191。34数据库,

    谷歌学者 

  30. Gasteiger E、Hoogland C、Gattiker A、Duvaud S、Wilkins MR、Appel RD、Bairoch A:ExPASy服务器上的蛋白质识别和分析工具。蛋白质组学协议手册。编辑:Walker JM.2005,571-607。完整文本。Humana出版社,

    第章 谷歌学者 

  31. Ashburner M、Ball CA、Blake JA、Botstein D、Butler H、Cherry JM、Davis AP、Dolinski K、Dwight SS、Eppig JT等:基因本体:生物学统一的工具。基因本体联盟。自然遗传学。2000, 25 (1): 25-29. 10.1038/75556

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  32. Kanehisa M、Araki M、Goto S、Hattori M、Hirakawa M、Itoh M、Katayama T、Kawashima S、Okuda S、Tokimatsu T:KEGG,用于将基因组与生命和环境联系起来。《核酸研究》2008,D480-484。36数据库,

    谷歌学者 

  33. Huang da W,Sherman BT,Lempicki RA:利用DAVID生物信息学资源对大型基因列表进行系统和综合分析。国家协议。2009, 4 (1): 44-57. 10.1038/nprot.2008.211

    第条 公共医学 谷歌学者 

  34. Alexa A,Rahnefuhrer J,Lengauer T:通过去相关GO图结构,改进了基因表达数据中官能团的评分。生物信息学。2006, 22 (13): 1600-1607. 10.1093/生物信息学/btl140

    第条 中国科学院 公共医学 谷歌学者 

  35. Wishart DS、Knox C、Guo AC、Cheng D、Shrivastava S、Tzur D、Gautam B、Hassanali M:药物库:药物、药物作用和药物靶点的知识库。《核酸研究》2008,D901-906。36数据库,

    谷歌学者 

  36. Schaefer CF、Anthony K、Krupa S、Buchoff J、Day M、Hannay T、Buetow KH:PID:路径交互数据库。《核酸研究》,2009年,D674-679。37数据库,

    谷歌学者 

  37. Jeong H、Tombor B、Albert R、Oltvai ZN、Barabasi AL:代谢网络的大规模组织。自然。2000, 407 (6804): 651-654. 10.1038/35036627

    第条 中国科学院 公共医学 谷歌学者 

  38. Desiere F、Deutsch EW、King NL、Nesvizhskii AI、Mallick P、Eng J、Chen S、Eddes J、Loevenich SN、Aebersold R:PeptideAtlas项目。《核酸研究》2006,655-10.1093/nar/gkj040。34数据库,

    谷歌学者 

  39. Jones P、Cote RG、Cho SY、Klie S、Martens L、Quinn AF、Thorneycroft D、Hermjakob H:骄傲:新发展和新数据集。《核酸研究》2008,D878-883。36数据库,

    谷歌学者 

  40. Hackl H、Burkard TR、Sturn A、Rubio R、Schleiffer A、Tian S、Quackenbush J、Eisenhaber F、Trajanoski Z:基因表达谱和功能注释揭示的脂肪细胞发育过程中的分子过程。基因组生物学。2005,6(13):R108-10.1186/gb-2005-6-13-R108

    第条 公共医学中心 公共医学 谷歌学者 

  41. Shevchenko A,Wilm M,Vorm O,Mann M:蛋白质银染聚丙烯酰胺凝胶的质谱测序。分析化学。1996, 68 (5): 850-858. 10.1021/ac950914小时

    第条 中国科学院 公共医学 谷歌学者 

  42. Rappsilber J、Ishihama Y、Mann M:蛋白质组学中基质辅助激光解吸/电离、纳米电喷雾和LC/MS样品预处理的停-走萃取技巧。分析化学。2003, 75 (3): 663-670. 10.1021/ac026117i

    第条 中国科学院 公共医学 谷歌学者 

  43. Old WM、Meyer-Arendt K、Aveline-Wolf L、Pierce KG、Mendoza A、Sevinsky JR、Resing KA、Ahn NG:用鸟枪蛋白质组学定量人类蛋白质的无标签方法比较。分子细胞蛋白质组学。2005, 4 (10): 1487-1502. 10.1074/mcp。M500084-MCP200型

    第条 中国科学院 公共医学 谷歌学者 

  44. Rappsilber J,Ryder U,Lamond AI,Mann M:人类剪接体的大规模蛋白质组学分析。《基因组研究》2002,12(8):1231-1245。10.1101/473902克

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  45. Ishihama Y,Oda Y,Tabata T,Sato T,Nagasu T,Rappsilber J,Mann M:指数修饰蛋白质丰度指数(emPAI),用于通过每个蛋白质的测序肽数量来估计蛋白质组学中的绝对蛋白质量。分子细胞蛋白质组学。2005, 4 (9): 1265-1272. 10.1074/mcp。M500061-MCP200型

    第条 中国科学院 公共医学 谷歌学者 

  46. Chatr aryamontri A、Ceol A、Palazzi LM、Nardelli G、Schneider MV、Castagnoli L、Cesarini G:MINT:分子内窥镜数据库。《核酸研究》,2007年,D572-574。35数据库,

    谷歌学者 

  47. Kerrien S、Alam Faruque Y、Aranda B、Bancarz I、Bridge A、Derow C、Dimmer E、Feuermann M、Friedrichsen A、Huntley R:IntAct——分子相互作用数据的开源资源。《核酸研究》,2007年,D561-565。35数据库,

    谷歌学者 

  48. Mishra GR、Suresh M、Kumaran K、Kannabiran N、Suresh S、Bala P、Shivakumar K、Anuradha N、Reddy R、Raghavan TM:人类蛋白质参考数据库——2006年更新。《核酸研究》,2006年,D411-414。34数据库,

    谷歌学者 

  49. Breitkreutz BJ、Stark C、Reguly T、Boucher L、Breitkreutz A、Livstone M、Oughtred R、Lackner DH、Bahler J、Wood V:BioGRID交互数据库:2008年更新。核酸研究2008,D637-640。36数据库,

    谷歌学者 

  50. Costa LdFR、Francisco A、Travieso、Gonzalo、Boas、Villas PR:复杂网络的表征:测量调查。物理学进展。2007, 56: 167-242. 10.1080/00018730601170527.

    第条 谷歌学者 

  51. Brandes U:更快的中间中心算法。数学社会学杂志。2001, 25 (2): 163-177. 10.1080/0022250X.2001.9999249。

    第条 谷歌学者 

  52. Bonacich P:特征向量中心性的一些独特性质。社交网络。2007, 29 (4): 555-564. 2016年10月10日/j.socnet.2007.04.002。

    第条 谷歌学者 

  53. Bader GD,Hogue CW:一种在大型蛋白质相互作用网络中发现分子复合物的自动化方法。BMC生物信息学。2003, 4: 2- 10.1186/1471-2105-4-2

    第条 公共医学中心 公共医学 谷歌学者 

  54. Tong AH、Drees B、Nardelli G、Bader GD、Brannetti B、Castagnoli L、Evangelista M、Ferracuti S、Nelson B、Paoluzi S等:定义肽识别模块蛋白质相互作用网络的综合实验和计算策略。科学。2002, 295 (5553): 321-324. 10.1126/科学.1064987

    第条 中国科学院 公共医学 谷歌学者 

  55. Matthews L、Gopinath G、Gillespie M、Caudy M、Croft D、de Bono B、Garapati P、Hemish J、Hermjakob H、Jassal B:人类生物途径和过程的反应组知识库。《核酸研究》,2009年,D619-622。37数据库,

    谷歌学者 

  56. Shannon P、Markiel A、Ozier O、Baliga NS、Wang JT、Ramage D、Amin N、Schwikowski B、Ideker T:Cytoscape:生物分子相互作用网络集成模型的软件环境。《基因组研究》2003,13(11):2498-2504。10.1101/gr.1239303

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

下载参考资料

致谢

我们感谢所有CeMM同事在本研究项目期间提供的帮助和讨论。我们得到了奥地利研究与教育部APP II、APP III和BIN III GEN-AU拨款的支持。

作者信息

作者和附属机构

作者

通讯作者

与的通信雅克·科林奇.

其他信息

作者的贡献

TRB和JC进行了生物信息学分析。TRB、JC和GSF设计了该项目并撰写了手稿。MP和KB实现了样品的蛋白质组学分析。TB为项目设计和结果解释做出了贡献。IK负责细胞培养工作。FB实施并改编了用于此项目的几个内部数据库。所有作者阅读并批准了最终手稿。

托马斯·伯卡德和雅克·科林奇对这项工作做出了同样的贡献。

电子辅助材料

12918_2010_606_MOESM1_ESM。PDF格式

附加文件1:补充材料。补充材料中包含了一些图表,进一步支持了本文中讨论的结果。(PDF 1010 KB)

12918_2010_606_MOESM2_ESM。XLS公司

附加文件2:中央蛋白质组列表。一个表列出了在中心蛋白质组中发现的1124个蛋白质的所有登录代码、ID、描述和基因名称。(XLS 272 KB)

12918_2010_606_MOESM3_ESM。XML格式

附加文件3:线性陷阱Phenyx得分功能。我们为ThermoFisher线性陷阱开发的本研究中使用的评分函数。它可以添加到任何Phenyx安装中。(XML 29 KB)

作者提交的原始图像文件

权利和权限

开放式访问本文经BioMed Central Ltd.许可发布。这是一篇开放存取文章,根据知识共享署名许可条款分发(https://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

T.R.Burkard、M.Planyavsky、I.Kaupe。等。人类中枢蛋白质组的初步特征。BMC系统生物 5, 17 (2011). https://doi.org/10.1186/1752-0509-5-17

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1752-0509-5-17

关键词