人类蛋白质图谱

人类蛋白质图谱是一个基于瑞典的项目,于2003年启动,旨在利用各种组学技术(包括基于抗体的成像、基于质谱的蛋白质组学、转录组学和系统生物学)的集成来绘制细胞、组织和器官中的所有人类蛋白质。知识资源中的所有数据都是开放访问的,允许学术界和工业界的科学家自由访问用于人类蛋白质组研究的数据。
人类蛋白质图谱由十二个单独的部分组成,每个部分侧重于人类蛋白质全基因组分析的特定方面:

  • 这个组织显示蛋白质在人体所有主要组织和器官中的分布
  • 这个大脑探索哺乳动物大脑不同区域的蛋白质分布
  • 这个单细胞类型部分,显示基于scRNA-seq的单个人类细胞类型中蛋白编码基因的表达
  • 这个组织细胞类型部分,显示基于大量RNAseq数据的人类细胞类型中蛋白质编码基因的表达
  • 这个病理展示蛋白质水平对癌症患者生存的影响
  • 这个疾病血液图谱部分,显示不同疾病患者血液中的蛋白质水平以及用于疾病预测的蛋白质面板
  • 这个免疫细胞部分,显示免疫细胞类型中蛋白质编码基因的表达
  • 这个血液蛋白质部分,描述血液中检测到的蛋白质和人体组织分泌的蛋白质
  • 这个亚细胞的切片,显示单个细胞中蛋白质的亚细胞定位
  • 这个细胞系展示人类细胞系中蛋白质编码基因的表达
  • 这个结构部分,显示了蛋白质的实验和预测三维结构,包括抗原位点、人群和临床变体
  • 这个互动第节,在蛋白质和代谢相互作用网络的背景下探索蛋白质编码基因的表达和特征

人类蛋白质图谱项目已经为人类生物学和疾病领域的数千份出版物做出了贡献,并且由于其对更广泛的生命科学界的根本重要性,被ELIXIR组织(www.ELIXIR-europe.org)选为欧洲核心资源。人类蛋白质图谱联盟主要由克努特和爱丽丝·沃伦伯格基金会资助。

完整的出版物列表可用在这里.

组织

人类蛋白质图谱的这一部分着重于人类组织中基因在mRNA和蛋白质水平上的表达谱。来自44种正常人体组织类型的蛋白质表达数据来自基于抗体的蛋白质分析,使用常规和多重免疫组织化学方法。免疫组织化学染色的正常组织的所有基础图像都可以与基于知识的蛋白质表达水平注释一起获得。蛋白质数据包括15303有可用抗体的基因(76%)。mRNA表达数据来自40种不同正常组织类型的RNA(RNA-seq)的深度测序。

有关特定内容以及数据生成和分析的更多信息,请访问方法摘要.

了解:

  • 蛋白质在组织中的单细胞定位
  • 如果基因在特定组织中富集(特异性)
  • 哪些基因在组织中具有相似的表达谱(表达簇)

例子:

FCAMR公司
IgA和IgM受体的Fc片段。

近端肾小管中的选择性微绒毛表达,在mRNA水平上富集于肾脏和淋巴组织。

大脑

大脑部分概述了哺乳动物大脑中的蛋白质表达和分布。将外部和“室内”生成的数据整合起来,以探索人类、猪和小鼠大脑中的区域蛋白表达。蛋白质表达数据基于使用RNA测序技术和原位杂交对信使RNA进行量化。使用基于抗体的免疫组织化学和免疫荧光技术生成蛋白质分布数据。大脑切片可用于概述感兴趣蛋白质的区域和跨物种表达,也可用于根据大脑各区域的表达水平识别区域或功能聚集基因。有关本节中特定内容以及数据生成和分析的更多信息,请参阅方法摘要.

了解:

  • 人脑各区域和亚区域所有人类蛋白质的表达水平
  • 猪和小鼠大脑区域和亚区域中所有人类同源蛋白的表达水平
  • 与外周器官相比,在大脑任何区域表达更高的富含大脑的基因
  • 在大脑的单个或几个区域中具有较高表达的区域富集基因
  • 人类和小鼠大脑中特定蛋白质的细胞类型和细胞室分布
  • 哺乳动物基因表达的差异

例子:

NECAB1公司
N末端EF-和钙结合蛋白1。

神经元亚群在整个大脑中显示出明显的体树突状免疫反应。该图像显示了小鼠大脑海马神经元亚群中的蛋白质位置。

单细胞类型

本节包含基于来自31个人体组织(包括外周血单核细胞)的单细胞RNA测序(scRNAseq)数据的单细胞类型信息。这些数据与内部生成的免疫组织化学染色组织切片有关组织以可视化相应的空间蛋白表达模式。scRNAseq分析基于公开的全基因组表达数据,包含557个单个细胞类型簇中的所有蛋白编码基因,对应15个不同的细胞类型组。进行特异性分类以确定这些单细胞类型中升高的基因数量。可以在交互式UMAP图和条形图中探索每种细胞类型中表达的基因,并链接到人体组织中相应的免疫组织化学染色。

有关该部分中具体内容以及数据生成和分析的更多信息,请访问方法摘要.

了解:

  • 单个细胞类型的mRNA和蛋白表达
  • 如果基因在特定细胞类型中富集(特异性)
  • 哪些基因在不同细胞类型中具有相似的表达谱(表达簇)

例子:

TSPY2型
睾丸特异性蛋白,Y连锁2。

精原细胞在蛋白质水平上的选择性核表达,在mRNA水平上精原细胞富集。

组织细胞类型

组织细胞类型部分包含所有人类蛋白编码基因的细胞类型表达特异性预测,这些预测是通过对公开可用的大量RNAseq数据进行集成网络分析生成的。特异性分类用于预测单个组织内每个组成细胞类型中富集的基因。这些数据可以在逐个组织的基础上进行研究,同时也可以在内部生成免疫组织化学染色的组织切片。此外,核心细胞类型分析侧重于在所有或大多数轮廓组织中发现的细胞类型,例如内皮细胞或巨噬细胞。这里详细介绍了在多个组织中这些核心细胞类型中具有预测特异性的基因。有关本节中具体内容和数据分析的更多信息,请参阅方法摘要.


了解:

  • 如果预测某个基因在给定组织中具有细胞类型特异性
  • 哪些基因在每个组织中具有共同的细胞类型特异性预测
  • 在跨组织的核心细胞类型中具有预测特异性的基因目录

例子:

KRTAP2-1项目角蛋白相关蛋白2-1。

毛囊皮层细胞在蛋白质水平上的选择性表达,皮肤中mRNA特异性预测:毛囊皮质细胞。

病理

本节包含基于17种不同形式人类癌症的mRNA和蛋白表达数据的病理学信息,以及数百万内部生成的免疫组织化学染色组织切片图像和Kaplan-Meier图,显示了每个人类蛋白基因的mRNA表达与癌症患者生存率之间的相关性。有关特定内容以及数据生成和分析的更多信息,请参阅方法摘要.

总结了来自相关国际和瑞典数据库的癌症统计数据在这里描述了癌症的特征在这里.

了解:

  • 基因的mRNA表达是否能预测每种癌症类型的患者生存率
  • 如果一个基因在特定的癌症类型中富集(特异性)
  • 每种癌症类型中升高的基因目录

例子:

MKI67型
增殖标记Ki-67。

在所有癌症类型的不同部分肿瘤细胞中,核表达在蛋白质水平,在所有癌症中表达在mRNA水平。该基因的高表达与肾癌、肝癌和胰腺癌的不良预后相关。


疾病血液

《人类疾病血液图谱》包含不同疾病患者血液中蛋白质水平的信息,并使用差异表达分析和基于机器学习的疾病预测策略突出显示与这些疾病相关的蛋白质。在这个版本中,报道了一项泛癌研究,涵盖1463通过邻近延伸分析(PEA)和146通过同位素稀释策略对蛋白质进行定量,并添加重组蛋白片段标准物&定量质谱的金标准物。已经对12种主要癌症类型的蛋白质图谱进行了量化。有关特定内容以及数据生成和分析的更多信息,请参阅方法摘要.

了解

  • 12种不同类型癌症患者血液中全面准确的蛋白质水平
  • 与所分析的每种癌症相关的蛋白质

例子:

在泛癌研究中,模型预测的蛋白质与前列腺癌相关。


免疫细胞

免疫细胞部分包含有关人类蛋白编码基因全基因组RNA表达谱的单细胞信息,这些基因涵盖各种B细胞和T细胞、单核细胞、粒细胞和树突状细胞。转录组学分析涵盖了通过细胞分选分离的18种细胞类型,包括基于特异性、分布和所有免疫细胞的表达簇的分类。有关特定内容以及数据生成和分析的更多信息,请参阅方法摘要.

了解:

  • 如果基因在特定免疫细胞类型中富集(特异性)
  • 哪些基因在免疫细胞中具有相似的表达谱(表达簇)
  • 每种免疫细胞类型中升高的基因目录

例子:

CD82型

肿瘤转移抑制因子CD82在18种不同类型免疫细胞和PBMC中的表达。


血液蛋白质

血液蛋白质部分介绍了基于质谱的蛋白质组学研究、公布的免疫分析数据和基于邻近延伸分析(PEA)的纵向研究中检测到的人类血液中蛋白质的估计血浆浓度。此外,还对“人类分泌体”进行了分析,包括对预计会积极分泌到人类血液以及人体其他腔室或器官系统(如消化道或大脑)的基因的注释。有关本节中特定内容以及数据生成和分析的更多信息,请参阅方法摘要.

了解:

  • 健康人血浆蛋白质水平的纵向研究
  • 免疫分析和质谱蛋白质组学测定血浆蛋白质水平
  • 人类分泌体的分类(人类细胞分泌的蛋白质)

例子:

人物配对关系
铜蓝蛋白。

小提琴图显示了基于免疫分析的不同功能类型蛋白质在血液中的浓度。绿松石转运类别中的红色方框表示糖蛋白铜蓝蛋白的浓度,该糖蛋白参与铁在细胞膜上的转运。


亚细胞的

人类蛋白质图谱的亚细胞部分提供了对由13147基因(占人类蛋白质编码基因的65%)。对于每个基因,都通过免疫荧光研究了蛋白质的亚细胞分布(ICC-IF公司)共聚焦显微镜下,从亚细胞切片中使用的37个细胞系中挑选出三个不同的细胞系。通过图像分析,蛋白质的亚细胞定位被分为35个不同的细胞器和精细亚细胞结构中的一个或多个。此外,本节还包括对蛋白质表达水平和/或亚细胞分布中显示单细胞变异的基因的注释,以及对这种变异的细胞周期依赖性的扩展分析。

亚细胞部分提供了一个数据库,用于详细探索感兴趣的单个基因和蛋白质,以及在更广泛的背景下对蛋白质组进行系统分析。有关本节内容以及数据生成和分析的更多信息,请参阅方法总结.

了解:

  • 蛋白质在人类细胞系中的亚细胞分布。
  • 不同细胞器和亚细胞结构的蛋白质组。
  • 蛋白质表达水平和/或定位的单细胞变异性。

例子:

CCNB1公司
细胞周期蛋白B1。

该蛋白定位于人和小鼠细胞中的胞浆,并以细胞周期依赖的方式表达。通过siRNA介导的基因沉默、GFP标记蛋白和独立抗体的分析验证了该位置。


细胞系

细胞系部分包含1206个人类细胞系(包括1132个癌细胞系)中人类蛋白编码基因的全基因组RNA表达谱信息。转录组学分析包括基于28种癌症类型特异性分析的分类、所有细胞系的分布和表达聚类分析,对于选定的癌症类型,还分析了细胞系与其对应癌症类型的相似性。有关特定内容以及数据生成和分析的更多信息,请参阅方法总结.

了解:

  • 如果基因在来自特定癌症类型的细胞中富集(特异性)
  • 哪些基因在细胞系中具有相似的表达谱(表达簇)
  • 每个细胞系中升高的基因目录
  • 哪个细胞系与其相应的TCGA疾病队列(即用于癌症研究的最佳细胞系)具有最一致的表达谱
  • 癌相关途径与细胞因子活性

例子:

A4镀锌

A4GALT基因在1206株细胞中的RNA表达按来源分为28种癌症,一种非癌症组包括其他疾病,另一种未分类组包括正常细胞永生化产生的细胞系、原代细胞系和诱导的多能干细胞。


结构

结构部分包含关于人类蛋白质三维结构的信息。预测的3D结构AlphaFold蛋白质结构数据库项目可以突出显示结构中的选定区域和位置。蛋白质浏览器可用于选择剪接变异体并显示蛋白质相关特征,如已知抗原序列、跨膜区域和结构上的InterPro结构域。已知临床相关性的人群变异和变异的氨基酸位置信号群变化也可以显示数据库。有关特定内容以及数据生成和分析的更多信息,请参阅方法摘要.

了解:

  • 预测的蛋白质三维结构
  • 选定蛋白质特征在结构中的位置
  • 已知的错义变体及其临床意义
  • 人群中已知的错义变体
  • 大多数抗体的抗原结构

例子:

表皮生长因子受体

膜蛋白受体EGFR的AlphaFold预测结构。


互动

相互作用部分提供了基于IntAct数据库中蛋白质-蛋白质相互作用和代谢图谱中代谢途径的相互作用网络数据。有关本节中特定内容和数据生成的更多信息,请参阅方法总结.

了解:

  • 蛋白质与其他蛋白质的相互作用
  • 蛋白质相互作用网络的特征
  • 代谢基因是什么途径/子系统的一部分
  • 代谢网络中哪些基因邻近
  • 通路/子系统中基因的表达在不同组织中的差异

例子:

香港3

果糖和甘露糖代谢网络的一部分,显示涉及基因HK3的反应。