抗原和抗体生产

PrEST区域(Agton C等人(2003年);Lindskog M等人(2005年))首先用RT-PCR从总RNA模板池中扩增出每个PrEST的特定寡核苷酸引物。扩增子通过固相限制自动处理,并连接到质粒载体pAf8c中(Larsson M等人(2000年))其中,人类基因片段与组氨酸标签和白蛋白结合蛋白(His6ABP)融合。在转化为大肠杆菌Rosetta(DE3)后,插入物通过DNA测序进行验证,以省略突变克隆,并且批准的克隆具有单细胞条纹。从所有纯化克隆中收集质粒,以沉积在克隆库中,并制备甘油储备,用作蛋白质生产的起始材料。

经IPTG诱导后,所有蛋白质在大肠杆菌摇瓶培养物中以His6ABP融合体的形式表达。已经开发出一种全自动蛋白质纯化系统,一次可以纯化多达60种细胞裂解物。通过六组氨酸亲和标记和金属亲和色谱(IMAC)实现一步纯化,并在变性条件下进行。在评估蛋白质浓度和纯度后,通过质谱测定PrEST蛋白质的分子量,作为最终质量控制。然后将纯化的蛋白质用于制备抗原和带有PrEST-标记的亲和柱。此外,还生产了与His6ABP-甘露的亲和树脂。

抗原免疫后,与合作伙伴一起产生的多克隆抗血清以三步方式进行仔细纯化,包括:去除多余的特异性、捕获想要的特异性和最后的缓冲液交换步骤。使用重力流柱的手动过程会耗尽具有多余特异性的抗体。以下步骤在KTAxpress色谱系统上执行,实现高通量半自动化过程,捕获的抗体通过低pH甘氨酸缓冲液洗脱,并自动加载到脱盐柱上进行缓冲液交换。抗体补充50%的甘油和0.02%的叠氮化钠,以便在-20°C下长期保存。所有抗体的结合特异性在蛋白质微阵列上测定,以证明只有高特异性和低背景结合的抗体才被批准用于免疫组织化学分析。使用来自人类细胞系(RT-4和U-251 MG)的蛋白裂解物、缺乏IgG和HSA的人血浆以及来自人类肝脏和扁桃体的全组织裂解物,在高通量WB平台中进一步分析所有批准的抗体。已在包含过表达裂解物(马里兰州罗克维尔OriGene Technologies,VERIFY Tagged Antigen™)的WB装置中重新验证了最初在标准WB小组中评分为不确定的已发表抗体的选择,作为阳性对照。

ABP-白蛋白结合蛋白IPTG-异丙基-B-D-硫代吡喃半乳糖苷IMAC-固定化金属亲和色谱法

免疫组织化学-组织

人类蛋白质图谱包含通过免疫组织化学方法获得的正常组织和癌组织的组织切片图像。抗体用DAB(3,3'-二氨基联苯胺)标记,由此产生的棕色染色显示抗体与相应抗原结合的位置。进一步用苏木精对切片进行复染,以使显微镜特征可视化。组织微阵列用于显示144名个体样本中的抗体染色,这些样本对应44种不同的正常组织类型,216名癌症患者样本对应20种不同的癌症类型(电影组织芯片制作和免疫组织化学染色)。每个样本由1 mm的组织核心表示,每个抗体的图像总数为576张。正常组织由三个个体的样本代表,每个个体一个核心,子宫内膜、皮肤、软组织和胃除外,这些组织由六个个体的样品代表,甲状旁腺由一个样本代表。这些组织样本中76种不同正常细胞类型的蛋白质表达被注释。对于癌症组织,从每个个体中取样两个核心,并在肿瘤细胞中注释蛋白质表达。由于技术问题,大多数抗体的576张图像中有一小部分缺失。根据当地伦理委员会的批准,从外科标本的匿名石蜡包埋材料中收集并取样含有正常组织和癌症组织的标本。对于选定的蛋白质,除了标准组织微阵列外,还进行了扩展的组织剖析。检查的组织包括小鼠大脑、人类哺乳期乳房、眼睛、胸腺和肾上腺、皮肤和大脑的延伸样本。
由于标本来源于外科材料,因此正常在这里被定义为非肿瘤性和形态正常。获得完全正常的组织并不总是可能的,因此一些被表示为正常的组织将包括炎症、变性和组织重塑引起的改变。在罕见组织中,增生或良性增生属于例外。还应注意,在正常形态下,由于原发疾病、年龄、性别等原因,可能存在个体间差异和变异。这些差异也可能影响蛋白质表达,从而影响免疫组织化学染色模式。癌症样本也来自外科材料。由于每种癌症类型中肿瘤的亚组和异质性,包括的病例代表了手术病理学标本的典型混合。肿瘤的纳入是基于可用性和代表性,然而,在适用的情况下,已努力将高级别和低级别恶性肿瘤纳入。在某些肿瘤组中,亚型包括在内,例如乳腺癌包括导管癌和小叶癌,肺癌包括鳞癌和腺癌,肝癌包括肝细胞癌和胆管细胞癌等。肿瘤异质性和个体间差异可能反映在蛋白质的不同表达中,从而导致不同的免疫组织化学染色模式。

注释

为了概述蛋白质表达模式,所有免疫组织化学染色的组织图像都由一名专家手动注释,然后由另一名专家验证。使用固定的免疫组化结果分类指南对每个不同的正常组织和癌组织进行注释。检查每个组织的代表性,随后对正常或癌组织中不同细胞类型的免疫反应进行注释。基本注释参数包括评估i)染色强度(阴性、弱、中等或强),ii)染色细胞分数(<25%、25-75%或>75%)和iii)亚细胞定位(核和/或细胞质/膜)。手册注释还提供了两个总结文本,描述正常组织和癌组织中每个抗体的染色模式。
所使用的术语和本体符合病理学和医学中使用的标准。SNOMED公司分类用于地形和形态学的赋值。SNOMED分类也可作为采集正常和癌症样本的原始诊断依据。
注释中使用的组织学词典作为PDF文档提供,其中包含使用人类蛋白图谱中包含的抗体进行免疫组织化学染色的图像。字典显示了可相互区分的细胞亚型,也显示了不同细胞内结构中的特定表达模式。注释字典:屏幕使用情况(15 MB),印刷(95 MB)。

基于知识的注释

基于知识的注释旨在创建正常人体组织中蛋白质表达模式的综合概述。这是通过严格评估免疫组织化学染色模式、来自内部和外部来源的RNA-seq数据以及可用的蛋白质/基因特征数据实现的,特别强调RNA-seq。使用单个抗体和独立抗体(针对同一蛋白质上不同的非重叠表位的两个或多个独立抗体)执行注释性蛋白质表达谱。对于独立抗体,考虑所有不同抗体的免疫组化数据。正常组织中的免疫组织化学染色模式是根据严格的指导原则进行主观注释的。这是基于对所分析的76种正常细胞类型中阳性免疫组织化学信号的经验评估。该审查还考虑了次优实验程序和个体差异。
最终注释的蛋白质表达被认为是最佳估计值,因此反映了每个蛋白质最可能的组织学分布和相对表达水平。为了实现蛋白质表达谱,以下一个或多个额外的数据源是必要的;i) 针对同一蛋白质的另一个表位的独立抗体ii)RNA-seq数据,以及iii)可用的蛋白质/基因特征数据。当分析时可用的信息被评估为不足以验证染色模式和估计预期蛋白质表达时,基于知识的注释的结果被认为是不确定的。基于知识的蛋白质表达谱是使用对结果表达谱的评估和表示的固定准则来执行的。必要时使用标准化解释句,以提供全面理解表达模式所需的附加信息。基于对所有可用数据的评估,为每个注释的蛋白质表达谱设置可靠性得分,设置为增强、支持、批准或不确定。

可靠性得分

手动为所有基因设置可靠性得分,并指示基于可用RNA-seq数据的知识评估的分析蛋白质表达模式的可靠性水平,针对同一基因的非重叠序列设计的一个或多个抗体的蛋白质/基因特征数据和免疫组化数据。可靠性评分基于分析的44个正常组织,并显示在组织地图集和病理地图集上。

可靠性得分分为增强、支持、批准或不确定。如果有来自多个抗体的可用数据,则在评估可靠性得分时,应考虑所有抗体的染色模式。

增强
针对同一基因非重叠序列的一个或多个抗体基于正交或独立抗体验证方法获得了增强验证。

支持
如果满足以下标准之一:

  • 至少有一种抗体在RNA水平和染色模式之间显示出高或中等一致性,但该抗体不符合正交验证染色模式与有效文献一致,或者没有有效文献
  • 至少有一种抗体具有定义为“无法评估”的RNA一致性染色模式与有效文献一致
  • 成对抗体(一些针对非重叠序列的抗体)显示出类似的染色模式,但这些抗体不符合独立抗体验证的条件染色模式与有效文献一致,或没有有效文献可用

经核准的
如果满足以下标准之一:

  • 至少有一种抗体在RNA水平和染色模式之间显示出高或中等一致性染色模式与有效文献不一致
  • 至少有一种抗体显示RNA水平和染色模式之间的低一致性染色模式与有效文献一致
  • 至少有一种抗体具有定义为“无法评估”的RNA一致性染色模式与有效文献部分一致,或与有限文献一致
  • 配对抗体显示部分相似的表达模式

不确定因素
如果满足以下标准之一:

  • 只有多靶向抗体可用。多靶向抗体用于由于属于不同基因的蛋白质之间的高序列一致性而不可能产生单靶向抗体的基因。这些基因在许多情况下密切相关并属于已知的基因家族,在这些情况下产生的多靶向抗体与该家族基因转录本的序列一致性大于80%,与所有其他人类基因转录本序列一致性较低。
  • 至少有一种抗体在RNA和染色模式之间显示出低或极低的一致性,或RNA一致性被定义为“无法评估”染色模式与有效文献不一致,或没有有效文献
  • 配对抗体显示不同的表达模式

多重免疫组织化学/IF-组织

作为组织地图集切片的一部分,多重免疫组织化学(mIHC)/IF数据是通过从正常组织的组织切片中获得的染色组织微阵列生成的。mIHC/IF组织数据显示间接mIHC标记的蛋白质的高分辨率6重图像,除常规IHC外,还提供与不同单个细胞和细胞类型相关的蛋白质表达模式的空间信息,甚至细胞状态以及组织学和生物结构嵌入组织中。

类似于传统的IHC,在mIHC/IF中,第一抗体首先用与辣根过氧化物酶(HRP)(或类似物)偶联的第二抗体标记。此外,该方法利用酪胺信号放大(TSA),其中荧光酪胺分子由HRP催化,HRP在结合位点及其附近产生荧光沉淀物。运行几个染色剥离循环的能力允许每个载玻片具有多达6个标记蛋白质的组织切片。最后,用DAPI(4′,6-二氨基-2-苯基吲哚)对载玻片进行复染。在这个装置中,使用由来自三名患者的双1 mm核心组成的组织微阵列来分析每个蛋白质。

注释

通过估计与面板抗体重叠的细胞比例并注释其细胞下定位来评估感兴趣的靶标,从而手动注释蛋白质定位。对于每张幻灯片,还检查组织核心的代表性。注释参数包括评估i)未知蛋白表达与面板标记重叠的细胞分数(<25%、25-75%或>75%),以及ii)染色的亚细胞定位(核和/或细胞质/质膜/膜)。手册注释还提供了两个总结文本,描述每个抗体的染色模式。

Testis面板

对于睾丸,已经开发了两个小组,其目的是i)捕获精原干细胞向精原细胞前体精母细胞的转变(精原细胞小组),ii)鉴定精母细胞分化和减数分裂期间的蛋白质表达(精母细胞小组);iii)表征精子转化期间的蛋白质,一个称为精子生成的过程(精子组),以及iv)绘制出Sertoli特异蛋白的蛋白质(Sertoli细胞组)。对于每个未知蛋白质,靶向该蛋白质的抗体被标记为未被标记蛋白质占据的可用TSA-氟菌(OPAL 520)。

精原板

单元格类型 标记蛋白 抗体 荧光标签 假彩色
状态0 UTF1标准 CAB022384号 OPAL480型 黄色的
状态1 IRF2BPL公司 HPA050862型 OPAL650型 白色
状态2-3 DMRT1公司 HPA027850型 OPAL690型 青色
状态4 CTCFL公司 HPA001472型 OPAL780号 洋红
早精蛋白精母细胞 弯管2 HPA013142型 OPAL570型 红色
空插槽 未知感兴趣的蛋白质 - OPAL520系列 绿色


精子细胞面板

单元格类型 标记蛋白 抗体 荧光标签 假彩色
早精蛋白精母细胞 赫尔斯 HPA063242型 OPAL480型 黄色的
瘦素精母细胞 SCML1号机组 HPA035270型 OPAL690型 青色
粗线期/二倍体精母细胞 TCFL5公司 HPA076419型 OPAL780号 洋红
早期精子 太阳5号 HPA048529型 OPAL620型 白色
晚期精子细胞 项目风险管理1 HPA055150型 OPAL570型 红色
空插槽 未知感兴趣的蛋白质 - OPAL520系列 绿色


精子面板

单元格类型 标记蛋白 抗体 荧光标签 假彩色
圆形精子细胞1 利亚尔 HPA035881型 OPAL780号 洋红
圆形精子细胞2 OLAH公司 HPA037948型 OPAL690型 青色
暂时性精子细胞 C3类 第020432页 OPAL480型 黄色的
伸长精子细胞 飞溅24 HPA044000型 OPAL570型 红色
伸长精子细胞 TPPP2型 HPA004120型 OPAL620型 白色
空插槽 未知感兴趣的蛋白质 - OPAL520系列 绿色


支持细胞面板

单元格类型 标记蛋白 抗体 荧光标签 假彩色
支持细胞浆 隔膜2 CAB015461号 OPAL570型 红色
支持膜 CD99型 CAB000020号 OPAL690型 白色
支持核 HMGN5号机组 HPA000511型 OPAL780号 洋红
精原细胞和精母细胞 DDX4系列 HPA037764型 OPAL620型 青色
精子 西班牙航空公司1 HPA043297型 OPAL480型 黄色的
空插槽 未知感兴趣的蛋白质 - OPAL520系列 绿色

肾脏面板

对于肾脏,开发了一个肾小管小组来表征肾脏蛋白质的空间定位,主要在肾小管中,也在足细胞中。还添加了内皮细胞标记物,以区分肾小球室中的非齿状细胞。对于每个未知蛋白质,靶向该蛋白质的抗体被标记为未被标记蛋白质占据的可用TSA-氟菌(OPAL 520)。

肾小管面板

单元格类型 标记蛋白 抗体 荧光标签 假彩色
收集管道 AQP2类 HPA046834型 OPAL690型 青色
远端小管 CASR公司 HPA039686型 OPAL570型 红色
近端小管 ACSM2A/B型 HPA057699型 OPAL620型 白色
足细胞 PTPRO公司 HPA034525型 OPAL480型 黄色的
内皮细胞 CD34型 HPA036722型 OPAL780号 洋红
空插槽 未知感兴趣的蛋白质 - OPAL520系列 绿色


数据可靠性

对于每种抗体和蛋白质,都要进行内部可靠性评估,以确保在发布之前获得高质量的数据。未知蛋白质的抗体染色模式总是对照其相应的常规IHC染色模式进行复现,并对照可用的组织和单细胞RNA-seq数据以及蛋白质/基因表征数据。此评估不应与可靠性评分进行全组织分析。还评估了面板标记蛋白的再现性,以确保注释的高质量。


免疫组织化学/IF-小鼠大脑

作为免疫组织化学染色组织的补充,蛋白质图谱还包括作为正常组织图谱亚区的小鼠脑图谱。其中,在小鼠大脑中可获得全面的配置文件。通过使用小鼠大脑序列切片中的抗体对选定的一组靶点进行了分析,这些切片覆盖了129个大脑区域和子域,其中几个区域在人脑中很难覆盖。此外,垂体、视网膜和三叉神经节也包含在最近和未来的图像序列中,但尚未注释。

人类蛋白质图谱中使用的组织微阵列方法能够对包括大脑在内的人体内的蛋白质进行全局映射。目前,人类组织图谱涵盖了人类大脑的四个区域:大脑皮层、海马体、尾状体和小脑。由于大脑结构的异质性,许多细胞核和细胞类型被组织在复杂的网络中,因此很难在1毫米的组织样本中实现全面的概述。因此,需要对更多的人脑样本进行分析,包括较小的脑细胞核,以便生成更详细的大脑蛋白质分布图。因此,我们在这里补充了人脑图谱的工作,对小鼠大脑进行了更全面的分析。通过一系列小鼠脑切片研究蛋白质在大量脑区的表达和分布。

抗体是针对参与正常大脑生理学、大脑发育和神经病理学过程的蛋白质而选择的。当比较抗体靶点的PrEST序列时,同源性限制为60%(人类与小鼠)。

根据原位杂交将选定的抗体应用于含有已知表达的脑区或细胞类型的测试切片(脑图谱)和单细胞RNAseq数据(林纳森实验室巴雷斯实验室). 染色模式根据针对同一靶点的多个抗体的染色模式之间的一致性以及与转录组学数据的匹配性进行评估。使用绿色显示的酪氨酸信号放大显示抗体免疫反应。细胞核参考染色(DAPI)显示为蓝色。免疫荧光方案通过抗体浓度进行标准化,孵育时间根据测试染色期间测定的蛋白质丰度和抗体亲和力而变化。完整的小鼠大脑轮廓由16µm厚的成年小鼠大脑的连续冠状切片表示。在进一步处理之前,对着色幻灯片进行扫描和数字化。

表1。大脑区域。缩写基于立体坐标系下的鼠脑,第三版:冠状板和图表(ISBN:9780123742445)

地区 缩写 脑图谱
大脑皮层 大脑皮层 额叶联系皮层 弗拉(fra) 玻璃钢
大脑皮层 大脑皮层 运动皮层 卫生官员
大脑皮层 大脑皮层 扣带皮层 cg公司 ACA公司
大脑皮层 大脑皮层 梨状皮质 旋转1 PIR1项目
大脑皮层 大脑皮层 梨状皮层,L2 旋转2 个人识别码2
大脑皮层 大脑皮层 梨状皮层,L3 旋转3 个人信息3
大脑皮层 大脑皮层 岛叶皮层 人工智能
大脑皮层 大脑皮层 体感皮层 不锈钢
大脑皮层 大脑皮层 脾后颗粒皮质 rsg公司 RSP公司
大脑皮层 大脑皮层 顶叶结合皮层 第页 PTLp公司
大脑皮层 大脑皮层 内嗅皮层 耳鼻喉科 耳鼻喉科
大脑皮层 大脑皮层 视觉皮层 v(v) 可视信息系统
嗅球 嗅球 前嗅核 aon公司 AON公司
嗅球 嗅球 粒细胞层 格罗 MOBgr公司
嗅球 嗅球 内丛状层 国际石油公司 MOBipl公司
嗅球 嗅球 二尖瓣细胞层 惯性矩 MOBmi公司
嗅球 嗅球 肾小球层 全球 MOBgl公司
嗅球 嗅球 吻部迁移流 rms(有效值) 经济特区
嗅球 嗅球 外丛状层 电子脉冲激光 MOBopl公司
嗅球 嗅球 附件OB的外丛状层 埃普拉
嗅球 嗅球 副OB颗粒细胞层 格拉 AOBgr公司
嗅球 嗅球 副OB肾小球层 格拉 AOBgl公司
全部显示显示更少

注释

对数字化图像进行处理(轴调整和组织边缘定义),然后根据上表标记感兴趣区域(ROI)。然后使用这些ROI进行图像分析,并列出每个区域的相对荧光强度。相对荧光是指注释区域相对于强度最高区域的强度。

小鼠大脑中的概述和保留的方向使我们能够为每种研究蛋白质注释额外的细胞类别(室管膜)、胶质细胞亚群(小胶质细胞、少突胶质细胞和星形胶质细胞)和额外的大脑特定亚细胞位置(轴突、树突、突触和胶质细胞末端)。

免疫荧光染色切片的所有图像都由受过专门教育的人员手动注释,然后由另一名合格的工作人员进行审查和验证。定义了免疫反应的细胞和亚细胞位置,并提供了描述一般染色模式的总结文本。

通过将数据与原位杂交数据进行比较来验证特异性(艾伦脑图谱)和/或可用文献;来自其他数据的支持导致支持性的可靠性得分,而更多未知目标被视为不确定,等待进一步验证。

可靠性得分

为所有基因设置可靠性得分,并指示基于可用蛋白质/RNA/基因特征数据分析的蛋白质表达模式的可靠性水平。

根据原位杂交数据(Allen脑图谱)和/或之前发布的数据UniProtKB/Swiss-Prot数据库的支持,小鼠脑图谱中抗体的可靠性评分为支持或不确定。

免疫细胞化学/IF-细胞

亚细胞切片围绕着由间接免疫细胞化学/免疫荧光(ICC-IF)标记的蛋白质的高分辨率、多色图像。这为蛋白质在细胞器和单细胞亚细胞结构中的亚细胞分布提供了蛋白质定位的空间信息。

选择来源于不同人类组织的三种细胞系,最初是U2OS、A-431和U-251 MG,用于ICC-IF的蛋白质亚细胞定位分析。此后,细胞系小组已经扩大,以涵盖更多的细胞类型和谱系,例如来自间充质、上皮和胶质瘤的肿瘤细胞系,以及通过引入端粒酶而永生的细胞系。此外,选择是基于形态特征和这些细胞系的广泛使用。关于捐赠者性别和年龄、细胞来源和来源的信息是此处列出为了将整个人类蛋白质组定位在一个特定细胞系的亚细胞水平上,大多数蛋白质在U2OS中染色。根据mRNA表达数据选择另外两个细胞系。除了人类细胞系外,考虑到人类和小鼠的基因是直向同源的,许多蛋白质已经在小鼠细胞系NIH 3T3中染色。

ICC的标准免疫染色协议可以在科学方法的开放存取存储库中找到,网址为协议.io对于绝大多数抗体,用多聚甲醛(PFA)实现固定,但对于少数抗体,用甲醇代替,以更好地保持某些细胞结构的形态。对于每个基因,PFA或甲醇的使用以及抗体的稀释因子在抗体和验证部分中进行了说明。为了便于注释HPA抗体靶向蛋白的亚细胞定位,细胞也用参考标记物染色:(i)细胞核的DAPI,(ii)微管的抗微管蛋白抗体,以及(iii)内质网的抗钙网蛋白或抗KDEL。

得到的共焦图像是表示细胞的一个光学部分的单层图像。显微镜设置是标准化的,但探测器增益针对每个样品进行了优化。不同的细胞器探针在多色图像中显示为不同的通道,HPA抗体呈绿色,细胞核呈蓝色,微管呈红色,内质网呈黄色。

注释

为了对染色模式进行解释,ICC-IF生成的所有图像都进行了手动注释。对于每个细胞系和抗体,染色是根据亚细胞位置和单细胞变异性(SCV)来描述的。下表列出了用于注释的亚细胞位置,以及到细胞结构字典条目和相应GO术语的链接。免疫荧光图像中的SCV分为强度变化(表达水平的变化)或空间变化(空间分布的变化)。

亚细胞定位 GO术语
肌动蛋白丝 GO:0015629号
Aggresome公司 GO:0016235号
细胞连接 去:0030054
中心卫星 去:0034451
中心体 去:0005813
解理沟 去:0032154
细胞动力学桥 GO:0045171号
细胞质体 去:0036464
细胞质溶胶 去:0005829
内质网 去:0005783
内含体 去:0005768
病灶粘连部位 去:0005925
高尔基体 去:0005794
中间纤维 GO:0045111号
动粒 GO:0000776号
脂滴 去:0005811
溶酶体 去:0005764
微管末端 GO:1990752号
微管 GO:0015630号
车身中部 去:0030496
中体环 GO:0090543编号
线粒体 去:0005739
有丝分裂染色体 去:0005694
有丝分裂纺锤体 GO:0072686号
核物体 GO:0016604号
核膜 GO:0031965号
核小点 GO:0016607号
核仁 去:0005730
核仁纤维中心 GO:0001650号
核仁边缘 去:0005730
核原生质体 去:0005654
过氧化物酶体 转到:0005777
质膜 转到:0005886
杆和环
囊泡 GO:0043231号

基于知识的注释

基于知识的注释旨在提供对检测到的蛋白质亚细胞定位的解释。在第一步中,回顾了具有相同抗体的不同细胞系中的染色,并将结果与UniProtKB/Swiss-Prot数据库中亚细胞定位的外部实验蛋白质/基因特征数据进行了比较。在第二步中,考虑针对同一蛋白质的所有抗体,以最终解释蛋白质的亚细胞分布。

可靠性得分

根据来自HPA和UniProtKB/Swiss-Prot数据库的可用蛋白质/RNA/基因特征数据,每个位置分别给出四个可靠性得分中的一个(增强、支持、批准或不确定)。可靠性评分还包括几个其他因素,包括抗体染色在不同细胞系中的再现性、染色强度和RNA表达水平之间的相关性,以及增强抗体验证的分析。通过使用与同一靶蛋白上不同表位结合的抗体(独立抗体验证),通过评估靶蛋白敲除/敲除后的染色强度(基因验证)和/或通过将信号与GFP标记蛋白匹配(重组表达验证),增强验证,以及文献中描述的亚细胞定位的实验证据。个体位置可靠性得分汇总在总体基因可靠性得分中。

有四种不同的可靠性得分:

  • 增强-抗体增强了验证,没有矛盾的数据,例如描述不同位置实验证据的文献。
  • 支持-没有对抗体进行增强验证,但文献中报道了带注释的定位。
  • 已批准-蛋白质的定位之前没有描述过,并且只有一种抗体检测到,没有额外的抗体验证。
  • 不确定-抗体训练模式与实验数据相矛盾,或在RNA水平上未检测到表达。

蛋白质阵列

所有纯化抗体在抗原微阵列上进行分析。根据与384种不同抗原(包括其自身靶点)的相互作用,确定每种抗体的特异性特征。阵列上的抗原被连续交换,以对应下一组384个纯化抗体。每个微阵列被分成21个重复的子阵列,能够同时分析21个抗体。通过荧光标记的二级抗体检测抗体,并使用双色系统验证斑点蛋白的存在。每个抗体都会生成一个特异性轮廓图,其中与自身抗原结合的信号会与与所有其他抗原的最终靶外相互作用进行比较。绝大多数(86%)的抗体都通过了测试,其余的则因低信号或低特异性而失败。

蛋白质印迹

抗体特异性的Western blot分析是使用常规样品装置进行的,该装置由IgG/HSA缺失的人血浆和有限数量的人体组织和细胞系的蛋白裂解物组成。使用过表达裂解物(马里兰州Rockville OriGene Technologies的VERIFY标记抗原(TM))作为阳性对照,对常规WB不确定的抗体进行了重新验证。使用过氧化物酶(HRP)标记的二级抗体,在CCD相机系统中通过化学发光检测显示抗体结合。

对人类蛋白图谱中包含的抗体进行了分析,但没有进一步优化程序,因此不能排除某些观察到的结合特性是由于技术原因而非生物原因,进一步优化可能会导致不同的结果。

转录组学

HPA RNA-seq数据

共有1206个细胞系、40个人体组织和18种血细胞类型以及总外周血单个核细胞(PBMC)通过RNA-seq进行了分析,以估计每个蛋白编码基因的转录丰度。此外,从动物的大脑和视网膜采集了19份小鼠组织样品和32份猪组织样品,并用RNA-seq进行了分析。

对于正常组织血液样本根据当地伦理委员会的批准(参考号2011/473和参考号2015/1552-32)以及瑞典的法规,在患者同意的情况下采集样本,并对所有样本进行匿名。从乌普萨拉生物银行收集所有组织,并从冷冻组织切片中提取RNA样本。血液样本富集PBMC和粒细胞,用抗体标记,并通过流式分选分离成亚群。对于细胞系,将早期分裂的样品作为副本,并使用Qiagen RNeasy迷你试剂盒提取总RNA。列出了关于细胞起源和每个细胞系来源的信息在这里.

对于小鼠组织,样本是根据瑞典法律法规收集和处理的,所有实验都得到了当地伦理委员会的批准(Stockholms Norra Djurförsöksetiska Nämd N183/14)。动物实验符合欧洲共同体理事会指令(86/609/EEC),并尽一切努力减少痛苦和使用的动物数量。从Charles River Laboratories获得雄性WT小鼠(n=2)和雌性C57BL/6J小鼠(2个月大),并在标准条件下保持12小时昼夜循环,可随意饮水和进食。洗去血液后,大脑、垂体和脊髓被迅速从头骨和脊椎中取出,并放入冰冷的无菌PBS中,使组织变硬,更容易解剖。整个大脑在一个冰凉的表面上被仔细地分割成17个亚区。通过在pH 7.4的温暖(37°C)PBS中分离视网膜和色素层来收集视网膜样品。将所有解剖区域放置在1.5 ml Eppendorf管中,并在液氮中进行snap冷冻。样品在-80°C下保存,直到进行RNA提取的进一步处理。分析所有脑区、垂体和视网膜的转录表达。使用TissueLyser LT(Qiagen)机械均质组织,并使用RNeasy Mini分离试剂盒(Qiangen)制备总RNA。这产生了高质量的RNA,84%的样本的RNA完整性数(RIN)值高于8.0,并且由于RIN值非常低(小于6.0),仅删除了一个样本。总共有75个样本随后使用Illumina TruSeq Straded mRNA试剂进行文库构建。Illumina HiSeq2500平台用于测序,测序深度约为2000万读。

总共141个HPA细胞系样本,186正常组织样本,和109在Illumina HiSeq2000和2500台机器(Illuminia,San Diego,CA,USA)上,使用读取长度为2x100个碱基的标准Illumian RNA-seq协议进行mRNA测序。其余细胞系的RNA序列数据来自癌症细胞系百科全书(CCLE公司). 可以找到有关细胞系数据的更多信息在这里在Illumina NovaSeq 6000系统上对四个S4通道的血细胞mRNA进行测序,读取长度为2x150个碱基。转录物丰度估计使用卡利斯托v0.48.0。这18种血细胞类型分为六种不同的谱系,包括B细胞、T细胞、NK细胞、单核细胞、粒细胞和树突状细胞。可以找到更多信息在这里.

这个HPA人脑样本集包含人脑。根据匈牙利卫生部科学与研究伦理委员会(ETT TUKEB:189/KO/02.6008/2002/ETT)和Semmelweis大学区域科学与研究道德委员会(编号32/1992/TUKEB)的批准,该分析是与人脑组织库(HBTB;布达佩斯Semmelweis大学)合作进行的取下人脑组织样本,收集、储存并用于研究。样品由Palkovits教授收集,RNA从冷冻脑穿孔中提取。这个人脑数据集基于使用MGI DNBSEQ-T7平台分析的193个地区的966个样本。这个人类前额叶皮层数据集包括来自3名男性和3名女性供体的165份样本,使用Illumina测序平台对前额叶皮层17个亚区和3个参考皮层区域的蛋白质表达进行了详细概述。

这个猪组织BGI公司.根据国家大型实验动物指南,在当地伦理委员会(伦理许可编号4441050000078和BGI-IRB18135)的许可下,并根据欧洲指令和法规,收集并处理用于mRNA分析的猪脑。实验用小型猪(中国巴马小型猪)由Peral Lab Animal Sci&Tech Co.,Ltd提供(许可证号SYXK2017-0123)。雄性(n=2)和雌性(n=2)中国巴马小型猪(1岁)在标准条件下饲养在无特定病原体的稳定设施中。大脑在1)额叶/嗅束水平、2)视交叉和3)下丘脑和大脑脚之间的冠状板上切割。石板被分成两个半球,暴露所有主要的大脑结构。为了进行mRNA分析,根据取样策略收集了大脑皮层和小脑的片段,收集了包含所有细胞层的代表性样本。对所有其他区域进行了彻底解剖和收集。女性1缺少两个样本(躯体感觉皮层和中脑导水管周围灰质),因为这两个区域无法100%确定,因此被排除在外。从雌性2号的嗅球中提取了重复样本,总共得到119个大脑样本和8个额外样本(视网膜和垂体),所有127个样本中都有。所有样品均保存在-80°C下,直到在一个月内提取RNA。

GTEx RNA-seq数据

基因型问题表达(GTEx公司)该项目收集并分析多个人体尸检组织。基于RSEMv1.3.0绘制了36种组织类型的RNA-seq数据(第8版)由此产生的TPM值已包含在人类蛋白质图谱中,可从Gencode v26映射到合奏版本109GTEx视网膜数据基于EyeGEx数据Ratnapriya等人,《2019年自然遗传学》转录物丰度估计使用卡利斯托v0.48.0使用合奏版本109作为参考基因组。

组织 GTEx纸巾 样品数量
脂肪组织 脂肪-皮下 663
脂肪-内脏(网膜) 541
肾上腺 肾上腺 258
扁桃形结构 大脑-杏仁核 152
乳房 乳房-乳房组织 459
Caudate公司 大脑尾端(基底神经节) 246
小脑 大脑-小脑半球 215
大脑-小脑 241
大脑皮层 大脑-前扣带回皮层(BA24) 176
大脑-皮层 255
大脑-额叶皮层(BA9) 209
子宫颈 宫颈-子宫颈 9
宫颈-子宫内膜 10
科隆 结肠-乙状结肠 373
结肠-横向 406
子宫内膜 子宫-子宫内膜 16
食管 食管-粘膜 555
输卵管 输卵管 9
心肌 心脏-心房附件 429
心脏-左心室 432
海马 大脑-海马 197
下丘脑 大脑-下丘脑 202
肾脏-皮质 85
肾脏-髓质 4
肝脏 肝脏 226
578
伏隔核 大脑-伏隔核(基底神经节) 246
卵巢 卵巢 180
胰腺 胰腺 328
垂体 垂体 283
前列腺 前列腺 245
蒲公英 大脑-壳核(基底神经节) 205
视网膜 视网膜 105
唾液腺 小唾液腺 162
骨骼肌 肌肉-骨骼 803
皮肤 皮肤-不暴露在阳光下(耻骨上) 604
皮肤-暴露在阳光下(小腿) 701
小肠 小肠-回肠末端 187
脊髓 大脑-脊髓(颈部c-1) 159
脾脏 脾脏 241
359
黑实体 大脑-黑质 139
Testis公司 Testis公司 361
甲状腺 甲状腺 653
膀胱 膀胱 21
阴道 阴道 156

FANTOM5 CAGE数据

哺乳动物基因组的功能注释5(扇形5)该项目使用基因表达帽分析(CAGE)提供哺乳动物细胞类型特异转录体的全面表达谱和功能注释(Takahashi H等人(2012年))基于RIKEN开发的一系列全长cDNA技术。60个组织的CAGE数据来自FANTOM5存储库并映射到合奏版本109.

组织 FANTOM5纸巾 样品描述 FANTOM5样本id
脂肪组织 脂肪组织 65、65、76岁,混合型 消防:10010-101C1
扁桃形结构 扁桃形结构 76岁,女性 消防:10151-102I7
附录 附录 29岁,男性 电话:10189-103D9
乳房 乳房 77岁,女性 FF:10080-102A8型
Caudate公司 尾核 76岁,女性 消防:10164-103B2
小脑 小脑 22-68岁,混合 消防:10083-102B2
小脑 76岁,女性 消防:10166-103B4
子宫颈 子宫颈 40,46,57,65岁,女性 消防:10013-101C4
科隆 科隆 62,83,84岁,混合 消防:10014-101C5
胼胝体 胼胝体 24-68岁,混合 消防:10042-101F6
输精管 输精管 24岁,男性 消防:10196-103E7
子宫内膜 子宫 23-63岁,女性 消防:10100-102D1
附睾 附睾 24岁,男性 消防:10197-103E8
食管 食管 68,74,75年,混合 消防:10015-101C6
额叶 额叶 32-61岁,混合 消防:10040-101F4
胆囊 胆囊 57岁,男性 电话:10198-103E9
苍白球 苍白球 76岁,女性 消防:10161-103A8
苍白球 60岁,女性 消防:10175-103C4
心肌 心脏 70,73,74岁,混合 消防:10016-101C7
左心室 73岁,女性 消防:10078-102A6
左心房 40岁,男性 消防:10079-102A7
海马 海马 76岁,女性 消防:10153-102I9
海马 60岁,女性 消防:10169-103B7
岛叶皮层 因苏拉 20-68岁,混合 消防:10039-101F3
60,62,63岁,女性 消防:10017-101C8
肝脏 肝脏 64,69,70年,混合 消防:10018-101C9
蓝斑蓝斑 蓝斑蓝斑 76岁,女性 消防:10165-103B3
蓝斑蓝斑 60岁,女性 消防:10182-103D2
46,65,94岁,混合 电话:10019-101D1
肺-右下叶 29岁,男性 消防:10075-102A3
淋巴结 淋巴结 30岁,男性 传真:10077-102A5
内侧额回 内侧额回 76岁,女性 消防:10150-102I6
内侧颞回 内侧颞回 76岁,女性 消防:10156-103A3
内侧颞回 60岁,女性 消防:10183-103D3
延髓 延髓 18-64岁,混合 消防:10038-101F2
延髓 76岁,女性 消防:10155-103A2
延髓 60岁,女性 消防:10174-103C3
伏隔核 伏隔核 23-56岁,混合 消防:10037-101F1
枕皮质 枕皮质 76岁,女性 消防:10163-103B1
枕叶 枕叶 27岁,男性 消防:10076-102A4
枕极 枕极 22-68岁,混合 传真:10036-101E9
嗅觉灯泡 嗅觉区 87岁,女性 消防:10195-103E6
卵巢 卵巢 47,75,84岁,女性 时间:10020-101D2
胰腺 胰腺 52岁,男性 消防:10049-101G4
中央旁回 中央旁回 22-69岁,混合 传真:10035-101E8
顶叶 顶叶 35-89岁,混合 消防:10034-101E7
顶叶 76岁,女性 消防:10157-103A4
顶叶 60岁,女性 消防:10171-103B9
垂体 垂体 76岁,女性 消防:10162-103A9
胎盘 胎盘 女性的 消防:10021-101D3
Pons公司 Pons公司 18-54岁,混合 消防:10033-101E6
中央后回 中央后回 44-52岁,混合 FF:10032-101E5型
前列腺 前列腺 73,79,93岁,男性 消防:10022-101D4
蒲公英 蒲公英 60岁,女性 消防:10176-103C5
视网膜 视网膜 24-65岁,混合 传真:10030-101E3
唾液腺 唾液腺 16-60岁,混合 传真:10093-102C3
腮腺 23岁,男性 传真:10199-103F1
颌下腺 24岁,男性 消防:10202-103F4
精囊 精囊 24岁,男性 消防:10201-103F3
骨骼肌 骨骼肌 55,79,79岁,混合 FF:10023-101D5型
骨骼肌-比目鱼肌 男性的 消防:10282-104F3
小肠 小肠 15,40,85年,混合 消防:10024-101D6
平滑肌 平滑肌 20-68岁,男性 消防:10048-101G3
脊髓 脊髓 76岁,女性 消防:10159-103A6
脊髓 60岁,女性 消防:10181-103D1
脾脏 脾脏 39,50,70岁,男性 消防:10025-101D7
黑实体 黑实体 76岁,女性 消防:10158-103A5
颞皮质 颞叶 32-61岁,混合 消防:10031-101E4
Testis公司 Testis公司 34,53,86岁,男性 消防:10026-101D8
Testis公司 14-64岁,男性 消防:10096-102C6
塔拉穆斯 塔拉穆斯 76岁,女性 消防:10154-103A1
胸腺 胸腺 0.5,0.5,0.83岁婴儿年龄,男性 时间:10027-101D9
甲状腺 甲状腺 67,68,78岁,混合型 传真:10028-101E1
舌头 舌头 28岁,男性 消防:10203-103F5
Tonsil公司 Tonsil公司 22-61岁,混合型 消防:10047-101G2
膀胱 膀胱 55,58,79岁,混合 消防:10011-101C2
阴道 阴道 68岁,女性 FF:10204-103F6型

组织细胞类型:使用GTEx批量RNAseq数据分析基因细胞类型特异性

GTEx数据用于综合网络分析,以确定给定组织类型内所有蛋白质编码基因的细胞类型特异性。有关此分析和分类的更多详细信息,请参阅组织细胞类型部分方法总结.

scRNA-seq数据

入选标准

单细胞RNA测序数据集是基于对单细胞RNA序列和包含健康人体组织的单细胞数据库相关文献的荟萃分析。为了避免技术偏见,并确保单细胞数据集能够最好地代表相应的组织,采用了以下数据选择标准:(1)单细胞转录组数据集仅限于基于10X Genomics(版本2或3)的铬单细胞基因表达平台的数据集;(2) 在不预先富集细胞类型的组织中对单细胞悬浮液进行单细胞RNA测序;(3) 仅包括4000个以上细胞和2000万个读取计数的研究,(4)仅包括伪体转录表达谱与相应HPA组织块样本的转录表达谱高度相关的数据集。应该注意的是,眼睛(约1260万读)、直肠(2638个细胞)和心肌(基于平板的scRNA-seq)除外,分析中包括了各种细胞类型。


单细胞转录组学数据集

总共分析了31个不同的数据集。这些数据集分别从单细胞表达图谱,的人类细胞图谱,的基因表达总览,的艾伦大脑图,欧洲基因组-现象档案智人Tabula Sapiens参考文献的完整列表如下表所示。
组织 数据来源 M读取数 电池数量 参考
脂肪组织 GSE155960 351.1 80083 Hildreth AD等人(2021年)
骨髓 GSE159929-GSM4850584 9.8 3484 He S等人(2020)
大脑 艾伦大脑 1403.9 76533 艾伦脑图
乳房 64898英镑 262.1 46126 Bhat-Nakshatri P等人(2021年)
支气管 图11981034 87.9 26676 Lukassen S等人(2020年)
科隆 GSE116222标准 47.1 5302 Parikh K等人(2019年)
子宫内膜 GSE111976标准 284.5 52594 王伟等(2020)
食管 GSE159929-GSM4850580 33 10441 He S等人(2020)
眼睛 GSE137537标准 12.6 9555 Menon M等人(2019年)
输卵管 GSE178101 416.4 62514 Ulrich ND等人(2022年)
心肌 GSE109816标准 55.8 6012 Wang L等人(2020)
GSE131685标准 35.9 18365 廖杰等(2020)
肝脏 GSE115469标准 32.8 11175 MacParland SA等人(2018)
智慧Tabula sapiens 349.6 27756 Tabula Sapiens Consortium等(2022)
淋巴结 GSE159929-GSM4850583 16.4 9076 He S等人(2020)
卵巢 电子邮箱-8381 144.4 37104 Wagner M等人(2020年)
胰腺 GSE131886标准 110 5313 Qadir MMF等人(2020年)
中国人民银行 GSE112845标准 18.9 5274 陈杰等(2018)
胎盘 电子邮箱-6701 326 25615 Vento-Tormo R等人(2018年)
前列腺 智慧Tabula sapiens 90.7 19009 Tabula Sapiens Consortium等(2022)
直肠 GSE125970标准 44.2 2638 Wang Y等人(2020)
唾液腺 智慧Tabula sapiens 231.7 28809 Tabula Sapiens Consortium等(2022)
骨骼肌 GSE143704标准 61 24579 De Micheli AJ等人(2020年)
皮肤 GSE130973标准 57.4 22335 Solé-Baldo L等人(2020)
小肠 GSE125970标准 45.8 5460 Wang Y等人(2020)
脾脏 GSE159929-GSM4850589 15.6 4492 He S等人(2020)
GSE159929-GSM4850590 20.4 5701 He S等人(2020)
Testis公司 GSE120508标准 65.2 6459 郭杰等(2018)
胸腺 智慧Tabula sapiens 197 23618 Tabula Sapiens Consortium等(2022)
舌头 智慧Tabula sapiens 283.7 18331 Tabula Sapiens Consortium等(2022)
血管的 智慧Tabula sapiens 172.5 9172 Tabula Sapiens Consortium等(2022)


单细胞转录组数据的聚类

对于每个单细胞转录组学数据集,量化的原始测序数据根据相应研究以可用格式提供的登录号从相应的存管数据库下载。更详细地说,下载了结肠、肾脏、肝脏、PBMC和睾丸的SRA文件,然后通过SRA工具包(v2.10.9)转换为原始的fastq文件。至于其他25个组织,直接下载了原始的fastq文件,包括脂肪组织、骨髓、乳腺、支气管、子宫内膜、食道、眼睛、输卵管、心肌、肺、淋巴结、卵巢、胰腺、胎盘、前列腺、直肠、唾液腺、骨骼肌、皮肤、小肠、脾脏、胃、胸腺、舌头、,和脉管系统。专门为大脑下载量化的原始计数数据。

单细胞RNA-seq数据处理遵循与HPA项目相同的流程。为了量化转录水平,测序数据被映射到人类参考GRCh38.p13 cDNA,而基于滴管的10X基因组学铬(10X)方法生成的数据集由Cell Ranger(v6.1.2)处理,基于平台的scRNA-seq生成的数据集中由STAR(v2.7.9a)处理。根据Ensembl Archive Release 103(来自HPA v23,基因集合ID被映射到ensemble Archive Revease 109)的注释,转录物丰度被聚合到基因水平作为读取计数,来自同一组织的这些计数矩阵被进一步聚合到一个矩阵中。这导致31个组织的31个计数矩阵,共纳入60666个基因进行进一步分析。下游分析遵循内部管道,使用Python 3.8.5中的Scanpy(v1.7.1)。在管道中,使用两个标准过滤数据:如果检测到至少200个基因,则认为一个细胞有效;如果一个基因在至少10%的细胞中表达,则认为该基因有效。对于含有10000个以上细胞的组织,1000个细胞被用作截止值。随后,将细胞计数归一化为每个细胞的总计数为10000。对于每个数据集,然后使用Python中的单细胞分析(Scanpy)中的Louvain聚类函数对有效细胞进行聚类。聚类时使用参数的默认值。更详细地说,使用UMAP将细胞特征投影到一个包含50个分量的PCA空间,并生成一个k近邻(KNN)图。在Louvain的网络中使用了15个邻居,并且聚类的分辨率设置为1.0。通过将属于相应簇的所有细胞中每个基因的读取计数相加,计算出每个簇中所有基因的读取总数。最后,读取计数被归一化为每个单个细胞簇的每百万蛋白编码基因(pTPM)的转录物。当基于单细胞转录组学计算伪批量样本的表达谱时,对样本的所有细胞的读取计数进行求和,并归一化为pTPM。

定义单元格类型

根据对500多个已知组织和细胞类型特异性标记的广泛调查,对557个不同的细胞类型簇中的每一个进行了手动注释,包括原始出版物中的标记和病理诊断中使用的其他标记。对于每个簇,通过考虑不同标记的表达来选择一个主要细胞类型。对于少数聚类,无法选择主细胞类型,并且这些聚类未用于基因分类。最相关的标记显示在Cell Type Atlas上的热图中,以便向访客阐明集群注释。

细胞类型树状图

细胞类型树状图显示在单细胞类型部分显示了基于全基因组表达的单个细胞类型之间的关系。树状图基于使用Ward标准的细胞类型之间的1-Spearman rho凝聚聚类。然后将树状图转换为层次图,并对链接距离进行标准化,以强调图形连接,而不是链接距离。连接宽度与距根的距离成正比,如果连接的叶子中只有一个细胞类型组,则连接将根据细胞类型组着色。

转录组学数据的规范化

对于这两个高性能放大器GTEx公司转录组学数据集中,使用每个人类组织或人类细胞类型的所有单个样本的平均TPM值来估计基因表达水平。能够将数据集合并为共识转录表达水平,建立了一条管道来规范所有样本的数据。简而言之,每个样本的所有TPM值都被缩放到100万TPM(表示为pTPM)的总和,以补偿之前删除的非编码转录本。接下来,每个数据源中所有样本的所有TPM值(HPA+GTEx human组织、HPA免疫细胞类型,HPA细胞系)使用M值的修剪平均值分别进行标准化(TMM公司)允许样本之间的比较。计算每个样本中每个基因的归一化转录表达值(表示为nTPM)。Atlas部分未显示低于0.1的nTPM值。

对于数据集,使用线性回归进行额外的归一化,以使用R包Limma中的removeBatchEffect(主题作为批次参数)校正诱导间变异。为了减少MGI和illumina平台之间的技术差异,纳入了19个参考样品,并在两个平台上运行。基于参考样品进行强度归一化,以最小化两个平台之间的技术差异。

共识根据来自HPA和GTEx两个来源的转录组学数据,总结了50个人类组织中每个基因的转录表达水平。每个基因和组织类型的一致nTPM值代表基于HPA和GTEx的最大nTPM数值。对于具有多个子组织(脑区、血细胞、淋巴组织和肠道)的组织,所有子组织的最大值用于组织类型,并且人类组织一致集合中的组织类型总数为36。

这个扇形5使用TMM在样本级别上对数据集进行单独归一化。根据每个人体组织的所有单个样本的平均值计算每个基因的归一化百万分位标签数。

鼠标HPA与BGI公司根据与人类组织和细胞类型相同的程序,未对小鼠和猪的数据进行Limma调整。一致性转录表达水平被总结为小鼠大脑的13个脑区和猪大脑的15个脑区,其中结合了亚区域样本,并使用了大脑区域的最大亚区域。

单电池类型使用TMM将聚类与其他转录组数据集分开归一化。为了生成每个细胞类型的表达式值,通过首先计算数据集中具有相同聚类注释的所有细胞中的加权平均nTPM,对每个细胞类型进行聚类。然后将不同数据集中相同单元类型的值平均为单个聚合值。仅包括可靠性中等和高的集群,不包括包含混合细胞类型、中性粒细胞和血小板的集群。

转录组学数据的分类

共有转录组学数据用于根据组织特异性、单细胞类型特异性、脑区域特异性、血细胞特异性或细胞系特异性表达将所有基因分类为两种不同的模式:特异性类别和分布类别。这些定义基于40个组织、81个单细胞类型、每个哺乳动物大脑的13个主要区域、18个免疫细胞类型或1206个细胞系的所有nTPM值的总集合,并使用1 nTPM的截止值作为所有组织或细胞类型的检测限值。

特异性类别的解释

类别 描述
丰富 特定组织/区域/细胞类型中的nTPM至少是任何其他组织/区域或细胞类型的四倍
集团丰富 一组(2-5个组织、脑区、单个细胞类型或细胞系或2-10个免疫细胞类型)中的nTPM至少是任何其他组织/区域/细胞系/免疫细胞类型/细胞类型的四倍
增强 增强:一个或多个组织、大脑区域、细胞系、免疫细胞类型或单个细胞类型中的nTPM至少是所有组织/区域/细胞类型平均值的四倍
低特异性 至少一种组织/区域/细胞类型中的nTPM≥1,但在任何组织/区域或细胞类型中均未升高
未检测到 所有组织/区域/细胞类型的nTPM<1


在分析的某些部分中,还使用了一个额外的类别“提升”,其中包含前三个类别中的所有基因(组织/细胞系/细胞类型富集、组富集和组织/细胞株/细胞类型增强)。计算“升高”组织/细胞系的TS/CS-核心(组织特异性/细胞特异性得分)。TS/CS核心是指从RNA最高的组织/细胞系到RNA第二高的组织/电池系的倍数变化。

分布类别说明

类别 描述
在单个中检测到 在单个组织/区域/细胞类型中检测到
在一些地方检测到 在一个以上但不到三分之一的组织/区域/细胞类型中检测到
检测到多个 在至少三分之一但并非所有组织/区域/细胞类型中检测到
在al中检测到 在所有组织/区域/细胞类型中检测到
未检测到 所有组织/区域/细胞类型中的nTPM<1

外周血RNA-seq数据

除了人类蛋白质图谱项目中生成的血液免疫细胞类型数据外Schmiedel等人。29种免疫细胞类型以及PBMC总数摩纳哥等人。已被纳入血液图谱。

这个施米德尔数据集可在DICE标准(免疫细胞表达、表达数量性状基因座(eQTL)和表观基因组学数据库)数据库,该数据库旨在解决与人类疾病风险相关的遗传变异如何影响各种细胞类型中的基因表达。将15种免疫细胞类型的每个基因的TPM值映射到人类蛋白质图谱中使用的集合版本中的相应基因。

这个摩纳哥数据集包含使用RNA-seq和流式细胞术在健康供体的外周血单核细胞(PBMC)部分内的29种免疫细胞类型的数据。使用与HPA生成的RNA-seq数据相同的管道分析29个免疫细胞和总PBMC的原始数据,并使用TMM进行归一化,以便进行样本间比较。标准化基因表达值报告为nTPM值。

转录组数据的基因表达聚类

RNA表达数据已被用于将蛋白质编码基因分类为组织、单细胞类型、免疫细胞和细胞系的表达簇。

群集 组织、细胞类型或细胞系的数量 样本聚合级别
组织 50 每种组织类型的平均表达
单个单元格 557 每个细胞类型簇的平均表达
细胞系 1206 单个细胞系的表达
免疫细胞 18 每个免疫细胞的平均表达
大脑 193 每个脑区的平均表达


预处理数据以进行聚类

对于每个数据集,选择了至少一个样本中nTPM>1时检测到的基因,并将数据按基因比例缩放到z分数,以解释样本间基因动态范围的差异。缩放后,使用主成分分析(PCA)将表达式数据投影到低维空间,其中选择了多个成分以满足Kaiser规则,并解释了至少80%的方差。

基因聚类

基因间距离计算为样本间基因表达的Spearman相关性,并转换为Spearman距离(1-Spearman相关)。将距离转换为共享的最近邻图,并用于Louvain聚类,以在图中找到具有相似表达谱的基因簇。为了说明聚类过程中的随机性,每个聚类都运行了100次,因此分解成一个单一的一致性聚类。基因到聚类分配的置信度计算为基因分配到聚类的次数的分数。

群集注释

为每个数据集生成的聚类被手动注释,以便为每个聚类分配特定性和功能。注释基于对生物数据库的过度表达分析,包括基因本体、反应体、庞劳DB、TRRUST和KEGG,以及HPA分类,包括亚细胞位置、蛋白质类别、分泌位置和分类,以及对组织、单细胞类型、免疫细胞、脑区、,和细胞系。为每个集群手动设置可靠性得分,以指示特异性和功能分配的置信度。

聚类可视化

聚类结果在UMAP中可视化。生成彩色多边形以表示对应于同一簇的主要相邻基因群。首先,在UMAP中估算每个簇的二维密度,并确定覆盖总密度95%的区域。对这些区域进行了调整,以包括对应于UMAP空间总面积至少5%的毗连区域。最后,每个簇的相邻区域被转换为二维多边形。

TCGA RNA-seq数据

基因组数据共享(GDC)的癌症基因组图谱(TCGA)项目收集并分析多个人类癌症样本。包括来自17种癌症类型的RNA-seq数据,代表人类病理图谱中具有相应主要癌症类型的21种癌症亚型,以允许在来自人类蛋白质图谱的蛋白质染色数据和来自TCGA数据的RNA-seq之间进行比较。

使用TCGA提供的Ensemble基因id绘制TCGA RNA-seq数据,然后使用每个基因的FPKM(每百万次外显子每千基片段数)量化表达,检测阈值为1 FPKM。基因按照上述相同分类进行分类。

HPA癌症类型 TCGA癌 TCGA中的样品数量
乳腺癌 乳腺浸润癌(BRCA) 1075
宫颈癌 宫颈鳞状细胞癌和宫颈内膜腺癌(CESC) 291
大肠癌 结肠腺癌(COAD) 438
直肠腺癌(READ) 159
子宫内膜癌 子宫体子宫内膜癌(UCEC) 541
胶质瘤 多形性胶质母细胞瘤(GBM) 153
头颈癌 头颈部鳞状细胞癌(HNSC) 499
肝癌 肝肝细胞癌(LIHC) 365
肺癌 肺腺癌(LUAD) 500
肺鳞状细胞癌(LUSC) 494
黑色素瘤 皮肤角质性黑色素瘤(SKCM) 102
卵巢癌 卵巢浆液性囊腺癌(OV) 373
胰腺癌 胰腺癌(PAAD) 176
前列腺癌 前列腺腺癌(PRAD) 494
肾癌 肾嫌色症(KICH) 64
肾透明细胞癌(KIRC) 528
肾乳头状细胞癌(KIRP) 285
胃癌 胃腺癌(STAD) 354
睾丸癌 睾丸生殖细胞肿瘤(TGCT) 134
甲状腺癌 甲状腺癌(THCA) 501
尿路上皮癌 膀胱尿路上皮癌(BLCA) 406

TCGA存活

根据每个基因的FPKM值,将患者分为两个表达组,并检查表达水平与患者生存率之间的相关性。用Kaplan-Meier生存估计量检验各组患者的预后,并用log-rank检验比较两组患者的生存结果。中位和最大分离的Kaplan-Meier图均显示在人类蛋白质图谱中,在最大分离Kaplan-Meier分析中,对数秩P值小于0.001的基因被定义为预后基因。如果所选预后基因高表达的患者组的观察事件高于预期事件,则为不良预后基因;否则,它是一个良好的预后基因。中位表达低于FPKM 1的基因表达较低,在数据库中被归类为无诊断性基因,即使它们在生存分析中显示出显著的预后影响

艾伦小鼠大脑ISH数据集

艾伦大脑图谱(ABA)是一个以大脑为中心的开放存取数据库,包括人类和小鼠的表达数据。ABA是艾伦脑科学研究所的一部分,该研究所是艾伦研究所的三个分支之一。小鼠大脑原位杂交(ISH)数据提供了成年小鼠大脑中每个基因表达位置的信息(Lein ES等人(2007年)). 我们已经通过ABA API导入了可用的表达式值(©2004艾伦脑科学研究所,艾伦小鼠脑图谱)并以与HPA脑图谱上显示的其他数据集相同的方式显示区域表达。

使用艾伦小鼠大脑API提供的探针核苷酸序列和blast程序包,将艾伦小鼠大脑ISH数据映射到Ensembl 109版的小鼠基因注释。然后使用具有一对一限制的Ensembl同源物数据将小鼠基因映射到人类基因。

证据

基于三种不同来源计算每个基因的蛋白质证据:UniProt蛋白质存在(UniProt证据);neXtProt蛋白存在(neXtProt证据);以及基于人类蛋白图谱抗体或RNA的评分(HPA证据)。此外,对于每个基因,蛋白质证据总分基于所有三个独立证据得分中的最大证据水平(证据总分)。

所有分数分为以下类别:

  • 蛋白质水平的证据
  • 成绩单层面的证据
  • 没有证据
  • 无法使用的

UniProt证据基于UniProt蛋白存在数据,它使用五种类型的证据来证明蛋白质的存在。“蛋白质水平上的实验证据”或“转录水平上的试验证据”类别中的所有基因都被归类为前两个证据类别,而“同源性推断”、“预测”或“不确定”类别中基因被归类为“无证据”。基因标识符无法从中映射到UniProt的基因合奏版本109被归类为“不可用”。

neXtProt证据基于neXtProt蛋白的存在数据,它使用五种类型的证据来证明蛋白质的存在。“蛋白质水平上的实验证据”或“转录水平上的试验证据”类别中的所有基因都被归类为前两个证据类别,而“同源性推断”、“预测”或“不确定”类别中基因被归类为“无证据”。基因标识符无法映射到neXtProt的基因合奏版本109被归类为“不可用”。

HPA证据的计算基于人工培养的Western blot、组织切片和亚细胞定位以及转录切片。在两种方法中的一种或两种方法都“支持”数据可靠性的所有基因免疫组织化学免疫荧光,或标准验证“支持”蛋白质印迹应用(不包括使用过表达裂解物的分析)被归类为“蛋白质水平的证据”。对于其余的基因,在至少一个HPA共识、大脑或免疫细胞组中检测到nTPM>1的所有基因RNA-seq分析基于高性能放大器GTEx公司被归类为“成绩单级别的证据”。其余基因被归类为“无证据”。