抗原和抗体生产

PrEST区域(Agton C等人（2003年）;Lindskog M等人（2005年）)首先用RT-PCR从总RNA模板池中扩增出每个PrEST的特定寡核苷酸引物。扩增子通过固相限制自动处理，并连接到质粒载体pAf8c中(Larsson M等人（2000年）)其中，人类基因片段与组氨酸标签和白蛋白结合蛋白（His6ABP）融合。在转化为大肠杆菌Rosetta（DE3）后，插入物通过DNA测序进行验证，以省略突变克隆，并且批准的克隆具有单细胞条纹。从所有纯化克隆中收集质粒，以沉积在克隆库中，并制备甘油储备，用作蛋白质生产的起始材料。

经IPTG诱导后，所有蛋白质在大肠杆菌摇瓶培养物中以His6ABP融合体的形式表达。已经开发出一种全自动蛋白质纯化系统，一次可以纯化多达60种细胞裂解物。通过六组氨酸亲和标记和金属亲和色谱（IMAC）实现一步纯化，并在变性条件下进行。在评估蛋白质浓度和纯度后，通过质谱测定PrEST蛋白质的分子量，作为最终质量控制。然后将纯化的蛋白质用于制备抗原和带有PrEST-标记的亲和柱。此外，还生产了与His6ABP-甘露的亲和树脂。

抗原免疫后，与合作伙伴一起产生的多克隆抗血清以三步方式进行仔细纯化，包括：去除多余的特异性、捕获想要的特异性和最后的缓冲液交换步骤。使用重力流柱的手动过程会耗尽具有多余特异性的抗体。以下步骤在KTAxpress色谱系统上执行，实现高通量半自动化过程，捕获的抗体通过低pH甘氨酸缓冲液洗脱，并自动加载到脱盐柱上进行缓冲液交换。抗体补充50%的甘油和0.02%的叠氮化钠，以便在-20°C下长期保存。所有抗体的结合特异性在蛋白质微阵列上测定，以证明只有高特异性和低背景结合的抗体才被批准用于免疫组织化学分析。使用来自人类细胞系（RT-4和U-251 MG）的蛋白裂解物、缺乏IgG和HSA的人血浆以及来自人类肝脏和扁桃体的全组织裂解物，在高通量WB平台中进一步分析所有批准的抗体。已在包含过表达裂解物（马里兰州罗克维尔OriGene Technologies，VERIFY Tagged Antigen™）的WB装置中重新验证了最初在标准WB小组中评分为不确定的已发表抗体的选择，作为阳性对照。

ABP-白蛋白结合蛋白IPTG-异丙基-B-D-硫代吡喃半乳糖苷IMAC-固定化金属亲和色谱法

免疫组织化学-组织

人类蛋白质图谱包含通过免疫组织化学方法获得的正常组织和癌组织的组织切片图像。抗体用DAB（3,3'-二氨基联苯胺）标记，由此产生的棕色染色显示抗体与相应抗原结合的位置。进一步用苏木精对切片进行复染，以使显微镜特征可视化。组织微阵列用于显示144名个体样本中的抗体染色，这些样本对应44种不同的正常组织类型，216名癌症患者样本对应20种不同的癌症类型(电影组织芯片制作和免疫组织化学染色）。每个样本由1 mm的组织核心表示，每个抗体的图像总数为576张。正常组织由三个个体的样本代表，每个个体一个核心，子宫内膜、皮肤、软组织和胃除外，这些组织由六个个体的样品代表，甲状旁腺由一个样本代表。这些组织样本中76种不同正常细胞类型的蛋白质表达被注释。对于癌症组织，从每个个体中取样两个核心，并在肿瘤细胞中注释蛋白质表达。由于技术问题，大多数抗体的576张图像中有一小部分缺失。根据当地伦理委员会的批准，从外科标本的匿名石蜡包埋材料中收集并取样含有正常组织和癌症组织的标本。对于选定的蛋白质，除了标准组织微阵列外，还进行了扩展的组织剖析。检查的组织包括小鼠大脑、人类哺乳期乳房、眼睛、胸腺和肾上腺、皮肤和大脑的延伸样本。
由于标本来源于外科材料，因此正常在这里被定义为非肿瘤性和形态正常。获得完全正常的组织并不总是可能的，因此一些被表示为正常的组织将包括炎症、变性和组织重塑引起的改变。在罕见组织中，增生或良性增生属于例外。还应注意，在正常形态下，由于原发疾病、年龄、性别等原因，可能存在个体间差异和变异。这些差异也可能影响蛋白质表达，从而影响免疫组织化学染色模式。癌症样本也来自外科材料。由于每种癌症类型中肿瘤的亚组和异质性，包括的病例代表了手术病理学标本的典型混合。肿瘤的纳入是基于可用性和代表性，然而，在适用的情况下，已努力将高级别和低级别恶性肿瘤纳入。在某些肿瘤组中，亚型包括在内，例如乳腺癌包括导管癌和小叶癌，肺癌包括鳞癌和腺癌，肝癌包括肝细胞癌和胆管细胞癌等。肿瘤异质性和个体间差异可能反映在蛋白质的不同表达中，从而导致不同的免疫组织化学染色模式。

注释

为了概述蛋白质表达模式，所有免疫组织化学染色的组织图像都由一名专家手动注释，然后由另一名专家验证。使用固定的免疫组化结果分类指南对每个不同的正常组织和癌组织进行注释。检查每个组织的代表性，随后对正常或癌组织中不同细胞类型的免疫反应进行注释。基本注释参数包括评估i）染色强度（阴性、弱、中等或强），ii）染色细胞分数（<25%、25-75%或>75%）和iii）亚细胞定位（核和/或细胞质/膜）。手册注释还提供了两个总结文本，描述正常组织和癌组织中每个抗体的染色模式。
所使用的术语和本体符合病理学和医学中使用的标准。SNOMED公司分类用于地形和形态学的赋值。SNOMED分类也可作为采集正常和癌症样本的原始诊断依据。
注释中使用的组织学词典作为PDF文档提供，其中包含使用人类蛋白图谱中包含的抗体进行免疫组织化学染色的图像。字典显示了可相互区分的细胞亚型，也显示了不同细胞内结构中的特定表达模式。注释字典：屏幕使用情况（15 MB），印刷（95 MB）。

基于知识的注释

基于知识的注释旨在创建正常人体组织中蛋白质表达模式的综合概述。这是通过严格评估免疫组织化学染色模式、来自内部和外部来源的RNA-seq数据以及可用的蛋白质/基因特征数据实现的，特别强调RNA-seq。使用单个抗体和独立抗体（针对同一蛋白质上不同的非重叠表位的两个或多个独立抗体）执行注释性蛋白质表达谱。对于独立抗体，考虑所有不同抗体的免疫组化数据。正常组织中的免疫组织化学染色模式是根据严格的指导原则进行主观注释的。这是基于对所分析的76种正常细胞类型中阳性免疫组织化学信号的经验评估。该审查还考虑了次优实验程序和个体差异。
最终注释的蛋白质表达被认为是最佳估计值，因此反映了每个蛋白质最可能的组织学分布和相对表达水平。为了实现蛋白质表达谱，以下一个或多个额外的数据源是必要的；i）针对同一蛋白质的另一个表位的独立抗体ii）RNA-seq数据，以及iii）可用的蛋白质/基因特征数据。当分析时可用的信息被评估为不足以验证染色模式和估计预期蛋白质表达时，基于知识的注释的结果被认为是不确定的。基于知识的蛋白质表达谱是使用对结果表达谱的评估和表示的固定准则来执行的。必要时使用标准化解释句，以提供全面理解表达模式所需的附加信息。基于对所有可用数据的评估，为每个注释的蛋白质表达谱设置可靠性得分，设置为增强、支持、批准或不确定。

可靠性得分

手动为所有基因设置可靠性得分，并指示基于可用RNA-seq数据的知识评估的分析蛋白质表达模式的可靠性水平，针对同一基因的非重叠序列设计的一个或多个抗体的蛋白质/基因特征数据和免疫组化数据。可靠性评分基于分析的44个正常组织，并显示在组织地图集和病理地图集上。

可靠性得分分为增强、支持、批准或不确定。如果有来自多个抗体的可用数据，则在评估可靠性得分时，应考虑所有抗体的染色模式。

增强
针对同一基因非重叠序列的一个或多个抗体基于正交或独立抗体验证方法获得了增强验证。

支持
如果满足以下标准之一：

至少有一种抗体在RNA水平和染色模式之间显示出高或中等一致性，但该抗体不符合正交验证和染色模式与有效文献一致，或者没有有效文献
至少有一种抗体具有定义为“无法评估”的RNA一致性和染色模式与有效文献一致
成对抗体（一些针对非重叠序列的抗体）显示出类似的染色模式，但这些抗体不符合独立抗体验证的条件和染色模式与有效文献一致，或没有有效文献可用

经核准的
如果满足以下标准之一：

至少有一种抗体在RNA水平和染色模式之间显示出高或中等一致性和染色模式与有效文献不一致
至少有一种抗体显示RNA水平和染色模式之间的低一致性和染色模式与有效文献一致
至少有一种抗体具有定义为“无法评估”的RNA一致性和染色模式与有效文献部分一致，或与有限文献一致
配对抗体显示部分相似的表达模式

不确定因素
如果满足以下标准之一：

只有多靶向抗体可用。多靶向抗体用于由于属于不同基因的蛋白质之间的高序列一致性而不可能产生单靶向抗体的基因。这些基因在许多情况下密切相关并属于已知的基因家族，在这些情况下产生的多靶向抗体与该家族基因转录本的序列一致性大于80%，与所有其他人类基因转录本序列一致性较低。
至少有一种抗体在RNA和染色模式之间显示出低或极低的一致性，或RNA一致性被定义为“无法评估”和染色模式与有效文献不一致，或没有有效文献
配对抗体显示不同的表达模式

多重免疫组织化学/IF-组织

作为组织地图集切片的一部分，多重免疫组织化学（mIHC）/IF数据是通过从正常组织的组织切片中获得的染色组织微阵列生成的。mIHC/IF组织数据显示间接mIHC标记的蛋白质的高分辨率6重图像，除常规IHC外，还提供与不同单个细胞和细胞类型相关的蛋白质表达模式的空间信息，甚至细胞状态以及组织学和生物结构嵌入组织中。

类似于传统的IHC，在mIHC/IF中，第一抗体首先用与辣根过氧化物酶（HRP）（或类似物）偶联的第二抗体标记。此外，该方法利用酪胺信号放大（TSA），其中荧光酪胺分子由HRP催化，HRP在结合位点及其附近产生荧光沉淀物。运行几个染色剥离循环的能力允许每个载玻片具有多达6个标记蛋白质的组织切片。最后，用DAPI（4′，6-二氨基-2-苯基吲哚）对载玻片进行复染。在这个装置中，使用由来自三名患者的双1 mm核心组成的组织微阵列来分析每个蛋白质。

注释

通过估计与面板抗体重叠的细胞比例并注释其细胞下定位来评估感兴趣的靶标，从而手动注释蛋白质定位。对于每张幻灯片，还检查组织核心的代表性。注释参数包括评估i）未知蛋白表达与面板标记重叠的细胞分数（<25%、25-75%或>75%），以及ii）染色的亚细胞定位（核和/或细胞质/质膜/膜）。手册注释还提供了两个总结文本，描述每个抗体的染色模式。

Testis面板

对于睾丸，已经开发了两个小组，其目的是i）捕获精原干细胞向精原细胞前体精母细胞的转变（精原细胞小组），ii）鉴定精母细胞分化和减数分裂期间的蛋白质表达（精母细胞小组）；iii）表征精子转化期间的蛋白质，一个称为精子生成的过程（精子组），以及iv）绘制出Sertoli特异蛋白的蛋白质（Sertoli细胞组）。对于每个未知蛋白质，靶向该蛋白质的抗体被标记为未被标记蛋白质占据的可用TSA-氟菌（OPAL 520）。

精原板

单元格类型	标记蛋白	抗体	荧光标签	假彩色
状态0	UTF1标准	CAB022384号	OPAL480型	黄色的
状态1	IRF2BPL公司	HPA050862型	OPAL650型	白色
状态2-3	DMRT1公司	HPA027850型	OPAL690型	青色
状态4	CTCFL公司	HPA001472型	OPAL780号	洋红
早精蛋白精母细胞	弯管2	HPA013142型	OPAL570型	红色
空插槽	未知感兴趣的蛋白质	-	OPAL520系列	绿色

精子细胞面板

单元格类型	标记蛋白	抗体	荧光标签	假彩色
早精蛋白精母细胞	赫尔斯	HPA063242型	OPAL480型	黄色的
瘦素精母细胞	SCML1号机组	HPA035270型	OPAL690型	青色
粗线期/二倍体精母细胞	TCFL5公司	HPA076419型	OPAL780号	洋红
早期精子	太阳5号	HPA048529型	OPAL620型	白色
晚期精子细胞	项目风险管理1	HPA055150型	OPAL570型	红色
空插槽	未知感兴趣的蛋白质	-	OPAL520系列	绿色

精子面板

单元格类型	标记蛋白	抗体	荧光标签	假彩色
圆形精子细胞1	利亚尔	HPA035881型	OPAL780号	洋红
圆形精子细胞2	OLAH公司	HPA037948型	OPAL690型	青色
暂时性精子细胞	C3类	第020432页	OPAL480型	黄色的
伸长精子细胞	飞溅24	HPA044000型	OPAL570型	红色
伸长精子细胞	TPPP2型	HPA004120型	OPAL620型	白色
空插槽	未知感兴趣的蛋白质	-	OPAL520系列	绿色

支持细胞面板

单元格类型	标记蛋白	抗体	荧光标签	假彩色
支持细胞浆	隔膜2	CAB015461号	OPAL570型	红色
支持膜	CD99型	CAB000020号	OPAL690型	白色
支持核	HMGN5号机组	HPA000511型	OPAL780号	洋红
精原细胞和精母细胞	DDX4系列	HPA037764型	OPAL620型	青色
精子	西班牙航空公司1	HPA043297型	OPAL480型	黄色的
空插槽	未知感兴趣的蛋白质	-	OPAL520系列	绿色

肾脏面板

对于肾脏，开发了一个肾小管小组来表征肾脏蛋白质的空间定位，主要在肾小管中，也在足细胞中。还添加了内皮细胞标记物，以区分肾小球室中的非齿状细胞。对于每个未知蛋白质，靶向该蛋白质的抗体被标记为未被标记蛋白质占据的可用TSA-氟菌（OPAL 520）。

肾小管面板

单元格类型	标记蛋白	抗体	荧光标签	假彩色
收集管道	AQP2类	HPA046834型	OPAL690型	青色
远端小管	CASR公司	HPA039686型	OPAL570型	红色
近端小管	ACSM2A/B型	HPA057699型	OPAL620型	白色
足细胞	PTPRO公司	HPA034525型	OPAL480型	黄色的
内皮细胞	CD34型	HPA036722型	OPAL780号	洋红
空插槽	未知感兴趣的蛋白质	-	OPAL520系列	绿色

数据可靠性

对于每种抗体和蛋白质，都要进行内部可靠性评估，以确保在发布之前获得高质量的数据。未知蛋白质的抗体染色模式总是对照其相应的常规IHC染色模式进行复现，并对照可用的组织和单细胞RNA-seq数据以及蛋白质/基因表征数据。此评估不应与可靠性评分进行全组织分析。还评估了面板标记蛋白的再现性，以确保注释的高质量。

免疫组织化学/IF-小鼠大脑

作为免疫组织化学染色组织的补充，蛋白质图谱还包括作为正常组织图谱亚区的小鼠脑图谱。其中，在小鼠大脑中可获得全面的配置文件。通过使用小鼠大脑序列切片中的抗体对选定的一组靶点进行了分析，这些切片覆盖了129个大脑区域和子域，其中几个区域在人脑中很难覆盖。此外，垂体、视网膜和三叉神经节也包含在最近和未来的图像序列中，但尚未注释。

人类蛋白质图谱中使用的组织微阵列方法能够对包括大脑在内的人体内的蛋白质进行全局映射。目前，人类组织图谱涵盖了人类大脑的四个区域：大脑皮层、海马体、尾状体和小脑。由于大脑结构的异质性，许多细胞核和细胞类型被组织在复杂的网络中，因此很难在1毫米的组织样本中实现全面的概述。因此，需要对更多的人脑样本进行分析，包括较小的脑细胞核，以便生成更详细的大脑蛋白质分布图。因此，我们在这里补充了人脑图谱的工作，对小鼠大脑进行了更全面的分析。通过一系列小鼠脑切片研究蛋白质在大量脑区的表达和分布。

抗体是针对参与正常大脑生理学、大脑发育和神经病理学过程的蛋白质而选择的。当比较抗体靶点的PrEST序列时，同源性限制为60%（人类与小鼠）。

根据原位杂交将选定的抗体应用于含有已知表达的脑区或细胞类型的测试切片(脑图谱)和单细胞RNAseq数据(林纳森实验室和巴雷斯实验室). 染色模式根据针对同一靶点的多个抗体的染色模式之间的一致性以及与转录组学数据的匹配性进行评估。使用绿色显示的酪氨酸信号放大显示抗体免疫反应。细胞核参考染色（DAPI）显示为蓝色。免疫荧光方案通过抗体浓度进行标准化，孵育时间根据测试染色期间测定的蛋白质丰度和抗体亲和力而变化。完整的小鼠大脑轮廓由16µm厚的成年小鼠大脑的连续冠状切片表示。在进一步处理之前，对着色幻灯片进行扫描和数字化。

表1。大脑区域。缩写基于立体坐标系下的鼠脑，第三版：冠状板和图表（ISBN:9780123742445）

地区缩写脑图谱

大脑皮层大脑皮层额叶联系皮层弗拉（fra）玻璃钢

大脑皮层大脑皮层运动皮层米卫生官员

大脑皮层大脑皮层扣带皮层 cg公司 ACA公司

大脑皮层大脑皮层梨状皮质旋转1 PIR1项目

大脑皮层大脑皮层梨状皮层，L2 旋转2 个人识别码2

大脑皮层大脑皮层梨状皮层，L3 旋转3 个人信息3

大脑皮层大脑皮层岛叶皮层我人工智能

大脑皮层大脑皮层体感皮层秒不锈钢

大脑皮层大脑皮层脾后颗粒皮质 rsg公司 RSP公司

大脑皮层大脑皮层顶叶结合皮层第页 PTLp公司

大脑皮层大脑皮层内嗅皮层耳鼻喉科耳鼻喉科

大脑皮层大脑皮层视觉皮层 v（v）可视信息系统

嗅球嗅球前嗅核 aon公司 AON公司

嗅球嗅球粒细胞层格罗 MOBgr公司

嗅球嗅球内丛状层国际石油公司 MOBipl公司

嗅球嗅球二尖瓣细胞层惯性矩 MOBmi公司

嗅球嗅球肾小球层全球 MOBgl公司

嗅球嗅球吻部迁移流 rms（有效值）经济特区

嗅球嗅球外丛状层电子脉冲激光 MOBopl公司

嗅球嗅球附件OB的外丛状层埃普拉

嗅球嗅球副OB颗粒细胞层格拉 AOBgr公司

嗅球嗅球副OB肾小球层格拉 AOBgl公司

海马结构海马齿状回多形层豆荚 DG-po公司

海马结构海马齿状回分子层模块 DG-mo公司

海马结构海马颗粒状齿状回玻璃钢 DG-sg公司

海马结构海马 CA1-oriens层 ca1或 CA1so公司

海马结构海马 CA1-金字塔层卡比（ca1py） CA1sp

海马结构海马 CA1-辐射层 ca1ra公司 CA1sr

海马结构海马 CA2-oriens层钙或 CA2so公司

海马结构海马 CA2-锥体层 ca2py型 CA2sp公司

海马结构海马 CA2-辐射层 ca2ra公司 CA2sr公司

海马结构海马 CA3-oriens层 ca3或 CA3so公司

海马结构海马 CA3-金字塔层 ca3py型 CA3sp

海马结构海马 CA3-辐射层钙（ca3ra） CA3sr公司

海马结构海马透明层 1.n.（slu的复数形式） CA3slu公司

海马结构海马分子腔隙 1摩尔 CA1胶片

海马结构海马副室附属的附属的

扁桃形结构扁桃形结构外侧嗅束核许多非直瞄

扁桃形结构扁桃形结构基底内侧杏仁核 bma公司 BMA公司

扁桃形结构扁桃形结构基底侧杏仁核* *布拉 BLA公司

扁桃形结构扁桃形结构基底外侧杏仁核布拉 BLA公司

扁桃形结构扁桃形结构杏仁皮质 aco公司 COA公司

扁桃形结构扁桃形结构中央杏仁核总工程师 CEA公司

扁桃形结构扁桃形结构杏仁内侧核我的意思是多边环境协定

丘脑丘脑内侧膝状体核毫克 MG公司

丘脑丘脑丘脑束旁核功率因数 PF公司

丘脑丘脑膝前体核前列腺素 GENd（发电机）

丘脑丘脑终纹标准标准

丘脑丘脑不确定地带 zi（字）邮编

丘脑丘脑丘脑前背核广告 AD公司

丘脑丘脑丘脑网状核 rt（右） RT公司

丘脑丘脑丘脑前静脉核 va公司 VAL公司

丘脑丘脑内侧缰核磁流体轴承 MH公司

丘脑丘脑丘脑背侧区 ld个劳埃德

丘脑丘脑丘脑室旁核光伏 PVT公司

丘脑丘脑丘脑中央内侧区厘米厘米

丘脑丘脑丘脑腹外侧区 vl（沃尔沃）副总裁

丘脑丘脑丘脑腹内侧区虚拟机虚拟机

丘脑丘脑外侧缰核左心房颤动左侧

丘脑丘脑丘脑腹后虚拟专用交换机副总裁

丘脑丘脑视前前核恰当的 PRT公司

丘脑丘脑乳头后核 rm（毫米） SUM（总和）

下丘脑下丘脑结节乳头背核数字地面模型 TMd公司

下丘脑下丘脑乳头核锰管理层收购

下丘脑下丘脑下丘脑室周核体育课 PVi公司

下丘脑下丘脑视上核所以 SO公司

下丘脑下丘脑结节核图时间单位

下丘脑下丘脑乳头结节腹侧核虚拟电话管理 TMv公司

下丘脑下丘脑外侧视前区液化石油气液化石油气

下丘脑下丘脑内侧视前区多功能操作系统海洋环境保护组织

下丘脑下丘脑视交叉上核 sch公司 SCH公司

下丘脑下丘脑下丘脑室旁核帕聚乙烯醇

下丘脑下丘脑下丘脑前部中央区人工呼吸控制 AHN公司

下丘脑下丘脑下丘脑腹内侧核 vmh（虚拟机小时） VMH公司

下丘脑下丘脑下丘脑腹内侧核* *vmh（虚拟机小时） VMH公司

下丘脑下丘脑弓形核弧 ARH公司

下丘脑下丘脑弓状核* *电弧 ARH公司

下丘脑下丘脑外侧下丘脑蒂部公共小时酸碱度

下丘脑下丘脑下丘脑背内侧核糖尿病 DMH公司

下丘脑下丘脑终纹* *标准标准

小脑小脑小脑分子层西莫 CBX公司

小脑小脑小脑浦肯野层头皮 CBXpu公司

小脑小脑小脑颗粒层 cegr公司 CBXgr公司

室周器官室周器官小组委员会 sco公司

室周器官室周器官鸟下器官 sfo公司《证券及期货条例》

室周器官室周器官正中隆起我我

室周器官室周器官髓质应用程序 AP公司

脑桥脑桥科利克尔-福斯核肯德基千英尺

脑桥脑桥运动脊束核 5个 V（V）

脑桥脑桥臂旁核 pbp公司 PB（聚丁二烯）

脑桥脑桥三叉神经主感觉核第5页 PSV公司

脑桥脑桥蓝斑信用证信用证

脑桥脑桥脑桥核伪随机数 PG公司

脑桥脑桥前庭核五越南国家标准

脑桥脑桥口腔桥脑网状核 pno公司项目需求编号

脑桥脑桥外侧丘系陆上通信线 NLL公司

脑桥脑桥橄榄旁上核 spo公司 POR公司

全部显示显示更少

注释

对数字化图像进行处理（轴调整和组织边缘定义），然后根据上表标记感兴趣区域（ROI）。然后使用这些ROI进行图像分析，并列出每个区域的相对荧光强度。相对荧光是指注释区域相对于强度最高区域的强度。

小鼠大脑中的概述和保留的方向使我们能够为每种研究蛋白质注释额外的细胞类别（室管膜）、胶质细胞亚群（小胶质细胞、少突胶质细胞和星形胶质细胞）和额外的大脑特定亚细胞位置（轴突、树突、突触和胶质细胞末端）。

免疫荧光染色切片的所有图像都由受过专门教育的人员手动注释，然后由另一名合格的工作人员进行审查和验证。定义了免疫反应的细胞和亚细胞位置，并提供了描述一般染色模式的总结文本。

通过将数据与原位杂交数据进行比较来验证特异性(艾伦脑图谱)和/或可用文献；来自其他数据的支持导致支持性的可靠性得分，而更多未知目标被视为不确定，等待进一步验证。

可靠性得分

为所有基因设置可靠性得分，并指示基于可用蛋白质/RNA/基因特征数据分析的蛋白质表达模式的可靠性水平。

根据原位杂交数据（Allen脑图谱）和/或之前发布的数据UniProtKB/Swiss-Prot数据库的支持，小鼠脑图谱中抗体的可靠性评分为支持或不确定。

免疫细胞化学/IF-细胞

亚细胞切片围绕着由间接免疫细胞化学/免疫荧光（ICC-IF）标记的蛋白质的高分辨率、多色图像。这为蛋白质在细胞器和单细胞亚细胞结构中的亚细胞分布提供了蛋白质定位的空间信息。

选择来源于不同人类组织的三种细胞系，最初是U2OS、A-431和U-251 MG，用于ICC-IF的蛋白质亚细胞定位分析。此后，细胞系小组已经扩大，以涵盖更多的细胞类型和谱系，例如来自间充质、上皮和胶质瘤的肿瘤细胞系，以及通过引入端粒酶而永生的细胞系。此外，选择是基于形态特征和这些细胞系的广泛使用。关于捐赠者性别和年龄、细胞来源和来源的信息是此处列出为了将整个人类蛋白质组定位在一个特定细胞系的亚细胞水平上，大多数蛋白质在U2OS中染色。根据mRNA表达数据选择另外两个细胞系。除了人类细胞系外，考虑到人类和小鼠的基因是直向同源的，许多蛋白质已经在小鼠细胞系NIH 3T3中染色。

ICC的标准免疫染色协议可以在科学方法的开放存取存储库中找到，网址为协议.io对于绝大多数抗体，用多聚甲醛（PFA）实现固定，但对于少数抗体，用甲醇代替，以更好地保持某些细胞结构的形态。对于每个基因，PFA或甲醇的使用以及抗体的稀释因子在抗体和验证部分中进行了说明。为了便于注释HPA抗体靶向蛋白的亚细胞定位，细胞也用参考标记物染色：（i）细胞核的DAPI，（ii）微管的抗微管蛋白抗体，以及（iii）内质网的抗钙网蛋白或抗KDEL。

得到的共焦图像是表示细胞的一个光学部分的单层图像。显微镜设置是标准化的，但探测器增益针对每个样品进行了优化。不同的细胞器探针在多色图像中显示为不同的通道，HPA抗体呈绿色，细胞核呈蓝色，微管呈红色，内质网呈黄色。

注释

为了对染色模式进行解释，ICC-IF生成的所有图像都进行了手动注释。对于每个细胞系和抗体，染色是根据亚细胞位置和单细胞变异性（SCV）来描述的。下表列出了用于注释的亚细胞位置，以及到细胞结构字典条目和相应GO术语的链接。免疫荧光图像中的SCV分为强度变化（表达水平的变化）或空间变化（空间分布的变化）。

亚细胞定位 GO术语

肌动蛋白丝 GO:0015629号

Aggresome公司 GO:0016235号

细胞连接去：0030054

中心卫星去：0034451

中心体去：0005813

解理沟去：0032154

细胞动力学桥 GO:0045171号

细胞质体去：0036464

细胞质溶胶去：0005829

内质网去：0005783

内含体去：0005768

病灶粘连部位去：0005925

高尔基体去：0005794

中间纤维 GO:0045111号

动粒 GO:0000776号

脂滴去：0005811

溶酶体去：0005764

微管末端 GO:1990752号

微管 GO:0015630号

车身中部去：0030496

中体环 GO:0090543编号

线粒体去：0005739

有丝分裂染色体去：0005694

有丝分裂纺锤体 GO:0072686号

核物体 GO:0016604号

核膜 GO:0031965号

核小点 GO:0016607号

核仁去：0005730

核仁纤维中心 GO:0001650号

核仁边缘去：0005730

核原生质体去：0005654

过氧化物酶体转到：0005777

质膜转到：0005886

杆和环

囊泡 GO:0043231号

基于知识的注释

基于知识的注释旨在提供对检测到的蛋白质亚细胞定位的解释。在第一步中，回顾了具有相同抗体的不同细胞系中的染色，并将结果与UniProtKB/Swiss-Prot数据库中亚细胞定位的外部实验蛋白质/基因特征数据进行了比较。在第二步中，考虑针对同一蛋白质的所有抗体，以最终解释蛋白质的亚细胞分布。

可靠性得分

根据来自HPA和UniProtKB/Swiss-Prot数据库的可用蛋白质/RNA/基因特征数据，每个位置分别给出四个可靠性得分中的一个（增强、支持、批准或不确定）。可靠性评分还包括几个其他因素，包括抗体染色在不同细胞系中的再现性、染色强度和RNA表达水平之间的相关性，以及增强抗体验证的分析。通过使用与同一靶蛋白上不同表位结合的抗体（独立抗体验证），通过评估靶蛋白敲除/敲除后的染色强度（基因验证）和/或通过将信号与GFP标记蛋白匹配（重组表达验证），增强验证，以及文献中描述的亚细胞定位的实验证据。个体位置可靠性得分汇总在总体基因可靠性得分中。

有四种不同的可靠性得分：

增强-抗体增强了验证，没有矛盾的数据，例如描述不同位置实验证据的文献。
支持-没有对抗体进行增强验证，但文献中报道了带注释的定位。
已批准-蛋白质的定位之前没有描述过，并且只有一种抗体检测到，没有额外的抗体验证。
不确定-抗体训练模式与实验数据相矛盾，或在RNA水平上未检测到表达。

蛋白质阵列

所有纯化抗体在抗原微阵列上进行分析。根据与384种不同抗原（包括其自身靶点）的相互作用，确定每种抗体的特异性特征。阵列上的抗原被连续交换，以对应下一组384个纯化抗体。每个微阵列被分成21个重复的子阵列，能够同时分析21个抗体。通过荧光标记的二级抗体检测抗体，并使用双色系统验证斑点蛋白的存在。每个抗体都会生成一个特异性轮廓图，其中与自身抗原结合的信号会与与所有其他抗原的最终靶外相互作用进行比较。绝大多数（86%）的抗体都通过了测试，其余的则因低信号或低特异性而失败。

蛋白质印迹

抗体特异性的Western blot分析是使用常规样品装置进行的，该装置由IgG/HSA缺失的人血浆和有限数量的人体组织和细胞系的蛋白裂解物组成。使用过表达裂解物（马里兰州Rockville OriGene Technologies的VERIFY标记抗原（TM））作为阳性对照，对常规WB不确定的抗体进行了重新验证。使用过氧化物酶（HRP）标记的二级抗体，在CCD相机系统中通过化学发光检测显示抗体结合。

对人类蛋白图谱中包含的抗体进行了分析，但没有进一步优化程序，因此不能排除某些观察到的结合特性是由于技术原因而非生物原因，进一步优化可能会导致不同的结果。

转录组学

HPA RNA-seq数据

共有1206个细胞系、40个人体组织和18种血细胞类型以及总外周血单个核细胞（PBMC）通过RNA-seq进行了分析，以估计每个蛋白编码基因的转录丰度。此外，从动物的大脑和视网膜采集了19份小鼠组织样品和32份猪组织样品，并用RNA-seq进行了分析。

对于正常组织和血液样本根据当地伦理委员会的批准（参考号2011/473和参考号2015/1552-32）以及瑞典的法规，在患者同意的情况下采集样本，并对所有样本进行匿名。从乌普萨拉生物银行收集所有组织，并从冷冻组织切片中提取RNA样本。血液样本富集PBMC和粒细胞，用抗体标记，并通过流式分选分离成亚群。对于细胞系，将早期分裂的样品作为副本，并使用Qiagen RNeasy迷你试剂盒提取总RNA。列出了关于细胞起源和每个细胞系来源的信息在这里.

对于小鼠组织，样本是根据瑞典法律法规收集和处理的，所有实验都得到了当地伦理委员会的批准（Stockholms Norra Djurförsöksetiska Nämd N183/14）。动物实验符合欧洲共同体理事会指令（86/609/EEC），并尽一切努力减少痛苦和使用的动物数量。从Charles River Laboratories获得雄性WT小鼠（n=2）和雌性C57BL/6J小鼠（2个月大），并在标准条件下保持12小时昼夜循环，可随意饮水和进食。洗去血液后，大脑、垂体和脊髓被迅速从头骨和脊椎中取出，并放入冰冷的无菌PBS中，使组织变硬，更容易解剖。整个大脑在一个冰凉的表面上被仔细地分割成17个亚区。通过在pH 7.4的温暖（37°C）PBS中分离视网膜和色素层来收集视网膜样品。将所有解剖区域放置在1.5 ml Eppendorf管中，并在液氮中进行snap冷冻。样品在-80°C下保存，直到进行RNA提取的进一步处理。分析所有脑区、垂体和视网膜的转录表达。使用TissueLyser LT（Qiagen）机械均质组织，并使用RNeasy Mini分离试剂盒（Qiangen）制备总RNA。这产生了高质量的RNA，84%的样本的RNA完整性数（RIN）值高于8.0，并且由于RIN值非常低（小于6.0），仅删除了一个样本。总共有75个样本随后使用Illumina TruSeq Straded mRNA试剂进行文库构建。Illumina HiSeq2500平台用于测序，测序深度约为2000万读。

总共141个HPA细胞系样本，186正常组织样本，和109血在Illumina HiSeq2000和2500台机器（Illuminia，San Diego，CA，USA）上，使用读取长度为2x100个碱基的标准Illumian RNA-seq协议进行mRNA测序。其余细胞系的RNA序列数据来自癌症细胞系百科全书(CCLE公司). 可以找到有关细胞系数据的更多信息在这里在Illumina NovaSeq 6000系统上对四个S4通道的血细胞mRNA进行测序，读取长度为2x150个碱基。转录物丰度估计使用卡利斯托v0.48.0。这18种血细胞类型分为六种不同的谱系，包括B细胞、T细胞、NK细胞、单核细胞、粒细胞和树突状细胞。可以找到更多信息在这里.

这个HPA人脑样本集包含人脑。根据匈牙利卫生部科学与研究伦理委员会（ETT TUKEB:189/KO/02.6008/2002/ETT）和Semmelweis大学区域科学与研究道德委员会（编号32/1992/TUKEB）的批准，该分析是与人脑组织库（HBTB；布达佩斯Semmelweis大学）合作进行的取下人脑组织样本，收集、储存并用于研究。样品由Palkovits教授收集，RNA从冷冻脑穿孔中提取。这个人脑数据集基于使用MGI DNBSEQ-T7平台分析的193个地区的966个样本。这个人类前额叶皮层数据集包括来自3名男性和3名女性供体的165份样本，使用Illumina测序平台对前额叶皮层17个亚区和3个参考皮层区域的蛋白质表达进行了详细概述。

这个猪组织与BGI公司.根据国家大型实验动物指南，在当地伦理委员会（伦理许可编号4441050000078和BGI-IRB18135）的许可下，并根据欧洲指令和法规，收集并处理用于mRNA分析的猪脑。实验用小型猪（中国巴马小型猪）由Peral Lab Animal Sci&Tech Co.，Ltd提供（许可证号SYXK2017-0123）。雄性（n=2）和雌性（n=2）中国巴马小型猪（1岁）在标准条件下饲养在无特定病原体的稳定设施中。大脑在1）额叶/嗅束水平、2）视交叉和3）下丘脑和大脑脚之间的冠状板上切割。石板被分成两个半球，暴露所有主要的大脑结构。为了进行mRNA分析，根据取样策略收集了大脑皮层和小脑的片段，收集了包含所有细胞层的代表性样本。对所有其他区域进行了彻底解剖和收集。女性1缺少两个样本（躯体感觉皮层和中脑导水管周围灰质），因为这两个区域无法100%确定，因此被排除在外。从雌性2号的嗅球中提取了重复样本，总共得到119个大脑样本和8个额外样本（视网膜和垂体），所有127个样本中都有。所有样品均保存在-80°C下，直到在一个月内提取RNA。

GTEx RNA-seq数据

基因型问题表达(GTEx公司)该项目收集并分析多个人体尸检组织。基于RSEMv1.3.0绘制了36种组织类型的RNA-seq数据(第8版)由此产生的TPM值已包含在人类蛋白质图谱中，可从Gencode v26映射到合奏版本109GTEx视网膜数据基于EyeGEx数据Ratnapriya等人，《2019年自然遗传学》转录物丰度估计使用卡利斯托v0.48.0使用合奏版本109作为参考基因组。

组织 GTEx纸巾样品数量

脂肪组织脂肪-皮下 663

脂肪-内脏（网膜） 541

肾上腺肾上腺 258

扁桃形结构大脑-杏仁核 152

乳房乳房-乳房组织 459

Caudate公司大脑尾端（基底神经节） 246

小脑大脑-小脑半球 215

大脑-小脑 241

大脑皮层大脑-前扣带回皮层（BA24） 176

大脑-皮层 255

大脑-额叶皮层（BA9） 209

子宫颈宫颈-子宫颈 9

宫颈-子宫内膜 10

科隆结肠-乙状结肠 373

结肠-横向 406

子宫内膜子宫-子宫内膜 16

食管食管-粘膜 555

输卵管输卵管 9

心肌心脏-心房附件 429

心脏-左心室 432

海马大脑-海马 197

下丘脑大脑-下丘脑 202

肾肾脏-皮质 85

肾脏-髓质 4

肝脏肝脏 226

肺肺 578

伏隔核大脑-伏隔核（基底神经节） 246

卵巢卵巢 180

胰腺胰腺 328

垂体垂体 283

前列腺前列腺 245

蒲公英大脑-壳核（基底神经节） 205

视网膜视网膜 105

唾液腺小唾液腺 162

骨骼肌肌肉-骨骼 803

皮肤皮肤-不暴露在阳光下（耻骨上） 604

皮肤-暴露在阳光下（小腿） 701

小肠小肠-回肠末端 187

脊髓大脑-脊髓（颈部c-1） 159

脾脏脾脏 241

胃胃 359

黑实体大脑-黑质 139

Testis公司 Testis公司 361

甲状腺甲状腺 653

膀胱膀胱 21

阴道阴道 156

FANTOM5 CAGE数据

哺乳动物基因组的功能注释5(扇形5)该项目使用基因表达帽分析（CAGE）提供哺乳动物细胞类型特异转录体的全面表达谱和功能注释(Takahashi H等人（2012年）)基于RIKEN开发的一系列全长cDNA技术。60个组织的CAGE数据来自FANTOM5存储库并映射到合奏版本109.

组织 FANTOM5纸巾样品描述 FANTOM5样本id

脂肪组织脂肪组织 65、65、76岁，混合型消防：10010-101C1

扁桃形结构扁桃形结构 76岁，女性消防：10151-102I7

附录附录 29岁，男性电话：10189-103D9

乳房乳房 77岁，女性 FF:10080-102A8型

Caudate公司尾核 76岁，女性消防：10164-103B2

小脑小脑 22-68岁，混合消防：10083-102B2

小脑 76岁，女性消防：10166-103B4

子宫颈子宫颈 40,46,57,65岁，女性消防：10013-101C4

科隆科隆 62,83,84岁，混合消防：10014-101C5

胼胝体胼胝体 24-68岁，混合消防：10042-101F6

输精管输精管 24岁，男性消防：10196-103E7

子宫内膜子宫 23-63岁，女性消防：10100-102D1

附睾附睾 24岁，男性消防：10197-103E8

食管食管 68,74,75年，混合消防：10015-101C6

额叶额叶 32-61岁，混合消防：10040-101F4

胆囊胆囊 57岁，男性电话：10198-103E9

苍白球苍白球 76岁，女性消防：10161-103A8

苍白球 60岁，女性消防：10175-103C4

心肌心脏 70,73,74岁，混合消防：10016-101C7

左心室 73岁，女性消防：10078-102A6

左心房 40岁，男性消防：10079-102A7

海马海马 76岁，女性消防：10153-102I9

海马 60岁，女性消防：10169-103B7

岛叶皮层因苏拉 20-68岁，混合消防：10039-101F3

肾肾 60,62,63岁，女性消防：10017-101C8

肝脏肝脏 64,69,70年，混合消防：10018-101C9

蓝斑蓝斑蓝斑蓝斑 76岁，女性消防：10165-103B3

蓝斑蓝斑 60岁，女性消防：10182-103D2

肺肺 46,65,94岁，混合电话：10019-101D1

肺-右下叶 29岁，男性消防：10075-102A3

淋巴结淋巴结 30岁，男性传真：10077-102A5

内侧额回内侧额回 76岁，女性消防：10150-102I6

内侧颞回内侧颞回 76岁，女性消防：10156-103A3

内侧颞回 60岁，女性消防：10183-103D3

延髓延髓 18-64岁，混合消防：10038-101F2

延髓 76岁，女性消防：10155-103A2

延髓 60岁，女性消防：10174-103C3

伏隔核伏隔核 23-56岁，混合消防：10037-101F1

枕皮质枕皮质 76岁，女性消防：10163-103B1

枕叶枕叶 27岁，男性消防：10076-102A4

枕极枕极 22-68岁，混合传真：10036-101E9

嗅觉灯泡嗅觉区 87岁，女性消防：10195-103E6

卵巢卵巢 47,75,84岁，女性时间：10020-101D2

胰腺胰腺 52岁，男性消防：10049-101G4

中央旁回中央旁回 22-69岁，混合传真：10035-101E8

顶叶顶叶 35-89岁，混合消防：10034-101E7

顶叶 76岁，女性消防：10157-103A4

顶叶 60岁，女性消防：10171-103B9

垂体垂体 76岁，女性消防：10162-103A9

胎盘胎盘女性的消防：10021-101D3

Pons公司 Pons公司 18-54岁，混合消防：10033-101E6

中央后回中央后回 44-52岁，混合 FF:10032-101E5型

前列腺前列腺 73,79,93岁，男性消防：10022-101D4

蒲公英蒲公英 60岁，女性消防：10176-103C5

视网膜视网膜 24-65岁，混合传真：10030-101E3

唾液腺唾液腺 16-60岁，混合传真：10093-102C3

腮腺 23岁，男性传真：10199-103F1

颌下腺 24岁，男性消防：10202-103F4

精囊精囊 24岁，男性消防：10201-103F3

骨骼肌骨骼肌 55,79,79岁，混合 FF:10023-101D5型

骨骼肌-比目鱼肌男性的消防：10282-104F3

小肠小肠 15,40,85年，混合消防：10024-101D6

平滑肌平滑肌 20-68岁，男性消防：10048-101G3

脊髓脊髓 76岁，女性消防：10159-103A6

脊髓 60岁，女性消防：10181-103D1

脾脏脾脏 39,50,70岁，男性消防：10025-101D7

黑实体黑实体 76岁，女性消防：10158-103A5

颞皮质颞叶 32-61岁，混合消防：10031-101E4

Testis公司 Testis公司 34,53,86岁，男性消防：10026-101D8

Testis公司 14-64岁，男性消防：10096-102C6

塔拉穆斯塔拉穆斯 76岁，女性消防：10154-103A1

胸腺胸腺 0.5,0.5,0.83岁婴儿年龄，男性时间：10027-101D9

甲状腺甲状腺 67,68,78岁，混合型传真：10028-101E1

舌头舌头 28岁，男性消防：10203-103F5

Tonsil公司 Tonsil公司 22-61岁，混合型消防：10047-101G2

膀胱膀胱 55,58,79岁，混合消防：10011-101C2

阴道阴道 68岁，女性 FF:10204-103F6型

组织细胞类型：使用GTEx批量RNAseq数据分析基因细胞类型特异性

GTEx数据用于综合网络分析，以确定给定组织类型内所有蛋白质编码基因的细胞类型特异性。有关此分析和分类的更多详细信息，请参阅组织细胞类型部分方法总结.

scRNA-seq数据

入选标准

单细胞RNA测序数据集是基于对单细胞RNA序列和包含健康人体组织的单细胞数据库相关文献的荟萃分析。为了避免技术偏见，并确保单细胞数据集能够最好地代表相应的组织，采用了以下数据选择标准：（1）单细胞转录组数据集仅限于基于10X Genomics（版本2或3）的铬单细胞基因表达平台的数据集；（2）在不预先富集细胞类型的组织中对单细胞悬浮液进行单细胞RNA测序；（3）仅包括4000个以上细胞和2000万个读取计数的研究，（4）仅包括伪体转录表达谱与相应HPA组织块样本的转录表达谱高度相关的数据集。应该注意的是，眼睛（约1260万读）、直肠（2638个细胞）和心肌（基于平板的scRNA-seq）除外，分析中包括了各种细胞类型。

单细胞转录组学数据集

总共分析了31个不同的数据集。这些数据集分别从单细胞表达图谱，的人类细胞图谱，的基因表达总览，的艾伦大脑图,欧洲基因组-现象档案和智人Tabula Sapiens参考文献的完整列表如下表所示。

组织数据来源 M读取数电池数量参考

脂肪组织 GSE155960 351.1 80083 Hildreth AD等人（2021年）

骨髓 GSE159929-GSM4850584 9.8 3484 He S等人（2020）

大脑艾伦大脑 1403.9 76533 艾伦脑图

乳房 64898英镑 262.1 46126 Bhat-Nakshatri P等人（2021年）

支气管图11981034 87.9 26676 Lukassen S等人（2020年）

科隆 GSE116222标准 47.1 5302 Parikh K等人（2019年）

子宫内膜 GSE111976标准 284.5 52594 王伟等（2020）

食管 GSE159929-GSM4850580 33 10441 He S等人（2020）

眼睛 GSE137537标准 12.6 9555 Menon M等人（2019年）

输卵管 GSE178101 416.4 62514 Ulrich ND等人（2022年）

心肌 GSE109816标准 55.8 6012 Wang L等人（2020）

肾 GSE131685标准 35.9 18365 廖杰等（2020）

肝脏 GSE115469标准 32.8 11175 MacParland SA等人（2018）

肺智慧Tabula sapiens 349.6 27756 Tabula Sapiens Consortium等（2022）

淋巴结 GSE159929-GSM4850583 16.4 9076 He S等人（2020）

卵巢电子邮箱-8381 144.4 37104 Wagner M等人（2020年）

胰腺 GSE131886标准 110 5313 Qadir MMF等人（2020年）

中国人民银行 GSE112845标准 18.9 5274 陈杰等（2018）

胎盘电子邮箱-6701 326 25615 Vento-Tormo R等人（2018年）

前列腺智慧Tabula sapiens 90.7 19009 Tabula Sapiens Consortium等（2022）

直肠 GSE125970标准 44.2 2638 Wang Y等人（2020）

唾液腺智慧Tabula sapiens 231.7 28809 Tabula Sapiens Consortium等（2022）

骨骼肌 GSE143704标准 61 24579 De Micheli AJ等人（2020年）

皮肤 GSE130973标准 57.4 22335 Solé-Baldo L等人（2020）

小肠 GSE125970标准 45.8 5460 Wang Y等人（2020）

脾脏 GSE159929-GSM4850589 15.6 4492 He S等人（2020）

胃 GSE159929-GSM4850590 20.4 5701 He S等人（2020）

Testis公司 GSE120508标准 65.2 6459 郭杰等（2018）

胸腺智慧Tabula sapiens 197 23618 Tabula Sapiens Consortium等（2022）

舌头智慧Tabula sapiens 283.7 18331 Tabula Sapiens Consortium等（2022）

血管的智慧Tabula sapiens 172.5 9172 Tabula Sapiens Consortium等（2022）

单细胞转录组数据的聚类

对于每个单细胞转录组学数据集，量化的原始测序数据根据相应研究以可用格式提供的登录号从相应的存管数据库下载。更详细地说，下载了结肠、肾脏、肝脏、PBMC和睾丸的SRA文件，然后通过SRA工具包（v2.10.9）转换为原始的fastq文件。至于其他25个组织，直接下载了原始的fastq文件，包括脂肪组织、骨髓、乳腺、支气管、子宫内膜、食道、眼睛、输卵管、心肌、肺、淋巴结、卵巢、胰腺、胎盘、前列腺、直肠、唾液腺、骨骼肌、皮肤、小肠、脾脏、胃、胸腺、舌头、，和脉管系统。专门为大脑下载量化的原始计数数据。

单细胞RNA-seq数据处理遵循与HPA项目相同的流程。为了量化转录水平，测序数据被映射到人类参考GRCh38.p13 cDNA，而基于滴管的10X基因组学铬（10X）方法生成的数据集由Cell Ranger（v6.1.2）处理，基于平台的scRNA-seq生成的数据集中由STAR（v2.7.9a）处理。根据Ensembl Archive Release 103（来自HPA v23，基因集合ID被映射到ensemble Archive Revease 109）的注释，转录物丰度被聚合到基因水平作为读取计数，来自同一组织的这些计数矩阵被进一步聚合到一个矩阵中。这导致31个组织的31个计数矩阵，共纳入60666个基因进行进一步分析。下游分析遵循内部管道，使用Python 3.8.5中的Scanpy（v1.7.1）。在管道中，使用两个标准过滤数据：如果检测到至少200个基因，则认为一个细胞有效；如果一个基因在至少10%的细胞中表达，则认为该基因有效。对于含有10000个以上细胞的组织，1000个细胞被用作截止值。随后，将细胞计数归一化为每个细胞的总计数为10000。对于每个数据集，然后使用Python中的单细胞分析（Scanpy）中的Louvain聚类函数对有效细胞进行聚类。聚类时使用参数的默认值。更详细地说，使用UMAP将细胞特征投影到一个包含50个分量的PCA空间，并生成一个k近邻（KNN）图。在Louvain的网络中使用了15个邻居，并且聚类的分辨率设置为1.0。通过将属于相应簇的所有细胞中每个基因的读取计数相加，计算出每个簇中所有基因的读取总数。最后，读取计数被归一化为每个单个细胞簇的每百万蛋白编码基因（pTPM）的转录物。当基于单细胞转录组学计算伪批量样本的表达谱时，对样本的所有细胞的读取计数进行求和，并归一化为pTPM。

定义单元格类型

根据对500多个已知组织和细胞类型特异性标记的广泛调查，对557个不同的细胞类型簇中的每一个进行了手动注释，包括原始出版物中的标记和病理诊断中使用的其他标记。对于每个簇，通过考虑不同标记的表达来选择一个主要细胞类型。对于少数聚类，无法选择主细胞类型，并且这些聚类未用于基因分类。最相关的标记显示在Cell Type Atlas上的热图中，以便向访客阐明集群注释。

细胞类型树状图

细胞类型树状图显示在单细胞类型部分显示了基于全基因组表达的单个细胞类型之间的关系。树状图基于使用Ward标准的细胞类型之间的1-Spearman rho凝聚聚类。然后将树状图转换为层次图，并对链接距离进行标准化，以强调图形连接，而不是链接距离。连接宽度与距根的距离成正比，如果连接的叶子中只有一个细胞类型组，则连接将根据细胞类型组着色。

转录组学数据的规范化

对于这两个高性能放大器和GTEx公司转录组学数据集中，使用每个人类组织或人类细胞类型的所有单个样本的平均TPM值来估计基因表达水平。能够将数据集合并为共识转录表达水平，建立了一条管道来规范所有样本的数据。简而言之，每个样本的所有TPM值都被缩放到100万TPM（表示为pTPM）的总和，以补偿之前删除的非编码转录本。接下来，每个数据源中所有样本的所有TPM值（HPA+GTEx human组织、HPA免疫细胞类型，HPA细胞系)使用M值的修剪平均值分别进行标准化(TMM公司)允许样本之间的比较。计算每个样本中每个基因的归一化转录表达值（表示为nTPM）。Atlas部分未显示低于0.1的nTPM值。

对于脑数据集，使用线性回归进行额外的归一化，以使用R包Limma中的removeBatchEffect（主题作为批次参数）校正诱导间变异。为了减少MGI和illumina平台之间的技术差异，纳入了19个参考样品，并在两个平台上运行。基于参考样品进行强度归一化，以最小化两个平台之间的技术差异。

共识根据来自HPA和GTEx两个来源的转录组学数据，总结了50个人类组织中每个基因的转录表达水平。每个基因和组织类型的一致nTPM值代表基于HPA和GTEx的最大nTPM数值。对于具有多个子组织（脑区、血细胞、淋巴组织和肠道）的组织，所有子组织的最大值用于组织类型，并且人类组织一致集合中的组织类型总数为36。

这个扇形5使用TMM在样本级别上对数据集进行单独归一化。根据每个人体组织的所有单个样本的平均值计算每个基因的归一化百万分位标签数。

鼠标和猪HPA与BGI公司根据与人类组织和细胞类型相同的程序，未对小鼠和猪的数据进行Limma调整。一致性转录表达水平被总结为小鼠大脑的13个脑区和猪大脑的15个脑区，其中结合了亚区域样本，并使用了大脑区域的最大亚区域。

单电池类型使用TMM将聚类与其他转录组数据集分开归一化。为了生成每个细胞类型的表达式值，通过首先计算数据集中具有相同聚类注释的所有细胞中的加权平均nTPM，对每个细胞类型进行聚类。然后将不同数据集中相同单元类型的值平均为单个聚合值。仅包括可靠性中等和高的集群，不包括包含混合细胞类型、中性粒细胞和血小板的集群。

转录组学数据的分类

共有转录组学数据用于根据组织特异性、单细胞类型特异性、脑区域特异性、血细胞特异性或细胞系特异性表达将所有基因分类为两种不同的模式：特异性类别和分布类别。这些定义基于40个组织、81个单细胞类型、每个哺乳动物大脑的13个主要区域、18个免疫细胞类型或1206个细胞系的所有nTPM值的总集合，并使用1 nTPM的截止值作为所有组织或细胞类型的检测限值。

特异性类别的解释

类别	描述
丰富	特定组织/区域/细胞类型中的nTPM至少是任何其他组织/区域或细胞类型的四倍
集团丰富	一组（2-5个组织、脑区、单个细胞类型或细胞系或2-10个免疫细胞类型）中的nTPM至少是任何其他组织/区域/细胞系/免疫细胞类型/细胞类型的四倍
增强	增强：一个或多个组织、大脑区域、细胞系、免疫细胞类型或单个细胞类型中的nTPM至少是所有组织/区域/细胞类型平均值的四倍
低特异性	至少一种组织/区域/细胞类型中的nTPM≥1，但在任何组织/区域或细胞类型中均未升高
未检测到	所有组织/区域/细胞类型的nTPM<1

在分析的某些部分中，还使用了一个额外的类别“提升”，其中包含前三个类别中的所有基因（组织/细胞系/细胞类型富集、组富集和组织/细胞株/细胞类型增强）。计算“升高”组织/细胞系的TS/CS-核心（组织特异性/细胞特异性得分）。TS/CS核心是指从RNA最高的组织/细胞系到RNA第二高的组织/电池系的倍数变化。

分布类别说明

类别	描述
在单个中检测到	在单个组织/区域/细胞类型中检测到
在一些地方检测到	在一个以上但不到三分之一的组织/区域/细胞类型中检测到
检测到多个	在至少三分之一但并非所有组织/区域/细胞类型中检测到
在al中检测到我	在所有组织/区域/细胞类型中检测到
未检测到	所有组织/区域/细胞类型中的nTPM<1

外周血RNA-seq数据

除了人类蛋白质图谱项目中生成的血液免疫细胞类型数据外Schmiedel等人。29种免疫细胞类型以及PBMC总数摩纳哥等人。已被纳入血液图谱。

这个施米德尔数据集可在DICE标准（免疫细胞表达、表达数量性状基因座（eQTL）和表观基因组学数据库）数据库，该数据库旨在解决与人类疾病风险相关的遗传变异如何影响各种细胞类型中的基因表达。将15种免疫细胞类型的每个基因的TPM值映射到人类蛋白质图谱中使用的集合版本中的相应基因。

这个摩纳哥数据集包含使用RNA-seq和流式细胞术在健康供体的外周血单核细胞（PBMC）部分内的29种免疫细胞类型的数据。使用与HPA生成的RNA-seq数据相同的管道分析29个免疫细胞和总PBMC的原始数据，并使用TMM进行归一化，以便进行样本间比较。标准化基因表达值报告为nTPM值。

转录组数据的基因表达聚类

RNA表达数据已被用于将蛋白质编码基因分类为组织、单细胞类型、免疫细胞和细胞系的表达簇。

群集	组织、细胞类型或细胞系的数量	样本聚合级别
组织	50	每种组织类型的平均表达
单个单元格	557	每个细胞类型簇的平均表达
细胞系	1206	单个细胞系的表达
免疫细胞	18	每个免疫细胞的平均表达
大脑	193	每个脑区的平均表达

预处理数据以进行聚类

对于每个数据集，选择了至少一个样本中nTPM>1时检测到的基因，并将数据按基因比例缩放到z分数，以解释样本间基因动态范围的差异。缩放后，使用主成分分析（PCA）将表达式数据投影到低维空间，其中选择了多个成分以满足Kaiser规则，并解释了至少80%的方差。

基因聚类

基因间距离计算为样本间基因表达的Spearman相关性，并转换为Spearman距离（1-Spearman相关）。将距离转换为共享的最近邻图，并用于Louvain聚类，以在图中找到具有相似表达谱的基因簇。为了说明聚类过程中的随机性，每个聚类都运行了100次，因此分解成一个单一的一致性聚类。基因到聚类分配的置信度计算为基因分配到聚类的次数的分数。

群集注释

为每个数据集生成的聚类被手动注释，以便为每个聚类分配特定性和功能。注释基于对生物数据库的过度表达分析，包括基因本体、反应体、庞劳DB、TRRUST和KEGG，以及HPA分类，包括亚细胞位置、蛋白质类别、分泌位置和分类，以及对组织、单细胞类型、免疫细胞、脑区、，和细胞系。为每个集群手动设置可靠性得分，以指示特异性和功能分配的置信度。

聚类可视化

聚类结果在UMAP中可视化。生成彩色多边形以表示对应于同一簇的主要相邻基因群。首先，在UMAP中估算每个簇的二维密度，并确定覆盖总密度95%的区域。对这些区域进行了调整，以包括对应于UMAP空间总面积至少5%的毗连区域。最后，每个簇的相邻区域被转换为二维多边形。

TCGA RNA-seq数据

基因组数据共享（GDC）的癌症基因组图谱（TCGA）项目收集并分析多个人类癌症样本。包括来自17种癌症类型的RNA-seq数据，代表人类病理图谱中具有相应主要癌症类型的21种癌症亚型，以允许在来自人类蛋白质图谱的蛋白质染色数据和来自TCGA数据的RNA-seq之间进行比较。

使用TCGA提供的Ensemble基因id绘制TCGA RNA-seq数据，然后使用每个基因的FPKM（每百万次外显子每千基片段数）量化表达，检测阈值为1 FPKM。基因按照上述相同分类进行分类。

HPA癌症类型 TCGA癌 TCGA中的样品数量

乳腺癌乳腺浸润癌（BRCA） 1075

宫颈癌宫颈鳞状细胞癌和宫颈内膜腺癌（CESC） 291

大肠癌结肠腺癌（COAD） 438

直肠腺癌（READ） 159

子宫内膜癌子宫体子宫内膜癌（UCEC） 541

胶质瘤多形性胶质母细胞瘤（GBM） 153

头颈癌头颈部鳞状细胞癌（HNSC） 499

肝癌肝肝细胞癌（LIHC） 365

肺癌肺腺癌（LUAD） 500

肺鳞状细胞癌（LUSC） 494

黑色素瘤皮肤角质性黑色素瘤（SKCM） 102

卵巢癌卵巢浆液性囊腺癌（OV） 373

胰腺癌胰腺癌（PAAD） 176

前列腺癌前列腺腺癌（PRAD） 494

肾癌肾嫌色症（KICH） 64

肾透明细胞癌（KIRC） 528

肾乳头状细胞癌（KIRP） 285

胃癌胃腺癌（STAD） 354

睾丸癌睾丸生殖细胞肿瘤（TGCT） 134

甲状腺癌甲状腺癌（THCA） 501

尿路上皮癌膀胱尿路上皮癌（BLCA） 406

TCGA存活

根据每个基因的FPKM值，将患者分为两个表达组，并检查表达水平与患者生存率之间的相关性。用Kaplan-Meier生存估计量检验各组患者的预后，并用log-rank检验比较两组患者的生存结果。中位和最大分离的Kaplan-Meier图均显示在人类蛋白质图谱中，在最大分离Kaplan-Meier分析中，对数秩P值小于0.001的基因被定义为预后基因。如果所选预后基因高表达的患者组的观察事件高于预期事件，则为不良预后基因；否则，它是一个良好的预后基因。中位表达低于FPKM 1的基因表达较低，在数据库中被归类为无诊断性基因，即使它们在生存分析中显示出显著的预后影响

艾伦小鼠大脑ISH数据集

艾伦大脑图谱（ABA）是一个以大脑为中心的开放存取数据库，包括人类和小鼠的表达数据。ABA是艾伦脑科学研究所的一部分，该研究所是艾伦研究所的三个分支之一。小鼠大脑原位杂交（ISH）数据提供了成年小鼠大脑中每个基因表达位置的信息(Lein ES等人（2007年）). 我们已经通过ABA API导入了可用的表达式值(©2004艾伦脑科学研究所，艾伦小鼠脑图谱)并以与HPA脑图谱上显示的其他数据集相同的方式显示区域表达。

使用艾伦小鼠大脑API提供的探针核苷酸序列和blast程序包，将艾伦小鼠大脑ISH数据映射到Ensembl 109版的小鼠基因注释。然后使用具有一对一限制的Ensembl同源物数据将小鼠基因映射到人类基因。

证据

基于三种不同来源计算每个基因的蛋白质证据：UniProt蛋白质存在（UniProt证据）；neXtProt蛋白存在（neXtProt证据）；以及基于人类蛋白图谱抗体或RNA的评分（HPA证据）。此外，对于每个基因，蛋白质证据总分基于所有三个独立证据得分中的最大证据水平（证据总分）。

所有分数分为以下类别：

蛋白质水平的证据
成绩单层面的证据
没有证据
无法使用的

UniProt证据基于UniProt蛋白存在数据，它使用五种类型的证据来证明蛋白质的存在。“蛋白质水平上的实验证据”或“转录水平上的试验证据”类别中的所有基因都被归类为前两个证据类别，而“同源性推断”、“预测”或“不确定”类别中基因被归类为“无证据”。基因标识符无法从中映射到UniProt的基因合奏版本109被归类为“不可用”。

neXtProt证据基于neXtProt蛋白的存在数据，它使用五种类型的证据来证明蛋白质的存在。“蛋白质水平上的实验证据”或“转录水平上的试验证据”类别中的所有基因都被归类为前两个证据类别，而“同源性推断”、“预测”或“不确定”类别中基因被归类为“无证据”。基因标识符无法映射到neXtProt的基因合奏版本109被归类为“不可用”。

HPA证据的计算基于人工培养的Western blot、组织切片和亚细胞定位以及转录切片。在两种方法中的一种或两种方法都“支持”数据可靠性的所有基因免疫组织化学和免疫荧光，或标准验证“支持”蛋白质印迹应用（不包括使用过表达裂解物的分析）被归类为“蛋白质水平的证据”。对于其余的基因，在至少一个HPA共识、大脑或免疫细胞组中检测到nTPM>1的所有基因RNA-seq分析基于高性能放大器和GTEx公司被归类为“成绩单级别的证据”。其余基因被归类为“无证据”。