第一类主要组织相容性复合物(MHC)在肽负载复合物(PLC)的帮助下结合短抗原肽,并将其呈现给细胞毒性T细胞的T细胞受体(TCR)和自然杀伤(NK)细胞的杀伤细胞免疫球蛋白样受体(KIR)。MHC的人类白细胞抗原(HLA)链具有10000多个等位基因,是人类最具多态性的蛋白质。这种等位基因多样性提供了广泛的肽序列空间覆盖范围,但不影响复合物的三维结构。此外,TCRs主要以常见的对角线结合模式与pMHC相互作用,KIR-pMHC相互作用是等位基因依赖性的。为了建立一个框架来理解MHC的多态性(序列)、结构(保守折叠)和功能(蛋白质相互作用)之间的关系,我们对包含1436个HLA I等位基因的pMHC同源模型进行了局部挫折分析。对局部挫败曲线的分析表明:(1)由于HLA肽结合沟中的最少信任和相对保守的残基,MHC折叠不太可能发生变化;(2)HLA螺旋上的高挫败斑参与或靠近MHC与PLC的TCR、KIR或Tapasin的相互作用位点,以及(3)肽配体主要稳定HLA结合沟的F袋。
数据收集记录_成熟HLA.fasta:此fasta文件中包含的序列来自IMGT/HLA数据集。仅包括HLA结合槽残留物(残留物1-180)。
数据收集数据帧_SRFI.csv:该表主要包括pMHC结构中的单残基挫折指数数据,该结构涵盖了1436个HLA I类等位基因与3-10个九聚肽的复合物。使用netMHCpan 3.0预测每个等位基因的3-10个高亲和力肽配体,然后使用Modeller v9.19创建同源性模型。然后使用挫折仪2(独立版本https://github.com/gonzaparra/duchablemeter2已使用)。列名是从挫折表2中获得的。Frst索引该列包括单渣受挫指数值。 SASA、RSASA、肽、Allele这些列分别包括位置特异性溶剂可及表面积(SASA)、相对SASA、肽序列和等位基因名称。
的数据收集df_SF_R_20200428.csv:此表包括“简化”版本的数据帧_SRFI.csv包含以下列:
等位基因:特定HLA I等位基因名称,
顺序:装订槽顺序
链条:相应位置所在的链条
Res:序列中残留物的位置
AA:单字母氨基酸代码
ChainRes:包含Chain和Res字段的串联字符串。
SASA、RSASA:如上所述
FI_mean、FI_mean_sd和FI_median:使用data_frame_SRFI为每个位置计算的平均值和中值SRFI值。FI_mean_sd表示平均SRFI值的标准偏差。
rvET:特定位置的实际值进化轨迹分数。
FI_median_diff:肽结合后SRFI中值的差异。
基因座:基因座(A、B或C)
核心等位基因:如果该等位基因属于Robinson等人(2017)报告的核心等位蛋白,则为真(https://doi.org/10.1371/journal.pgen.1006862). 否则为False。
囊袋:肽结合囊袋,各残基位于其中。如果任何口袋中没有残留物,则无。
界面:如果残基是MHC中的蛋白质-蛋白质界面残基,则为真
SS:二级结构赋值
结构域:各残基所在的结构域。
对于大多数等位基因,包括10个肽配体。然而,对于一些等位基因,netMHCpan 3.0并没有将25000个随机的九聚体序列中的至少10个肽归类为强结合物。因此,只有那些被归类为这些等位基因的强结合物的肽被用于同源模型,这导致一些等位基因少于10个肽配体。
仅使用包含在df_SF_R_20200428.csv注意,一些数据,如溶剂可及表面积和二级结构赋值,并未在最终出版物中使用。