PDB中的标识符

概述

数据资源中通常使用标识符或ID来指向特定的数据内容。它们还可以用于连接不同的数据资源并指示它们的关系。

在PDB中，标识符用于条目中结构层次结构的所有级别。这包括：

条目的PDB ID-当前为4个字符的字母数字，计划在未来扩展为8个字符，前缀为“PDB”
条目中程序集的数字ID
实体实例的链ID-通常为1个或2个字符的字母数字
残留物和小分子ID-3个字符或5个字符长
单个原子的“ATOM”或“HETATM”ID和4个字符的原子名称

这些标识符用于具体选择、可视化和定位特定PDB条目中蛋白质链中的配体、氨基酸的特定实例。因此，了解它们可以帮助具体定位、可视化和分析PDB结构的所有或特定部分。

PDB探索中标识符的相关性

PDB存档结构中每个原子的位置（三维坐标）。为了探索结构和分析原子细节中的分子相互作用，必须唯一地指定PDB中每个原子的位置。各种标识符用于具体指示一个原子或一组原子。这些标识符使用户能够直观地或通过编程方式选择一个或多个感兴趣的原子，以便可视化选定的原子，特别是将其表示为带状、球状和棒状或填充空间，和/或对其进行分析（例如测量距离、角度和扭转）。

此外，一些ID也从其他数据资源中提取，并包含在数据文件或RCSB档案中，以便于将PDB数据连接到相关信息（如蛋白质或核酸序列和EM图）。因此，可以使用这些ID快速搜索与感兴趣主题相关的特定结构的存档。

标识符、约定和示例

PDB中不同组织级别使用的各种类型的标识符用于查询和浏览。这里通过示例描述了在不同组织级别用于搜索、与其他数据资源交叉引用和pin-pointing数据字段的一些关键标识符。学习关于蛋白质数据库中3D结构组织的更多信息.

入门级标识符

实验构筑物
PDB中的每个实验结构都分配了一个4个字符的字母数字标识符，称为PDB标识符或PDB ID(例如，2hbs). 在某些情况下，将大组结构（例如，与一系列不同抑制剂/药物结合的蛋白质）提交给PDB。除了PDB ID之外，这些结构还有一个额外的标识符，称为组ID(例如，g_1002018). 结构可以在科学文献中描述，因此相关PubMed ID(例如，28436492)可用于搜索这些结构的档案。电子显微镜确定的结构必须与EMDB标识秒(例如，EMD-21578)将结构连接到用于求解结构的EM图或相关结构的图。

计算结构模型（CSM）
目前，没有社区标准来强制CSM的命名约定。引入自定义标识符是为了在加载期间规范和清理条目标识符，并使其成为RCSB.org基础设施的一个组成部分。这些标识符具有名称空间并指示源存储库(例如，AF-A0A452S449-F1来自AlphaFold DB和ma-bak-cepc-0001来自ModelArchive）。这与扩展PDB ID代码(例如PDB_00001ABC)，当4个字符的PDB标识符池耗尽时，这将成为必需的。保留原始标识符以确保与外部资源的互操作性，并使用原始标识符进行搜索。学习更多关于扩展CCD或PDB ID的计划.

实体级标识符：

结构中的实体可以是

大分子或聚合物（如蛋白质或核酸）
低聚糖或支链聚合物（如透明质酸）
小分子或非聚合物（例如配体、抑制剂和单个残基）
具有类似大分子成分的复杂小分子（例如，肽类抑制剂和抗生素，也称为Biological Interest或BIRD分子）

序列已映射到UniProt的蛋白质或肽（蛋白质的短片段）包括UniProt接入代码(例如，P01019)用于该实体。类似的基因序列映射到GenBank已关联GenBank接入代码(例如，55771382).

小分子、配体或单个残基具有化学品ID在化学成分参考字典中指定(例如，ATP或A1LU6)而复杂的小分子，如肽样抑制剂、抗生素或众所周知的二糖或三糖，具有生物有趣的分子参考字典标识符或鸟类ID(例如，PRD_00006).

在PDB条目中，所有实体都被分配了唯一的ID(例如，实体1). 这个实体ID特定于特定结构(例如，4HHB_1指PDB条目4HHB中的实体1)并用于在整个文件中跟踪其属性，例如名称、序列、源以及指向其他数据库或字典中ID的链接(例如，UniProt、GenBank、Chemical、BIRD)

实例级标识符：

实例是实体或分子的独特副本。实例级ID是根据实体类型分配的。

高分子实例ID

大分子是由共价连接的构建块（如氨基酸和核苷酸）组成的聚合物链。对于条目中的每个蛋白质或核酸实例链ID(例如，A、A1、AA)已分配。每个PDB条目中都有两组链ID-一组由PDB分配(标签_符号_id)，通常以字母A开头，另一个由作者选择(身份验证符号id)沉积时。最常见的是，这两个链ID是相同的，但在某些情况下，它们可能会有所不同-例如，在PDB ID中2或1，作者为条目中的蛋白质链指定的链ID分别为L和R，而PDB指定的链ID分别为C和D。

聚合物序列包含在PDB文件中，既有FASTA格式（单字符代码），也有N端到C端氨基酸的化学ID（或三字符代码）列表。聚合物链中的任何残留物都通过指定其化学ID(例如，SER氨基酸丝氨酸）和残渣数或在聚合物链中的位置。文件中的每个残基（氨基酸或核苷酸）包含两个残基编号方案-PDB指定的顺序编号(标签_设备id)从1开始，以及作者指定的编号(授权seq_id)可能与文献中报告的相关结构的编号和/或相关序列数据库的编号相匹配(例如，UniProt)条目。

例如，在PDB ID中6kr6，Piwi蛋白中的氨基酸具有PDB指定的从1-810开始的序列号，而作者定义的残数是从34-843开始的，以匹配UniProt编号。虽然一些可视化工具可能显示cif格式文件中包含的两个残数，但其他工具可能只使用PDB格式文件中列出的残数，即。，作者的残数。”学习有关PDB和PDBx/mmCIF格式文件的详细信息.

在某些情况下，选定的残留物或残留物的一部分可以具有由实验确定的替代位置。特定原子的每个替代位置都用唯一的备用ID例如，PDB条目1trz中链D中的残数Ser 9有两个原子，每个原子具有交替的ID A和B。当一个结构的所有原子都有多个位置时，它们被表示为多个模型，并被指定为唯一的模型ID通常出现在核磁共振结构中(例如，PDB ID2公里/平方米).

每个残基中的每个原子都被指定了一个特定的原子名称根据化学成分词典由PDB维护(例如，N、CA、C、O、CB、OG是丝氨酸中所有非氢原子的名称). 一个结构中的所有丝氨酸实例都将使用相同的原子名，但将分配一个实体、实例（或链）ID和残数的唯一组合。如果合适，还将指定Alt ID。例如，在PDB ID中1转，链ID D，Ser 9，其两个原子（CB和OG）具有Alt ID A和B。

小分子实例ID

PDB结构中存在配体、离子、药物、抑制剂和单个残基（氨基酸、核苷酸等）等小分子，这些小分子与蛋白质和核酸等大分子相互作用。它们被指定为（空间上）最近的大分子的链ID。例如，所有配体、水分子等离蛋白链A最近的分子也将被分配给链A，尽管这些小分子中的每一个都有唯一的残基数。因此，链ID为a的蛋白质附近的所有配体、水等都将被分配相同的链ID。然而，这些小分子和配体中的每一个都可以通过使用唯一的残基编号来具体定位。

小分子中所有原子的原子名称是根据化学成分词典.

低聚糖实例ID

低聚糖是糖的聚合物，共价连接形成线性或支链。与蛋白质或核酸一样，低聚糖的所有实例都被指定了唯一的链ID。

寡糖通常与蛋白质（例如糖蛋白）共价连接。如果单个糖分子与蛋白质共价连接，则将其视为一个小分子，并指定其连接的蛋白质的链ID。如果两个或多个糖通过糖苷键共价连接在一起，则将为其指定一个唯一链ID。

每个糖分子中的原子根据化学成分词典.

装配级标识符

提交给PDB的实验确定的结构包含大分子和小分子的坐标，它们可能代表一个完整的生物相关组装、组装的一部分或组装的多个副本。数字的程序集ID分配给每个生物相关组件。这些ID是特定于入口的，可用于可视化或下载，并提供定义特定生物组件的说明。例如，当条目（或结构）中存在多个程序集时，程序集ID用于对构成每个程序集的实体的特定实例进行分组(例如，参见PDB ID2小时). 程序集ID也可用于提供应用对称操作的指令（由用于非对称ID)生成生物相关的程序集(例如，参见PDB ID1个输出).