组摘要页面

介绍

在蛋白质数据库(PDB)中,大量蛋白质在档案中有许多结构条目。档案中生物分子结构的冗余性为探索这些蛋白质的生物特性、相互作用和功能的范围提供了机会。在大多数情况下,这些结构提供了蛋白质在各种环境中的快照,例如,在不同的pH值、温度或其他环境中,以及在存在一个或多个离子、配体、辅因子、底物和/或其他生物分子(蛋白质、肽、核酸、碳水化合物、脂质)的情况下。以不同方式对结构进行分组可以让用户了解特定生物大分子的相互作用和功能范围。PDB档案中使用了几种方法来组织和分组聚合物序列、结构和组件,以简化和/或加快分析,并检查结构-功能关系中的范围、模式和趋势。

什么是组摘要页面?

组摘要页(GSP)提供任何预定或自定义结构组的关键特性、属性、序列比对和注释的概述。这与结构摘要页面(SSP),快速概述PDB中单个结构的关键细节。每个组摘要页面还提供访问组中所有成员的氨基酸序列信息、组中每个成员中包含的氨基酸序列范围,以及从各种实验和生物信息学数据资源中提取的序列的结构和功能注释。

为什么使用组摘要页面?

组摘要页面提供了对存档中结构组的轻松访问(按特定属性和特征组织),以探索所有或部分蛋白质的构象灵活性的模式、趋势和范围,以及在单个实验的结构中可能不明显的关系。本页还提供了根据各种标准(包括实验特征、源生物体、蛋白质域分类和蛋白质功能)进一步完善组成员资格的机会。

文档

组摘要页面的类型

组摘要页面可用于预先确定的组,并且可以为PDB存档中的结构和/或序列的自定义组创建。

  • PDB存档中的预定义组包括共享特定标识符或属性的结构组。例如:
    • 基于PDB存款组ID的结构组(例如,g_1002057)。这些组的成员由提交这些结构的作者决定,通常代表与一系列配体、药物和/或候选药物结合的单一蛋白质靶点。还可以使用其他标准来决定组成员身份。
    • 基于UniProt的组,包括PDB档案中具有相同UniProt登录的所有聚合物序列(例如P07550)
    • 基于序列簇的组,包括PDB档案中属于特定序列簇的所有聚合物序列。这些组是在每周更新存档后计算的,可能每周都会更改。进一步了解PDB中的序列簇。
  • 通过将特定的搜索/浏览标准与相关的预定组相结合,可以形成自定义组。例如:
    • 对任何简单或复杂查询的搜索结果进行分组,或对存档进行浏览浏览,可以按结构(使用PDB存款组ID)或序列(使用UniProt Accession或序列簇)进行分组。

访问组摘要页面

可以通过几种不同的方式访问组摘要页面:

  • 通过分组搜索/浏览结果
  • 从结构摘要页面
    • 您可以使用“结构摘要”页面上的链接来浏览整个组的组成员。指向页面上显示的预定组的链接,这些组由一个框标记,框中包含一个图标和一堆纸(表示一组结构)。点击这些图标(参见图1和图2)将打开相应的Group Summary页面
图1:单击以查看具有特定PDB存款组ID的结构组,如结构摘要页面的标题部分所标记。
图1:单击以查看具有特定PDB存款组ID的结构组,如Structure Summary页面的标题部分所示。
图2:在Structure Summary页面的Macromolecules部分(例如,PDB ID 5qif),单击以查看具有特定UniProt Accessions的组,以获取蛋白质大分子实体,并链接到包含特定PDB条目的预计算序列簇(例如,30%、50%、70%、90%、95%和100%)。
图2:在Structure Summary页面的Macromolecules部分(例如,PDB ID 5qif),单击以查看具有特定UniProt Accessions的组,以获取蛋白质大分子实体,并链接到包含特定PDB条目的预计算序列簇(例如,30%、50%、70%、90%、95%和100%)。
  • 来自非冗余蛋白质序列统计表

浏览组摘要页面

当前可用的组摘要页面类型如下:

  • 结构组,它总结了结构的内容和属性,以及映射到这些结构的一些功能注释。
  • 聚合物实体群,其中概述了结构的内容和性质,映射到这些聚合物的一些功能注释,以及组中聚合物序列的多序列比对的各种观点。

结构组

按PDB存款组ID分组的摘要页面

这种类型的组摘要页面汇总了有关通过GroupDep系统进入PDB档案的结构的信息,并为其分配了PDB存款组Dep ID。这些组的成员通常是相同的蛋白质,具有不同的结合配体。

Structure Group Summary页面的内容和导航通过一个示例进行了解释-针对SARS-CoV-2主蛋白酶(病毒复制所必需的蛋白酶之一)的大规模片段筛选-PDB Deposit Group ID国_1002151

页面上有什么?
  • 页面顶部(图3)显示了有关组的信息、组中包含的内容的描述(由作者提供)、浏览组中结构图像的位置(左侧),以及浏览组中成员的链接。
图3:基于PDB Deposition Group ID的Group Summary页面的顶部,其中显示了分组标准、组中包含的内容的描述以及探索组成员的链接。
图3:基于PDB Deposition Group ID的Group Summary页面的顶部,其中显示了分组标准、组中包含的内容的描述以及探索组成员的链接。
  • 向下滚动页面以查看各种其他信息,包括:
    • 该组结构的实验特征通过直方图进行总结,直方图显示了结构确定方法以及组中结构的分辨率(如适用)。
    • 该组结构的属性和注释总结在一系列直方图中,这些直方图显示了源生物体的分布、关键域和组成员的功能注释。
    • 与该组成员相关的小分子被列为两个直方图(见图4)——一个显示了这些结构中的所有小分子(包括溶剂分子、缓冲组分、结晶剂等),另一个仅显示了感兴趣的配体。学习有关感兴趣配体的更多信息在这里。
图4:组摘要页面底部显示了具有各种小分子(包括感兴趣配体)的条目数量直方图。
图4:组摘要页面底部显示了具有各种小分子(包括感兴趣的配体)的条目数量的直方图。
浏览页面
  • 默认情况下,组摘要页面上最多显示10行功能注释和20行配体。柱状图下面列出了其他注释/配体。单击+号可以将行添加到直方图中,而-号可以用来显示更少的行,直到达到默认限制(见图4)。
  • “组摘要”页面上显示的直方图是交互式的,可用于优化组的成员身份。
    • 单击柱状图中的单个蓝色条将细化组摘要页面。与此栏指定的条件不匹配的成员将从该直方图和页面上的所有其他直方图中筛选出来,并以灰色显示。
    • 例如,点击上述小分子直方图中化学成分ID为6SU的感兴趣配体,将该组限制为仅包括(图5)。
    • 按住“shift”键的同时单击蓝色条将调用搜索,显示PDB存档中符合当前条件的所有组成员。因此,单击6SU蓝色条将产生如图6所示的搜索结果。
图5:组摘要页面上更新的直方图。单击蓝色条启动搜索。
图5:组摘要页面上更新的直方图。单击蓝色条启动搜索。
图6:单击图5所示的蓝色条启动搜索结果。
图6:单击图5所示的蓝色条启动搜索结果。

聚合物实体群

这种类型的组摘要页总结了有关组中聚合物实体的信息,还显示了一个组序列探索序列比对、群成员的位置特征和配体相互作用的位置的观点。

按UniProt Accession分组的摘要页面

大多数PDB结构包含其序列和注释存档在UniProtKB/SwissProt中的蛋白质。通常,PDB结构包括部分序列、稳定折叠的结构域,并可能包括修饰,如工程突变或序列伪影,以促进表达或结晶。UniProt Group Summary Page全面概述了PDB和UniProt数据中包含的蛋白质序列部分之间的关系。这有助于评估感兴趣蛋白质的3D结构覆盖的可用性和范围,并识别序列中的修饰。

UniProt Group Summary(UniProt组摘要)页面的内容和导航通过示例进行解释-all映射到UniProtKB加入P0DTD1的聚合物实体-复制酶多蛋白1ab。

组摘要选项卡上有什么?
  • 页面顶部(图7)显示了有关组的信息-UniProt Accession、蛋白质名称和描述、浏览组中结构图像的选项(左侧),以及通过以下方式之一探索组中成员的链接:
    • 查看组成员的序列和结构对齐(3D中的序列对齐)。了解有关此功能的更多信息。
    • 查看所选结构的结构摘要页面
    • 在Mol*中查看选定结构的3D结构。
图7:基于UniProt Accession的Group Summary页面的顶部,显示分组标准、组中包含内容的描述,以及用于单独探索组成员以及对齐和比较组成员的链接。
图7:基于UniProt加入的组摘要页面的顶部显示了分组标准、组中包含内容的描述,以及单独探索组成员以及对齐和比较组成员的链接。
  • 向下滚动页面以查看各种其他信息,包括:
    • 柱状图显示了具有成员聚合物实体的结构的发布日期。
    • 该组结构的实验特征通过直方图进行总结,直方图显示了结构确定的方法,并在适当的情况下显示了该组结构的分辨率。
    • 该组结构的属性和注释总结在一系列直方图中,这些直方图显示了源生物体的分布、关键域和组成员的功能注释。
浏览页面
  • 组摘要页面上显示的直方图是交互式的,可用于优化组成员身份
  • 单击相应的直方图可以选择具有特定特征的聚合物实体。该组的所有其他成员都被过滤掉并显示为灰色。
  • “三维浏览:序列对齐”链接(位于页面结构图像面板下方)显示属于UniProt组的成员的序列和结构对齐。学习有关3D中序列对齐的更多信息
“组序列”选项卡上有什么?

组序列页面显示组内容和分组类型的摘要。如果分组是由UniProt标识符完成的,则此处列出了用于查看组成员3D序列对齐的附加链接。学习有关3D中序列对齐的更多信息

图8:分组摘要页面序列选项卡顶部的分组摘要,其中聚合物实体分组是由a.序列标识和B.UniProt加入完成的。
图8:分组摘要页面序列选项卡顶部的分组摘要,其中聚合物实体分组是由a.序列标识和B.UniProt加入完成的。

总结后,有3个选项卡,其中包含组中所有成员的多重序列对齐、UniProt序列上各种资源的结构特征映射以及UniProt顺序上的绑定位点映射。

图9:在group Summary页面的Sequence Tab中浏览组成员的选项卡。
图9:在group Summary页面的Sequence Tab中浏览组成员的选项卡。
  • 这个序列对齐选项卡
    • 此选项卡描述UniProtKB的序列信息和PDB的3D结构(图10)。
    • 按橙色竖线分组的轨迹描述UniProt注释序列中感兴趣的区域或站点。
    • PDB实体轨迹由蓝色竖线彩色编码,显示PDB序列的结构决定区域,以及这些区域如何映射到UniProt序列。请注意,存在于不同PDB结构中的聚合物实体映射到UniProt多蛋白序列的不同区域。
图10:特定PDB条目中聚合物实体的序列比对,映射到特定UniProt序列,并显示功能区和注释。
图10:特定PDB条目中聚合物实体的序列比对,映射到特定UniProt序列,并显示功能区和注释。
  • 这个结构特点选项卡
    • 此选项卡总结了结构特征的位置注释,例如CATH、SCOP和PFAM中的结构域(图11)。
    • 由蓝色竖线分组的轨迹显示从PDB条目派生的次要结构特征,而由橙色竖线分组后的轨迹表示来自非PDB数据资源的注释。
图11:基于PDB和其他数据资源的UniProt序列注释。
图11:基于PDB和其他数据资源的UniProt序列注释。
  • 这个绑定网站选项卡
    • 此选项卡总结了与蛋白质序列结合的位置特异性配体(图12)。
    • 全局结合轨迹显示所有组成员的所有蛋白-甘氨酸结合位点的聚集。
图12:映射到UniProt序列的单个和全局配体结合位点。
图12:映射到UniProt序列的单个和全局配体结合位点。
按序列标识群集分组的摘要页面

PDB中的冗余可以帮助研究蛋白质在不同环境中的功能。每周将PDB档案中的所有蛋白质序列按不同的序列一致性水平(例如,100%、95%、90%、70%、50%和30%)进行分组,以生成序列簇。点击此处了解有关序列簇的更多信息。这个序列簇组摘要页面概述了PDB中密切相关的序列。探索这些结构组可以让用户了解这些组中蛋白质的结构-功能范围。

Sequence Cluster Group Summary(序列簇组摘要)页面的内容和导航以Ephrin A型受体2(PDB ID)为例进行说明100万桶)并选择50%的序列簇。

序列簇组摘要页面上有什么?
  • 页面顶部(图13)显示了有关组标准、组成员列表、浏览组中结构图像的选项(左侧)以及浏览组中成员的链接的信息。
图13:基于序列簇的Group Summary页面的顶部,显示了分组标准、组成员列表和浏览它们的链接。
图13:基于序列簇的Group Summary页面的顶部,显示了分组标准、组成员列表和浏览它们的链接。
  • 向下滚动页面以查看各种其他信息,包括:
    • 柱状图显示了具有成员聚合物实体的结构的发布日期。
    • 该组结构的实验特征通过直方图进行总结,直方图显示了结构确定方法以及组中结构的分辨率(如适用)。
    • 该组结构的属性和注释总结在一系列直方图中,这些直方图显示了源生物体的分布、关键域和组成员的功能注释。
浏览页面
  • 组摘要页面上显示的直方图是交互式的,可用于优化组成员身份
  • 单击相应的直方图可以选择具有特定特征的聚合物实体。该组的所有其他成员都被过滤掉并显示为灰色。
组序列选项卡上有什么?

“Group Sequence”页面显示了3个选项卡,其中包含组中所有成员的多重序列对齐、UniProt序列上各种资源的结构特征映射以及UniProt序列上绑定位点的映射。

  • 这个路线选项卡
    • 此选项卡描述序列标识组(图14),并使用交互式蛋白质特征视图工具显示组成员的序列对齐。
图14:映射到序列簇一致序列的聚合物实体的多序列比对。顶部的红色方框表示共识序列;“序列变化”
图14:映射到序列簇一致序列的聚合物实体的多序列比对。顶部的红色方框表示共识序列;“序列变异”行表示氨基酸序列在任何给定位置的守恒性;紫色和灰色文本行显示了氨基酸序列。
  • 使用通用多序列比对程序Clustal Omega生成多序列比对(Seivers和Higgings 2017). 对齐视图最初捕获蛋白质序列的全长。当您充分放大时,可以看到对齐区域的聚合物组成。破折号(-)表示路线中的间隙。
  • 一致序列显示在比对的第一行,并显示在序列比对的每个位置发现的最频繁的残基。它是一组序列的简化表示。
  • 根据残基出现的相对频率,“保守性”一行强调了高度保守和不太保守的氨基酸位置。在蛋白质家族中,高度保守的残基更有可能发挥功能作用。这首歌有一个基于频率的配色方案,从深蓝色到浅蓝色,深蓝色代表更高的守恒。
  • 即使在非常接近的同源序列中,序列替换也可能发生在任何给定的对齐位置。将鼠标光标指向共识序列轨迹上的任何位置。工具提示将显示对齐位置中所有氨基酸的出现情况及其相对频率。
  • 注:多序列比对是为完整组预先计算的。显示编组子集时,将过滤原始的完整编组对齐,并且只包括子集序列。如果原始对齐中存在间隙,则该间隙将保留在子组中。
  • 这个结构特点选项卡
    • 该选项卡总结了一致序列上结构特征的位置注释(图15),例如结构域或二级结构分配。
    • 颜色渐变表示给定特征在给定位置发生的频率。更强烈的颜色表示频率更高。将鼠标悬停在任意位置的任何轨迹上,查看此功能出现的频率。
图15:来自不同来源的关于集群一致序列的注释。
图15:来自不同来源的关于集群一致序列的注释。
  • 这个绑定网站选项卡
    • 此选项卡收集与配体相互作用的残基的位置特征。
    • 这个全局绑定轨迹显示所有组成员的所有蛋白结合位点的聚集。对齐中的每个位置显示观察到对齐残基与配体相互作用的次数(图16)。其余的轨迹显示特定化合物的蛋白-甘氨酸结合位点频率。因此,每个位置都显示了观察到的残基-配体相互作用与配体和基团成员之间相互作用总数之间的分数。
图16:映射到簇一致序列的单个和全局配体结合位点。
图16:映射到簇一致序列的单个和全局配体结合位点。

要探索的示例

查询PDB存档中的所有映射到UniProtKB Accession P0DTD1的聚合物实体(SARS-CoV-2中的复制酶多蛋白1ab多蛋白)。将Return类型更改为Polymer Entities,将结果分组为30%序列标识簇,并检查结果组。

  • 这些组代表什么?
  • 你能从这些聚合物实体群中学到什么?

工具书类

  • Sievers F,希金斯DG。Clustal Omega用于精确对齐许多蛋白质序列。蛋白质科学。2018年;27(1):135-145. 数字对象标识:10.1002/pro.3290


请向报告任何遇到的断开链接info@rcsb.org
上次更新时间:2024年1月4日