PDB数据理解指南
介绍
PDB概述
PDBx/mmCIF入门指南
处理坐标
生物组件
缺少坐标
蛋白质一级序列
蛋白质层次结构
小分子配体
探索碳水化合物
确定结构的方法
结晶数据
计算结构模型
分子图形程序
RCSB PDB API简介

生物组装和PDB档案简介

浏览结构摘要时RCSB PDB网站上的页面,您将注意到图像和坐标“生物组装”和“不对称”的文件在许多PDB条目中,这些都是相同的。然而,对于某些条目(主要是通过X射线晶体学解决的条目),你可能会注意到不对称单元和生物组装之间的区别。如果您想知道给定结构的坐标代表与生物相关的集合,继续阅读以了解更多关于这些术语的含义以及相应的数据存档在文件中。

主坐标文件晶体结构通常只包含一个非对称晶体单元,可能与生物组件相同,也可能不同。这个引言介绍了这些术语不对称的单元生物学的装配,列出了有关这些的信息可以在各种文件格式(PDB和mmCIF)中找到,并解释怎样PDB中的生物组装文件导出了存档。由于PDBML格式源自mmCIF格式文件,此处不包括对此格式的单独讨论。

目录


非对称单元

非对称单元是晶体结构中进行对称操作的最小部分可用于生成完整的单元电池(晶体重复单元)。生物晶体最常见的对称操作大分子是旋转、平移和螺旋轴(组合旋转和平移)。

结晶学的应用对非对称单元的对称操作产生一个单元单元当在三维空间中转换时,就构成了整个晶体。

下面是一个简单的例子。非对称装置(绿色向上箭头)旋转约180度一个双重晶体学对称轴(黑色椭圆形)产生一个第二份(紫色向下箭头)。两个箭头一起构成单位单元格。然后在三个单元中进行平移重复制作三维晶体的方向。

单位.png

非对称单元包含晶体结构的独特部分。晶体学家使用根据实验结果细化结构的坐标数据,可能不一定代表整个生物功能组件。

晶体非对称单元可包含:

  • 一个生物组件
  • 生物组件的一部分
  • 多种生物组合

不对称的内容单位取决于结晶分子的位置及其构象在单位单元内。取决于结晶条件和本地打包可能会发生两种不同的情况:

  • 大分子的拷贝或晶体晶胞内的复合物具有相同的构象,并且占据与对称相关的位置。因此,生物组装可能是由高分子/复合物的一个副本组成,也可能是可能由两个或多个对称性相关的分子/复合物组成一起形成一个更大的组件。
  • 大分子的拷贝或复杂的形状略有不同,占据独特位置晶体不对称单元中的位置。因此大分子/复合物的位置在结构上可能与类似但不相同的生物组合。

血红蛋白是一种具有四条蛋白链(两个α-β二聚体)的分子,为这些病例的PDB条目提供了很好的例子:

带有一个生物组件的非对称单元 带有生物组件一部分的非对称单元 具有多个生物组件的非对称单元
条目2小时包含血红蛋白分子(4条链条)在非对称单元中。 条目1个输出包含一半血红蛋白分子(2条链条)在中非对称单元。晶体的两个折叠轴产生另一个血红蛋白分子的2条链。 条目1伏4包含血红蛋白分子(8条链条)在非对称单元中。

总有机碳

生物组件

生物组装(也有时称为生物单元)是大分子已被证明或被认为具有功能的组件分子的形式。例如,血红蛋白的功能形式有四条链条。

取决于具体情况晶体结构,由旋转、平移组成的对称操作或者可能需要执行它们的组合,以便获得完整的生物组装。或者,存款的一个子集可能需要选择坐标来表示生物集合。因此,生物组件可以由以下材料构建:

  • 非对称单元的一个副本
  • 非对称单元的多个副本
  • 非对称单元的一部分

再次使用血红蛋白来证明这些病例:

由一个非对称单元副本组成的生物组件 由不对称单元的多个副本组成的生物组件 不对称单元中的多个生物组合
进入2小时,生物组装是相等的到非对称单元。 进入1个输出生物组件包括不对称单元。 进入1伏4生物组合是一半非对称单元。
无需操作。 晶体学的应用对称操作(绕晶体两次旋转180度轴)产生完整的生物组件。 该条目包含结构相似,但不是完全相同的生物拷贝晶体非对称单元内的组件。

生物组装并不总是一个多链组。

7dfr.jpg格式

例如,函数二氢叶酸还原酶单位(如条目所示7立方英尺)是单体和生物组装体也只包含一条链。

基于晶体堆积,分子有时可能在晶体内表现为多聚体。然而,可能没有证据或生物相关性支持多元状态溶液中。处理条目时,所有可能的程序集都基于埋表面积和相互作用能。这些预测的组件可能会也可能不会这与作者认为的与分子生物学相关的组装是一致的。条目中报告的生物组合包括一条注释,解释它是否是“作者”提供”、“软件已确定”或两者兼而有之。

例如,T4溶菌酶条目中显示的结构3时尚在不对称中有一条单链单位。通常,溶菌酶起单体的作用。“作者提供”以及“软件决定”的生物组装入口是单体。根据晶体堆积、埋藏表面积和交互能量,软件(国际学生成绩评估1)预言这种T4溶菌酶的特异突变体/晶体形式可以形成二聚体。这个为PDB条目定义的程序集3时尚如下所示:

不对称单元(单体) 作者和软件确定的生物组装(单体) 软件确定的生物组装(二聚体)
不对称单元是单体。这些是放置的坐标。 “作者提供的”和“软件确定的”生物组装体都是单体。 软件,国际学生成绩评估预测该分子也可能形成二聚体。因此,第二个生物汇编只是“软件决定的”。
 

在web文件下载选项中,生物组装文件的不同版本标记为(A)用于作者提供的,(S)用于确定的软件。

病毒衣壳晶体结构通常只包含晶体不对称单元的一部分。这些条目要求将非晶体学对称运算符应用于沉积坐标以生成晶体非对称单元。

二十面体病毒衣壳具有由5倍生成的具有60个等效位置的复杂对称,在单个中心相交的3倍和2倍旋转操作点。二十面体病毒晶体结构的沉积坐标通常由二十面体不对称的唯一链组成单位和一组非晶体学对称算子来生成晶体不对称单元。额外的晶体对称算符可能需要生成生物组装和/或晶体学单位单元格。二十面体病毒晶体结构的各种组装对于PDB条目的情况进行了说明1个季度如下所示:

二十面体不对称单元 晶体不对称单元 生物组件 结晶单元电池
1qqp1.jpg页 1个qqp2.jpg 1季度3.jpg 1个qqp4.jpg
沉积的坐标表示1个二十面体不对称单元。该单元在所有视图中都由色带表示。 晶体不对称单元是五元的。 生物组合是一个二十面体(如上所示)。 完整的晶体单位细胞包含2个二十面体病毒颗粒。

除了病毒衣壳的晶体结构外,PDB档案还保存着由电子决定的病毒结构显微镜、纤维衍射和固态核磁共振。在所有具有规则点对称或螺旋对称的组件的情况下,PDB条目包括重复单元的坐标和适当的晶体学和/或生成生物组装所需的非晶体学对称算子。

  非对称单元 生物组件

例如,在丝状噬菌体的纤维衍射结构中PF1,入口1平方米,不对称单元包含3个螺旋,而生物组件是螺旋病毒,通过应用表示螺旋旋转和平移的矩阵。

总有机碳

mmCIF和PDB格式文件中的生物组装描述

以mmCIF格式文件生成生物组件的说明

在mmCIF格式的文件中,详细信息关于构成每个生物组合的结构元素在中找到pdbx结构组件,pdbx构造组件genpdbx结构操作列表类别。前两类描述了结构和当前的每个生物组装的生成有关它的详细信息,而第三个列表列出了所需的转换用于产生生物组件。类别pdbx_struct_assembly_gen将pdbx_struct_oper_list中的转换与它们所应用的链链接起来(请注意,链标识符是整个mmCIF文件中使用的asym_id)。任何特定的生物组装作者的相关评论存储在struct_biol结构类别。

简单示例-条目3c70

_pdbx结构组件.id        1
_pdbx结构组件详细信息        作者和软件定义_装配
_pdbx结构装配方法_详细信息国际学生成绩评估
#
_pdbx结构组件生成。组件_id1
_pdbx结构组件生成。操作表达式(_E)1、2
_pdbx结构组件生成。asym_id_listA、 B、C、D、E、F、G、H
#
回路_
_pdbx_struct_assembly_prop。生物id
_pdbx_struct_assembly_prop。类型
_pdbx_struct_assembly_prop。价值
_pdbx_struct_assembly_prop。细节
1‘ABSA(A^2)’3840?
1“SSA(A^2)”19310年?
再增加1个-132.9 ?
#
回路_
_pdbx结构操作列表id
_pdbx_struct_oper_list.类型
_pdbx结构操作列表名称
_pdbx结构操作列表矩阵[1][1]
_pdbx结构操作列表矩阵[1][2]
_pdbx结构操作列表矩阵[1] [3]
_pdbx结构操作列表向量[1]
_pdbx结构操作列表矩阵[2][1]
_pdbx结构操作列表矩阵[2][2]
_pdbx结构操作列表矩阵[2][3]
_pdbx结构操作列表向量[2]
_pdbx结构操作列表矩阵[3][1]
_pdbx结构操作列表矩阵[3][2]
_pdbx结构操作列表矩阵[3][3]
_pdbx结构操作列表向量[3]
1“身份操作”1_555 1.0000000000 0.0000000000
0.0000000000 0.0000000000 0.00000000001.0000000000  0.0000000000
0.0000000000   0.00000000000.0000000000 1.0000000000  0.0000000000
2“晶体对称操作”4_565 1.0000000000 0.0000000000
0.0000000000 0.0000000000 0.0000000000-1.0000000000 0.0000000000
106.3440000000.0000000000.0000000000.0000000000-1.0000000000 0.0000000000

在pdbx_struct_oper_list中类别,1_555符号是描述晶体的简写一个特定的对称运算符(下划线前的数字),以及任何必需的翻译(下划线后面的三个数字)。对称操作符由空间组和平移定义给出了三个单位的单元轴(a、b和c),其中5表示没有翻译,数字高或低表示单位数细胞正向或负向平移。例如,4_5 65表示使用对称运算符4,后跟一个单位正向b方向上的细胞平移。

病毒衣壳示例--条目2bfu

如果是病毒和其他具有非晶体学对称性的复杂组合,生物组件更复杂,也可能由许多子组件组成。pdbx_struct_assembly中的数据项列出了所有可能的子组件,而pdbxstruct_assembly_gen中列出了生成过程这些组件。struct_oper_list类别给出了矩阵列表需要(晶体学和非晶体学运算符)从给定的坐标创建各种生物组合文件。此列表还包括矩阵:“P”用于转换将坐标放置到标准点框,“X0”是将放置的坐标移动到水晶框架2因此,放置的坐标可以是使用这些矩阵转移到标准或水晶框架。

数据类别_pdbx_struct_oper_list用于所有病毒,并保存BIOMT记录的矩阵出现在PDB格式文件的REMARK 350中。如果组件structoperlist中列出的定义需要顺序乘法矩阵的(示例条目1米4倍),pdbx_struct_oper提供应用于存放坐标的矩阵的最终列表。在下面显示的所有数据块中,矩阵5-58被编辑掉简洁。除了这些类别外,非晶体学对称性(NCS)对称运算符列在_struct_NCS_oper类别中。

_pdbx_point_symmetriy.entry_id           2BFU型
_pdbx点对称。舍恩弗里斯符号
#
回路_
_pdbx结构操作列表id
_pdbx_struct_oper_list.类型
_pdbx结构操作列表矩阵[1][1]
_pdbx结构操作列表矩阵[1][2]
_pdbx结构操作列表矩阵[1] [3]
_pdbx结构操作列表向量[1]
_pdbx结构操作列表矩阵[2][1]
_pdbx结构操作列表矩阵[2][2]
_pdbx结构操作列表矩阵[2][3]
_pdbx结构操作列表向量[2]
_pdbx结构操作列表矩阵[3][1]
_pdbx结构操作列表矩阵[3][2]
_pdbx结构操作列表矩阵[3][3]
_pdbx结构操作列表向量[3]
P“转换为点帧”0.300901699-0.80901699 0.50亿
0.00000 0.80901699  0.50000000 0.30901699  -0.00000
-0.50000000 0.30901699  0.80901699 0
X0'转换为水晶框架'1.000000000.00000000  0.00000000 
0.00000 0.00000000  1.00000000 0.00000000 0.00000
0.00000000  0.00000000  1.00000000 0
1“点对称操作”1.00000000  0.00000000  0.00000000 
0.00000 0.00000000  1.00000000 0.00000000 0.00000
0.00000000  0.00000000  1.00000000 0
2“点对称操作”0.300901699-0.80901699 0.50亿
0.00000 0.80901699  0.50000000 0.30901699  0.00000 
-0.50000000 0.30901699  0.80901699 0
3“点对称操作”-0.80901699 -0.50000000 0.30901699 
0.00000 0.50000000-0.309016990.80901699  0.00000 
-0.30901699 0.80901699  0.50000000 0
4“点对称操作”-0.80901699 0.50000000  -0.30901699
0.00000 -0.50000000 -0.30901699 0.80901699 0.00000
0.30901699  0.80901699  0.50000000 0
59“点对称操作”-0.30901699 -0.80901699 -0.50000000
0.00000 -0.80901699 0.50000000 -0.30901699 0.00000 
0.50000000  0.30901699  -0.809016990
60“点对称操作”-0.50亿-0.30901699-0.80901699
0.00000 0.30901699  0.80901699 -0.50000000 0.00000 
0.80901699  -0.50000000 -0.309016990
#
回路_
_pdbx结构组件.id
_pdbx结构组件详细信息
1’完全二十面体程序集'
2'二十面体不对称单位'
3'二十面体五聚体   
4’二十面体23六聚体
PAU’二十面体不对称单元,标准点框架'
XAU’晶体不对称单元,晶体框架'
#
回路_
_pdbx结构组件生成。组件_id
_pdbx结构组件生成。操作表达式(_E)
_pdbx结构组件生成。asym_id_list
_pdbx结构组件生成。实体_输入_ id
1   (1-60)          A、 B、。
2   1               A、 B、。
3   (1-5)           A、 B、。
4(1,2,6,10,23,24)A,B.
PAU P公司A、 B、。
XAU(X0)(1-5)A、 B、。
#
回路_
_struct_ncs_oper.id
_结构_注释_代码
_结构_名称_详细信息
_struct_ncs_oper.矩阵[1][1]
_struct_ncs_oper.矩阵[1][2]
_struct_ncs_oper.矩阵[1][3]
_每个矩阵[2][1]的结构
_struct_ncs_oper.矩阵[2][2]
_struct_ncs_oper.矩阵[2][3]
_struct_ncs_oper.矩阵[3][1]
_struct_ncs_oper.矩阵[3][2]
_struct_ncs_oper.矩阵[3]
_struct_ncs_oper.vector[1]
_struct_ncs_oper.vector[2]
_struct_ncs_oper.vector[3]
给定1个?1.00000000 0.00000000  0.00000000  0.00000000  1.00000000 
0.00000000 0.00000000 0.000000001.00000000 0.00000
0.00000 0.00000
2生成?0.30901699  -0.809016990.50000000  0.80901699  0.50000000 
0.30901699 -0.50000000 0.30901699 0.809016990
0.00000 0.00000
3生成-0.80901699 -0.500000000.30901699  0.50000000  -0.30901699
0.80901699 -0.30901699 0.80901699 0.500000000
0.00000 0.00000
4生成-0.80901699 0.50000000 -0.300901699-0.50000000-0.30901699
0.80901699 0.30901699  0.809016990.50000000 0.00000
0.00000 0.00000
5生成?0.30901699  0.80901699 -0.50亿-0.80901699 0.5亿
0.30901699 0.50000000  0.309016990.80901699 0.00000
0.00000 0.00000
#  

请参阅mmCIF字典了解更多详细信息和更多信息有关mmCIF格式的信息。

PDB格式文件中生成生物组件的说明

在PDB格式文件中,信息REMARKs 300和350中给出了关于生物组装的信息。备注300提供了关于生物组装和可能包括作者提供的具体评论。备注350,on另一方面显示所有变换(旋转和平移),生成所需的晶体学和非晶体学生物组装。除提供的转换信息外作者描述了可以计算的潜在程序集如果可用,也会提供已确定的。作者提供和软件确定适当标记生物组合。

简单示例-条目3c70公司

在条目中3c70公司,REMARK 300是自由文本备注然后是REMARK 350,其中包括从沉积的坐标生成生物二聚体。

备注300                                                                    
备注300生物分子:1                                                      
备注300参见备注350作者提供的和/或程序
备注300生成的装配信息对于中的结构
备注300此条目。备注也可以提供有关
备注300埋面区域。                                                
备注350                                                                    
备注350个坐标以完成代表已知的乘数
备注350生物学意义重大美国的寡头化状态
备注350可以生成分子通过应用BIOMT变换
记住下面给出的350。两者都有非晶体学
备注350晶体学操作是鉴于。                              
备注350                                                                     
备注350生物分子:1                                                      
备注350作者确定生物单位:DIMERIC公司   
备注350已确定的软件第四纪结构:二聚体的
备注350使用的软件:国际学生成绩评估                       
备注350总埋面面积:3840愤怒**2      
备注350表面积综合体:19310安哥拉**2
备注350无溶剂更换能源:-132KCAL/MOL公司    
备注350将以下内容应用于链:A类       
备注350生物11.000000 0.000000  0.000000        0.00000           
备注350生物20.000000 1.000000  0.000000        0.00000           
备注350生物30.000000 0.000000  1.000000        0.00000           
备注350生物11.000000 0.000000  0.000000       0           
备注350生物20-1.000000  0.000000     106.34400           
备注350生物30.000000 0.000000 -1.000000       0.00000 

在本例中,非对称该装置由单链(链a)组成。生物二聚体是由非对称单元的两个副本生成。第一份是与存放的非对称单元相同(注意标识操作绿色)。第二个副本是通过应用晶体学生成的由旋转矩阵(红色)和平移组成的对称操作矢量(蓝色)。请注意,这两个生物组件都是作者提供的和软件(国际学生成绩评估)预测。

一个来自病毒衣壳的例子——条目2bfu型

在本例中坐标包括组成二十面体的两条链(L和S不对称单位(病毒衣壳的1/60)。备注300是自由文本注释,而remark 350提供所需的转换产生二十面体病毒。注:矩阵5至58英寸为了简洁起见,此处省略了备注350。

备注300                                                                     
备注300生物分子:1                                                      
备注300本条目包含独特的非晶态重复
备注300单元,包括共2条链条。参见备注350
备注300生成信息生物分子。               
备注300组件本条目中表示常规          
备注300二十面体点对称性(SCHOENFLIES SYMBOL=I)。                
备注350                                                                     
备注350生成生物分子                       
备注350个坐标以完成代表已知的乘数
备注350生物学意义重大美国的寡头化状态
备注350可以生成分子通过应用BIOMT变换
记住下面给出的350。两者都有非晶体学
备注350晶体学操作是鉴于。                              
备注350                                                                     
备注350生物分子:1                                                    
备注350将以下内容应用于链条:L,S公司    
备注350生物11  1.000000  0.000000  0.000000       0.00000           
备注350生物21  0.000000  1.000000  0.000000       0.00000           
备注350生物31  0.000000  0.000000  1.000000       0.00000           
备注350生物12  0.309017 -0.809017  0.500000       0.00000           
备注350生物22  0.809017  0.500000  0.309017       0.00000           
备注350生物32-500000 0.309017 0.8090170.00000           
备注350生物13 -0.809017 -0.500000  0.309017       0.00000           
备注350生物23  0.500000 -0.309017  0.809017       0.00000           
备注350生物33 -0.309017  0.809017  0.500000       0.00000           
备注350生物14 -0.809017  0.500000 -0.309017       0.00000           
备注350生物24 -0.500000 -0.309017  0.809017       0.00000          
备注350生物34  0.309017  0.809017  0.500000       0.00000           
备注350生物159 -0.309017 -0.809017 -0.500000       0.00000           
备注350生物259 -0.809017  0.500000 -0.309017       0.00000           
备注350生物359  0.500000  0.309017 -0.809017       0.00000           
备注350生物160 -0.500000 -0.309017 -0.809017       0.00000           
备注350生物260  0.309017  0.809017 -0.500000       0.00000           
备注350生物360 0.809017 -0.500000 -0.309017       0.00000           
备注500                                            
 

晶体不对称入口单元2bfu由10条链(链L、链S和其他四条链)组成由以下矩阵生成的每条链的副本):

MTRIX1 1 1.0000000.000000  0.000000        0.00000   1                   
MTRIX2 1 0.0000001.000000  0.000000        0.00000   1                   
MTRIX3 1 0.000000号0.000000  1.000000        0.00000   1                   
MTRIX1 2号机组0.309017 -0.809017 0.500000       0.00000                        
MTRIX2 2号机组0.809017  0.500000 0.309017       0.00000                        
MTRIX3 2号机组-0.500000  0.309017 0.809017        0.00000                       
MTRIX1 3-0.809017-0.500000  0.309017       0.00000                        
MTRIX2 3号机组0.500000 -0.309017 0.809017       0.00000                        
MTRIX3 3号机组-0.3009017 0.8090170.500000       0.00000                       
MTRIX1 4号机组-0.809017 0.50万-0.309017       0.00000                        
MTRIX2 4-0.500000-0.309017  0.809017       0.00000                        
MTRIX3 4号机组0.309017  0.809017 0.500000       0.00000                        
MTRIX1 5号机组0.309017  0.809017-0.50万0.00000                        
MTRIX2 5号机组-0.809017  0.500000 0.309017       0.00000                        
MTRIX3 5号机组0.500000  0.309017 0.809017       0.00000                          
 

第一个矩阵是一个单位矩阵,并对应于放置的坐标。因为这些是PDB格式文件中已经给出,它们被标记为“1”在矩阵的右侧。其他四个矩阵生成病毒的五倍对称亚组。

注释:不是所有PDB或mmCIF坐标文件都包含有关生成的信息假设的生物组装。

总有机碳

显示和下载生物装配坐标文件

wwPDB-创建的坐标文件生物组件(或生物单元)存档在目录网址://ftp.wwpdb.org/pub/pdb/数据/生物单元/坐标.

也可以访问这些文件来自RCSB PDB网站。对于任何给定的条目结构摘要页面显示了生物组装。前锋可视化框顶部的向后箭头允许切换在非对称单元和生物组装图像之间。在这种情况下有多个生物集会箭头可以用来浏览所有的文件。生物组装文件可以从“下载文件”菜单选项。有关示例,请参阅进入2bfu型.

特定数据库,例如国际学生成绩评估1也可以用来研究生物PDB条目的程序集。

总有机碳

作者

Shuchismita Dutta、Rachel Kramer格林和凯瑟琳·劳森

工具书类

1E.Krissinel和K.Henrick(2007)从晶体推断大分子组装状态。分子生物学杂志。第372页:第774-797页。

2C.L.Lawson,S.Dutta、J.D.Westbrook、K.Henrick、H.M.Berman(2008)代表修复的PDB存档中的病毒。《水晶学报》。D64:874-882

总有机碳