原子坐标文件

来自Proteopedia

(重定向自PDB文件格式)
跳转到:航行,搜索

目录

定义

原子坐标文件是指定三维(3D)分子结构的数据文件。至少,它们必须指定每个原子在空间中的位置,通常使用X、Y和Z笛卡尔坐标,以及每个原子所代表的化学元素。

数据格式

原子坐标文件使用许多可能的数据格式。这个XYZ格式(文件类型.xyz)仅指定每个原子的坐标和化学元素,对小分子很有用。这种格式不适用于大分子,因为它们的原子需要额外的信息。

除了每个原子在空间中的位置及其化学元素外,高分子原子坐标文件还需要指定相当多的信息。每个原子要么属于标准残留物或者没有。如果不是,则将其指定为杂原子。每个原子在标准残渣例如氨基酸中的碳原子可以是羧基碳(C)、α-碳(CA)、β-碳(CB)等等。氮原子可以位于主链(N)上,也可以位于侧链上,例如位于赖氨酸(NZ)的末端zeta位置。除了原子所属残基的名称之外,还提供了残基所在链的名称及其序列号位置。除了X、Y和Z坐标外,还提供了占用值,以及各向同性B值温度值''.

PDB数据格式

晶体学家中最流行的大分子数据格式是20世纪70年代早期开发和使用的格式蛋白质数据库,称为蛋白质数据库格式,PDB格式,或传统PDB格式。此格式的数据文件称为PDB文件(文件类型.pdb)。尽管这种格式有严重的局限性,但它仍然很受欢迎,部分原因是数据文件是纯文本的,并且相对容易被人阅读。

PDB格式不能容纳大于99999个原子/模型或大于62条链(请参见Jmol/大分子可视化). 2021年8月,PDB格式可容纳99%以上的X射线晶体学参赛作品,但只有约86%冷冻电镜条目[1]。其余部分以mmCIF格式提供(见下文)。88%的条目是通过X射线确定的,4.5%是通过低温电子显微镜确定的。就整个数据库而言,98.8%的条目是以PDB格式提供的(2021年8月)。

PDB格式的ATOM记录简化图。未显示(下方等。)是占用率和温度值.放大.

要从Proteopedia中的PDB代码标题页查看PDB文件,请单击分子下方的OCA链接。在OCA,向下滚动到数据检索部分,然后单击用坐标完成在那里的第一行。

要在以下位置查看PDB文件的文本:RCSB PDB公司,转到页面PDB识别码感兴趣,然后在右上角单击显示文件,并且在该标题下,PDB文件.

PDB格式的失效

2019年2月wwPDB网站宣布自2019年7月1日起,新的存款必须采用mmCIF格式[2]PDB有时将mmCIF格式称为“PDBx”,这不应与原始的旧PDB格式混淆。

2023年12月wwPDB网站宣布所有3个字符的配体ID代码都已用完[3]此后,带有新配体的新条目将只能以mmCIF格式提供,因为旧的PDB格式无法容纳新的5字符配体ID。使用5个字符配体ID的示例:8罗克斯甲17;8百万赫兹A1ACE公司.

2024年wwPDB网站估计所有4个字符PDB ID代码将在2029年前消费[4]此后,新条目将只能使用mmCIF格式12个字符的ID代码.

mmCIF数据格式

针对PDB数据格式的不足,国际晶体学家联合会和全球蛋白质数据库已采用高分子晶体信息格式(mmCIF)作为大分子的主要数据格式。mmCIF有时也称为PDBx(不要与PDB格式混淆)。虽然从计算机科学家的角度来看,mmCIF/PDBx格式具有相当大的优点,但它不受晶体学家的欢迎,他们更喜欢使用PDB数据格式。因此,PDB以这两种格式维护了整个数据库。然而,从2019年7月1日开始,新的沉积物必须采用mmCIF格式,预计PDB格式将在2026年左右逐步淘汰[2][5].

仅提供mmCIF格式的型号

2024年4月wwPDB网站仅以mmCIF格式提供。

含有>99999个原子或>62个链的型号不适合PDB格式(请参阅Jmol/大分子可视化). 此类型号仅提供mmCIF格式,而不提供PDB格式。然而,在2024年,此类模型以PDB格式的子集提供。例如,在5支腿,在下载文件菜单。

包含带有5个字符ID代码的配体的模型(见上文)也不适合PDB格式仅以mmCIF格式提供。

ASN.1数据格式

这个美国国家生物技术信息中心(NCBI)保持大分子结构数据库(源自蛋白质数据库)与他们的Entrez公司跨数据库搜索系统,以及其他序列、医学文献、遗传、分类学等数据库原子坐标文件在抽象语法符号一(ASN.1)数据格式中。

债券:连通性

通常,原子坐标文件不指定原子之间的共价键。分子建模或可视化软件使用简单的规则来确定共价键的位置。通常,相距1.9微米的任何两个非氢原子被视为共价键合。(涉及氢原子的键的距离较小。)PDB数据格式要求在非成员的原子之间指定共价键标准残留物在蛋白质或核酸链中。这些在CONECT记录中指定。

另请参见

注释和参考

  1. 这个高级搜索在RCSB.org有一个字段沉积,与PDB格式兼容.
  2. 2 2.1 MX存款的强制性PDBx/mmCIF格式文件提交:由RCSB PDB生物保护团队负责人Jasmine Young于2019年2月20日发布在PDB电子邮件列表上。wwPDb网站也发布了这个文档.
  3. 具有新配体的PDB条目现在仅以PDBx/mmCIF和PDBML文件格式分发,wwPDB新闻,2023年12月12日。
  4. 支持扩展PDB ID格式的资源(PDB_00001abc)2024年春季发布的RCSB PDB新闻稿。
  5. Adams PD、Afonine PV、Baskaran K、Berman HM、Berrisford J、Bricogne G、Brown DG、Burley SK、Chen M、Feng Z、Flensburg C、Gutmanas A、Hoch JC、Ikegawa Y、Kengaku Y、Krissinel E、Kurisu G、Liang Y、Liebschner D、Mak L、Markley JL、Moriarty NW、Murshudov GN、Noble M、Peisach E、Persikova I、Poon BK、Sobolev OV、Ulrich EL、Velankar S、Vonrhein C,Westbrook J、Wojdyr M、Yokochi M、Young JY。宣布必须向蛋白质数据库(PDB)提交PDBx/mmCIF格式的晶体沉积文件。晶体生物学学报D结构生物学。2019年4月1日;75(第4部分):451-454。doi:,10.1107/S2059798319004522。Epub 2019年4月8日。PMID:30988261数字对象标识:http://dx.doi.org/10.107/S2059798319004522

Proteopedia页面贡献者和编辑(这是什么?)

埃里克·马茨

个人工具