摘要
全球蛋白质数据库(wwPDB)是管理PDB档案的沉积、处理和分发的国际合作机构。在线PDB档案是38000多个结构的坐标和相关信息的存储库,包括使用X射线结晶学、核磁共振和电子显微镜技术测定的蛋白质、核酸和大分子复合物。wwPDB的创始成员包括RCSB PDB(美国)、MSD-EBI(欧洲)和PDBj(日本)[H.M.Berman、K.Henrick和H.Nakamura(2003)自然结构。生物。,10, 980]. BMRB集团(美国)于2006年加入wwPDB。wwPDB的任务是维护一个大分子结构数据的单一档案,这些数据可供全球社区免费公开使用。此外,wwPDB还为广泛的用户社区提供各种服务。wwPDB网站:作者网页提供了有关各个成员组织提供的服务以及wwPDB承担的项目的信息。
历史和背景
蛋白质数据库(PDB)成立于1971年,为实验测定的生物大分子的三维结构数据提供存储库(1–3). PDB档案包含3D坐标数据、有关化学成分的信息,如聚合物序列和配体化学、用于推导结构的实验信息以及结构的一些定性描述。当PDB还处于初级阶段时,该档案包含由松散结构的自由文本组成的七个结构。如今,PDB存档包含近40000个结构,并且依赖于定义这些条目内容的严格本体。
PDB中包含的数据由全球科学家生成并提交给美国、欧洲和亚洲的站点。全球PDB(wwPDB)成立于2003年,正式承认PDB档案的国际性(2,4)并确保数据文件的内容和格式保持一致。创始成员为RCSB PDB(美国)(1),欧洲生物信息学研究所(MSD-EBI)高分子结构数据库(5)和大阪大学的日本蛋白质数据库(PDBj)。这些wwPDB网站共同负责PDB档案的数据存储、处理和分发,并同意支持单一、标准化的结构数据档案(表1). 威斯康星大学麦迪逊分校(美国)的BioMagResBank(BMRB)(6)2006年成为成员,将成为主要实验数据和PDB数据的沉积点。
wwPDB咨询委员会(wwPDBAC)由每个成员站点指定的代表以及国际X射线、核磁共振和电子显微镜(EM)社区的代表组成。wwPDBAC每年举行一次会议,就PDB数据文件的内容、格式和分发的管理政策提供建议。
网站(作者网页)包含wwPDB组织运营的正式协议、沉积和访问站点的链接,以及与wwPDB相关的政策和项目的新闻和公告。
会员存放地点
蛋白质克隆、表达、标记、纯化到结构测定的进展导致新蛋白质结构的测定速度迅速提高。核酸,特别是RNA分子的结构测定也取得了进展。wwPDB的一个关键组成部分是,随着存储量呈指数级增长,其工具能够有效地捕获和管理数据(表1). 尽管这些站点在物理上是分散的,并使用三种不同的工具进行数据捕获和处理(ADIT、ADIT-NMR和AutoDep),但所有数据都使用通用标准进行注释和处理。为了确保核心数据得到统一表示,wwPDB网站积极合作,交换核心参考信息(例如配体的字典描述),并确保遵循标准做法。所有现场的解说员通过视频电话会议、互访和电子邮件保持日常沟通;他们目前正在扩展和更新将公开提供的注释手册。
每周,每个现场处理的数据都会转发给RCSB PDB,以纳入档案。目前,RCSB PDB是档案管理员,因此对PDB档案具有唯一的写访问权限。
有关wwPDB沉积和处理的PDB结构的统计信息,请访问作者网页(表2和三).
表2按年份和地点存放和处理的PDB结构(截至2006年8月28日)
年份. | 沉积总量. | 存放至. | 处理人. |
---|
. | . | RCSB PDB公司. | PDBj公司. | EBI公司. | RCSB PDB公司. | PDBj公司. | EBI公司. |
---|
2000 | 2983 | 2445 | 10 | 528 | 2294 | 161 | 528 |
2001 | 3286 | 2673 | 118 | 495 | 2407 | 384 | 495 |
2002 | 3563 | 2769 | 289 | 505 | 2401 | 657 | 505 |
2003 | 4830 | 3488 | 673 | 669 | 3135 | 1026 | 669 |
2004 | 5508 | 3796 | 900 | 812 | 3083 | 1613 | 812 |
2005 | 6677 | 4506 | 1166 | 1005 | 3562 | 2110 | 1005 |
2006 | 4728 | 3239 | 725 | 764 | 2659 | 1305 | 764 |
总计 | 31 575 | 22 916 | 3881 | 4778 | 19 545 | 7252 | 4778 |
年份. | 沉积总量. | 存放至. | 处理人. |
---|
. | . | RCSB PDB公司. | PDBj公司. | EBI公司. | RCSB PDB公司. | PDBj公司. | EBI公司. |
---|
2000 | 2983 | 2445 | 10 | 528 | 2294 | 161 | 528 |
2001 | 3286 | 2673 | 118 | 495 | 2407 | 384 | 495 |
2002 | 3563 | 2769 | 289 | 505 | 2401 | 657 | 505 |
2003 | 4830 | 3488 | 673 | 669 | 3135 | 1026 | 669 |
2004 | 5508 | 3796 | 900 | 812 | 3083 | 1613 | 812 |
2005 | 6677 | 4506 | 1166 | 1005 | 3562 | 2110 | 1005 |
2006 | 4728 | 3239 | 725 | 764 | 2659 | 1305 | 764 |
总计 | 31 575 | 22 916 | 3881 | 4778 | 19 545 | 7252 | 4778 |
表2按年份和地点存放和处理的PDB结构(截至2006年8月28日)
年份. | 沉积总量. | 存放至. | 处理人. |
---|
. | . | RCSB PDB公司. | PDBj公司. | EBI公司. | RCSB PDB公司. | PDBj公司. | EBI公司. |
---|
2000 | 2983 | 2445 | 10 | 528 | 2294 | 161 | 528 |
2001 | 3286 | 2673 | 118 | 495 | 2407 | 384 | 495 |
2002 | 3563 | 2769 | 289 | 505 | 2401 | 657 | 505 |
2003 | 4830 | 3488 | 673 | 669 | 3135 | 1026 | 669 |
2004 | 5508 | 3796 | 900 | 812 | 3083 | 1613 | 812 |
2005 | 6677 | 4506 | 1166 | 1005 | 3562 | 2110 | 1005 |
2006 | 4728 | 3239 | 725 | 764 | 2659 | 1305 | 764 |
总计 | 31 575 | 22 916 | 3881 | 4778 | 19 545 | 7252 | 4778 |
年份. | 沉积总量. | 存放至. | 处理人. |
---|
. | . | RCSB PDB公司. | PDBj公司. | EBI公司. | RCSB PDB公司. | PDBj公司. | EBI公司. |
---|
2000 | 2983 | 2445 | 10 | 528 | 2294 | 161 | 528 |
2001 | 3286 | 2673 | 118 | 495 | 2407 | 384 | 495 |
2002 | 3563 | 2769 | 289 | 505 | 2401 | 657 | 505 |
2003 | 4830 | 3488 | 673 | 669 | 3135 | 1026 | 669 |
2004 | 5508 | 3796 | 900 | 812 | 3083 | 1613 | 812 |
2005 | 6677 | 4506 | 1166 | 1005 | 3562 | 2110 | 1005 |
2006 | 4728 | 3239 | 725 | 764 | 2659 | 1305 | 764 |
总计 | 31 575 | 22 916 | 3881 | 4778 | 19 545 | 7252 | 4778 |
表3每年发布的PDB结构(截至2006年8月28日,仅限实验解决的结构)
年份. | 总计. |
---|
2000 | 2632 |
2001 | 2840 |
2002 | 3018 |
2003 | 4185 |
2004 | 5230 |
2005 | 5421 |
2006 | 4154 |
总计 | 27 480 |
年份. | 总计. |
---|
2000 | 2632 |
2001 | 2840 |
2002 | 3018 |
2003 | 4185 |
2004 | 5230 |
2005 | 5421 |
2006 | 4154 |
总计 | 27 480 |
表3每年发布的PDB结构(截至2006年8月28日,仅限实验解决的结构)
年份. | 总计. |
---|
2000 | 2632 |
2001 | 2840 |
2002 | 3018 |
2003 | 4185 |
2004 | 5230 |
2005 | 5421 |
2006 | 4154 |
总计 | 27 480 |
年份. | 总计. |
---|
2000 | 2632 |
2001 | 2840 |
2002 | 3018 |
2003 | 4185 |
2004 | 5230 |
2005 | 5421 |
2006 | 4154 |
总计 | 27 480 |
数据访问:成员FTP和网站
“PDB存档”是以三种不同格式维护的平面文件的集合:遗留PDB文件格式;遵循mmCIF语法的PDB交换格式(作者网页);和PDBML/XML格式(7)这是PDB交换格式的直接翻译。每个wwPDB站点通过FTP分发相同的PDB存档。存档每周更新一次。
PDB存档的时间戳快照每年都会添加到作者网页他们提供了当时出现的档案的冻结副本,用于研究和历史目的。最近的快照是在2006年1月添加的。它包括截至2006年1月3日最新(即未过时)的34 421个实验确定的坐标文件,以及截至2005年1月6日包含冻结内容的目录。可以使用脚本自动下载快照的全部或部分。
除了提供对PDB档案的访问之外,每个wwPDB网站还提供数据库和网站,提供PDB档案中包含的结构数据的不同视图和分析(8–14).
数据一致性
wwPDB成员协作确保PDB存档的一致性。PDB交换字典整合了各种字典中的内容,并包括描述NMR、EM和蛋白质生产数据的扩展(15). wwPDB数据处理、交换和注释依赖于此字典和mmCIF格式(16)帮助使数据在整个归档中更加一致。
过去,由于报告的数据、术语和功能注释丢失、错误和不一致,整个PDB档案的查询受到了限制。实验方法的演变、蛋白质的功能知识以及处理这些数据的方法给PDB档案带来了各种不一致,并激发了PDB格式的不同版本。
多年来,MSD-EBI、PDBj和RCSB PDB一直在各自努力纠正档案中的错误。在wwPDB的旗帜下,这些小组现在正在努力将所有补救工作集成到一个统一的数据文件集合中。这项工作包括改进PDB小分子数据的表示,评估所需的化学定义及其在PDB条目中的对应关系,解决每组分配的大分子序列中的任何剩余差异,以及解决主要引文分配中的差异。BMRB一直在与MSD-EBI和RCSB PDB合作,将PDB沉积相关的约束数据标准化(17,18).
修正后的数据(PDB V.2)将于2007年提供给公众审查,并将成为wwPDB网站的基础。补救前发布的数据(PDB V.1)将继续用于历史记录。
逐步将理论模型存放到PDB档案
自2006年10月15日起,PDB沉积被限制在原子坐标范围内,原子坐标基本上由含有生物大分子的样品的实验测量确定。这项政策得到了由结构和计算生物学家组成的工作组的建议和认可,并得到了wwPDB咨询委员会的认可。因此,理论模型沉积(例如纯粹确定的模型生物信息学例如,使用同源性或从头算方法)将不再被接受。
新闻和公告
wwPDB网站的新闻部分提供了有关wwPDBAC会议结果和影响PDB数据文件的政策声明的信息。最近的一个例子是宣布了生物信息学模型(19).
RCSB PDB由罗格斯大学、新泽西州立大学、圣地亚哥超级计算机中心以及加利福尼亚大学圣地亚哥分校的斯卡格斯药学和药物科学学院运营。它得到了国家科学基金会、国家普通医学科学研究所、科学办公室、能源部、国家医学图书馆、国家癌症研究所、国家研究资源中心、国家生物医学成像和生物工程研究所的资助,国家神经疾病和中风研究所以及国家糖尿病、消化和肾脏疾病研究所。E-MSD感谢Wellcome Trust(GR062025MA)、EU(TEMBLOR、NMRQUAL和IIMS)、CCP4、BBSRC、MRC和EMBL的支持。PDBj得到了生物信息学研究与发展研究所、日本科学技术署(BIRD-JST)和教育、文化、体育、,科学技术(MEXT)。BMRB由国家医学图书馆NIH拨款LM05799支持。为本文支付开放获取出版费用的资金由支持RCSB PDB的机构提供。
利益冲突声明。未申报。
参考文献
1, , , , , , , . 蛋白质数据库
, 核酸研究。
, 2000
,卷。 28
(第235
-242
) 2, , . 宣布建立全球蛋白质数据库
, 自然结构。生物。
, 2003
,卷。 10
第页。 980
三, , , , , , , , . 蛋白质数据库:基于计算机的大分子结构档案文件
, 分子生物学杂志。
, 1977
,卷。 112
(第535
-542
) 4, , . , , , . 蛋白质数据库和wwPDB
, 基因组学、蛋白质组学和生物信息学百科全书
, 2005
,卷。 第7卷
奇切斯特John Wiley&Sons有限公司
(第3335
-3339
) 5, , , , , , , , , 等E-MSD:生物信息学的集成数据资源
, 核酸研究。
, 2004
,卷。 32
(第D211型
-D216型
) 6, , . 创建核磁共振数据存储库和文献数据库
, 蛋白质序列。数据分析。
, 1989
,卷。 2
(第23
-37
) 7, , , , . PDBML:档案大分子结构数据的XML表示
, 生物信息学
, 2005
,卷。 21
(第988
-992
) 8, , , , , , , , , 等RCSB蛋白质数据库:基于mmCIF模式的重新设计查询系统和关系数据库
, 核酸研究。
, 2005
,卷。 33
(第D233型
-第237页
) 9, , , , , , . RCSB PDB结构基因组学信息门户
, 核酸研究。
, 2006
,卷。 34
(第D302号
-D305天
) 10, , , , , , , , , 等E-MSD:改善数据存储和结构质量
, 核酸研究。
, 2006
,卷。 34
(第D287型
-D290型
) 11, . PQS:蛋白质四分之一文件服务器
, 生物化学趋势。科学。
, 1998
,卷。 23
(第358
-361
) 12, . eF-site和PDBjViewer:蛋白质功能位点的数据库和查看器
, 生物信息学
, 2004
,卷。 20
(第1329
-1330
) 13, , . GASH:一种改进算法,用于最大化两个蛋白质结构之间的等效残基数
, BMC生物信息学
, 2005
,卷。 6
第页。 221
14, , . ProMode:具有全原子模型的蛋白质分子正常模式分析数据库
, 生物信息学
, 2004
,卷。 20
(第2035
-2043
) 15, , , . , . 使用mmCIF体系结构进行PDB数据管理
, 国际结晶学表
, 2005
,卷。 第G卷
荷兰
多德雷赫特·施普林格
(第539
-543
) 16, , , , , . , . 高分子词典(mmCIF)
, 国际结晶学表
, 2005
,卷。 第G卷
荷兰
多德雷赫特·施普林格
(第295
-443
) 17, , , , , , , . BioMagResBank数据库,具有与蛋白质数据库中存储的1400多个生物分子的结构相对应的实验NMR约束集
, 《生物分子杂志》。核磁共振
, 2003
,卷。 26
(第139
-146
) 18, , , , , , , . BioMagResBank数据库DOCR和FRED包含500多个蛋白质PDB结构的实验核磁共振约束和坐标转换和过滤集
, 《生物分子杂志》。核磁共振
, 2005
,卷。 32
(第1
-12
) 19, , , , , , , , , 等生物大分子结构模型存档研讨会成果
, 结构
, 2006
,卷。 14
(第1211
-1217
)
©2006作者
这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/2.0/uk/)它允许在任何媒体上无限制地非商业性使用、分发和复制原始作品,前提是正确引用了原始作品。