摘要

全球蛋白质数据库(wwPDB)是管理PDB档案的沉积、处理和分发的国际合作机构。在线PDB档案是38000多个结构的坐标和相关信息的存储库,包括使用X射线结晶学、核磁共振和电子显微镜技术测定的蛋白质、核酸和大分子复合物。wwPDB的创始成员包括RCSB PDB(美国)、MSD-EBI(欧洲)和PDBj(日本)[H.M.Berman、K.Henrick和H.Nakamura(2003)自然结构。生物。,10, 980]. BMRB集团(美国)于2006年加入wwPDB。wwPDB的任务是维护一个大分子结构数据的单一档案,这些数据可供全球社区免费公开使用。此外,wwPDB还为广泛的用户社区提供各种服务。wwPDB网站:作者网页提供了有关各个成员组织提供的服务以及wwPDB承担的项目的信息。

历史和背景

蛋白质数据库(PDB)成立于1971年,为实验测定的生物大分子的三维结构数据提供存储库(1–3). PDB档案包含3D坐标数据、有关化学成分的信息,如聚合物序列和配体化学、用于推导结构的实验信息以及结构的一些定性描述。当PDB还处于初级阶段时,该档案包含由松散结构的自由文本组成的七个结构。如今,PDB存档包含近40000个结构,并且依赖于定义这些条目内容的严格本体。

PDB中包含的数据由全球科学家生成并提交给美国、欧洲和亚洲的站点。全球PDB(wwPDB)成立于2003年,正式承认PDB档案的国际性(2,4)并确保数据文件的内容和格式保持一致。创始成员为RCSB PDB(美国)(1),欧洲生物信息学研究所(MSD-EBI)高分子结构数据库(5)和大阪大学的日本蛋白质数据库(PDBj)。这些wwPDB网站共同负责PDB档案的数据存储、处理和分发,并同意支持单一、标准化的结构数据档案(表1). 威斯康星大学麦迪逊分校(美国)的BioMagResBank(BMRB)(6)2006年成为成员,将成为主要实验数据和PDB数据的沉积点。

表1

wwPDB数据存放和访问站点

访问PDB FTP存款数据主要网站
RCSB PDB公司作者网页作者网页作者网页
MSD-EBI公司作者网页作者网页作者网页
PDBj公司作者网页作者网页作者网页
BMRB公司作者网页作者网页
访问PDB FTP存款数据主要网站
RCSB PDB公司作者网页作者网页作者网页
MSD-EBI公司作者网页作者网页作者网页
PDBj公司作者网页作者网页作者网页
BMRB公司作者网页作者网页
表1

wwPDB数据存放和访问站点

访问PDB FTP存款数据主要网站
RCSB PDB公司作者网页作者网页作者网页
MSD-EBI公司作者网页作者网页作者网页
PDBj公司作者网页作者网页作者网页
BMRB公司作者网页作者网页
访问PDB FTP存款数据主要网站
RCSB PDB公司作者网页作者网页作者网页
MSD-EBI公司作者网页作者网页作者网页
PDBj公司作者网页作者网页作者网页
BMRB公司作者网页作者网页

wwPDB咨询委员会(wwPDBAC)由每个成员站点指定的代表以及国际X射线、核磁共振和电子显微镜(EM)社区的代表组成。wwPDBAC每年举行一次会议,就PDB数据文件的内容、格式和分发的管理政策提供建议。

网站(作者网页)包含wwPDB组织运营的正式协议、沉积和访问站点的链接,以及与wwPDB相关的政策和项目的新闻和公告。

会员存放地点

蛋白质克隆、表达、标记、纯化到结构测定的进展导致新蛋白质结构的测定速度迅速提高。核酸,特别是RNA分子的结构测定也取得了进展。wwPDB的一个关键组成部分是,随着存储量呈指数级增长,其工具能够有效地捕获和管理数据(表1). 尽管这些站点在物理上是分散的,并使用三种不同的工具进行数据捕获和处理(ADIT、ADIT-NMR和AutoDep),但所有数据都使用通用标准进行注释和处理。为了确保核心数据得到统一表示,wwPDB网站积极合作,交换核心参考信息(例如配体的字典描述),并确保遵循标准做法。所有现场的解说员通过视频电话会议、互访和电子邮件保持日常沟通;他们目前正在扩展和更新将公开提供的注释手册。

每周,每个现场处理的数据都会转发给RCSB PDB,以纳入档案。目前,RCSB PDB是档案管理员,因此对PDB档案具有唯一的写访问权限。

有关wwPDB沉积和处理的PDB结构的统计信息,请访问作者网页(表2).

表2

按年份和地点存放和处理的PDB结构(截至2006年8月28日)

年份沉积总量存放至处理人
RCSB PDB公司PDBj公司EBI公司RCSB PDB公司PDBj公司EBI公司
200029832445105282294161528
2001328626731184952407384495
2002356327692895052401657505
20034830348867366931351026669
20045508379690081230831613812
20056677450611661005356221101005
20064728323972576426591305764
总计31 57522 9163881477819 54572524778
年份沉积总量存放至处理人
RCSB PDB公司PDBj公司EBI公司RCSB PDB公司PDBj公司EBI公司
200029832445105282294161528
2001328626731184952407384495
2002356327692895052401657505
20034830348867366931351026669
20045508379690081230831613812
20056677450611661005356221101005
20064728323972576426591305764
总计31 57522 9163881477819 54572524778
表2

按年份和地点存放和处理的PDB结构(截至2006年8月28日)

年份沉积总量存放至处理人
RCSB PDB公司PDBj公司EBI公司RCSB PDB公司PDBj公司EBI公司
200029832445105282294161528
2001328626731184952407384495
2002356327692895052401657505
20034830348867366931351026669
20045508379690081230831613812
20056677450611661005356221101005
20064728323972576426591305764
总计31 57522 9163881477819 54572524778
年份沉积总量存放至处理人
RCSB PDB公司PDBj公司EBI公司RCSB PDB公司PDBj公司EBI公司
200029832445105282294161528
2001328626731184952407384495
2002356327692895052401657505
20034830348867366931351026669
20045508379690081230831613812
20056677450611661005356221101005
20064728323972576426591305764
总计31 57522 9163881477819 54572524778
表3

每年发布的PDB结构(截至2006年8月28日,仅限实验解决的结构)

年份总计
20002632
20012840
20023018
20034185
20045230
20055421
20064154
总计27 480
年份总计
20002632
20012840
20023018
20034185
20045230
20055421
20064154
总计27 480
表3

每年发布的PDB结构(截至2006年8月28日,仅限实验解决的结构)

年份总计
20002632
20012840
20023018
20034185
20045230
20055421
20064154
总计27 480
年份总计
20002632
20012840
20023018
20034185
20045230
20055421
20064154
总计27 480

数据访问:成员FTP和网站

“PDB存档”是以三种不同格式维护的平面文件的集合:遗留PDB文件格式;遵循mmCIF语法的PDB交换格式(作者网页);和PDBML/XML格式(7)这是PDB交换格式的直接翻译。每个wwPDB站点通过FTP分发相同的PDB存档。存档每周更新一次。

PDB存档的时间戳快照每年都会添加到作者网页他们提供了当时出现的档案的冻结副本,用于研究和历史目的。最近的快照是在2006年1月添加的。它包括截至2006年1月3日最新(即未过时)的34 421个实验确定的坐标文件,以及截至2005年1月6日包含冻结内容的目录。可以使用脚本自动下载快照的全部或部分。

除了提供对PDB档案的访问之外,每个wwPDB网站还提供数据库和网站,提供PDB档案中包含的结构数据的不同视图和分析(8–14).

数据一致性

wwPDB成员协作确保PDB存档的一致性。PDB交换字典整合了各种字典中的内容,并包括描述NMR、EM和蛋白质生产数据的扩展(15). wwPDB数据处理、交换和注释依赖于此字典和mmCIF格式(16)帮助使数据在整个归档中更加一致。

过去,由于报告的数据、术语和功能注释丢失、错误和不一致,整个PDB档案的查询受到了限制。实验方法的演变、蛋白质的功能知识以及处理这些数据的方法给PDB档案带来了各种不一致,并激发了PDB格式的不同版本。

多年来,MSD-EBI、PDBj和RCSB PDB一直在各自努力纠正档案中的错误。在wwPDB的旗帜下,这些小组现在正在努力将所有补救工作集成到一个统一的数据文件集合中。这项工作包括改进PDB小分子数据的表示,评估所需的化学定义及其在PDB条目中的对应关系,解决每组分配的大分子序列中的任何剩余差异,以及解决主要引文分配中的差异。BMRB一直在与MSD-EBI和RCSB PDB合作,将PDB沉积相关的约束数据标准化(17,18).

修正后的数据(PDB V.2)将于2007年提供给公众审查,并将成为wwPDB网站的基础。补救前发布的数据(PDB V.1)将继续用于历史记录。

逐步将理论模型存放到PDB档案

自2006年10月15日起,PDB沉积被限制在原子坐标范围内,原子坐标基本上由含有生物大分子的样品的实验测量确定。这项政策得到了由结构和计算生物学家组成的工作组的建议和认可,并得到了wwPDB咨询委员会的认可。因此,理论模型沉积(例如纯粹确定的模型生物信息学例如,使用同源性或从头算方法)将不再被接受。

新闻和公告

wwPDB网站的新闻部分提供了有关wwPDBAC会议结果和影响PDB数据文件的政策声明的信息。最近的一个例子是宣布了生物信息学模型(19).

RCSB PDB由罗格斯大学、新泽西州立大学、圣地亚哥超级计算机中心以及加利福尼亚大学圣地亚哥分校的斯卡格斯药学和药物科学学院运营。它得到了国家科学基金会、国家普通医学科学研究所、科学办公室、能源部、国家医学图书馆、国家癌症研究所、国家研究资源中心、国家生物医学成像和生物工程研究所的资助,国家神经疾病和中风研究所以及国家糖尿病、消化和肾脏疾病研究所。E-MSD感谢Wellcome Trust(GR062025MA)、EU(TEMBLOR、NMRQUAL和IIMS)、CCP4、BBSRC、MRC和EMBL的支持。PDBj得到了生物信息学研究与发展研究所、日本科学技术署(BIRD-JST)和教育、文化、体育、,科学技术(MEXT)。BMRB由国家医学图书馆NIH拨款LM05799支持。为本文支付开放获取出版费用的资金由支持RCSB PDB的机构提供。

利益冲突声明。未申报。

参考文献

1
伯曼
H.M.公司。
韦斯特布鲁克
J。
Z.公司。
吉利兰
G.公司。
巴特
电话号码。
韦西格
H。
辛迪亚洛夫
身份证号码。
伯恩
体育。
蛋白质数据库
核酸研究。
2000
,卷。 
28
(第
235
-
242
)
2
伯曼
H.M.公司。
亨里克
英国。
中村
H。
宣布建立全球蛋白质数据库
自然结构。生物。
2003
,卷。 
10
第页。 
980
 
伯恩斯坦
F.C.公司。
Koetzle公司
财政部。
威廉姆斯
G.J.B.公司。
迈耶
E.F.公司。
布里斯
医学博士。
罗杰斯
J.R.公司。
肯纳德
O。
岛内
T。
田住
M。
蛋白质数据库:基于计算机的大分子结构档案文件
分子生物学杂志。
1977
,卷。 
112
(第
535
-
542
)
4
亨里克
英国。
伯曼
H·M。
中村
H。
乔德
有限责任公司。
P.F.R.公司。
邓恩
医学博士。
苏布拉马尼亚姆
美国。
蛋白质数据库和wwPDB
基因组学、蛋白质组学和生物信息学百科全书
2005
,卷。 
第7卷
 
奇切斯特John Wiley&Sons有限公司
(第
3335
-
3339
)
5
戈洛温
答:。
奥尔德菲尔德
T.J.公司。
泰特美术馆
J.G.公司。
维兰卡
美国。
巴顿
G.J.(通用)。
布泽拉基斯
H。
季米特罗普洛斯
D。
菲永
J。
侯赛因
答:。
离子
J.M.公司。
E-MSD:生物信息学的集成数据资源
核酸研究。
2004
,卷。 
32
(第
D211型
-
D216型
)
6
乌尔里奇
E.L.公司。
马克利
法学博士。
京极
年。
创建核磁共振数据存储库和文献数据库
蛋白质序列。数据分析。
1989
,卷。 
2
(第
23
-
37
)
7
韦斯特布鲁克
J。
伊藤
N。
中村
H。
亨里克
英国。
伯曼
H.M.公司。
PDBML:档案大分子结构数据的XML表示
生物信息学
2005
,卷。 
21
(第
988
-
992
)
8
德什潘德
N。
地址
K.J.公司。
布卢姆
W.F.公司。
梅里诺·奥特
J.C.公司。
汤森德·梅里诺
西。
问:。
克内泽维奇
C、。
L。
L。
Z.公司。
RCSB蛋白质数据库:基于mmCIF模式的重新设计查询系统和关系数据库
核酸研究。
2005
,卷。 
33
(第
D233型
-
第237页
)
9
库拉诺夫
答:。
L。
德拉克鲁兹
J。
L。
韦斯特布鲁克
J。
伯恩
体育。
伯曼
H.M.公司。
RCSB PDB结构基因组学信息门户
核酸研究。
2006
,卷。 
34
(第
D302号
-
D305天
)
10
塔加里语
M。
泰特美术馆
J。
斯瓦米纳坦
G.J.(通用)。
纽曼
R。
奈姆
答:。
弗兰肯
西。
卡波普鲁
答:。
侯赛因
答:。
菲永
J。
亨里克
英国。
E-MSD:改善数据存储和结构质量
核酸研究。
2006
,卷。 
34
(第
D287型
-
D290型
)
11
亨里克
英国。
桑顿
J.M.公司。
PQS:蛋白质四分之一文件服务器
生物化学趋势。科学。
1998
,卷。 
23
(第
358
-
361
)
12
木下
英国。
中村
H。
eF-site和PDBjViewer:蛋白质功能位点的数据库和查看器
生物信息学
2004
,卷。 
20
(第
1329
-
1330
)
13
斯坦德利
直径。
Toh公司
H。
中村
H。
GASH:一种改进算法,用于最大化两个蛋白质结构之间的等效残基数
BMC生物信息学
2005
,卷。 
6
第页。 
221
 
14
瓦科
H。
加藤
M。
Endo公司
美国。
ProMode:具有全原子模型的蛋白质分子正常模式分析数据库
生物信息学
2004
,卷。 
20
(第
2035
-
2043
)
15
韦斯特布鲁克
J。
H。
Z.公司。
伯曼
H.M.公司。
霍尔
S.R.公司。
麦克马洪
B。
使用mmCIF体系结构进行PDB数据管理
国际结晶学表
2005
,卷。 
第G卷
 
荷兰
多德雷赫特·施普林格
(第
539
-
543
)
16
菲茨杰拉德
医学博士。
韦斯特布鲁克
J.D.(医学博士)。
伯恩
体育。
麦克马洪
B。
瓦滕堡
K.D.公司。
伯曼
H.M.公司。
霍尔
S.R.公司。
麦克马洪
B。
高分子词典(mmCIF)
国际结晶学表
2005
,卷。 
第G卷
 
荷兰
多德雷赫特·施普林格
(第
295
-
443
)
17
多雷利耶斯
J.F.公司。
Mading公司
美国。
马祖克
D。
旅居者
英国。
L。
J。
马克利
法学博士。
乌尔里奇
E.L.公司。
BioMagResBank数据库,具有与蛋白质数据库中存储的1400多个生物分子的结构相对应的实验NMR约束集
《生物分子杂志》。核磁共振
2003
,卷。 
26
(第
139
-
146
)
18
多雷利耶斯
J.F.公司。
内德文
A.J.公司。
弗兰肯
西。
J。
邦万
上午。
卡普坦
R。
马克利
J·L。
乌尔里奇
E.L.公司。
BioMagResBank数据库DOCR和FRED包含500多个蛋白质PDB结构的实验核磁共振约束和坐标转换和过滤集
《生物分子杂志》。核磁共振
2005
,卷。 
32
(第
1
-
12
)
19
伯曼
H.M.公司。
白肋烟
S.K.公司。
西。
萨利
答:。
阿德朱贝
答:。
伯恩
体育。
布莱恩特
S.H.公司。
邓布雷克
《皇家法学杂志》。
菲德尔斯
英国。
弗兰克
J。
生物大分子结构模型存档研讨会成果
结构
2006
,卷。 
14
(第
1211
-
1217
)
这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/2.0/uk/)它允许在任何媒体上无限制地非商业性使用、分发和复制原始作品,前提是正确引用了原始作品。

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由杂志自行审查并发表。请通过电子邮件查看更多通知。