1.简介
布鲁克海文国家实验室(BNL)的蛋白质数据库(PDB)是一个包含实验确定的蛋白质三维结构的数据库,核酸类和其他生物大分子(Abola等。, 1987, 1997; 伯恩斯坦等。, 1977). PDB已经有26年的历史,为各种科学学科的研究人员、教育工作者和学生组成的全球社区提供服务。档案包括原子坐标、引文、一级和二级结构信息、晶体结构实验数据,以及到许多其他科学数据库的超链接。世界各地的科学家为PDB贡献结构并每天使用。这个群体的共同兴趣是需要获取能够将大分子的生物功能与其三维结构联系起来的信息。
PDB在过去四年中对数据存储和管理以及用户访问进行了大量增强。PDB浏览器,最初在PC和UNIX系统上引入,后来又引入通过万维网(WWW)使研究人员能够比旧的打印索引更快、更灵活地从PDB中搜索和检索信息。这个3DB浏览器(苏斯曼,1997)已升级和增强,以满足其用户社区日益增长的需求。同时,PDB的新自动折旧该设施允许研究人员通过WWW将其数据快速准确地直接存入欧洲生物信息学研究所(EBI)或BNL的PDB。然后数据由Brookhaven的PDB工作人员处理。
PDB面临着不断增加的数据量的挑战,它必须存储和提供给不断扩大和多样化的用户社区,同时保持最高标准的数据完整性和可靠性,并促进数据检索、知识探索和假设测试。在未来几年内,PDB将从目前的简单数据存储库转变为一个功能更强大、高度复杂的基于知识的系统,用于存档和访问结构信息,该系统结合了面向对象和关系数据库系统的优点。为了不中断当前的服务,这些更改已逐步引入,使用户不受剧烈更改的影响,因此既提供了与现有软件的高度兼容性,又为休闲浏览器提供了一致的用户界面。全球范围内已经并将继续建立协作中心,以协助数据存储、存档和分发。
2.资源背景和意义
2.1、。早年:1971年至1988年
PDB由Walter Hamilton博士于1971年在美国晶体学协会(ACA)成员和1971年冷泉港研讨会与会者的建议下成立,例如参见D.C.菲利普斯关于蛋白质晶体学的评论成年(菲利普斯,1971年). 从一开始,PDB就在晶体学界的持续支持下运作。PDB一直是一项真正的国际努力,最初在英国剑桥设有附属中心;澳大利亚墨尔本;和日本大阪。(这些中心随后得到了一些在线数据提供商的扩充,目前有42家;完整列表请参阅最新的PDB时事通讯。)数据采集和传播,通过磁带媒体从一开始就在全球范围内发展,只有一小部分员工每年处理约25次结构沉积。
1972年引入的当前PDB格式确保了这些数据以方便和标准的形式随时可供晶体学家以及生物学家和化学家访问。在过去20年中,这种数据格式已经发展成为事实上的标准,作为数百个计算机程序的输入和输出。它已经被证明是相当灵活的,最近已经被扩展到最初设计时无法想象的应用程序。例如,我们最近在PDB文件头中插入了超文本链接,将它们动态链接到世界各地的其他数据库,通过WWW(请参阅URLhttp://www.pdb.bnl.gov网站/).
2.2. 数据爆炸:1989年至1992年
大分子晶体制备和结构分析实验技术的快速发展精炼导致了结构生物学的一场革命。这些因素大大增加了进行原子分辨率大分子结构研究的实验室数量以及每个实验室的此类研究数量。进展包括:(1)重组DNA技术,几乎可以大量生产任何蛋白质或核酸;(2) 快速蛋白质和DNA(基因)测序技术蛋白质测序常规;(3) 更好的X射线探测器;(4) 实时交互式计算机图形系统,以及更自动化的方法结构测定和精细化;(5) 同步辐射,允许使用极微小的晶体,多波长反常色散(MAD)阶段化和时间分辨研究通过劳厄技术;(6) 核磁共振方法允许结构测定溶液中的大分子;和(7)电子显微镜(EM)技术,用于获得高分辨率结构。
这些巨大的进步导致了从1987年之前每年在PDB中沉积的15-25个新结构的线性增长突然过渡到快速指数增长,达到目前每周约50个提交的速度(见图1).
| 图1 每年可用的PDB坐标条目 |
在同一时期,计算机的普及和日益强大,相对廉价的交互式图形的引入,以及计算机网络的增长,极大地增加了以多种方式访问PDB数据的需求。分子生物学家、理性药物设计者以及学术界和工业界其他人的要求通常与自20世纪70年代以来PDB主要使用者的晶体学家和计算化学家的要求有根本不同。
3.目前PDB
3.2. 数据沉淀
自1971年成立以来,PDB用于输入和分发信息的方法与科学期刊使用的审查和编辑模式类似。目前,提交人向PDB提交了他/她的数据,单位为mmCIF(http://ndbserver.rutgers.edu/NDB/mmcif/)或PDB格式,通过PDB基于WWW自动折旧设施(http://www.pdb.bnl.gov:8080)(图3).自动折旧然后调用一组验证程序,返回其输出通过向PDB发送数据后几分钟内将WWW发送给存款人。
| 图3 基于WWW的PDB提交,通过 AutoDep公司,释放条目通过分层方法。 |
根据这些检查,作者可以决定立即发布条目;最多持有一年后释放;或者在完成提交过程之前,返回并根据输出诊断重新检查结构。PDB ID代码仅在作者批准发布后发布。提交的数据必须包括1997年10月PDB新闻稿中描述的所有强制性信息(http://www.pdb.bnl.gov/pdb-docs/newsletter.html)和在完整PDB提交所必需的项目列表(http://www.pdb.bnl.gov/pdb-docs/mandatory_items.html). 数据还必须通过1998年1月PDB新闻稿和文档中描述的某些验证标准分层放行验证(http://www.pdb.bnl.gov/pdb-docs/validation.html). 通过验证标准的条目将明确标识为LAYER-1。还发布了包含输出诊断的关联文件。
在此之后,PDB工作人员按照之前执行的方式处理条目。然后,PDB科学工作人员对验证套件的输入和输出进行评估,完成注释并将输入返回给作者以供评论和批准。表4总结了当前数据验证套件中包含的检查。作者的更正被合并到条目中,在存档和发布之前对其进行重新分析和验证。这项工作的大部分内容涵盖了目前尚未完全委托给自动化软件的问题。经作者批准后,生成的条目将等同于传统PDB条目,并将指定为LAYER-2。我们坚信,这种彻底的检查和注释对于确保数据的长期价值至关重要。
等级 | 检查的内容 | 立体化学 | 键距离和角度、Ramachandran图(二面角)、群的平面性、手性 | 粘结/非粘结相互作用 | 晶体填料,未指定残余物间和残余物内连接 | 结晶信息 | 马修斯系数,Z轴值,单元格转换矩阵 | 非晶体学变换 | 非晶体对称性的有效性 | 一次序列数据 | 与序列数据库的差异 | 二级结构 | 自动生成或目视检查的异构组 | 异质基团 | 标识、几何和命名 | 其他检查 | 水合圈外的溶剂分子、语法检查、内部数据一致性检查 | | |
最初,数据流是一个手动系统,设计用于一到两名科学家的工作人员,每年的沉积率约为25-50条。一个人处理了从提交到发布的条目。到了20世纪80年代末,当引入自动化的第一步时,每个条目运行验证程序大约需要4个小时。如今,相同的步骤是高度自动化的,包括一组大大改进的验证程序,需要大约15分钟。图形化数据查看是一种有用且功能强大的注释和检查工具,自1992年以来处理器就可以使用。
理想情况下,PDB希望整个沉积过程是自动化的。然而,某些类型的问题仍然需要人工干预和处理。最麻烦的领域仍然是那些涉及处理异质(与结构复杂的小分子)、解决晶体堆积问题、代表具有非晶体学对称,以及解决提交的氨基酸序列与序列数据库中发现的氨基酸序列之间的冲突。有时会查阅出版物和其他参考文献,以核实诸如晶体数据、生物细节、参考信息、,等处理程序虽然比1991年使用的程序有了很大改进,但仍允许错误通过系统而不被检测到,需要对所有条目进行目视检查。我们正在努力扩大自动折旧一套保存和验证程序,以满足存款人和用户之间存在一定冲突的需求,同时确保档案保持最高标准的准确性。这包括从合作者那里获取软件,以解决我们和用户都发现的缺陷。
3.3. 基金
PDB由联邦政府机构资金和用户费用共同支持。支持由美国国家科学基金会、美国公共卫生署、国家卫生研究院、国家研究资源中心、国家普通医学科学研究院、美国国家医学图书馆、美国能源部和用户费用提供。
4.PDB的影响示例
在分子生物学、医学和药物发现领域,PDB发挥着越来越重要的作用。使用结构信息帮助设计抗击疾病的新药的最好例子可能是艾滋病毒感染领域。目前已经有七种HIV蛋白的三维结构已经确定,见图4这些都有助于设计以其中一种蛋白质为靶点的几种药物。
| 图4 人体免疫缺陷病毒的示意图,由使用结晶学或NMR解决的单个蛋白质结构包围。图由弗雷德里克癌症研究与发展中心国家癌症研究所Jacek Lubkowski博士绘制,是对马里兰州巴尔的摩县大学Michael Summers绘制的图的修改。 |
5.未来计划:PDB到3DB
PDB正在开发一个新的数据库3DB-Base。还正在建立国际合作中心,以协助数据存储、存档和分发,包括欧洲生物信息学研究所(EBI)、大阪大学、魏茨曼科学研究所和威斯康星州大学的BioMagResBank(BMRB)。
将PDB转换为3DB涉及到当前操作的各个方面的变化。新系统依赖于关系数据库系统,使用对象协议模型(OPM)工具进行数据管理和归档(http://gizmo.lbl.gov/opm.html)(Chen&Markowitz,1995年). 此开发工作试图解决PDB所服务的不同用户社区的需求。该系统的设计预期将与其他生物数据库联合。我们希望该系统能够将复杂的查询提交到3DB,其中部分查询可能需要自动发送到其他数据库进行处理,并返回复合答案。除了为用户提供强大的复杂环境之外特别的3DB-Base还将有助于管理不断增长的档案,预计到2000年,档案将包含30000多份结构报告。它将完全支持新的IUCr档案格式mmCIF,用于存放和查询。这项工作是以下小组的合作:布鲁克海文国家实验室蛋白质数据库;欧洲生物信息学研究所;剑桥晶体数据中心(CCDC);魏茨曼科学研究所生物信息学股;威斯康星大学BioMagResBank(BMRB);劳伦斯伯克利国家实验室OPM数据管理工具项目;和Gene Logic Inc.,加利福尼亚州伯克利。
6.相关数据库
见表5用于与生物大分子三维结构相关的关键WWW站点。
参考文献
Abola,E.E.、Bernstein,F.C.、Bryant,S.H.、Koetzle,T.F.和Weng,J.(1987)。结晶数据库——信息内容、软件系统、科学应用由F.H.Allen、G.Bergerhoff和R.Sievers编辑,第107–132页。波恩:IUCr。
Abola,E.E.,Sussman,J.L.,Prilusky,J.&Manning,N.O.(1997)。方法酶制剂。 277, 556–571.交叉参考 中国科学院 公共医学 科学网
Bairoch,A.(1994)。核酸研究。 22, 3626–3627.交叉参考 中国科学院 公共医学 科学网
Bairoch,A.和Boeckmann,B.(1994年)。核酸研究。 22, 3578–3580.交叉参考 中国科学院 公共医学 科学网
Bernstein,F.C.,Koetzle,T.F.,Williams,G.J.B.,Meyer,E.F.Jr,Brice,M.D.,Rodgers,J.R.,Kennard,O.,Shimanouchi,T.&Tasumi,M.(1977年)。分子生物学杂志。 112, 535–542.CSD公司 交叉参考 中国科学院 公共医学 科学网
Chen,I.A.和Markowitz,V.M.(1995)。信息系统。 20, 393–418. 交叉参考 科学网
Harel,M.、Schalk,I.、Ehret-Sabatier,L.、Bouet,F.、Goeldner,M.,Hirth,C.、Axelsen,P.、Silman,I.和Sussman,J.L.(1993)。程序。国家科学院。科学。美国,90, 9031–9035.交叉参考 中国科学院 公共医学 科学网
Peitsch,M.C.、Stampf,D.R.、Wells,T.N.C.和Sussman,J.L.(1995年)。生物趋势。科学。 20, 82–84.交叉参考 中国科学院 科学网
菲利普斯,D.C.(1971年)。冷泉港交响乐团。数量。生物。第589-592页。
Sayle,R.A.和Milner-White,E.J.(1995)。生物趋势。科学。 20, 374–376.交叉参考 中国科学院 科学网
Seavey,B.R.、Farr,E.A.、Westler,W.M.和Markley,J.L.(1991)。《生物分子杂志》。核磁共振,1, 217–236.交叉参考 公共医学 中国科学院
Stampf,D.R.、Felder,C.E.和Sussman,J.L.(1995)。自然(伦敦),374, 572–574.中国科学院 公共医学 科学网
Sussman,J.L.(1997)。自然结构。生物。 4, 517.交叉参考 公共医学 科学网
©国际结晶学联合会。如果引用了原文作者和来源,则无需事先获得许可即可复制本文中的简短引文、表格和数字。有关详细信息,请单击在这里.
| 结构 生物学 |
编号:2059-7983