摘要

生物分子相互作用网络数据库(BIND:网址:http://bind.ca)记录生物分子相互作用、复合物和途径信息。基于web的系统可用于查询、查看和提交记录。BIND随着个人提交资料、PDB的相互作用数据以及大量使用酵母双杂交、质谱、遗传相互作用和噬菌体展示的大规模相互作用和复杂绘图实验的增加而继续增长。我们开发了一种新的图形分析工具,为用户提供交互作用和复杂记录中蛋白质结构域组成的视图,以帮助将功能域与蛋白质交互作用联系起来。还开发了一个交互网络聚类工具,以帮助关注感兴趣的区域。用户的持续输入有助于进一步完善BIND数据规范,其中现在包括存储有关遗传交互的详细信息的能力。BIND数据规范可用作ASN.1和XMLDTD。

收稿日期:2002年9月14日;修订并接受2002年10月2日

引言

生物分子相互作用网络数据库(BIND)旨在捕获蛋白质功能,在分子水平上定义为蛋白质与其他分子相互作用或与分子产物发生反应的一组分子。已知细胞图谱的无可匹敌的增长有增无减,通过不断改进的技术,如质谱和双杂交屏幕,产生了细胞信号和代谢网络结构的新数据(1). BIND等交互数据库(2,)必须跟上进度,以便管理此类数据。在队列中,必须提供此数据的可视化和分析工具,以帮助理解此复杂数据。

绑定

BIND存储有关相互作用、分子复合物和通路的信息。相互作用发生在两个生物“物体”之间,A和B可以是蛋白质、RNA、DNA、分子复合物、小分子、光子(光)或基因。分子复合物和途径是这些成对相互作用的集合,还有一些额外的数据。定义交互所需的最少信息量是对a和B的描述,以及对PubMed的出版物引用。BIND基于广泛的ASN.1数据规范[如之前发布的那样(4,5)]这可以描述生物化学和遗传网络的许多细节。通过使用NCBI编程工具包,支持所有数据的XML版本以及附带的DTD(网址:http://www.ncbi.nlm.nih.gov/IEB/).

自2001年2.0版以来,BIND规范一直保持稳定。最初,BIND仅用于支持物理/生物化学相互作用。源于与酵母基因图谱项目的合作(6),我们当前的3.0版本对遗传相互作用有广泛的支持(当a和B是基因时有效),其中可以详细描述遗传实验及其结果。这证明了我们的数据规范方法的灵活性和可扩展性。除了累积的微小更改外,当前规范版本还具有许多通用外部引用,以支持与可能类似于BIND的专用数据库系统的集成。例如,BIND-Interaction对象中的外部引用可以指向内部交互数据库。记录的逻辑集合现在称为分区,与GenBank中的相似(见下文)。补充资料中提供了3.0 BIND规范的最新UML图。

BIND已通过多个实施周期取得进展,每个周期都得益于合作者和社区的建设性反馈。作为我们不断努力填充BIND的一部分,我们从大规模细胞定位研究中导入了数据,包括我们参与的研究(68). 最近,PDB中的所有分子相互作用(9)通过验证的MMDB数据库导入BIND(10),使用MMDBBIND(11). 由于当前服务器空间有限,这64个956条记录无法通过web界面查询,但可以在我们的FTP站点上免费获得。MMDBBIND记录目前正在通过人工管理过程丰富信息,以创建高质量的记录,这些记录将成为RefBIND(BIND的管理部门)的一部分。

随着BIND中数据的扩展,底层基础设施也必须扩展。公共BIND站点目前正在一个共享的中型web服务器上运行。目前,随着我们的SeqHound服务的推出,正在计划向大型冗余服务器的过渡,而BIND依赖于该服务。SeqHound是我们内部集成的数据库(18),范围与Entrez系统类似(12),它包含大量的C、C++和Perl编程API。

数据分析和可视化工具的新基础设施也在建设中。其中一个工具是Pajek(13)(见补充材料),用于可视化和分析大型网络,尽管它不支持在序列、结构和相关注释的上下文中分析网络。我们目前正在开发解决这些问题的工具。

一种称为分子复合物检测(MCODE)的交互网络聚类工具已经开发出来,以帮助关注生物感兴趣的区域。MCODE检测分子相互作用网络中紧密相连的区域,这些区域可能代表分子复合物(Bader和Hogue提交)。

功能校准搜索工具(FAST)

许多蛋白质包含许多结构和功能模块,如SH3、SH2、激酶和DNA结合域(14). 这些结构域大多介导蛋白质与其他生物分子的相互作用。通过收集相互作用信息,如BIND,可以研究蛋白质结构域与蛋白质相互作用之间的关系。具体来说,可以根据结构域组成将蛋白质的相互作用体划分为不同的组。

作为我们研究的一部分,并使用BIND和SeqHound作为平台,我们实现了FAST作为一个显示一组功能相关蛋白质的结构域注释的应用程序。在BIND中,这些相关蛋白质组可以是与共同伙伴相互作用的蛋白质,也可以是在分子复合物中一起发现的蛋白质。域注释来自SeqHound,其中包含使用Conserved domain Database对GenBank或数据集进行的完整RPS-BLAST分析(15)在我们的216 Beowulf集群上执行。

FAST具有基于Macromedia Flash矢量图形的基于web的图形界面,可显示一组蛋白质及其域。选择矢量图形格式是因为它在位图图像上提供了改进的分辨率和缩放能力。通过相互作用和分子复合物记录,可以从BIND访问FAST。当从交互记录中访问时,将显示BIND中的蛋白质及其蛋白质交互物。当从复杂记录中访问时,会显示蛋白质亚单位。域组成显示为代表序列的线上方的独特彩色水平条(图。1). 单击每个蛋白质旁边的箭头将用户链接到一个展开的显示,其中显示了与蛋白质氨基酸序列相关的域。用户可以使用Flash控制工具进行放大和缩小,以更详细地检查感兴趣域的边界。可以从FAST图像页面访问蛋白质集的域摘要表,其中包含每个蛋白质和域的信息链接。

可视化相关蛋白质及其结构域列表是指导未来相互作用研究的有力方法。例如,蛋白质酪氨酸激酶的人类和小鼠变体Fyn公司每一个在BIND中都有九个记录的交互作用(图。1). 人类和老鼠的形态Fyn公司有六种相似的相互作用,然而,已知小鼠变体与第二种蛋白酪氨酸激酶相互作用Vav值,而人类Fyn公司目前没有与人类互动的记录Vav值同源。使用FAST,很容易看到Fyn公司-相互作用蛋白,包括Vav值,包含常见的单元signaling模块,如SH2和SH3域。结合其他工具和数据库,如NCBI的CDART(17),与小鼠具有相似域结构的人类同源物Fyn公司可以识别交互者(例如。VAV-3型提姆). 这些蛋白质可能与人类相互作用Fyn公司.

FAST也可用于研究分子络合物的拓扑结构和功能。最近在大规模的质谱研究中发现了一些蛋白质复合物(7,16). FAST可以根据蛋白质的结构域组成对蛋白质进行分组,从而帮助破译这些复合物的相互作用拓扑。例如,使用蛋白Ygl004c作为诱饵(BIND复合物ID 11939)鉴定了部分蛋白酶体复合物。已鉴定蛋白质的结构域揭示了与控制蛋白酶体活性的三种功能元件相对应的三个不同亚群:ATP酶(Rpt5、Rpt4、Rpt3、Rpt2、Rpt1)、蛋白酶体(Rpn9、Rpn7、Rpn6、Rpn5、Rpn3)和蛋白酶体调节亚基(Rpn8、Rpn11)。

补充材料

补充材料可在NAR Online上获得。

致谢

我们感谢托尼·鲍森(Tony Pawson)在1998年之前提出了交互数据库的想法,谢丽尔·沃尔廷(Cheryl Wolting)和伊恩·唐纳森(Ian Donaldson)过去的贡献,阿德里安·海尔布特(Adrian Heilbut)帮助导入了最近的分子复合物记录,霍格实验室和SLRI的同事进行了有益的讨论。D.B.编写了FAST软件。这项工作由一个财团资助,其中包括加拿大基因组、加拿大卫生研究院(CIHR)、安大略研究与发展挑战基金、IBM和MDS蛋白质组学。

图1。功能校准搜索工具(FAST)。与小鼠相互作用的一组蛋白质的结构域组成Fyn公司显示为代表序列的线上方的唯一彩色水平条。的展开视图Vav值,通过右指向的红色箭头链接,其中域正确地位于每个蛋白质的氨基酸序列上。为了简单起见,此图没有显示所有Fyn公司-BIND中的相互作用蛋白,或者从扩展的观点来看,BIND的所有结构域弗吉尼亚州.

工具书类

1

菲尔兹,S(

2001
)蛋白质组学。基因组领域的蛋白质组学。
科学类
,
291
,
1221
–1224.

2

Xenarios,I.、Salwinski,L.、Duan,X.J.、Higney,P.、Kim,S.M.和Eisenberg,D(

2002
)DIP,相互作用蛋白质数据库:研究蛋白质相互作用的细胞网络的研究工具。
核酸研究。
,
30
,
303
–305.

3

Zanzoni,A.,Montecchi-Palazzi,L.,Quondam,M.,Ausiello,G.,Helmer-Citterich,M.和Cesareni,G(

2002
)MINT:分子内切数据库。
FEBS信函。
,
513
,
135
–140.

4

G.D.Bader、I.Donaldson、C.Wolting、B.F.Ouellette、T.Pawson和C.W.Hogue(

2001
)BIND——生物分子相互作用网络数据库。
核酸研究。
,
29
,
242
–245.

5

G.D.Bader和C.W.Hogue(

2000
)BIND——用于存储和描述生物分子相互作用、分子复合物和通路的数据规范。
生物信息学
,
16
,
465
–477.

6

Tong,A.H.、Evangelista,M.、Parsons,A.B.、Xu,H.、Bader,G.D.、Page,N.、Robinson,M.,Raghibizadeh,S.、Hogue,C.W.、Bussey,H。等。(

2001
)酵母缺失突变体有序阵列的系统遗传分析。
科学类
,
294
,
2364
–2368.

7

Ho,Y.,Gruhler,A.,Heilbut,A.,Bader,G.D.,Moore,L.,Adams,S.L.,Millar,A.,Taylor,P.,Bennett,K.,Boutiler,K。等。(

2002
)蛋白质复合物的系统鉴定酿酒酵母通过质谱分析。
自然
,
415
,
180
–183.

8

Tong,A.H.、Drees,B.、Nardelli,G.、Bader,G.D.、Brannetti,B.、Castagnoli,L.、Evangelista,M.、Ferracoti,S.、Nelson,B.、Paoluzi,S。等。(

2002
)一种结合实验和计算的策略,用于定义肽识别模块的蛋白质相互作用网络。
科学类
,
295
,
321
–324.

9

Westbrook,J.、Feng,Z.、Jain,S.、Bhat,T.N.、Thanki,N.、Ravichandran,V.、Gilliland,G.L.、Bluhm,W.、Weissig,H.、Greer,D.S。等。(

2002
)蛋白质数据库:统一档案。
核酸研究。
,
30
,
245
–248.

10

Wang,Y.,Anderson,J.B.,Chen,J.,Geer,L.Y.,He,S.,Hurwitz,D.I.,Liebert,C.A.,Madej,T.,Marchler,G.H.,Marckler-Bauer,A。等。(

2002
)MMDB:Entrez的三维结构数据库。
核酸研究。
,
30
,
249
–252.

11

Salama,J.J.、Donaldson,I.和Hogue,C.W(

2002
)从三维结构自动注释BIND分子相互作用。
生物聚合物
,
61
,
111
–120.

12

G.D.Schuler、J.A.Epstein、H.Ohkawa和J.A.Kans(

1996
)分子生物学数据库和检索系统。
方法酶制剂。
,
266
,
141
–162.

13

Batagelj,V.和Mrvar,A(

1998
)Pajek–大型网络分析程序。
连接
,
2
,
47
–57.

14

Pawson,T(

1995
)蛋白质模块和信号网络。
自然
,
373
,
573
–580.

15

Marchler-Bauer,A.,Panchenko,A.R.,Shoemaker,B.A.,Thiessen,P.A.,Geer,L.Y.和Bryant,S.H(

2002
)CDD:一个保守的领域比对数据库,链接到领域三维结构。
核酸研究。
,
30
,
281
–283.

16

加文,A.C.,博世,M.,克劳斯,R.,格兰迪,P.,马尔齐奥赫,M。等。(

2002
)通过蛋白质复合物的系统分析对酵母蛋白质组进行功能组织。
自然
,
415
,
141
–147.

17

Geor,L.Y.、Domrachov,M.、Lipman,D.J.和Bryant,S.H(

2002
)CDART:基于结构域的蛋白质同源性。
基因组研究。
,
12
,
1619
–1623.

18

Michalickova,K.,Bader,G.D.,Dumontier,M.,Lieu,H.C.,Betel,D.,Issorlin,R.和Hogue,C.W(

2002
)SeqHound:作为生物信息学研究平台的生物序列和结构数据库。
BMC生物信息学
,正在印刷中。

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由杂志自行审查并发表。请通过电子邮件查看更多通知。