核酸研究。2006年1月1日;34(数据库问题):D535–D539。
BioGRID:交互数据集的通用存储库
鲍比·乔·布雷特克鲁兹
1加拿大安大略省多伦多市西奈山医院Samuel Lunenfeld研究所,M5G 1X5
特蕾莎·雷古利
1加拿大安大略省多伦多市西奈山医院Samuel Lunenfeld研究所,M5G 1X5
洛里·鲍彻
1加拿大安大略省多伦多市西奈山医院Samuel Lunenfeld研究所,M5G 1X5
2加拿大安大略省多伦多市多伦多大学医学遗传学和微生物学系M5S 1A8
阿什顿·布雷特克鲁兹
1加拿大安大略省多伦多市西奈山医院Samuel Lunenfeld研究所,M5G 1X5
迈克·泰尔斯
1加拿大安大略省多伦多市西奈山医院Samuel Lunenfeld研究所,M5G 1X5
2加拿大安大略省多伦多市多伦多大学医学遗传学和微生物学系M5S 1A8
加拿大安大略省多伦多市大学大道610号玛格丽特公主医院安大略癌症研究所M5G 2M9
1加拿大安大略省多伦多市西奈山医院Samuel Lunenfeld研究所,M5G 1X5
2加拿大安大略省多伦多市多伦多大学医学遗传学和微生物学系M5S 1A8
作者希望大家知道,在他们看来,前两位作者应被视为联合第一作者
2005年9月23日收到;2005年10月17日修订;2005年10月17日接受。
版权©作者2006。牛津大学出版社出版。保留所有权利 本文的在线版本是在开放存取模式下发布的。用户有权出于非商业目的使用、复制、传播或展示本文的开放存取版本,但前提是:原创作者是正确且完全归属的;《华尔街日报》和牛津大学出版社被认为是原始出版地,并提供了正确的引用细节;如果一篇文章随后不是全部复制或传播,而是部分复制或作为衍生作品传播,则必须明确指出。如需商业再使用,请联系gro.slanruojdrofxo@snoissimrep.slanruej
摘要
获取蛋白质和遗传相互作用的统一数据集对于查询基因/蛋白质功能和分析全球网络属性至关重要。BioGRID是一个可自由访问的物理和遗传交互数据库,可在http://www.thebiorid.orgBioGRID 2.0版包括来自酿酒酵母,秀丽隐杆线虫,黑腹果蝇和智人。最近,通过对酿酒酵母初级文献。内部超链接的web界面允许快速搜索和检索交互数据。完整或用户定义的数据集可以作为制表符分隔的文本文件和PSI-MI XML自由下载。交互的预计算图形布局有多种文件格式。可以使用一个名为Osprey的可视化系统构建具有嵌入蛋白质、基因和交互属性的用户自定义图,该系统动态链接到BioGRID。
简介
蛋白质相互作用组装了细胞的分子机器,并为几乎所有细胞反应的动力学奠定了基础(1)而遗传相互作用揭示了调节模块之间和内部的功能关系(2). 所有这些相互作用的总和定义了细胞的全球调控网络(三). 蛋白质组学和功能基因组学平台技术现在产生了蛋白质和遗传相互作用的大型数据集,但这些数据集在覆盖范围、数据质量、注释和可用性方面差异很大(4,5). 以一致、注释良好的格式整理交互数据对于基因功能查询、系统级属性调查和高通量(HTP)交互研究的基准测试至关重要。许多交互数据库,包括BIND(6),下倾(7)、HPRD(8),国际法案(9),薄荷色(10)和MIPS(11),提供各种数据集和分析工具。我们开发了一个生物交互数据集通用知识库(BioGRID),以容纳和分发物理和遗传交互的综合集合。BioGRID的前身最初设想为HTP交互数据的实验室信息管理系统(LIMS)(12). BioGRID(1.0版;2002年7月;当时称为GRID)的首次公开发布包含了HTP双杂交和质谱蛋白质相互作用数据,这些数据是由芽殖酵母生成的酿酒酵母(13). BioGRID已被详细描述为其他物种(包括线虫)HTP相互作用数据的资源秀丽隐杆线虫,果蝇黑腹果蝇和人类。此外,BioGRID现在包含许多遗传和蛋白质交互作用,这些交互作用是根据主要文献[Reguly,T.,Breitkreutz,A.,Boucher,L.,Briekreuts,B.-J.,Hon,G.,Myers,C.,Parsons,A.,Friesen,H.,Oughtred,R.,Tong,A。等(2005)全球互动网络的综合管理和分析酿酒酵母(已提交)]。自BioGRID成立以来,已经查询了3800000多个交互。BioGRID最近发布的2.0版本是一个完全集成的跨物种数据库,支持大多数主要的模式生物,增加了数据内容并改进了功能。
高吞吐量交互
用于识别新蛋白质和基因网络的HTP方法已经开始增强假设驱动的生化和遗传方法(14). 这些假设生成的HTP技术包括检测配对蛋白质相互作用的双杂交(2-H)方法(15–17)纯化蛋白质复合物的质谱分析(12,18)以及用于系统检测合成致命遗传相互作用的合成遗传阵列(SGA)和分子条形码(dSLAM)方法(19,20). BioGRID目前包括来自两个系统质谱研究的HTP蛋白质相互作用数据集(12,18)以及三项二元混合研究(15–17)英寸面包酵母共有12994个4478个蛋白质之间的相互作用(). 此外,BioGRID包含来自SGA和dSLAM方法的所有现有HTP遗传交互数据集(19–22)1440个基因之间共有6119个相互作用。最后,BioGRID结合了大规模HTP双混合调查线虫(23)和D.黑食肉动物(24,25)等等。
表1
物种 | 设置 | 节点数量 | 边缘数量 | 来源数量 |
---|
面包酵母 | HTP-PI公司 | 4478 | 12 994 | 5 |
| LC-PI公司 | 3099 | 19 744 | 3132 |
| HTP-GI公司 | 1440 | 6119 | 21 |
| LC-GI公司 | 2656 | 11 234 | 3581 |
| 总计 | 5370 | 50 091 | 5794 |
D.黑食肉动物 | HTP-PI公司 | 6840 | 21 944 | 2 |
| LC-GI公司 | 1312 | 9164 | 1398 |
| 总计 | 7216 | 31 108 | 1400 |
线虫 | HTP-PI公司 | 2801 | 4453 | 1 |
智人 | LC-PI公司 | 6374 | 30 761 | 11 921 |
所有交互 | 总计 | 21 761 | 116 413 | 19 116 |
文学衍生互动
HTP数据集充满了假阳性和假阴性交互(4,5). 这种不足影响了基因/蛋白质功能的预测和网络级分析。主要文献包含大量经过验证的物理和遗传交互作用,虽然可以在PubMed中逐个出版物进行搜索,但在关系数据库中无法获得。一组全面的文献衍生交互将成为HTP数据集和自动文本挖掘方法的黄金标准,增强HTP数据的预测能力,并实现对全球网络属性的重新分析。在这些潜在应用的推动下,几个数据库正在努力从主要文献中收集交互数据(6–11)以及基因本体(GO)联盟(26). 我们最近手动解析了整个面包酵母蛋白质和遗传相互作用文献[Reguly,T.,Breitkreutz,A.,Boucher,L.,Breekreuts,B.-J.,Hon,G.,Myers,C.,Parsons,A.,Friesen,H.,Oughtred,R.,Tong,A。等.,已提交发布]。这项全面的管理工作产生了19 744个蛋白质相互作用和11 234个基因相互作用,所有这些都已被放入BioGRID。我们注意到,这一文献数据集的大小超过了所有HTP数据集的总和。BioGRID还包含来自Flybase的10 943个来自文献的遗传交互作用(27)以及来自HPRD的30 761个文献衍生互动(8). BioGRID中的文献交互总数目前超过7万(). 除了面包酵母文献,我们正在对裂变酵母进行管理绒球裂殖酵母,果蝇黑腹果蝇以及人类蛋白质相互作用文献的重点方面,所有这些都将存放在BioGRID中。
搜索功能
BioGRID的主要数据访问方法是通过基于web的搜索界面。JavaScript、PHP和级联样式表(CSS)的组合使界面易于解释和导航。BioGRID受到所有主要标准兼容的web浏览器的支持。搜索可能基于广泛的支持标识符,包括基因名称、ORF名称、PubMed ID和自由文本。通过查询检索到的所有基因/蛋白质都以表格格式列出,并在内部进行超链接,以便进行快速递归搜索。BioGRID搜索界面检索结果,编译在大型数据集和/或组合的多个数据集中经常出现的交互冗余,并提供一个注释丰富的结果页面供进一步调查(). 注释特征包括对基因/蛋白质功能和GO生物过程、分子功能和细胞隔室术语的描述(26).
BioGRID为查询酵母基因提供的示例搜索和结果页面肯尼亚先令1。折叠带注释的结果以消除冗余,并进行超链接以允许递归搜索和访问外部资源。左上角的图形表示显示了用彩色GO术语和实验证据注释的所有交互作用。图形由Osprey生成,可以JPEG、PNG和SVG格式下载。
可视化
随着网络复杂性的增加,数据显示的表格格式很快就淹没了人类的理解能力。交互网络的图形表示不仅可以可视化高密度的数据,而且可以立即传递图形节点之间复杂的相互关系,在这种情况下,可以是蛋白质或基因。GRID数据库的一个定义特性是一个名为Osprey的相互依赖可视化工具(http://biodata.mshri.on.ca/osprey)在Windows、Linux和OSX环境中作为桌面应用程序运行(28). Osprey平台是一个方便的图形界面,用于查询BioGRID数据集,用户可以从中构建任何选定交互集的自定义图形表示。鱼鹰通过节点表示单个基因/蛋白质,通过连接节点的边表示相互作用。在节点和边缘嵌入额外的彩色编码注释,以表示GO类别、实验证据和/或数据源信息。各种图形布局和切换选项提供了不同的网络视图。Osprey文件格式捕获与图形中每个节点/边缘相关的所有注释,因此可以用作交互数据的图形文件交换格式。用户定义的数据集可以上传到Osprey中进行注释,并与BioGRID中的公共数据集集成。Ospreygraph也可以保存为JPEG、PNG、SVG文件格式,用于图形构建。BioGRID中每个基因/蛋白质的一级相互作用外壳的预计算图形表示包含在每个结果页面上,可直接下载().
数据库结构和注释
BioGRID web界面是用PHP5.0.4开发的,位于我们主镜像的Apache 2.0 web服务器上(http://www.thebiorid.org). 整个包能够在任何兼容PHP4.x的web服务器上运行,并且已经在IIS、Apache 1.3和Apache 2.0上成功测试。BioGRID目前使用免费的MySQL 4.1作为其主要数据库管理系统(http://www.mysql.com)用于基于web的界面和交互管理。BioGRID很容易建立在内部服务器上,并且很容易被单个实验室用作内部数据管理系统。
为了将冗余交互分解为单个搜索结果并确保查询和结果的准确性,一致的注释至关重要。所有辅助注释都是由超过25种流行的基于web的资源编译而成,通过使用Java技术和Java SDK 1.4.2版编写的注释编译系统(ACS)进行提取和存储。BioGRID注释表每月更新一次,并通过网络界面免费提供。BioGRID ACS目前支持13种不同生物体中的294140个基因:酿酒酵母,绒球裂殖酵母,秀丽隐杆线虫,智人,小家鼠,褐家鼠,黑腹果蝇,家族犬,Bos金牛,拟南芥,非洲爪蟾,红色Takifugu和达尼奥雷里奥.
下载和访问
BioGRID中的所有交互数据均可从以下网站免费下载http://www.thebiorid.org数据有多种格式,包括制表符分隔的文本文件和PSI-MI XML(29)以及Osprey和其他图形文件格式。BioGRID支持国际分子交换联盟(IMEx)要求的数据交换标准PSI 2.5版,该标准旨在促进交互数据的公开分发(参见http://imex.sourceforge.net/). 交互数据会定期更新,所有可下载的文件都会刷新以反映最新的更改。下载文件可以通过出版物、记录、组织和实验系统进行定制。为了最大限度地提高性能和减少数据库停机时间,美国和欧洲正在建设BioGRID的镜像版本。可从BioGRID网站获取有关策展贡献或托管镜子的信息。源代码可根据要求免费提供。BioGRID与酵母菌基因组数据库紧密相连(30)、Flybase(27)和Germ Online(31)网站。
未来发展
我们将继续管理包括人类在内的主要模型生物的交互作用,这些交互作用将作为交互作用数据的每月更新发布。注释将定期更新,以便明确检索蛋白质/基因名称。将在不久的将来实现容纳定量遗传相互作用和策划翻译后修饰的能力。我们还计划支持复杂和路径描述,并通过基于BLAST的同源网络比对实现跨物种预测(32). 计划中的BioGRID平台开源发布版本称为ProtoGRID,将简化BioGRID本地版本的安装。同样,将发布管理系统,以便于感兴趣的团体管理交互数据。最后,将通过基于用户定义属性的网络聚类来增强图形表示,包括共同表达和共同定位。
致谢
我们感谢Jim Woodgett的慷慨支持和建议,Rachel Drysdale和Don Gilbert在解析FlyBase的遗传交互方面提供的帮助;卡拉·多林斯基(Kara Dolinski)、迈克尔·切里(Michael Cherry)和大卫·博茨坦(David Botstein)在SGD的有益讨论和支持;Russ Finley、Joel Bader、Marc Vidal、Jef Boeke、Tim Hughes和Charlie Boone负责大规模数据集的预发布。L.B.由加拿大国家癌症研究所博士奖资助,资金来自特里·福克斯基金会;M.T.由加拿大功能基因组学和生物信息学研究主席提供支持。这项工作由加拿大卫生研究院向麻省理工学院拨款资助,用于支付加拿大卫生研究所为本文提供的开放获取出版费用。
利益冲突声明。未声明。
参考文献
1Pawson T.、Nash P.通过蛋白质相互作用域组装细胞调节系统。科学。2003;300:445–452.[公共医学][谷歌学者] 2Hartwell L.H.、Hopfield J.J.、Leibler S.、Murray A.W.从分子到模块化细胞生物学。自然。1999;402:C47–C52。[公共医学][谷歌学者] 三。Bader G.D.、Heilbut A.、Andrews B.、Tyers M.、Hughes T.、Boone C.功能基因组学和蛋白质组学:绘制酵母细胞的多维图谱。趋势细胞生物学。2003;13:344–356.[公共医学][谷歌学者] 4.Bader G.D.,Hogue C.W.分析从不同来源获得的酵母蛋白-蛋白质相互作用数据。自然生物技术。2002;20:991–997.[公共医学][谷歌学者] 5von Mering C.、Krause R.、Snel B.、Cornell M.、Oliver S.G.、Fields S.、Bork P.蛋白质-蛋白质相互作用大规模数据集的比较评估。自然。2002;417:399–403.[公共医学][谷歌学者] 6Alfarano C.、Andrade C.E.、Anthony K.、Bahroos N.、Bajec M.、Bantoft K.、Betel D.、Bobechko B.、Boutiler K.、Burgess E.等人。生物分子相互作用网络数据库和相关工具2005年更新。核酸研究。2005;33:D418–D424。 [PMC免费文章][公共医学][谷歌学者] 7Salwinski L.、Miller C.S.、Smith A.J.、Pettit F.K.、Bowie J.U.、Eisenberg D.相互作用蛋白质数据库:2004年更新。核酸研究。2004;32:D449–D451。 [PMC免费文章][公共医学][谷歌学者] 8Peri S.、Navarro J.D.、Amanchy R.、Kristiansen T.Z.、Jonnalagadda C.K.、Surendranath V.、Niranjan V.、Muthusamy B.、Gandhi T.K.、Gronborg M.等人。人类蛋白质参考数据库的开发,作为人类系统生物学研究的初始平台。基因组研究。2003;13:2363–2371. [PMC免费文章][公共医学][谷歌学者] 9Hermjakob H.、Montecchi-Palazzi L.、Lewington C.、Mudali S.、Kerrien S.、Orchard S.、Vingron M.、Roechart B.、Roepstorff P.、Valencia A.等。IntAct:开源分子相互作用数据库。核酸研究。2004;32:D452–D455。 [PMC免费文章][公共医学][谷歌学者] 10Zanzoni A.、Montecchi-Palazzi L.、Quondam M.、Ausiello G.、Helmer-Citterich M.、Cesareni G.MINT:分子内切数据库。FEBS信函。2002;513:135–140.[公共医学][谷歌学者] 11Mewes H.W.、Amid C.、Arnold R.、Frishman D.、Guldener U.、Mannhaupt G.、Munsterkotter M.、Pagel P.、Strack N.、Stumpflen V.等。MIPS:全基因组蛋白质的分析和注释。核酸研究。2004;32:D41–D44。 [PMC免费文章][公共医学][谷歌学者] 12Ho Y.,Gruhler A.,Heilbut A.,Bader G.D.,Moore L.,Adams S.L.,Millar A.,Taylor P.,Bennett K.,Boutiler K.等人。蛋白质复合物的系统鉴定酿酒酵母通过质谱分析。自然。2002;415:180–183.[公共医学][谷歌学者] 13.Breitkreutz B.J.、Stark C.、Tyers M.网格:交互数据集的通用存储库。基因组生物学。2003;4:R23。 [PMC免费文章][公共医学][谷歌学者] 14Jorgensen P.、Breitkreutz B.J.、Brietkreutz K.、Stark C.、Liu G.、Cook M.、Sharom J.、Nishikawa J.L.、Ketela T.、Bellows D.等人。收获基因组的财富:综合基因组学。冷泉Harb Symp。数量。生物。2003;68:431–443.[公共医学][谷歌学者] 15Uetz P.、Giot L.、Cagney G.、Mansfield T.A.、Judson R.S.、Knight J.R.、Lockshon D.、Narayan V.、Srinivasan M.、Pochart P.等人。蛋白质与蛋白质相互作用的综合分析酿酒酵母.自然。2000;403:623–627.[公共医学][谷歌学者] 16Ito T.、Chiba T.、Ozawa R.、Yoshida M.、Hattori M.、Sakaki Y.探索酵母蛋白相互作用组的综合双杂交分析。程序。美国国家科学院。科学。美国。2001;98:4569–4574. [PMC免费文章][公共医学][谷歌学者] 17Ito T.、Tashiro K.、Muta S.、Ozawa R.、Chiba T.、Nishizawa M.、Yamamoto K.、Kuhara S.、Sakaki Y.关于出芽酵母的蛋白质-蛋白质相互作用图:一个全面的系统,用于检查酵母蛋白质之间所有可能组合中的两种杂交相互作用。程序。美国国家科学院。科学。美国。2000;97:1143–1147. [PMC免费文章][公共医学][谷歌学者] 18Gavin A.C.、Bosche M.、Krause R.、Grandi P.、Marzioch M.、Bauer A.、Schultz J.、Rick J.M.、Michon A.M.、Cruciat C.M.等。通过蛋白质复合物的系统分析实现酵母蛋白质组的功能组织。自然。2002;415:141–147.[公共医学][谷歌学者] 19Tong A.H.、Evangelista M.、Parsons A.B.、Xu H.、Bader G.D.、Page N.、Robinson M.、Raghibizadeh S.、Hogue C.W.、Bussey H.等。酵母缺失突变体有序阵列的系统遗传分析。科学。2001;294:2364–2368.[公共医学][谷歌学者] 20Pan X.,Yuan D.S.,Xiang D.,Wang X.,Sookhai-Mahadeo S.,Bader J.S.,Hieter P.,Spencer F.,Boeke J.D.酵母基因组功能分析的强大工具。分子细胞。2004;16:487–496.[公共医学][谷歌学者] 21Tong A.H.、Lesage G.、Bader G.D.、Ding H.、Xu H.、Xin X.、Young J.、Berriz G.F.、Brost R.L.、Chang M.等。酵母遗传相互作用网络的全球映射。科学。2004;303:808–813.[公共医学][谷歌学者] 22Davierwala A.P.、Haynes J.、Li Z.、Brost R.L.、Robinson M.D.、Yu L.、Mnaimneh S.、Ding H.、Zhu H.、Chen Y.等。基本基因的合成遗传互作谱。自然基因。2005;37:1147–1152.[公共医学][谷歌学者] 23Li S.、Armstrong C.M.、Bertin N.、Ge H.、Milstein S.、Boxem M.、Vidalain P.O.、Han J.D.、Chesneau A.、Hao T.等人。后生动物相互作用体网络图秀丽线虫.科学。2004;303:540–543. [PMC免费文章][公共医学][谷歌学者] 24.Giot L.、Bader J.S.、Brouwer C.、Chaudhuri A.、Kuang B.、Li Y.、Hao Y.L.、Ooi C.E.、Godwin B.、Vitols E.等人黑腹果蝇.科学。2003;302:1727–1736.[公共医学][谷歌学者] 25Stanyon C.A.、Liu G.、Mangiola B.A.、Patel N.、Giot L.、Kuang B.、Zhang H.、Zhong J.、Finley R.L.、Jr.A果蝇属以细胞周期调控因子为中心的蛋白质相互作用图。基因组生物学。2004;5:R96。 [PMC免费文章][公共医学][谷歌学者] 26Harris M.A.、Clark J.、Ireland A.、Lomax J.和Ashburner M.、Foulger R.、Eilbeck K.、Lewis S.、Marshall B.、Mungall C.等人。基因本体(GO)数据库和信息资源。核酸研究。2004;32:D258–D261。 [PMC免费文章][公共医学][谷歌学者] 27Drysdale R.A.、Crosby M.A.FlyBase:基因和基因模型。核酸研究。2005;33:D390–D395。 [PMC免费文章][公共医学][谷歌学者] 28Breitkreutz B.J.、Stark C.、Tyers M.Osprey:网络可视化系统。基因组生物学。2003;4:R22。 [PMC免费文章][公共医学][谷歌学者] 29Hermjakob H.、Montecchi-Palazzi L.、Bader G.、Wojcik J.、Salwinski L.、Ceol A.、Moore S.、Orchard S.、Sarkans U.、von Mering C.等人。HUPO PSI的分子相互作用形式——蛋白质相互作用数据表示的社区标准。自然生物技术。2004;22:177–183.[公共医学][谷歌学者] 30Christie K.R.、Weng S.、Balakrishnan R.、Costanzo M.C.、Dolinski K.、Dwight S.S.、Engel S.R.、Feierbach B.、Fisk D.G.、Hirschman J.E.等人。酵母基因组数据库(SGD)提供了识别和分析来自酿酒酵母以及其他生物的相关序列。核酸研究。2004;32:D311–D314。 [PMC免费文章][公共医学][谷歌学者] 31Wiederkehr C.、Basavaraj R.、Sarrauste de Menthiere C.、Hermida L.、Koch R.、Schlecht U.、Amon A.、Brachat S.、Breitenbach M.、Briza P.等人。GermOnline,一个关于生殖细胞分化的跨物种社区知识库。核酸研究。2004;32:D560–D567。 [PMC免费文章][公共医学][谷歌学者] 32Sharan R.、Suthram S.、Kelley R.M.、Kuhn T.、McCuine S.、Uetz P.、Sittler T.、Karp R.M.和Ideker T.多物种蛋白质相互作用的保守模式。程序。美国国家科学院。科学。美国。2005;102:1974–1979. [PMC免费文章][公共医学][谷歌学者]