跳到主要内容

FunSpec:基于web的酵母集群解释器

摘要

背景

为了有效地揭示生物信息,特别是大规模数据类型的分析,研究人员需要立即访问多个类别知识库,并需要向他们提供基因集合的摘要信息,而不是一次只显示一个基因。

结果

我们在这里提供了一个基于网络的工具(FunSpec),用于根据现有注释(例如功能角色、生化特性、定位)对基因和蛋白质组(例如共同调控基因、蛋白质复合体、遗传相互作用物)进行统计评估。FunSpec在线提供http://funspec.med.utoronto.ca

结论

FunSpec有助于解释任何生成相关基因和蛋白质组的数据类型,如基因表达聚类和蛋白质复合体,并对采用“逐组关联”的预测方法有用

背景

大量在线资源汇编有关基因和蛋白质功能的信息,每次只呈现一个基因的信息[1——]. 然而,大规模数据类型的解释通常需要一种快速的方法来同时访问和呈现大量基因的信息[4,5]. 最近提供基因表达数据注释的工具涉及生物医学文献的文本挖掘[6]以及各种数据类型的集成,包括Pfam域、SWISS-PROT关键字和已知路径(例如DRAGON View;参见[7]). 我们开发了一个名为FunSpec(功能规范)的在线资源,该资源使用公共数据库中的信息来评估酵母基因列表,以确定它们是否针对特定属性进行了丰富,使用的是一个公认的统计模型。FunSpec底层的数据表根据主要公共领域知识源和我们对大规模数据集的分析定期更新。因此,FunSpec对于任何需要解释基因组的应用程序来说都是一种方便、最新和全面的资源,包括微阵列表达数据的聚类、质谱分析中的蛋白质ID列表以及遗传交互。

结果

在线数据库和已发布的数据存储库

酵母,也许是研究最彻底的真核生物,已经有许多综合在线数据库,其中包含基因组中近三分之二已知或预测的开放阅读框(ORF)的功能注释信息,以及大量大规模实验结果,几乎涵盖了每一个基因/蛋白质(例如[8,9]). 在许多情况下,数据源之间存在联系,尽管其中大多数是在个体基因水平上。例如,慕尼黑蛋白质序列信息中心(MIPS)的综合酵母基因组数据库列出了五个目录,其中包括数千种出版物,涵盖功能分类、已知蛋白质复合物、蛋白质类、突变表型和亚细胞定位[2]. 类似地,基因本体(GO)联盟将相同的信息分类为:生物过程、分子功能和细胞成分[10]. 其他在线知识库包括计算衍生的基因属性,如域和基序信息(例如SMART[11]、Pfam[12]). 此外,现在有大量从实验结果积累的高通量生物数据存储,如合成致命性[13]酵母双杂交的蛋白质相互作用[14,15]或质谱[16,17],免疫定位[18],大规模表型分析[19]和微阵列分析(例如[8]).

表中列出了可使用FunSpec评估的当前数据库1表中给出了可查询的已发布实验信息2通过我们自己对核糖体RNA加工的最新文献的分析,提供了额外的类别来诱导前核糖体成分的富集。此外,还增加了一个单独的类别来包含对生存能力至关重要的基因[20].

表1 FunSpec可搜索公共数据库
表2 FunSpec可搜索的已发布数据集

集群的解释

在收集产生具有类似属性、反应或其他关联的基因/蛋白质簇的数据后,研究人员通常希望总结和解释此类簇中基因的当前知识状态。如果已知具有某一属性的基因簇中的基因比例超过了随机概率合理预期的数量,则可以说该基因簇具有“功能丰富”的属性。例如,酵母中6267个基因中有215个[1]已知在核糖体生物生成中起作用。如果在基因表达谱的聚类分析中,发现一个由100个共同调控的基因组成的簇,其中60个已知在核糖体生物发生中起作用,那么直观地说,该簇丰富了核糖体的生物发生(簇中60%,基因组中3%)。给定簇和类别的功能丰富程度可以通过超几何分布进行定量评估[21]. 对于每个类别,偶然观察到这种重叠的概率(p值)计算如下:

哪里G公司是基因组的大小,C类是基因组中具有该属性的基因数量,n个是查询集群的大小,已知k拥有该属性。

如果对于给定类别而言,这种概率足够低,则基因列表(例如,簇)被认为是针对该属性进行了丰富的(参见下面的示例)。FunSpec输入基因列表并计算许多知识源中的超几何P值(MIPS、GO、SMART和Pfam域、已发布的蛋白质复合物、2-杂交相互作用和亚细胞定位)。Bonferroni修正可以用于补偿对知识库的多个类别进行的多次测试。

示例

在本节中,我们将介绍FunSpec可能有用的实例。在图中1,基因表达数据的二维聚类[8]介绍了237个基因和271个实验。红色条指示的76个基因被提交至FunSpec网站上的MIPS功能分类数据库。“氨基酸生物合成”和“氨基酸代谢”类别被认为最不可能偶然发生(p<10-14在这两种情况下)。为了显示以这种方式评估簇的特异性,用蓝色表示的6个基因(通过目视检查分离)与通常参与氨基酸代谢的基因具有相同的总体表达谱,但有一些明显的差异。FunSpec确定这些与“蛋氨酸代谢”有关。(p=1.0×10-7).

图1
图1

酵母基因表达数据的二维聚类分析[8].

纯化蛋白复合物的成分也可以使用FunSpec进行解释。值得注意的是,功能注释大多基于表型而非生化数据,通常与文献中的大型蛋白质复合物相关(rand指数=0.94,调整后的rand指数=0.15;rand指数衡量两个分区的相似性,其中0表示无相似性,1表示完全对应;调整后的兰德指数是一个更加保守的衡量标准[22])(未显示数据)。这强调了用另一种数据类型的信息解释一种数据的实用性[23,24]. 亚细胞定位与蛋白质复合物中的成员呈正相关,这有望实现物理关联(在MIPS数据库中的所有蛋白质复合物之间,库马尔实验数据中的特定亚细胞隔室富集了17%(P<0.01)[18]相比之下,相同大小分布的蛋白质随机列表为1%(数据未显示)。对于新识别的复合物,FunSpec不仅提供了关于定位和潜在功能的信息,还提供了关于复合物生物有效性的置信度度量。

讨论

当前的FunSpec实现使用超几何分布(如下[21])假设进行独立测试(即每个基因都有一个单独的分类)。实际上,MIPS和GO类别是分层的。我们目前正在考虑其他统计模型来解释分类的层次性,以及Bonferroni校正的替代方法(例如错误发现率[25]).

还有其他确定重要性的方法(例如二项分布[26]; 表示因子[27])以及将集群与功能注释关联的其他方式(例如,Medline摘要中的相关术语和短语[6])但超几何分布已被证明是最容易使用的。FunSpec相对于当前工具的优点是集成了许多相关和最新的数据源,以及一个方便的网站,使用户能够快速详尽地探索基因分组的特殊特征。

在不久的将来,随着更多功能注释信息可用于其他生物体,如小鼠和人类,FunSpec资源将更新,以适应这些生物体的新知识库,可能包括大量新的实验数据。分类注释的底层组件本身很有用,可以从FunSpec网站下载为文本文件。

结论

FunSpec采用簇(或任何基因或蛋白质的集合)并识别簇丰富的属性(基于先前的知识)。在我们自己的研究中,我们常规使用FunSpec快速解释全基因组聚类分析中的所有聚类,以及“逐组关联”预测方法(例如[5,8,28]). 我们和其他人也发现,它可以作为筛选筛选结果的优先顺序、解释遗传相互作用以及选择蛋白质复合体成员的阈值/边界的过滤器(数据未显示)。

方法

FunSpec后端是在C++中实现的。从网页接收信息后,查询相关数据库,计算统计数据并将结果发送回用户。目前,数据库存储在平面文本文件中。

工具书类

  1. Cherry JM、Adler C、Ball C、Chervitz SA、Dwight SS、Hester ET、Jia Y、Juvik G、Roe T、Schroeder M、,.:SGD:酵母基因组数据库。 核酸研究1998,26:73–79.10.1093/nar/26.1.73

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  2. Mewes HW、Frishman D、Gruber C、Geier B、Haase D、Kaps A、Lemcke K、Mannhaupt G、Pfeiffer F、Schuller C、,.:MIPS:基因组和蛋白质序列数据库。 核酸研究2000,28:37–40.10.1093/nar/28.1.37

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  3. Costanzo MC、Crawford ME、Hirschman JE、Kranz JE、Olsen P、Robertson LS、Skrzypek MS、Braun BR、Hopkins KL、Kondu P、,.:YPD、PombePD和WormPD:生物知识库的模型生物体积,蛋白质信息的集成资源。 核酸研究2001,29:75–79.10.1093/nar/29.1.75

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  4. Greenbaum D、Luscombe NM、Jansen R、Qian J、Gerstein M:相互关联不同类型的基因组数据,从蛋白质组到分泌组:“了解功能。 基因组研究2001,11:1463–1468. 10.1101/gr.207401

    第条 中国科学院 公共医学 谷歌学者 

  5. Wu LF、Hughes TR、Davierwala AP、Robinson MD、Stoughton R、Altschuler SJ:使用重叠转录簇对酿酒酵母基因功能进行大规模预测。 自然基因2002,31:255–265. 1038/ng906年10月10日

    第条 中国科学院 公共医学 谷歌学者 

  6. Blaschke C、Oliveros JC、Valencia A:挖掘与表达式数组关联的函数信息。 功能整合基因组学2001,1:256–268. 2007年10月14日/101420000036

    第条 中国科学院 公共医学 谷歌学者 

  7. Bouton CM,Pevsner J:DRAGON视图:注释微阵列数据的信息可视化。 生物信息学2002,18日:323–324. 10.1093/生物信息学/18.2.323

    第条 中国科学院 公共医学 谷歌学者 

  8. Hughes TR、Marton MJ、Jones AR、Roberts CJ、Stoughton R、Armour CD、Bennett HA、Coffey E、Dai H、He YD、,.:通过表达式概要进行功能发现。 单元格2000,102:109–126.

    第条 中国科学院 公共医学 谷歌学者 

  9. Kumar A、Cheung KH、Ross-Macdonald P、Coelho PS、Miller P、Snyder M:三重:酿酒酵母基因功能数据库。 核酸研究2000,28:81–84.10.1093/nar/28.181

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  10. 基因本体联盟:创建基因本体资源:设计与实现。 基因组研究2001,11:1425–1433. 10.1101/gr.180801

    第条 谷歌学者 

  11. Schultz J、Milpetz F、Bork P、Ponting CP:SMART是一种简单的模块化体系结构研究工具:信令域识别。 美国国家科学院程序1998年,95:5857–5864. 10.1073/pnas.95.11.5857

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  12. 贝特曼A、伯尼E、塞鲁蒂L、杜宾R、埃特维勒L、埃迪SR、格里菲斯-琼斯S、豪-吉隆坡、马歇尔M、桑纳默EL:Pfam蛋白质家族数据库。 核酸研究2002,30:276–280. 10.1093/nar/30.1.276

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  13. Tong AH、Evangelista M、Parsons AB、Xu H、Bader GD、Page N、Robinson M、Raghibizadeh S、Hogue CW、Bussey H、,.:酵母缺失突变体有序阵列的系统遗传分析。 科学类2001,294:2364–2368. 10.1126/科学.1065810

    第条 中国科学院 公共医学 谷歌学者 

  14. Uetz P、Giot L、Cagney G、Mansfield TA、Judson RS、Knight JR、Lockshon D、Narayan V、Srinivasan M、Pochart P、,.:酿酒酵母蛋白质相互作用的综合分析。 自然2000,403:623–627. 10.1038/35001009

    第条 中国科学院 公共医学 谷歌学者 

  15. Ito T、Chiba T、Ozawa R、Yoshida M、Hattori M、Sakaki Y:综合双杂交分析探索酵母蛋白相互作用组。 美国国家科学院程序2001,98:4569–4574. 10.1073/pnas.061034498

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  16. Gavin AC、Bosche M、Krause R、Grandi P、Marzioch M、Bauer A、Schultz J、Rick JM、Michon AM、Cruciat CM、,.:通过蛋白质复合物的系统分析对酵母蛋白质组进行功能组织。 自然2002,415:141–147. 10.1038/415141a

    第条 中国科学院 公共医学 谷歌学者 

  17. Ho Y、Gruhler A、Heilbut A、Bader GD、Moore L、Adams SL、Millar A、Taylor P、Bennett K、Boutilier K、,.:用质谱法系统鉴定酿酒酵母中的蛋白质复合物。 自然2002,415:180–183. 10.1038/415180a

    第条 中国科学院 公共医学 谷歌学者 

  18. Kumar A、Agarwal S、Heyman JA、Matson S、Heidtman M、Piccirillo S、Umansky L、Drawid A、Jansen R、Liu Y、,.:酵母蛋白质组的亚细胞定位。 基因开发2002,16:707–719页。10.1101/gad.970902

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  19. Ross-Macdonald P、Coelho PS、Roemer T、Agarwal S、Kumar A、Jansen R、Cheung KH、Sheehan A、Symoniatis D、Umansky L、,.:通过转座子标签和基因断裂对酵母基因组进行大规模分析。 自然1999,402:413–418. 10.1038/46558

    第条 中国科学院 公共医学 谷歌学者 

  20. Giaever G、Chu AM、Ni L、Connelly C、Riles L、Veronneau S、Dow S、Lucau-Danila A、Anderson K、Andre B、,.:酿酒酵母基因组的功能分析。 自然2002,418:387–391. 10.1038/自然00935

    第条 中国科学院 公共医学 谷歌学者 

  21. Tavazoie S、Hughes JD、Campbell MJ、Church RJ、总经理:遗传网络结构的系统测定。 自然基因1999,22:281–285. 10.1038/10343

    第条 中国科学院 公共医学 谷歌学者 

  22. Hubert L、Arabie P:比较分区。 分类杂志1985,2:193–218.

    第条 谷歌学者 

  23. Ge H、Liu Z、Church总经理、Vidal M:酿酒酵母转录组和相互作用组映射数据之间的相关性。 自然基因2001,29:482–486. 10.1038/ng776

    第条 中国科学院 公共医学 谷歌学者 

  24. Kemmeren P、van Berkum NL、Vilo J、Bijma T、Donders R、Brazma A、Holstege足球俱乐部:通过基因组尺度数据的综合分析验证蛋白质相互作用和功能注释。 摩尔细胞2002,9:1133–1143.

    第条 中国科学院 公共医学 谷歌学者 

  25. 本杰米尼Y,霍奇伯格Y:控制错误发现率:一种实用且强大的多重测试方法。 英国皇家统计学会杂志B辑1995年,57:289–300.

    谷歌学者 

  26. Cho RJ、Huang M、Campbell MJ、Dong H、Steinmetz L、Sapinoso L、Hampton G、Elledge SJ、Davis RW、Lockhart DJ:人类细胞周期中的转录调控和功能。 自然基因2001,27:48–54.

    中国科学院 公共医学 谷歌学者 

  27. Kim SK、Lund J、Kiraly M、Duke K、Jiang M、Stuart JM、Eizinger A、Wylie BN、Davidson GS:秀丽隐杆线虫基因表达图谱。 科学类2001,293:2087–2092. 10.1126/科学.1061603

    第条 中国科学院 公共医学 谷歌学者 

  28. Marcotte EM、Pellegrini M、Thompson MJ、Yeates TO、Eisenberg D:蛋白质功能全基因组预测的组合算法。 自然1999,402:83–86. 10.1038/47048

    第条 中国科学院 公共医学 谷歌学者 

下载参考资料

致谢

作者感谢Best Institute(多伦多大学)的成员测试了web实现,并感谢Gary Bader、Mike Tyers和Andrew Emili对这份手稿的批判性评估。这项工作得到了加拿大基因组研究所、加拿大人权研究所和多伦多大学康诺基金会的支持。

作者信息

作者和附属机构

作者

通讯作者

通信至蒂莫西·休斯.

其他信息

作者的贡献

MR下载并组织了生物知识库,编写了统计程序,并起草了手稿。JG创建了FunSpec原型,并参与了在线数据库的定位和评估。NM创建了该网站。TH协调项目执行。

所有作者阅读并批准了最终手稿。

作者提交的图像原始文件

下面是作者提交的原始图像文件的链接。

图1的作者原始文件

权利和权限

转载和许可

关于本文

引用这篇文章

医学博士Robinson、J.Grigull、N.Mohammad。等。FunSpec:一个基于web的酵母集群解释器。BMC生物信息学 , 35 (2002). https://doi.org/10.1186/1471-2105-3-35

下载引文

  • 收到:

  • 已接受:

  • 出版:

  • 内政部:https://doi.org/10.1186/1471-2105-3-35

关键词