FunSpec: a web-based cluster interpreter for yeast

Mark D Robinson; Jörg Grigull; Naveed Mohammad; Timothy R Hughes

doi:10.1186/1471-2105-3-35

BMC生物信息学。2002; 3: 35.

2002年11月13日在线发布。数字对象标识：10.1186/1471-2105-3-35

预防性维修识别码：项目经理139976

PMID：12431279

FunSpec：基于web的酵母集群解释器

马克·D·罗宾逊,¹ 约格·格里格尔,¹ 纳维德·穆罕默德,¹和蒂莫西·休斯^1,²

作者信息文章注释版权和许可信息 PMC免责声明

摘要

背景

为了有效地揭示生物信息，特别是大规模数据类型的分析，研究人员需要立即访问多个类别知识库，并需要向他们提供基因集合的摘要信息，而不是一次只显示一个基因。

结果

我们在这里提供了一个基于网络的工具（FunSpec），用于根据现有注释（例如功能角色、生化特性、定位）对基因和蛋白质组（例如共同调控基因、蛋白质复合体、遗传相互作用物）进行统计评估。FunSpec在线提供http://funspec.med.utoronto.ca

结论

FunSpec有助于解释任何生成相关基因和蛋白质组的数据类型，如基因表达聚类和蛋白质复合体，并对采用“逐组关联”的预测方法有用

背景

大量在线资源汇编有关基因和蛋白质功能的信息，每次只呈现一个基因的信息[1-三]. 然而，大规模数据类型的解释通常需要一种快速的方法来同时访问和呈现大量基因的信息[4,5]. 最近提供基因表达数据注释的工具涉及生物医学文献的文本挖掘[6]以及各种数据类型的集成，包括Pfam域、SWISS-PROT关键字和已知路径（例如DRAGON View；参见[7]). 我们开发了一个名为FunSpec（功能规范）的在线资源，该资源使用公共数据库中的信息来评估酵母基因列表，以确定它们是否针对特定属性进行了丰富，使用的是一个公认的统计模型。FunSpec底层的数据表根据主要公共领域知识源和我们对大规模数据集的分析定期更新。因此，FunSpec对于任何需要解释基因组的应用程序来说都是一种方便、最新和全面的资源，包括微阵列表达数据的聚类、质谱分析中的蛋白质ID列表以及遗传交互。

结果

在线数据库和已发布的数据存储库

酵母，也许是研究最彻底的真核生物，已经有许多综合在线数据库，其中包含基因组中近三分之二已知或预测的开放阅读框（ORF）的功能注释信息，以及大量大规模实验结果，几乎涵盖了每一个基因/蛋白质（例如[8,9]). 在许多情况下，数据源之间存在联系，尽管其中大多数是在个体基因水平上。例如，慕尼黑蛋白质序列信息中心（MIPS）的综合酵母基因组数据库列出了五个目录，其中包括数千种出版物，涵盖功能分类、已知蛋白质复合物、蛋白质类、突变表型和亚细胞定位[2]. 类似地，基因本体（GO）联盟将相同的信息分类为：生物过程、分子功能和细胞成分[10]. 其他在线知识库包括计算衍生的基因属性，如域和基序信息（例如SMART[11]、Pfam[12]). 此外，现在有大量从实验结果积累的高通量生物数据存储，如合成致命性[13]酵母双杂交的蛋白质相互作用[14,15]或质谱[16,17]，免疫定位[18]，大规模表型分析[19]和微阵列分析（例如[8]).

表中列出了可使用FunSpec评估的当前数据库表1。1表中给出了可查询的已发布实验信息表2。2通过我们自己对核糖体RNA加工的最新文献的分析，提供了额外的类别来诱导前核糖体成分的富集。此外，还增加了一个单独的类别来包含对生存能力至关重要的基因[20].

表1

FunSpec可搜索公共数据库

资源	网站	出版物
慕尼黑蛋白质序列信息中心（MIPS）	http://mips.gsf.de/proj/yeast/CYGD/db/index.html	[2]
基因本体（GO）	http://www.geneontology.org/	[10]
简单模块化体系结构研究工具	http://smart.embl-heidelberg.de/	[11]
蛋白质家族比对和HMM数据库	http://www.sanger.ac.uk/Software/Pfam/	[12]

在单独的窗口中打开

表2

FunSpec可搜索的已发布数据集

数据类型	出版物
酵母双杂交法研究蛋白质与蛋白质的相互作用	[14]
通过酵母双杂交方法进行蛋白质-蛋白质相互作用（核心+完整数据集）	[15]
通过合成遗传阵列分析的合成致命相互作用	[13]
利用TAP标记和质谱法鉴定蛋白质复合物	[16]
利用标记和质谱鉴定蛋白质复合物	[17]
蛋白质组定位	[18]
重要性	[20]

在单独的窗口中打开

集群的解释

在收集产生具有类似属性、反应或其他关联的基因/蛋白质簇的数据后，研究人员通常希望总结和解释此类簇中基因的当前知识状态。如果已知具有某一属性的基因簇中的基因比例超过了随机概率合理预期的数量，则可以说该基因簇具有“功能丰富”的属性。例如，酵母中6267个基因中有215个[1]已知在核糖体生物生成中起作用。如果在基因表达谱的聚类分析中，发现一个由100个共同调控的基因组成的簇，其中60个已知在核糖体生物发生中起作用，那么直观地说，该簇丰富了核糖体的生物发生（簇中60%，基因组中3%）。给定簇和类别的功能丰富程度可以通过超几何分布进行定量评估[21]. 对于每个类别，偶然观察到这种重叠的概率（p值）计算如下：保存图片、插图等的外部文件。对象名为1471-2105-3-35-i1.gif

哪里G公司是基因组的大小，C类是基因组中具有该属性的基因数量，n个是查询集群的大小，已知k拥有该属性。

如果对于给定类别而言，这种概率足够低，则基因列表（例如，簇）被认为是针对该属性进行了丰富的（参见下面的示例）。FunSpec输入基因列表并计算许多知识源中的超几何P值（MIPS、GO、SMART和Pfam域、已发布的蛋白质复合物、2-杂交相互作用和亚细胞定位）。Bonferroni修正可以用于补偿对知识库的多个类别进行的多次测试。

示例

在本节中，我们将介绍FunSpec可能有用的实例。在图中图1，1，基因表达数据的二维聚类[8]介绍了237个基因和271个实验。红色条指示的76个基因被提交至FunSpec网站上的MIPS功能分类数据库。“氨基酸生物合成”和“氨基酸代谢”类别被认为最不可能偶然发生（p<10^-14在这两种情况下）。为了显示以这种方式评估簇的特异性，用蓝色表示的6个基因（通过目视检查分离）与通常参与氨基酸代谢的基因具有相同的总体表达谱，但有一些明显的差异。FunSpec确定这些与“蛋氨酸代谢”有关。（p=1.0×10^-7).

在单独的窗口中打开

图1

酵母基因表达数据的二维聚类分析[8].

纯化蛋白复合物的成分也可以使用FunSpec进行解释。值得注意的是，功能注释大多基于表型而非生化数据，通常与文献中的大型蛋白质复合物相关（rand指数=0.94，调整后的rand指数=0.15；rand指数衡量两个分区的相似性，其中0表示无相似性，1表示完全对应；调整后的兰德指数是一个更加保守的衡量标准[22])（未显示数据）。这强调了用另一种数据类型的信息解释一种数据的实用性[23,24]. 亚细胞定位与蛋白质复合物中的成员呈正相关，这有望实现物理关联（在MIPS数据库中的所有蛋白质复合物之间，库马尔实验数据中的特定亚细胞隔室富集了17%（P<0.01）[18]相比之下，相同大小分布的蛋白质随机列表为1%（数据未显示）。对于新识别的复合物，FunSpec不仅提供了关于定位和潜在功能的信息，还提供了关于复合物生物有效性的置信度度量。

讨论

当前的FunSpec实现使用超几何分布（如下[21])假设进行独立测试（即每个基因都有一个单独的分类）。实际上，MIPS和GO类别是分层的。我们目前正在考虑其他统计模型来解释分类的层次性，以及Bonferroni校正的替代方法（例如错误发现率[25]).

还有其他确定重要性的方法（例如二项分布[26]; 表示因子[27])以及将集群与功能注释关联的其他方式（例如，Medline摘要中的相关术语和短语[6])但超几何分布已被证明是最容易使用的。FunSpec相对于当前工具的优点是集成了许多相关和最新的数据源，以及一个方便的网站，使用户能够快速详尽地探索基因分组的特殊特征。

在不久的将来，随着更多功能注释信息可用于其他生物体，如小鼠和人类，FunSpec资源将更新，以适应这些生物体的新知识库，可能包括大量新的实验数据。分类注释的底层组件本身很有用，可以从FunSpec网站下载为文本文件。

结论

FunSpec采用簇（或任何基因或蛋白质的集合）并识别簇丰富的属性（基于先前的知识）。在我们自己的研究中，我们常规使用FunSpec快速解释全基因组聚类分析中的所有聚类，以及“逐组关联”预测方法（例如[5,8,28]). 我们和其他人也发现，它可以作为筛选筛选结果的优先顺序、解释遗传相互作用以及选择蛋白质复合体成员的阈值/边界的过滤器（数据未显示）。

方法

FunSpec后端是在C++中实现的。从网页接收信息后，查询相关数据库，计算统计数据并将结果发送回用户。目前，数据库存储在平面文本文件中。

作者的贡献

MR下载并组织了生物知识库，编写了统计程序，并起草了手稿。JG创建了FunSpec原型，并参与了在线数据库的定位和评估。NM创建了该网站。TH协调项目执行。

所有作者阅读并批准了最终手稿。

致谢

作者感谢Best Institute（多伦多大学）的成员测试了web实现，并感谢Gary Bader、Mike Tyers和Andrew Emili对这份手稿的批判性评估。这项工作得到了加拿大基因组研究所、加拿大人权研究所和多伦多大学康诺基金会的支持。

工具书类

Cherry JM、Adler C、Ball C、Chervitz SA、Dwight SS、Hester ET、Jia Y、Juvik G、Roe T、Schroeder M.SGD：酵母基因组数据库。核酸研究。1998年；26:73–79. doi:10.1093/nar/26.173。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Mewes HW、Frishman D、Gruber C、Geier B、Haase D、Kaps A、Lemcke K、Mannhaupt G、Pfeiffer F、Schuller C.MIPS：基因组和蛋白质序列数据库。核酸研究。2000;28:37–40. doi:10.1093/nar/28.137。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Costanzo MC、Crawford ME、Hirschman JE、Kranz JE、Olsen P、Robertson LS、Skrzypek MS、Braun BR、Hopkins KL、Kondu P.YPD、PombePD和WormPD：生物知识库的模型生物量，蛋白质信息的综合资源。核酸研究。2001;29:75–79. doi:10.1093/nar/29.1.75。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Greenbaum D、Luscombe NM、Jansen R、Qian J、Gerstein M.相互关联不同类型的基因组数据，从蛋白质组到分泌组：“了解功能。基因组研究。2001;11：1463–1468。doi:10.1101/gr.2007401。[公共医学] [交叉参考][谷歌学者]
Wu LF，Hughes TR，Davierwala AP，Robinson MD，Stoughton R，Altschuler SJ。使用重叠转录簇对酿酒酵母基因功能进行大规模预测。自然遗传学。2002;31:255–265. doi:10.1038/ng906。[公共医学] [交叉参考][谷歌学者]
Blaschke C，Oliveros JC，Valencia A.挖掘与表达式数组相关的函数信息。功能整合基因组学。2001;1:256–268. doi:10.1007/s101420000036。[公共医学] [交叉参考][谷歌学者]
Bouton CM，Pevsner J.DRAGON视图：注释微阵列数据的信息可视化。生物信息学。2002;18:323–324. doi:10.1093/bioinformatics/18.2.323。[公共医学] [交叉参考][谷歌学者]
Hughes TR、Marton MJ、Jones AR、Roberts CJ、Stoughton R、Armour CD、Bennett HA、Coffey E、Dai H、He YD.通过表达谱概要进行功能发现。细胞。2000;102:109–126.[公共医学][谷歌学者]
Kumar A、Cheung KH、Ross-Macdonald P、Coelho PS、Miller P、Snyder M.TRIPLES：酿酒酵母基因功能数据库。核酸研究。2000;28:81–84. doi:10.1093/nar/28.181。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
基因本体联盟。创建基因本体资源：设计与实现。基因组研究。2001;11:1425–1433. doi:10.1101/gr.180801。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Schultz J、Milpetz F、Bork P、Ponting CP.SMART，一种简单的模块化体系结构研究工具：信号域识别。美国国家科学院院刊。1998年；95：5857–5864。doi:10.1073/pnas.95.11.5857。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
贝特曼A、伯尼E、塞鲁蒂L、杜宾R、埃特维勒L、埃迪SR、格里菲斯-琼斯S、豪-吉隆坡、马歇尔M、桑纳默EL。Pfam蛋白质家族数据库。核酸研究。2002;30:276–280. doi:10.1093/nar/30.1.276。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Tong AH、Evangelista M、Parsons AB、Xu H、Bader GD、Page N、Robinson M、Raghibizadeh S、Hogue CW、Bussey H。酵母缺失突变体有序阵列的系统遗传分析。科学。2001;294:2364–2368. doi:10.1126/science.1068510。[公共医学] [交叉参考][谷歌学者]
Uetz P、Giot L、Cagney G、Mansfield TA、Judson RS、Knight JR、Lockshon D、Narayan V、Srinivasan M、Pochart P。酿酒酵母蛋白质相互作用的综合分析。自然。2000;403:623–627. doi:10.1038/35001009。[公共医学] [交叉参考][谷歌学者]
Ito T、Chiba T、Ozawa R、Yoshida M、Hattori M、Sakaki Y.探索酵母蛋白相互作用组的综合双杂交分析。美国国家科学院院刊。2001;98:4569–4574. doi:10.1073/pnas.061034498。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Gavin AC、Bosche M、Krause R、Grandi P、Marzioch M、Bauer A、Schultz J、Rick JM、Michon AM、Cruciat CM。通过蛋白质复合物的系统分析实现酵母蛋白质组的功能组织。自然。2002;415:141–147. doi:10.1038/415141a。[公共医学] [交叉参考][谷歌学者]
Ho Y、Gruhler A、Heilbut A、Bader GD、Moore L、Adams SL、Millar A、Taylor P、Bennett K、Boutiler K。通过质谱法系统鉴定酿酒酵母中的蛋白质复合物。自然。2002;415：180–183。doi:10.1038/415180a。[公共医学] [交叉参考][谷歌学者]
Kumar A、Agarwal S、Heyman JA、Matson S、Heidtman M、Piccirillo S、Umansky L、Drawid A、Jansen R、Liu Y.酵母蛋白质组的亚细胞定位。基因发育。2002;16:707–719. doi:10.1101/gad.970902。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Ross-Macdonald P、Coelho PS、Roemer T、Agarwal S、Kumar A、Jansen R、Cheung KH、Sheehan A、Symoniatis D、Umansky L。通过转座子标签和基因破坏对酵母基因组进行大规模分析。自然。1999;402:413–418. doi:10.1038/46558。[公共医学] [交叉参考][谷歌学者]
Giaever G、Chu AM、Ni L、Connelly C、Riles L、Veronneau S、Dow S、Lucau-Danila A、Anderson K、Andre B.酿酒酵母基因组的功能分析。自然。2002;418:387–391. doi:10.1038/nature00935。[公共医学] [交叉参考][谷歌学者]
Tavazoie S、Hughes JD、Campbell MJ、Church GM、Chooch RJ。遗传网络结构的系统测定。自然遗传学。1999;22:281–285. doi:10.1038/10343。[公共医学] [交叉参考][谷歌学者]
Hubert L，Arabie P.比较分区。分类杂志。1985;2:193–218. [谷歌学者]
Ge H，Liu Z，Church GM，Vidal M.酿酒酵母转录组和相互作用组绘图数据之间的相关性。自然遗传学。2001;29:482–486. doi:10.1038/ng776。[公共医学] [交叉参考][谷歌学者]
Kemmeren P、van Berkum NL、Vilo J、Bijma T、Donders R、Brazma A、Holstege FC。通过基因组尺度数据的综合分析验证蛋白质相互作用和功能注释。分子细胞。2002;9:1133–1143.[公共医学][谷歌学者]
Benjamini Y，Hochberg Y。控制错误发现率：一种实用且强大的多重测试方法。英国皇家统计学会杂志，B辑。1995;57:289–300. [谷歌学者]
Cho RJ、Huang M、Campbell MJ、Dong H、Steinmetz L、Sapinoso L、Hampton G、Elledge SJ、Davis RW、Lockhart DJ。人类细胞周期中的转录调控和功能。自然遗传学。2001;27:48–54.[公共医学][谷歌学者]
Kim SK、Lund J、Kiraly M、Duke K、Jiang M、Stuart JM、Eizinger A、Wylie BN、Davidson GS。秀丽隐杆线虫基因表达图谱。科学。2001;293:2087–2092. doi:10.1126/science.1066103。[公共医学] [交叉参考][谷歌学者]
Marcotte EM、Pellegrini M、Thompson MJ、Yeates TO、Eisenberg D.蛋白质功能全基因组预测的组合算法。自然。1999;402:83–86. doi:10.1038/47048。[公共医学] [交叉参考][谷歌学者]

文章来自BMC生物信息学由以下人员提供BMC公司