为了证明MAPPFinder的实用性,我们使用该程序分析了公开可用的小鼠微阵列数据集,即FVB心脏发育、成熟和衰老基准集[14]. 该数据集测量了12.5天胚胎和成年小鼠心脏中的基因表达水平。我们利用12.5天的胚胎时间点来确定那些显示胚胎心脏和成年心脏之间差异表达基因的生物过程。我们使用两个标准对此数据集进行了MAPPFinder分析,要么是增加(倍数变化>1.2第页<0.05)或减少(倍数变化<-1.2和第页<0.05)。我们之所以选择这个数据集进行演示,是因为与成年小鼠心脏组织相比,在12.5天胚胎中观察到的基因表达存在大量差异。
MAPPFinder将本实验中测量的9946个探针组与11239个GO项联系起来[12]并计算符合标准和a的基因百分比z(z)每个GO学期的得分。表1对数据集和GO之间的联系以及MAPPFinder进行的计算进行了总体总结。在FVB基准数据集中测量的9946个探针组中,近一半与GO项有关,约占与GO项相关的小鼠基因的70%[15]并涵盖了目前已知的小鼠生物学的大部分内容。随着小鼠基因组数据库(MGD)添加更多GO术语和基因关联,微阵列数据集中与GO术语相关的基因比例将增加[16].
MAPPFinder将微阵列数据集中的基因分配给GO结构后,它计算每个GO项的百分比和z(z)符合用户标准的基因得分(参见材料和方法)。这两个值可用于识别具有过度(或不足)表示的基因表达变化数量的GO术语。MAPPFinder结果以两种形式显示。第一个是GO浏览器,它以图形方式显示GO层次结构中的MAPPFinder结果(图2a个,3a年). 第二个是一个文本文件,列出了所有度量的GO术语,按z(z)分数。给出了符合标准的基因数量、实验中测量的基因数量以及MGD分配给每个GO项的基因数量,以及各自的百分比和z(z)分数,在文本文件和GO浏览器中(图2亿). 表2显示了带有z(z)在胚胎12.5天的时间点,显著增加和减少的标准的得分大于2。改变基因少于5个或超过100个的GO术语被从列表中删除,因为这些术语对于我们的数据分析来说要么太具体,要么太笼统。该过滤器确定了显著增加标准的前108个(8.0%)GO项和显著减少标准的前63个(4.8%)GO-项。通过升高或降低z(z)得分截止,或包括基因数量较多或较少的术语。然后,手动修剪过滤后的列表中的相关GO项,以删除GO层次结构中任何过度表示的分支(有关完整结果,请参阅其他数据文件)。当父项和子项都出现在列表中时,如果父项的出现完全是由于符合子项标准的基因所致,则会删除父项。清单上的其余术语仍然有很大程度的相关性,但为了完整起见,保留在这里。
MAPPFinder的结果展示了与成年小鼠相比,12.5天胚胎中生物过程、细胞成分和分子功能增加和减少的总体情况(表2). MAPPFinder使用显著增加基因表达变化的标准,初步确定了与细胞分裂和生长有关的GO术语。值得注意的GO术语包括“有丝分裂细胞周期”过程(70个基因中的62.9%,z(z)得分为8.1),“mRNA剪接”(21个基因中的90.5%,z(z)得分为7.5分)和“蛋白质生物合成”(104个基因中的50%,z(z)6.8分)。排名靠前的组成部分和功能术语反映了相同的生物过程。例如,组成术语“剪接体”表明,20个基因中有17个(85%,z(z)得分6.7)上调。这些过程的上调与心肌细胞在胚胎发育过程中保持有丝分裂活性这一事实相一致[17]. MAPPFinder结果表明,除了参与细胞分裂和生长的过程外,“跨膜受体蛋白丝氨酸/苏氨酸激酶信号通路”和“诱导凋亡”的过程也被上调,与细胞分裂和细胞生长有关z(z)得分约为2分。术语“跨膜受体蛋白丝氨酸/苏氨酸激酶信号通路”的出现是由于参与转化生长因子-β(TGFβ)受体信号传导的基因上调,TGFβ被认为调节心脏发育过程中形态发生所需的凋亡诱导[18,19].
与成年心脏相比,参与能量代谢的基因在12.5天胚胎心脏中表现出最高水平的下调。特别是,过程术语“脂肪酸代谢”(30个基因中的63.3%,z(z)得分为5.9)和“碳水化合物代谢的主要途径”(39个基因中的51.3%,z(z)得分4.8),是术语“糖酵解”和“三羧酸循环”的父代,表明与成年小鼠相比,胚胎中的整体代谢基因下调。此外,组成术语“线粒体”显示187个基因中有88个(47.1%,z(z)分数9.1)被下调。脂肪酸代谢相关基因的下调与研究一致,研究表明发育中的心脏不同于成人心脏,它的能量不来自脂肪酸[20].
总的来说,MAPPFinder的结果提供了一个关于12.5天胚胎心脏与成人心脏相比上调和下调过程的全局视角。结果证实了预期:与成人心脏相比,胚胎心脏的细胞分裂和生长增加,能量代谢降低。此外,MAPPFinder提供的全球基因表达谱允许将观察到的细胞分裂、生长和能量代谢的基因表达变化置于其他调控和发育过程的背景下,如TGFβ信号和凋亡。
MAPPFinder浏览器
将MAPPFinder结果作为排名列表进行查看可以提供丰富的信息,但它并没有充分利用GO是按层次结构排列的这一事实。MAPPFinder还显示了GO层次结构上下文中的结果(图2a个,3a年)显示了整个层次结构,颜色编码的基因改变的百分比。用户可以遍历层次结构,扩展显示基因表达变化的树的分支,从广义术语转移到更具体的类别。通常,术语的排名列表会显示许多相互关联的术语,有必要查看层次结构中的结果,以确定它们之间的关系。例如,术语“RNA代谢”、“RNA处理”、“mRNA处理”和“mRNA剪接”在表中显示为上调2然而,树视图(图2a个)清楚地表明,mRNA剪接是RNA剪接和mRNA加工的子术语,而这又是RNA代谢的子术语。同样,术语“碳水化合物代谢的主要途径”、“分解代谢的碳水化合物代谢”和“糖酵解”也在表中显示为下调2MAPPFinder浏览器(图3a年)表明“糖酵解”通过这些术语之间的层级关系与“碳水化合物代谢的主要途径”有关。
MAPPFinder浏览器还提供三种搜索和导航功能。首先,用户可以通过关键字或确切的GO术语名称进行搜索。其次,用户可以通过基因标识符进行搜索,以找到与该基因相关的GO项。例如,使用其SWISS-PROT标识符MYH6_MOUSE或其MGD标识符MGI:97255搜索α-肌球蛋白重链基因,可以找到GO过程术语“横纹肌收缩”、“细胞骨架组织和生物发生”、“蛋白质修饰”和“肌肉发育”。第三,用户可以自动展开GO树,以显示基因数量最少或基因百分比最小的所有节点,满足标准或最小z(z)分数。符合过滤器的术语以黄色突出显示,以清楚地指示搜索结果。
一旦用MAPPFinder识别出感兴趣的GO术语,用户就会想确切地知道哪些基因与这些术语相关,以及哪些基因正被差异表达。这可以使用GenMAPP完成。在MAPPFinder浏览器中选择GO术语会自动构建一个包含与该GO术语及其所有子项关联的基因的MAPP,并在GenMAPP中打开该MAPP。图3亿显示了通过在MAPPFinder浏览器中选择GO术语“糖酵解”生成的MAPP。MAPP上的基因采用与计算MAPPFinder结果相同的标准进行颜色编码,在12.5天胚胎时间点显著增加和减少。点击MAPP上的基因会打开一个“主页”,其中包含注释、基因表达数据以及指向公共数据库中该基因页面的超链接。通过集成GenMAPP和MAPPFinder,可以从所有生物过程、成分和功能的全球基因表达谱无缝过渡到对所涉及的特定基因的基因表达水平的详细描述。例如,对糖酵解MAPP的进一步检查表明,与成人心脏相比,12.5天胚胎中己糖激酶I上调,亚型II和IV下调。这与己糖激酶I是胚胎心脏的主要亚型一致[21].
将MAPPFinder扩展到GO以外
GO是分析生物途径背景下微阵列数据的良好起点,但这绝不是对相关基因进行分组的唯一方法。与其将每个GO过程表示为MAPP上的字母表,不如将这些基因之间的关系表示为一个完整描述的路径。作为这一方向的起点,GenMAPP.org[13]已经创建了50多个MAPP,描述了代谢途径、信号途径和基因家族。MAPPFinder可以将任何MAPP文件合并到其分析中,以增加GO层次结构。对于FVB基准开发数据集,我们在54个鼠标MAPP的存档上运行了MAPPFinder,可从[13](有关完整结果,请参阅其他数据文件)。12.5天胚胎时间点的这些结果与GO结果一致,表明参与代谢途径“三羧酸循环”的基因的表达(测量的12个基因中83.3%,z(z)得分为5.91)和“脂肪酸降解”(测量的13个基因中的69.2%,z(z)得分4.82)显著降低。此外,显著增加的标准确定了编码核糖体蛋白的基因(45个基因中的71.1%,z(z)得分6.75)和参与细胞周期的基因(15个基因中的53.3%,z(z)得分2.4)。
GenMAPP提供的MAPP档案并不全面。这个档案的增长依赖于整个生物界的援助。我们希望,随着MAPPFinder用户看到将GO生物过程视为完整描述的路径的附加效用,他们将使用GenMAPP将基因列表组织成更具描述性的生物路径。图3立方厘米给出了一个示例,说明如何使用GenMAPP中的工具重新排列GO术语“糖酵解”的基因,以描述显示酶级联、代谢中间产物和细胞隔室方向的完整路径。GenMAPP.org目前正在接受新MAPP文件的提交。社区贡献的MAPP将包含在可下载的MAPP档案中。
MAPPFinder是对当前分析工具的必要补充
通过从更高级别或组织访问大型数据集,MAPPFinder有助于简化数据分析,并缩短对微阵列数据进行生物学理解所需的时间。MAPPFinder通过使用GO提供的大量注释,极大地扩展了当前基于路径的工具。这一广泛的分析将有助于确定尚未涉及特定实验条件的生物过程,并开始在以前认为不相关的生物过程之间建立联系。
MAPPFinder可用于酵母、小鼠和人类数据。我们计划将该计划扩展到GO中的许多其他物种,更新将在[13].