跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
基因组生物学。2003; 4(1):R7。
2003年1月6日在线发布。 数字对象标识:10.1186/gb-2003-41-r7
预防性维修识别码:项目经理151291
PMID:12540299

MAPPFinder:使用基因本体和GenMAPP从微阵列数据创建全局基因表达谱

关联数据

补充资料

简短摘要

MAPPFinder是一个工具,它通过将基因本体(GO)项目的注释与自由软件包GenMAPP集成,在生物学的所有领域创建全球基因表达谱。

摘要

MAPPFinder是一个工具,它通过将基因本体(GO)项目的注释与自由软件包GenMAPP集成,在生物学的所有领域创建全球基因表达谱http://www.GenMAPP.org(英文)。结果显示在一个可搜索的浏览器中,允许用户快速识别GO术语和基因表达变化过多的数字。点击GO术语会生成GenMAPP图形文件,在其中可以探索、注释基因关系,并且可以自由交换文件。

背景

DNA微阵列实验同时测量数千个基因的表达水平,产生了大量数据。对这些数据的分析对生物学家提出了巨大的挑战,需要新的工具来帮助从这些实验中获得生物学见解。虽然数据是针对单个基因生成的,但在逐个基因的基础上检查数据集是很耗时的,并且很难在整个数据集上执行。加快数据分析速度的一种方法是从更高级别的组织中获取数据。这可以使用数据驱动的方法来实现,例如层次聚类和自组织映射[1,2]识别具有相似表达模式的基因组。一种补充方法是在已知生物过程或途径的水平上查看数据。识别那些显示出大量基因表达变化的生物相关基因组,将对特定数据集中发生的生物学进行信息描述,从而产生新的假设,并确定需要更详细调查的特定生物学领域。

GenMAPP(Gene MicroArray Pathway Profiler)是一种有助于识别重要生物过程的工具[]是一个程序,用于查看和分析微阵列路径剖面(MAPP)上的微阵列数据,该微阵列路径轮廓表示生物路径或任何其他基因功能分组。当MAPP链接到基因表达数据集时,GenMAPP会根据用户提供的标准自动动态地对MAPP上的基因进行颜色编码。GenMAPP是基于路径的基因表达数据分析的有用起点,但在使用该工具识别所有生物学中相关的基因表达变化之前,需要满足几个关键要求。在实践层面上,需要自动化基于路径的微阵列数据分析,以便探索所有可能的路径。识别单个通路中的相关基因表达变化通常很有趣,但有必要知道在特定通路上看到的基因表达变化是该通路独有的还是发生在许多其他通路中。对自动化同样重要的是扩展以数字表示的路径信息。GenMAPP目前有50多个描述各种生物途径和基因家族的MAPP文件,但这仍然只是所有已知生物学的一小部分[]. 其他几个途径项目,如KEGG[4]、经济周期/元周期[5],路径处理器(使用KEGG)[6]和ViMAc[7]可与微阵列数据分析集成,但这些程序侧重于明确定义的代谢途径,如GenMAPP,将从更广泛的途径信息基础中受益。

为了解决这个问题,我们使用了基因本体(GO)联盟提供的信息[8]. GO联盟正在创建一个定义的词汇表,描述所有基因的生物过程、细胞成分和分子功能。GO以分层方式构建,GO术语之间存在父子关系。公共基因数据库的馆长正在将基因分配给GO术语,以便为单个基因提供注释和生物背景。除了提供基因注释外,GO还提供了一种结构,用于将基因组织成生物相关组。这些分组可以作为鉴定微阵列实验中显示相关基因表达变化的生物学领域的基础。虽然GO已被手动和一些软件包用于注释微阵列数据[9,10,11],还没有自动化的方法将其用于基于路径的分析。

我们开发了一个名为MAPPFinder的工具,它将基因表达式数据动态链接到GO层次结构。对于11239个([12]; 截至2002年5月6日])GO生物过程、细胞成分和分子功能术语,MAPPFinder计算符合用户定义标准的被测基因的百分比。这是针对每个特定GO节点进行的,并针对父GO项及其所有子项中符合标准的基因的累积总数,给出了与特定GO项相关的基因数量的完整图片。使用此百分比和z(z)score(参见材料和方法),用户可以根据基因表达变化的相对数量对GO术语进行排名。因此,MAPPFinder在生物过程、细胞成分和分子功能的水平上生成基因表达谱,快速确定需要进一步研究的生物学领域(图(图11).

保存图片、插图等的外部文件。对象名称为gb-2003-4-1-r7-1.jpg

MAPPFinder的工作原理。微阵列数据作为GenMAPP基因表达数据集导入MAPPFinder。MAPPFinder使用关系数据库和GO中的基因关联文件,将数据集中的数千个基因分配给数千个GO术语。MAPPFinder使用用户定义的显著基因表达变化标准,计算符合标准的基因百分比以及每个GO项的统计分数。使用MAPPFinder生成的排名列表和GO浏览器,用户可以快速识别有趣的GO术语,并对其进行高水平的基因表达更改。这些GO术语中涉及的特定基因可以使用GenMAPP在自动生成的MAPP上进行检测。

MAPPFinder和GenMAPP都可以在免费充值[13].

结果和讨论

为了证明MAPPFinder的实用性,我们使用该程序分析了公开可用的小鼠微阵列数据集,即FVB心脏发育、成熟和衰老基准集[14]. 该数据集测量了12.5天胚胎和成年小鼠心脏中的基因表达水平。我们利用12.5天的胚胎时间点来确定那些显示胚胎心脏和成年心脏之间差异表达基因的生物过程。我们使用两个标准对此数据集进行了MAPPFinder分析,要么是增加(倍数变化>1.2第页<0.05)或减少(折叠变化<-1.2和第页<0.05)。我们之所以选择这个数据集进行演示,是因为与成年小鼠心脏组织相比,在12.5天胚胎中观察到的基因表达存在大量差异。

MAPPFinder将本实验中测量的9946个探针组与11239个GO项联系起来[12]并计算符合标准和a的基因百分比z(z)每个GO学期的得分。表11对数据集和GO之间的联系以及MAPPFinder进行的计算进行了总体总结。在FVB基准数据集中测量的9946个探针组中,近一半与GO项有关,约占与GO项相关的小鼠基因的70%[15]并且涵盖了目前已知的关于小鼠生物学的大部分内容。随着小鼠基因组数据库(MGD)添加更多GO术语和基因关联,微阵列数据集中与GO术语相关的基因比例将增加[16].

表1

MAPPFinder计算中使用的基因数

用于开发的FVB基准数据集
测量的基因9,946
与MGD直接相关的基因6, 267
通过UniGene与MGD相关的基因220
与GO术语相关的基因5,120
与GO相关的独特基因4,574
GO过程中测量/相关基因3,544/4,962 (71.4%)
GO成分中测得/相关基因3,238/4,691 (69.0%)
GO功能中测量/相关基因3,999/5,846 (68.4%)
12.5天胚胎

增加降低

基因改变2,2191,775
与GO过程相关的基因806711
与GO成分相关的基因726657
与GO功能相关的基因885783

在该阵列测量的9946个基因中,6267个通过MGD引用的GenBank登录号链接到MGD数据库。使用UniGene作为中间步骤,将另外220个基因与MGD关联(参见材料和方法)。在这6487个基因中,5120个在小鼠GO基因关联文件中发现。去除重复探针后,4574个独特基因用于MAPPFinder分析。该数据集包含4962个与GO过程项相关的基因中的71.4%,4691个与GO-成分项相关的基因组中的69%,以及5846个与GO-function terms相关的基因的68.4%[15]. 在12.5天的胚胎中,2219个基因符合基因表达增加的标准,806个具有过程注释,726个具有成分注释,885个具有功能注释。降低的标准发现1775个基因,711个在过程中,657个在成分中,783个在功能中。

MAPPFinder将微阵列数据集中的基因分配给GO结构后,它计算每个GO项的百分比和z(z)符合用户标准的基因得分(参见材料和方法)。这两个值可用于识别GO术语,这些术语表示的基因表达变化数量过多(或不足)。MAPPFinder结果以两种形式显示。第一个是GO浏览器,它以图形方式显示GO层次结构中的MAPPFinder结果(图(图2a2年,,3a)。3a年). 第二个是一个文本文件,列出了所有度量的GO术语,按z(z)分数。给出了符合标准的基因数量、实验中测量的基因数量以及MGD分配给每个GO项的基因数量,以及各自的百分比和z(z)分数,在文本文件和GO浏览器中(图(图2b)。2亿). 表22显示了带有z(z)在胚胎12.5天的时间点,显著增加和减少的标准的得分大于2。改变基因少于5个或超过100个的GO术语被从列表中删除,因为这些术语对于我们的数据分析来说要么太具体,要么太笼统。该过滤器确定了显著增加标准的前108个(8.0%)GO项和显著减少标准的前63个(4.8%)GO-项。通过升高或降低z(z)得分截止,或包括基因数量较多或较少的术语。然后,手动修剪过滤后的列表中的相关GO项,以删除GO层次结构中任何过度表示的分支(有关完整结果,请参阅其他数据文件)。当父项和子项都出现在列表中时,如果父项的出现完全是由于符合子项标准的基因所致,则会删除父项。清单上的其余术语仍然有很大程度的相关性,但为了完整起见,保留在这里。

保存图片、插图等的外部文件。对象名称为gb-2003-4-1-r7-2.jpg

MAPPFinder浏览器。(a)GO层次的分支植根于生物过程术语“RNA加工”。这些术语用MAPPFinder结果着色,表示与成年小鼠相比,12.5天胚胎中的基因显著增加。基因发生0-5%变化的术语为黑色、5-15%紫色、15-25%深蓝色、25-35%浅蓝色、35-45%绿色、45-55%橙色和大于55%红色。术语RNA处理以黄色突出显示,表明它满足搜索或筛选要求。(b)MAPPFinder结果。RNA处理这一术语以标记的各种MAPPFinder结果显示。计算了符合标准的基因百分比和本实验测量的GO中的基因百分比。将单独计算此节点的结果,并将其与所有子节点(即嵌套结果)结合计算。这个z(z)分数表示符合标准的基因数量是否高于或低于预期。正值表示基因的改变比预期的要多;负分数意味着改变的基因比预期少,接近0的分数表示改变的数量接近GO项的预期值。

保存图片、插图等的外部文件。对象名称为gb-2003-4-1-r7-3.jpg

将MAPPFinder链接到GenMAPP。(a)MAPPFinder浏览器显示了12.5天胚胎增加的GO过程术语“糖酵解”结果。GO术语的颜色编码与图中相同图2。2.(b)在MAPPFinder浏览器中单击GO术语糖酵解生成相应的GenMAPP MAPP文件。此MAPP文件包含与此术语及其所有子项相关的基因列表。(c)使用GenMAPP中的工具对GO列表中的基因进行重排,以描述具有代谢中间体和细胞区室的糖酵解途径。(b)和(c)基因的颜色编码如下:红色,折叠变化>1.2和第页12.5天胚胎小鼠与成年小鼠之间的差异<0.05。蓝色,折叠变化<-1.2和第页< 0.05. 灰色,不符合上述标准。白色,阵列上未找到基因。

表2

与成年小鼠相比,12.5天胚胎的MAPPFinder基因结果显著增加,但显著减少

GO名称编号已更改测量的数量GO中的数字%已更改%出席z(z)分数
显著增加
过程
  有丝分裂细胞周期44708962.978.78.1631
  DNA代谢6713516349.682.87.6807
  信使核糖核酸剪接19213090.5707.4868
  RNA加工29416070.768.37.4411
  RNA代谢30446668.266.77.3038
  细胞周期9824029140.882.57.0096
  mRNA处理24334572.773.36.9456
  蛋白质生物合成521041525068.46.8095
  高分子生物合成5712117247.170.36.5863
  DNA复制28465560.983.66.2752
  DNA复制与染色体周期29496259.2796.1944
  核糖体生物发生19283767.975.75.7749
  生物合成8924233436.872.55.4866
  依赖DNA的DNA复制13182272.281.85.0697
  有丝分裂13182472.2755.0697
  核部门14213066.7704.8663
  DNA包装20364655.678.34.7782
  细胞组织和生物发生7420729435.770.44.6913
  M相1525366069.44.5110
  mRNA剪接位点选择78887.51004.4125
  DNA复制启动67785.71004.0138
  染色体组织和生物发生(真核感觉)18375148.672.53.8338
  DNA修复21465345.786.83.7895
  蛋白质折叠12223154.5713.6157
  细胞质组织和生物发生5616924133.170.13.3912
  染色质结构的建立和/或维护13273548.177.13.2089
  蛋白质合成伸长693766.724.33.1815
  染色质组装/拆卸10202550802.9585
  生物过程未知349825034.739.22.9354
  蛋白质-甘氨酸依赖性蛋白质降解17435839.574.12.6968
  泛素依赖性蛋白质降解16425738.173.72.4404
  蛋白质-核输入591055.6902.3820
  泛素循环6121650752.2896
  核质转运612175070.62.2896
  肌动蛋白细胞骨架组织与生物发生612195063.22.2896
  跨膜受体蛋白Ser/Thr激酶信号通路1025314080.62.1081
  诱导细胞凋亡7162443.866.72.0449
组件
  剪接体1720428547.66.7175
  细胞质核糖体(真核感觉)19263373.178.86.2032
  细胞质溶胶408511247.175.95.4872
  核糖体35719349.376.35.4624
  染色体19365552.865.54.3772
  核膜内质网912177570.64.3676
  粘合连接671485.7504.0138
  内质网膜791377.869.23.9811
  染色质15284153.668.33.9579
  蜂窝组件未知411172913540.23.3057
  核仁10193452.655.93.1587
  26S蛋白酶体1122235095.73.1036
  内质网3911714133.3832.8569
  20S核心蛋白酶体9191947.41002.6078
  核膜6111854.561.12.5536
  细胞骨架6422330628.772.92.2918
  胶原蛋白1025314080.62.1081
  高尔基膜7161843.888.92.0449
  肌动蛋白细胞骨架16466334.8732.0140
功能
  RNA结合5111315545.172.95.8498
  周期蛋白依赖性蛋白激酶17243370.872.75.6944
  核糖体的结构组成39831014782.25.4055
  细胞周期素依赖性蛋白激酶,调节器12172470.670.84.7646
  结构分子7722327834.580.24.4306
  前mRNA剪接因子781287.566.74.4125
  mRNA结合10141971.473.74.3979
  蛋白丝氨酸/苏氨酸激酶6218124334.374.53.8821
  肌动蛋白结合25588343.169.93.7927
  蛋白酶体内肽酶11191957.91003.7096
  DNA定向DNA聚合酶710157066.73.6069
  RHO小单体GTPase71010701003.6069
  核苷酸转移酶16334148.580.53.5964
  激酶调节器15334245.578.63.1777
  DNA依赖性腺苷三磷酸酶8141657.187.53.1151
  细胞骨架蛋白结合339314435.564.63.0423
  DNA修复蛋白11232747.885.22.9232
  翻译因子,核酸结合14324343.874.42.8970
  转录辅激活剂610146071.42.8483
  染色质结合581162.572.72.7166
  激酶8931139428.678.92.6983
  磷酸转移酶,醇基为受体8730538628.5792.6301
  蛋白激酶7626333628.978.32.5796
  核酸外切酶6111554.573.32.5536
  小单体GTPase15384639.582.62.5247
  GTP绑定4314120130.570.12.3248
  肽基脯氨酸顺-反式异构酶6121650752.2896
  平移延伸系数6121650752.2896
  转录因子结合11274340.762.82.2838
  鸟苷酸结合4615521929.770.82.1927
  腺苷三磷酸酶12313838.781.62.1763
  分子功能未知299123031.939.62.1739
  蛋白质结合9936853926.968.32.1328
  伴侣16456235.672.62.1166
  具有抗拉强度的胞外基质结构成分1025314080.62.1081
  DNA定向RNA聚合酶510115090.92.0897
  细胞骨架的结构组成21637933.379.72.0838
  转移酶,转移单碳基团8192942.165.52.0570
  GTP酶25789532.182.12.0488
  异构酶12324237.576.22.0468
显著减少
过程
  脂肪酸代谢19304163.373.25.9082
  碳水化合物代谢的主要途径20395051.3784.8600
  有机化合物氧化产生的能量2350664675.84.5739
  分解代谢碳水化合物代谢18364550804.4754
  三羧酸循环681075803.8664
  己糖代谢18414943.983.73.8016
  脂质代谢4212716733.1763.6708
  脂质转运571171.463.63.3807
  糖酵解12263246.281.23.3091
  过氧化物酶体组织和生物发生7121558.3803.2972
  葡萄糖代谢15364241.785.73.2247
  淋巴腺发育8151753.388.23.2043
  细胞增殖10213447.661.83.1400
  体液免疫应答15377940.546.83.0982
  碳水化合物代谢319513532.670.43.0557
  细胞增殖的调节581562.553.32.9848
  肌肉收缩920284571.42.7716
  肌肉发育13344338.279.12.6328
  中胚层发育289011131.181.12.6096
  钾运输17496034.781.72.5450
  金属离子运输247710031.2772.4230
  单价无机阳离子转运21678831.376.12.2935
  补体激活8202340872.2132
  阳离子运输289813528.672.62.0923
  电子传输258711328.7772.0075
组件
  线粒体8818729347.163.89.3508
  过氧化物酶体18294262.1695.6381
  线粒体内膜19366052.8604.8922
  线粒体电子传递链复合体10143271.443.84.7848
  线粒体膜2040725055.64.7195
  细胞色素C氧化酶681675503.8664
  线粒体基质9223340.966.72.4283
  基底层5111145.51002.0910
  细胞骨架5722330625.672.92.0527
功能
  氢离子转运器11153373.345.55.1373
  初级活性转运蛋白276410742.259.84.4175
  阳离子转运体17366147.2594.0585
  离子运输器19437944.254.43.9406
  细胞色素c氧化酶681675503.8664
  氧化还原酶4814920732.2723.7213
  主要组织相容性复合物抗原13305443.355.63.1700
  氧化还原酶,作用于供体的醛基或氧基7131653.881.23.0285
  承运人4013119630.566.82.9960
  补充组件816195084.22.9770
  型三磷酸腺脢591155.681.82.6467
  水解酶,作用于酸酐,催化物质的跨膜运动15426735.762.72.5199
  核酸酶、核苷、核苷酸激酶7161943.884.22.3531
  磷酸转移酶,磷酸基团作为受体510135076.92.3520
  谷胱甘肽转移酶510135076.92.3520
  P-P-键水解驱动转运体17527832.766.72.2609
  ATP-装订盒(ABC)运输机11305036.7602.2573
  钾离子通道15455633.380.42.2093
  碳碳裂解酶5111845.561.12.0910

所有条款都带有z(z)得分为2分,至少5分,但少于100个符合标准的基因。

MAPPFinder的结果展示了与成年小鼠相比,12.5天胚胎中生物过程、细胞成分和分子功能增加和减少的总体情况(表(表2)。2). MAPPFinder使用显著增加基因表达变化的标准,初步确定了与细胞分裂和生长有关的GO术语。值得注意的GO术语包括“有丝分裂细胞周期”过程(70个基因中的62.9%,z(z)得分为8.1),“mRNA剪接”(21个基因中的90.5%,z(z)得分为7.5分)和“蛋白质生物合成”(104个基因中的50%,z(z)6.8分)。排名靠前的成分和功能术语反映了相同的生物过程。例如,组成术语“剪接体”表明,20个基因中有17个(85%,z(z)得分6.7)上调。这些过程的上调与心肌细胞在胚胎发育过程中保持有丝分裂活性这一事实相一致[17]. MAPPFinder结果表明,除了参与细胞分裂和生长的过程外,“跨膜受体蛋白丝氨酸/苏氨酸激酶信号通路”和“诱导凋亡”的过程也被上调,与细胞分裂和细胞生长有关z(z)得分约为2分。术语“跨膜受体蛋白丝氨酸/苏氨酸激酶信号通路”的出现是由于参与转化生长因子-β(TGFβ)受体信号传导的基因上调,TGFβ被认为调节心脏发育过程中形态发生所需的凋亡诱导[18,19].

与成年心脏相比,参与能量代谢的基因在12.5天的胚胎心脏中表现出最高水平的下调。特别是,过程术语“脂肪酸代谢”(30个基因中的63.3%,z(z)得分为5.9)和“碳水化合物代谢的主要途径”(39个基因中的51.3%,z(z)得分4.8),是术语“糖酵解”和“三羧酸循环”的父代,表明与成年小鼠相比,胚胎中的整体代谢基因下调。此外,组成术语“线粒体”显示187个基因中有88个(47.1%,z(z)分数9.1)被下调。脂肪酸代谢相关基因的下调与研究一致,研究表明发育中的心脏不同于成人心脏,它的能量不来自脂肪酸[20].

总的来说,MAPPFinder的结果为12.5天胚胎心脏与成年心脏相比的上调和下调过程提供了一个全局视角。结果证实了预期:与成人心脏相比,胚胎心脏的细胞分裂和生长增加,能量代谢降低。此外,MAPPFinder提供的全球基因表达谱允许将观察到的细胞分裂、生长和能量代谢的基因表达变化置于其他调控和发育过程的背景下,如TGFβ信号和凋亡。

MAPPFinder浏览器

将MAPPFinder结果作为排名列表进行查看可以提供丰富的信息,但它并没有充分利用GO是按层次结构排列的这一事实。MAPPFinder还显示了GO层次结构上下文中的结果(图(图2a2年,,3a)3a年)显示了整个层次结构,颜色编码的基因改变的百分比。用户可以逐步浏览层次结构,扩展显示基因表达变化的树分支,从广义的术语移动到更具体的类别。通常,术语的排名列表会显示许多相互关联的术语,有必要查看层次结构中的结果,以确定它们之间的关系。例如,术语“RNA代谢”、“RNA加工”、“mRNA加工”和“mRNA剪接”在表中显示为上调表2。2然而,树视图(图(图2a)2年)清楚地表明,mRNA剪接是RNA剪接和mRNA加工的子术语,而这又是RNA代谢的子术语。同样,术语“碳水化合物代谢的主要途径”、“分解代谢的碳水化合物代谢”和“糖酵解”也在表中显示为下调表2。2MAPPFinder浏览器(图(图3a)3a年)通过这些术语之间的层次关系,表明“糖酵解”与“碳水化合物代谢的主要途径”相关。

MAPPFinder浏览器还提供三种搜索和导航功能。首先,用户可以通过关键字或确切的GO术语名称进行搜索。其次,用户可以通过基因标识符进行搜索,以找到与该基因相关的GO项。例如,使用其SWISS-PROT标识符MYH6_MOUSE或其MGD标识符MGI:97255搜索α-肌球蛋白重链基因,可以找到GO过程术语“横纹肌收缩”、“细胞骨架组织和生物发生”、“蛋白质修饰”和“肌肉发育”。第三,用户可以自动展开GO树,以显示基因数量最少或基因百分比最小的所有节点,满足标准或最小z(z)分数。符合过滤器的术语以黄色突出显示,以清楚地指示搜索结果。

一旦用MAPPFinder识别出感兴趣的GO术语,用户就会想确切地知道哪些基因与这些术语相关,以及哪些基因正被差异表达。这可以使用GenMAPP完成。在MAPPFinder浏览器中选择GO术语会自动构建一个包含与该GO术语及其所有子项关联的基因的MAPP,并在GenMAPP中打开该MAPP。图3b第3页显示了通过在MAPPFinder浏览器中选择GO术语“糖酵解”生成的MAPP。MAPP上的基因按照用于计算MAPPFinder结果的相同标准进行彩色编码,在12.5天胚胎时间点显著增加和减少。点击MAPP上的基因会打开一个“主页”,其中包含注释、基因表达数据以及指向公共数据库中该基因页面的超链接。通过集成GenMAPP和MAPPFinder,可以从所有生物过程、成分和功能的全球基因表达谱无缝过渡到对所涉及的特定基因的基因表达水平的详细描述。例如,对糖酵解MAPP的进一步检查表明,与成人心脏相比,12.5天胚胎中己糖激酶I上调,亚型II和IV下调。这与己糖激酶I是胚胎心脏的主要亚型一致[21].

将MAPPFinder扩展到GO之外

GO是分析生物途径背景下微阵列数据的良好起点,但这绝不是对相关基因进行分组的唯一方法。与其将每个GO过程表示为MAPP上的字母表,不如将这些基因之间的关系表示为一个完整描述的路径。作为这一方向的起点,GenMAPP.org[13]已经创建了50多个MAPP,描述了代谢途径、信号途径和基因家族。MAPPFinder可以将任何MAPP文件合并到其分析中,以增加GO层次结构。对于FVB基准开发数据集,我们在54个鼠标MAPP的存档上运行了MAPPFinder,可从[13](有关完整结果,请参阅其他数据文件)。这些12.5天胚胎时间点的结果与GO结果一致,表明参与代谢途径“三羧酸循环”的基因表达(测量的12个基因中的83.3%,z(z)得分为5.91)和“脂肪酸降解”(测量的13个基因中的69.2%,z(z)得分4.82)显著降低。此外显著增加的标准鉴定了编码核糖体蛋白的基因(45个基因中的71.1%,z(z)得分6.75)和参与细胞周期的基因(15个基因中的53.3%,z(z)得分2.4)。

GenMAPP提供的MAPP档案并不全面。这一档案的增长取决于整个生物界的援助。我们希望,随着MAPPFinder用户看到将GO生物过程视为完整描述的路径的附加效用,他们将使用GenMAPP将基因列表组织成更具描述性的生物路径。图3c3立方厘米给出了一个示例,说明如何使用GenMAPP中的工具重新排列GO术语“糖酵解”的基因,以描述显示酶级联、代谢中间产物和细胞隔室方向的完整路径。GenMAPP.org目前正在接受新MAPP文件的提交。社区贡献的MAPP将包含在可下载的MAPP档案中。

MAPPFinder是对当前分析工具的必要补充

通过从更高级别或组织访问大型数据集,MAPPFinder有助于简化数据分析并缩短对微阵列数据进行生物学理解所需的时间。MAPPFinder通过使用GO提供的大量注释,极大地扩展了当前基于路径的工具。这一广泛的分析将有助于确定尚未涉及特定实验条件的生物过程,并开始在以前认为不相关的生物过程之间建立联系。

MAPPFinder可用于酵母、小鼠和人类数据。我们计划将该计划扩展到GO中的许多其他物种,更新将在[13].

材料和方法

基因表达数据

公开可用的小鼠微阵列数据集,即心脏发育、成熟和衰老的FVB基准集,是从基因组应用的心脏基因组计划获得的[14]. 这些数据使用雄性和雌性FVB/N小鼠比较发育过程中不同时间点的健康小鼠心脏。具体而言,该数据集检查了12.5天胚胎、1天新生小鼠、1周小鼠、4周小鼠和5个月和1年成年小鼠的心脏组织。我们的分析集中于12.5天胚胎时间点和对照成年小鼠。每个时间点使用三个Affymetrix U74A版本1阵列。在胚胎发育期,每个阵列共有三个心脏,因为它们体积较小。为了提高我们分析中的统计能力,将5月龄和1年龄小鼠合并为一组正常成年小鼠。使用Affymetrix MAS 5.0软件获得信号强度值。将小于20的信号值提高到20,并取对数基数2。与联合对照组的平均值相比,根据每个时间点的平均值确定对数折叠。P(P)通过排列计算值t吨测试。使用R统计编程语言的multest包进行统计分析[22]. 将这些数据导入GenMAPP,并将生成的GenMAPP表达式数据集文件(.gex)导出到MAPPFinder。

MAPPFinder需要用户定义的标准来进行有意义的基因表达更改。在这种情况下,我们将折叠变化与统计滤波器相结合,以确定显著性。我们使用大于1.2的折叠变化第页值小于0.05,定义基因表达显著增加,并且倍变小于-1.2第页-值小于0.05,定义基因表达显著降低。为了确定每个GO项中基因表达变化的总数,一个大于1.2或小于1.2的折叠变化的附加标准和一个第页使用小于0.05的值(未显示数据)。

值得注意的是,虽然我们使用了Affymetrix GeneChips产生的基因表达数据,但来自其他微阵列平台和其他技术的数据,如SAGE(基因表达的序列分析),也可以同样容易地使用。

将表达数据链接到基因本体

MAPPFinder使用GO提供的三个本体文件(Process、Component和Function)构建GO层次结构的本地副本[12]. GO的有向无环图(DAG)结构[23]允许节点是多个父节点的子节点。这使得MAPPFinder结果的导航、可视化和计算比GO存储在经典树结构中更加困难。为了简化实现MAPPFinder算法所需的编程,DAG结构被转换为经典树。对于包含多个父节点的DAG的每个节点,使用本地标识符将多个副本插入GO的树表示中,以处理重复的GO项。此树结构维护GO DAG结构中实施的“真实路径”规则。MAPPFinder在内部处理此转换,对于用户来说,MAPPFinderbrowser中看到的GO层次结构将与其他GO浏览器中看到的相同。

GO项和表达式数据集中的基因之间的链接是通过基因关联文件建立的[15]. 这些协会来自欧洲生物信息学研究所[24]对于人类基因,小鼠基因组数据库(MGD)[16]小鼠基因,以及酵母菌属基因组数据库(SGD)[25]用于酵母基因。目前,输入数据中的基因必须使用GenBank、SWISS-PROT或SGD标识符进行识别。

MAPPFinder使用关系数据库将表达式数据集链接到基因关联文件。MAPPFinder数据库将基因表达数据与每个物种的适当基因识别系统相关联(图(图1)。1). 对于人类数据,基因关联文件使用SWISS-PROT标识符,需要SWISS-PROT到GenBank的关系表,以使用GenBank登录号将数据集链接到GO注释。对于酵母数据,基因关联文件使用SGD标识符。对于使用SWISS-PROT标识符的表达式数据集,还包括一个SWISS-PROT-to-SGD关系表。对于鼠标数据,GO基因关联文件使用MGD标识符,需要GenBank-to-MGD关系表和SWISS-PROT-to-MGD关系表。MAPPFinder利用了MGD也与UniGene相关的事实,允许将MGD-GenBank关系表中不存在的其他EST用作基因标识符。通过这个中间步骤,可以将更多的GenBank标识符链接到GO注释。目前,SWISS-PROT和UniGene之间没有直接关系,因此没有对人类数据使用类似的中间步骤。

计算MAPPFinder结果

MAPPFinder计算每个GO术语中符合用户定义标准的基因百分比,此测量称为“变化百分比”。MAPPFinder还计算了实验中测量到的与GO项相关的基因百分比,该测量称为“存在百分比”。计算存在百分比对于确定GO项在数据集中的表示程度是必要的。

GO基因关联文件[17]可能存在问题,因为它们独立处理每个GO项,从而消除了隐含的父子关系。因此,单独查看GO术语通常没有什么信息,因为与任何一个术语相关的基因数量小于该过程、成分或功能所涉及的实际基因数量。为了解决这个问题,我们计算了一个父术语的嵌套百分比,该父术语在层次结构中的所有子项都位于它下面。通过将子项与其父项相结合,结果包含了与层次结构的整个分支相关的基因,从而更准确地表示了参与该过程、组件或功能的基因数量。随着GO的更具体分支被检查,两个方程的分母将变小,用户可以找到他们想要的特异性水平。这种方法带来的一个复杂问题是,在某些情况下,一个基因与父项和子项或多个子项都相关。当计算子树的百分比时,我们确保每个基因只计数一次,这样具有多个注释的基因就不会被加权得更重。

计算MAPPFinder结果时出现的另一个复杂问题是阵列上同一基因的多个探针的问题。在这种情况下,特征或重复基因聚集到一个独特的基因。如果数组中该基因的任何实例符合用户定义的标准,则该基因符合用户定义标准。独特基因的数量也用于计算z(z)得分,意味着统计数据仅基于数据集中每个基因的一次出现。

还提供了每个MAPP和GO项中相对基因表达活性的统计评级。这是一个标准化的差异分数(z(z)得分)使用超几何分布下符合GO项标准的基因数量的期望值和标准偏差。这个z(z)该分数有助于根据基因表达变化的相对量对GO术语进行排名。积极的z(z)分数表明GO术语中符合标准的基因数量比偶然预期的要多。否定z(z)分数表明符合标准的GO术语的基因比偶然预期的要少。A类z(z)分数接近零表示符合标准的基因数量接近预期数量。极端阳性的分数表明GO术语具有最大的信心,即该组基因表达变化之间的相关性不是偶然发生的。P(P)没有为GO项或MAPP赋值,因为这样的标准化差异分数可能接近正常值z(z)单个MAPP的得分、GO术语之间缺乏独立性以及它们之间发生的多次测试肯定会使正常第页这样的值z(z)得分不可靠。因此,第页未将值分配给GO术语和MAPP。

这个z(z)分数的计算方法是从预期的基因数中减去符合标准的GO项(或MAPP)中观察到的基因数,再除以观察到的基因组数的标准差。使用的方程式为

保存图片、插图等的外部文件。对象名称为gb-2003-4-1-r7-i1.gif

保存图片、插图等的外部文件。对象名称为gb-2003-4-1-r7-i2.gif

哪里N个是测量的基因总数,R(右)是符合标准的基因总数,n个是该特定MAPP中的基因总数,以及第页是符合此特定MAPP标准的基因数。

因此,如果两个GO术语包含相同数量的基因,则符合标准的基因数量越多的术语将获得更高的分数。除以标准差可以调整GO项的大小,将大量符合标准的基因排在GO项(或MAPP)的前面,而GO项与MAPP的基因变化百分比相同,但总基因较少。

MAPPFinder结果在GO浏览器中生成,用于在GO层次结构的上下文中进行分析,并作为制表符分隔的文本文件,可用于电子表格程序中的数据排序和过滤。

其他数据文件

以下附加数据文件可用:

FVBN开发数据的形式为GenMAPP表达式数据集文件(.gex)。它包含微阵列数据集和用于定义增加和减少基因表达变化的标准。它可以在GenMAPP中打开进行编辑,是与MAPPFinder一起使用的适当数据类型。

FVBN开发数据作为数据库文件由MAPPFinder(.gdb)生成。它包含数据集中的基因和GO层次结构之间的关系。可以在Microsoft Access中打开该文件以进行查看。必须存在此文件,才能从现有MAPPFinder结果生成GenMAPP MAPP。

文件中包含了12.5天胚胎与成年小鼠的MAPPFinder结果:12.5天胚胎-显著增加-基因本体结果,12.5天胚胎-显著增加-局部结果,12.5天胚胎-显著减少-基因本体结果,12.5天胚胎-显著减少-局部结果,12.5天胚胎-所有变化-基因本体结果,12.5天胚胎-所有变化-局部结果。这些文本文件包含两个条件以及GO层次结构和GenMAPP.org MAPP的MAPPFinder结果。这些文件可以加载到MAPPFinder中,以便在MAPPFinder-GO浏览器中查看。这些文件以制表符分隔,也可以在Microsoft Excel中作为表格查看。“All Changes”文件包含寻找增加或减少基因表达变化的标准的结果。A类zip文件包含所有附加数据文件。

补充材料

附加数据文件1:

以GenMAPP表达式数据集文件(.gex)形式的FVBN开发数据。它包含微阵列数据集和用于定义增加和减少基因表达变化的标准。它可以在GenMAPP中打开进行编辑,是与MAPPFinder一起使用的适当数据类型。

附加数据文件2:

FVBN开发数据作为MAPPFinder(.gdb)生成的数据库文件。它包含数据集中的基因和GO层次结构之间的关系。可以在Microsoft Access中打开该文件以进行查看。必须存在此文件才能从现有的MAPPFinder结果构建GenMAPP MAP。

附加数据文件3:

12.5天胚胎-显著增加-基因本体结果

附加数据文件4:

12.5天胚胎-显著增加-局部结果

附加数据文件5:

12.5天胚胎-显著减少-基因本体结果

附加数据文件6:

12.5天胚胎-显著减少-局部结果

附加数据文件7:

12.5天胚胎-所有变化-基因本体结果

附加数据文件8:

12.5天胚胎-所有变化-局部结果

附加数据文件9:

包含所有附加数据文件的zip文件。

致谢

我们感谢A.Zambon、W.Tingley、T.Speed、P.Bacchetti和J.Myers就MAPPFinder的设计和实现进行了有益的对话,感谢B.Taylor帮助编写了这份手稿,感谢S.Izumo和CardioGenomics公开了微阵列数据集。这项工作得到了J.David Gladstone Institutes、旧金山总医院综合临床研究中心、国家心脏、肺和血液研究所、旧金山综合医院综合临床研发中心MO1RR00083(B.R.C.)和NHLBI基因组应用计划(BayGenomics)的支持。

工具书类


文章来自基因组生物学由以下人员提供BMC公司