MAPPFinder: using Gene Ontology and GenMAPP to create a global gene-expression profile from microarray data

Scott W Doniger; Nathan Salomonis; Kam D Dahlquist; Karen Vranizan; Steven C Lawlor; Bruce R Conklin

doi:10.1186/gb-2003-4-1-r7

基因组生物学。2003; 4（1）：R7。

2003年1月6日在线发布。数字对象标识：10.1186/gb-2003-41-r7

预防性维修识别码：项目经理151291

PMID：12540299

MAPPFinder：使用基因本体和GenMAPP从微阵列数据创建全局基因表达谱

斯科特·多尼格,¹ 内森·所罗门尼斯,¹ 坎·德·达尔奎斯特,^1,² 卡伦·弗拉尼桑,^1,⁴ 史蒂文·劳勒,¹和布鲁斯·康克林^1,^2,^三

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

补充资料: 附加数据文件1 GenMAPP表达式数据集文件（.gex）形式的FVBN开发数据。它包含微阵列数据集和用于定义增加和减少基因表达变化的标准。它可以在GenMAPP中打开进行编辑，是与MAPPFinder一起使用的适当数据类型。
gb-2003-41-r7-s1.gex（310万）
GUID:5B316EE7-F8EC-42A9-8B58-0E4106894535
附加数据文件2 FVBN开发数据作为MAPPFinder（.gdb）生成的数据库文件。它包含数据集中的基因和GO层次结构之间的关系。可以在Microsoft Access中打开该文件以进行查看。必须存在此文件，才能从现有MAPPFinder结果生成GenMAPP MAPP。
gb-2003-41-r7-s2.gdb（410万）
GUID:355CD3AC-B0E8-416C-B2BB-37DA5EAB7B20
附加数据文件3 12.5天胚胎-显著增加-基因本体结果
gb-2003-41-r7-s3.txt标准（96K）
GUID:407B8DDB-ABC9-460B-8A77-2E6A9D9F0DCB
附加数据文件4 12.5天胚胎-显著增加-局部结果
gb-2003-41-r7-s4.txt标准（230公里）
GUID:D1E4886B-0885-4501-AA82-D1C70C7A9EDD
附加数据文件5 12.5天胚胎-显著减少-基因本体结果
gb-2003-41-r7-s5.txt标准（9.3万）
GUID:76D638DF-C8E6-4B9B-88D2-567851AF833F
附加数据文件6 12.5天胚胎-显著减少-局部结果
gb-2003-41-r7-s6.txt标准（2.6公里）
指南：73CAFD5C-8CCE-4CAD-98F7-77657E6A570C
附加数据文件7 12.5天胚胎-所有变化-基因本体结果
gb-2003-41-r7-s7.txt标准（128K）
GUID:81A3ACED-ED6A-4141-A6EC-3215314682B7
附加数据文件8 12.5天胚胎-所有变化-局部结果
gb-2003-41-r7-s8.txt标准（2.8万）
GUID:445CA442-BE24-4AB7-8AA4-50E43D37FB96
附加数据文件9包含所有附加数据文件的zip文件。
gb-2003-41-r7-s9.zip（250万）
GUID:DF685E64-4EC6-478D-9BE5-0041C9FE0920

简短摘要

MAPPFinder是一个工具，它通过将基因本体（GO）项目的注释与自由软件包GenMAPP集成，在生物学的所有领域创建全球基因表达谱。

摘要

MAPPFinder是一个工具，它通过将基因本体（GO）项目的注释与自由软件包GenMAPP集成，在生物学的所有领域创建全球基因表达谱http://www.GenMAPP.org（英文）。结果显示在一个可搜索的浏览器中，允许用户快速识别GO术语和基因表达变化过多的数字。点击GO术语会生成GenMAPP图形文件，在其中可以探索、注释基因关系，并且可以自由交换文件。

背景

DNA微阵列实验同时测量数千个基因的表达水平，产生了大量数据。对这些数据的分析对生物学家提出了巨大的挑战，需要新的工具来帮助从这些实验中获得生物学见解。虽然数据是针对单个基因生成的，但在逐个基因的基础上检查数据集是很耗时的，并且很难在整个数据集上执行。加快数据分析速度的一种方法是从更高级别的组织中获取数据。这可以使用数据驱动的方法来实现，例如层次聚类和自组织映射[1,2]识别具有相似表达模式的基因组。一种补充方法是在已知生物过程或途径的水平上查看数据。识别那些显示出大量基因表达变化的生物相关基因组，将对特定数据集中发生的生物学进行信息描述，从而产生新的假设，并确定需要更详细调查的特定生物学领域。

GenMAPP（Gene MicroArray Pathway Profiler）是一种有助于识别重要生物过程的工具[三]是一个程序，用于查看和分析微阵列路径剖面（MAPP）上的微阵列数据，该微阵列路径轮廓表示生物路径或任何其他基因功能分组。当MAPP链接到基因表达数据集时，GenMAPP会根据用户提供的标准自动动态地对MAPP上的基因进行颜色编码。GenMAPP是基于路径的基因表达数据分析的有用起点，但在使用该工具识别所有生物学中相关的基因表达变化之前，需要满足几个关键要求。在实践层面上，需要自动化基于路径的微阵列数据分析，以便探索所有可能的路径。识别单个通路中的相关基因表达变化通常很有趣，但有必要知道在特定通路上看到的基因表达变化是该通路独有的还是发生在许多其他通路中。对自动化同样重要的是扩展以数字表示的路径信息。GenMAPP目前有50多个描述各种生物途径和基因家族的MAPP文件，但这仍然只是所有已知生物学的一小部分[三]. 其他几个途径项目，如KEGG[4]、经济周期/元周期[5]，路径处理器（使用KEGG）[6]和ViMAc[7]可与微阵列数据分析集成，但这些程序侧重于明确定义的代谢途径，如GenMAPP，将从更广泛的途径信息基础中受益。

为了解决这个问题，我们使用了基因本体（GO）联盟提供的信息[8]. GO联盟正在创建一个定义的词汇表，描述所有基因的生物过程、细胞成分和分子功能。GO以分层方式构建，GO术语之间存在父子关系。公共基因数据库的馆长正在将基因分配给GO术语，以便为单个基因提供注释和生物背景。除了提供基因注释外，GO还提供了一种结构，用于将基因组织成生物相关组。这些分组可以作为鉴定微阵列实验中显示相关基因表达变化的生物学领域的基础。虽然GO已被手动和一些软件包用于注释微阵列数据[9,10,11]，还没有自动化的方法将其用于基于路径的分析。

我们开发了一个名为MAPPFinder的工具，它将基因表达式数据动态链接到GO层次结构。对于11239个([12]; 截至2002年5月6日]）GO生物过程、细胞成分和分子功能术语，MAPPFinder计算符合用户定义标准的被测基因的百分比。这是针对每个特定GO节点进行的，并针对父GO项及其所有子项中符合标准的基因的累积总数，给出了与特定GO项相关的基因数量的完整图片。使用此百分比和z（z）score（参见材料和方法），用户可以根据基因表达变化的相对数量对GO术语进行排名。因此，MAPPFinder在生物过程、细胞成分和分子功能的水平上生成基因表达谱，快速确定需要进一步研究的生物学领域（图（图11).

在单独的窗口中打开

图1

MAPPFinder的工作原理。微阵列数据作为GenMAPP基因表达数据集导入MAPPFinder。MAPPFinder使用关系数据库和GO中的基因关联文件，将数据集中的数千个基因分配给数千个GO术语。MAPPFinder使用用户定义的显著基因表达变化标准，计算符合标准的基因百分比以及每个GO项的统计分数。使用MAPPFinder生成的排名列表和GO浏览器，用户可以快速识别有趣的GO术语，并对其进行高水平的基因表达更改。这些GO术语中涉及的特定基因可以使用GenMAPP在自动生成的MAPP上进行检测。

MAPPFinder和GenMAPP都可以在免费充值[13].

结果和讨论

为了证明MAPPFinder的实用性，我们使用该程序分析了公开可用的小鼠微阵列数据集，即FVB心脏发育、成熟和衰老基准集[14]. 该数据集测量了12.5天胚胎和成年小鼠心脏中的基因表达水平。我们利用12.5天的胚胎时间点来确定那些显示胚胎心脏和成年心脏之间差异表达基因的生物过程。我们使用两个标准对此数据集进行了MAPPFinder分析，要么是增加（倍数变化>1.2第页<0.05）或减少（折叠变化<-1.2和第页<0.05）。我们之所以选择这个数据集进行演示，是因为与成年小鼠心脏组织相比，在12.5天胚胎中观察到的基因表达存在大量差异。

MAPPFinder将本实验中测量的9946个探针组与11239个GO项联系起来[12]并计算符合标准和a的基因百分比z（z）每个GO学期的得分。表表11对数据集和GO之间的联系以及MAPPFinder进行的计算进行了总体总结。在FVB基准数据集中测量的9946个探针组中，近一半与GO项有关，约占与GO项相关的小鼠基因的70%[15]并且涵盖了目前已知的关于小鼠生物学的大部分内容。随着小鼠基因组数据库（MGD）添加更多GO术语和基因关联，微阵列数据集中与GO术语相关的基因比例将增加[16].

表1

MAPPFinder计算中使用的基因数

	用于开发的FVB基准数据集
测量的基因	9,946
与MGD直接相关的基因	6, 267
通过UniGene与MGD相关的基因	220
与GO术语相关的基因	5,120
与GO相关的独特基因	4,574
GO过程中测量/相关基因	3,544/4,962 (71.4%)
GO成分中测得/相关基因	3,238/4,691 (69.0%)
GO功能中测量/相关基因	3,999/5,846 (68.4%)
	12.5天胚胎

	增加	降低

基因改变	2,219	1,775
与GO过程相关的基因	806	711
与GO成分相关的基因	726	657
与GO功能相关的基因	885	783

在单独的窗口中打开

在该阵列测量的9946个基因中，6267个通过MGD引用的GenBank登录号链接到MGD数据库。使用UniGene作为中间步骤，将另外220个基因与MGD关联（参见材料和方法）。在这6487个基因中，5120个在小鼠GO基因关联文件中发现。去除重复探针后，4574个独特基因用于MAPPFinder分析。该数据集包含4962个与GO过程项相关的基因中的71.4%，4691个与GO-成分项相关的基因组中的69%，以及5846个与GO-function terms相关的基因的68.4%[15]. 在12.5天的胚胎中，2219个基因符合基因表达增加的标准，806个具有过程注释，726个具有成分注释，885个具有功能注释。降低的标准发现1775个基因，711个在过程中，657个在成分中，783个在功能中。

MAPPFinder将微阵列数据集中的基因分配给GO结构后，它计算每个GO项的百分比和z（z）符合用户标准的基因得分（参见材料和方法）。这两个值可用于识别GO术语，这些术语表示的基因表达变化数量过多（或不足）。MAPPFinder结果以两种形式显示。第一个是GO浏览器，它以图形方式显示GO层次结构中的MAPPFinder结果（图（图2a2年,，3a）。3a年). 第二个是一个文本文件，列出了所有度量的GO术语，按z（z）分数。给出了符合标准的基因数量、实验中测量的基因数量以及MGD分配给每个GO项的基因数量，以及各自的百分比和z（z）分数，在文本文件和GO浏览器中（图（图2b）。2亿). 表表22显示了带有z（z）在胚胎12.5天的时间点，显著增加和减少的标准的得分大于2。改变基因少于5个或超过100个的GO术语被从列表中删除，因为这些术语对于我们的数据分析来说要么太具体，要么太笼统。该过滤器确定了显著增加标准的前108个（8.0%）GO项和显著减少标准的前63个（4.8%）GO-项。通过升高或降低z（z）得分截止，或包括基因数量较多或较少的术语。然后，手动修剪过滤后的列表中的相关GO项，以删除GO层次结构中任何过度表示的分支（有关完整结果，请参阅其他数据文件）。当父项和子项都出现在列表中时，如果父项的出现完全是由于符合子项标准的基因所致，则会删除父项。清单上的其余术语仍然有很大程度的相关性，但为了完整起见，保留在这里。

在单独的窗口中打开

图2

MAPPFinder浏览器。（a）GO层次的分支植根于生物过程术语“RNA加工”。这些术语用MAPPFinder结果着色，表示与成年小鼠相比，12.5天胚胎中的基因显著增加。基因发生0-5%变化的术语为黑色、5-15%紫色、15-25%深蓝色、25-35%浅蓝色、35-45%绿色、45-55%橙色和大于55%红色。术语RNA处理以黄色突出显示，表明它满足搜索或筛选要求。（b）MAPPFinder结果。RNA处理这一术语以标记的各种MAPPFinder结果显示。计算了符合标准的基因百分比和本实验测量的GO中的基因百分比。将单独计算此节点的结果，并将其与所有子节点（即嵌套结果）结合计算。这个z（z）分数表示符合标准的基因数量是否高于或低于预期。正值表示基因的改变比预期的要多；负分数意味着改变的基因比预期少，接近0的分数表示改变的数量接近GO项的预期值。

在单独的窗口中打开

图3

将MAPPFinder链接到GenMAPP。（a）MAPPFinder浏览器显示了12.5天胚胎增加的GO过程术语“糖酵解”结果。GO术语的颜色编码与图中相同图2。2.（b）在MAPPFinder浏览器中单击GO术语糖酵解生成相应的GenMAPP MAPP文件。此MAPP文件包含与此术语及其所有子项相关的基因列表。（c）使用GenMAPP中的工具对GO列表中的基因进行重排，以描述具有代谢中间体和细胞区室的糖酵解途径。（b）和（c）基因的颜色编码如下：红色，折叠变化>1.2和第页12.5天胚胎小鼠与成年小鼠之间的差异<0.05。蓝色，折叠变化<-1.2和第页< 0.05. 灰色，不符合上述标准。白色，阵列上未找到基因。

表2

与成年小鼠相比，12.5天胚胎的MAPPFinder基因结果显著增加，但显著减少

GO名称	编号已更改	测量的数量	GO中的数字	%已更改	%出席	z（z）分数
显著增加
过程
有丝分裂细胞周期	44	70	89	62.9	78.7	8.1631
DNA代谢	67	135	163	49.6	82.8	7.6807
信使核糖核酸剪接	19	21	30	90.5	70	7.4868
RNA加工	29	41	60	70.7	68.3	7.4411
RNA代谢	30	44	66	68.2	66.7	7.3038
细胞周期	98	240	291	40.8	82.5	7.0096
mRNA处理	24	33	45	72.7	73.3	6.9456
蛋白质生物合成	52	104	152	50	68.4	6.8095
高分子生物合成	57	121	172	47.1	70.3	6.5863
DNA复制	28	46	55	60.9	83.6	6.2752
DNA复制与染色体周期	29	49	62	59.2	79	6.1944
核糖体生物发生	19	28	37	67.9	75.7	5.7749
生物合成	89	242	334	36.8	72.5	5.4866
依赖DNA的DNA复制	13	18	22	72.2	81.8	5.0697
有丝分裂	13	18	24	72.2	75	5.0697
核部门	14	21	30	66.7	70	4.8663
DNA包装	20	36	46	55.6	78.3	4.7782
细胞组织和生物发生	74	207	294	35.7	70.4	4.6913
M相	15	25	36	60	69.4	4.5110
mRNA剪接位点选择	7	8	8	87.5	100	4.4125
DNA复制启动	6	7	7	85.7	100	4.0138
染色体组织和生物发生（真核感觉）	18	37	51	48.6	72.5	3.8338
DNA修复	21	46	53	45.7	86.8	3.7895
蛋白质折叠	12	22	31	54.5	71	3.6157
细胞质组织和生物发生	56	169	241	33.1	70.1	3.3912
染色质结构的建立和/或维护	13	27	35	48.1	77.1	3.2089
蛋白质合成伸长	6	9	37	66.7	24.3	3.1815
染色质组装/拆卸	10	20	25	50	80	2.9585
生物过程未知	34	98	250	34.7	39.2	2.9354
蛋白质-甘氨酸依赖性蛋白质降解	17	43	58	39.5	74.1	2.6968
泛素依赖性蛋白质降解	16	42	57	38.1	73.7	2.4404
蛋白质-核输入	5	9	10	55.6	90	2.3820
泛素循环	6	12	16	50	75	2.2896
核质转运	6	12	17	50	70.6	2.2896
肌动蛋白细胞骨架组织与生物发生	6	12	19	50	63.2	2.2896
跨膜受体蛋白Ser/Thr激酶信号通路	10	25	31	40	80.6	2.1081
诱导细胞凋亡	7	16	24	43.8	66.7	2.0449
组件
剪接体	17	20	42	85	47.6	6.7175
细胞质核糖体（真核感觉）	19	26	33	73.1	78.8	6.2032
细胞质溶胶	40	85	112	47.1	75.9	5.4872
核糖体	35	71	93	49.3	76.3	5.4624
染色体	19	36	55	52.8	65.5	4.3772
核膜内质网	9	12	17	75	70.6	4.3676
粘合连接	6	7	14	85.7	50	4.0138
内质网膜	7	9	13	77.8	69.2	3.9811
染色质	15	28	41	53.6	68.3	3.9579
蜂窝组件未知	41	117	291	35	40.2	3.3057
核仁	10	19	34	52.6	55.9	3.1587
26S蛋白酶体	11	22	23	50	95.7	3.1036
内质网	39	117	141	33.3	83	2.8569
20S核心蛋白酶体	9	19	19	47.4	100	2.6078
核膜	6	11	18	54.5	61.1	2.5536
细胞骨架	64	223	306	28.7	72.9	2.2918
胶原蛋白	10	25	31	40	80.6	2.1081
高尔基膜	7	16	18	43.8	88.9	2.0449
肌动蛋白细胞骨架	16	46	63	34.8	73	2.0140
功能
RNA结合	51	113	155	45.1	72.9	5.8498
周期蛋白依赖性蛋白激酶	17	24	33	70.8	72.7	5.6944
核糖体的结构组成	39	83	101	47	82.2	5.4055
细胞周期素依赖性蛋白激酶，调节器	12	17	24	70.6	70.8	4.7646
结构分子	77	223	278	34.5	80.2	4.4306
前mRNA剪接因子	7	8	12	87.5	66.7	4.4125
mRNA结合	10	14	19	71.4	73.7	4.3979
蛋白丝氨酸/苏氨酸激酶	62	181	243	34.3	74.5	3.8821
肌动蛋白结合	25	58	83	43.1	69.9	3.7927
蛋白酶体内肽酶	11	19	19	57.9	100	3.7096
DNA定向DNA聚合酶	7	10	15	70	66.7	3.6069
RHO小单体GTPase	7	10	10	70	100	3.6069
核苷酸转移酶	16	33	41	48.5	80.5	3.5964
激酶调节器	15	33	42	45.5	78.6	3.1777
DNA依赖性腺苷三磷酸酶	8	14	16	57.1	87.5	3.1151
细胞骨架蛋白结合	33	93	144	35.5	64.6	3.0423
DNA修复蛋白	11	23	27	47.8	85.2	2.9232
翻译因子，核酸结合	14	32	43	43.8	74.4	2.8970
转录辅激活剂	6	10	14	60	71.4	2.8483
染色质结合	5	8	11	62.5	72.7	2.7166
激酶	89	311	394	28.6	78.9	2.6983
磷酸转移酶，醇基为受体	87	305	386	28.5	79	2.6301
蛋白激酶	76	263	336	28.9	78.3	2.5796
核酸外切酶	6	11	15	54.5	73.3	2.5536
小单体GTPase	15	38	46	39.5	82.6	2.5247
GTP绑定	43	141	201	30.5	70.1	2.3248
肽基脯氨酸顺-反式异构酶	6	12	16	50	75	2.2896
平移延伸系数	6	12	16	50	75	2.2896
转录因子结合	11	27	43	40.7	62.8	2.2838
鸟苷酸结合	46	155	219	29.7	70.8	2.1927
腺苷三磷酸酶	12	31	38	38.7	81.6	2.1763
分子功能未知	29	91	230	31.9	39.6	2.1739
蛋白质结合	99	368	539	26.9	68.3	2.1328
伴侣	16	45	62	35.6	72.6	2.1166
具有抗拉强度的胞外基质结构成分	10	25	31	40	80.6	2.1081
DNA定向RNA聚合酶	5	10	11	50	90.9	2.0897
细胞骨架的结构组成	21	63	79	33.3	79.7	2.0838
转移酶，转移单碳基团	8	19	29	42.1	65.5	2.0570
GTP酶	25	78	95	32.1	82.1	2.0488
异构酶	12	32	42	37.5	76.2	2.0468
显著减少
过程
脂肪酸代谢	19	30	41	63.3	73.2	5.9082
碳水化合物代谢的主要途径	20	39	50	51.3	78	4.8600
有机化合物氧化产生的能量	23	50	66	46	75.8	4.5739
分解代谢碳水化合物代谢	18	36	45	50	80	4.4754
三羧酸循环	6	8	10	75	80	3.8664
己糖代谢	18	41	49	43.9	83.7	3.8016
脂质代谢	42	127	167	33.1	76	3.6708
脂质转运	5	7	11	71.4	63.6	3.3807
糖酵解	12	26	32	46.2	81.2	3.3091
过氧化物酶体组织和生物发生	7	12	15	58.3	80	3.2972
葡萄糖代谢	15	36	42	41.7	85.7	3.2247
淋巴腺发育	8	15	17	53.3	88.2	3.2043
细胞增殖	10	21	34	47.6	61.8	3.1400
体液免疫应答	15	37	79	40.5	46.8	3.0982
碳水化合物代谢	31	95	135	32.6	70.4	3.0557
细胞增殖的调节	5	8	15	62.5	53.3	2.9848
肌肉收缩	9	20	28	45	71.4	2.7716
肌肉发育	13	34	43	38.2	79.1	2.6328
中胚层发育	28	90	111	31.1	81.1	2.6096
钾运输	17	49	60	34.7	81.7	2.5450
金属离子运输	24	77	100	31.2	77	2.4230
单价无机阳离子转运	21	67	88	31.3	76.1	2.2935
补体激活	8	20	23	40	87	2.2132
阳离子运输	28	98	135	28.6	72.6	2.0923
电子传输	25	87	113	28.7	77	2.0075
组件
线粒体	88	187	293	47.1	63.8	9.3508
过氧化物酶体	18	29	42	62.1	69	5.6381
线粒体内膜	19	36	60	52.8	60	4.8922
线粒体电子传递链复合体	10	14	32	71.4	43.8	4.7848
线粒体膜	20	40	72	50	55.6	4.7195
细胞色素C氧化酶	6	8	16	75	50	3.8664
线粒体基质	9	22	33	40.9	66.7	2.4283
基底层	5	11	11	45.5	100	2.0910
细胞骨架	57	223	306	25.6	72.9	2.0527
功能
氢离子转运器	11	15	33	73.3	45.5	5.1373
初级活性转运蛋白	27	64	107	42.2	59.8	4.4175
阳离子转运体	17	36	61	47.2	59	4.0585
离子运输器	19	43	79	44.2	54.4	3.9406
细胞色素c氧化酶	6	8	16	75	50	3.8664
氧化还原酶	48	149	207	32.2	72	3.7213
主要组织相容性复合物抗原	13	30	54	43.3	55.6	3.1700
氧化还原酶，作用于供体的醛基或氧基	7	13	16	53.8	81.2	3.0285
承运人	40	131	196	30.5	66.8	2.9960
补充组件	8	16	19	50	84.2	2.9770
型三磷酸腺脢	5	9	11	55.6	81.8	2.6467
水解酶，作用于酸酐，催化物质的跨膜运动	15	42	67	35.7	62.7	2.5199
核酸酶、核苷、核苷酸激酶	7	16	19	43.8	84.2	2.3531
磷酸转移酶，磷酸基团作为受体	5	10	13	50	76.9	2.3520
谷胱甘肽转移酶	5	10	13	50	76.9	2.3520
P-P-键水解驱动转运体	17	52	78	32.7	66.7	2.2609
ATP-装订盒（ABC）运输机	11	30	50	36.7	60	2.2573
钾离子通道	15	45	56	33.3	80.4	2.2093
碳碳裂解酶	5	11	18	45.5	61.1	2.0910

在单独的窗口中打开

所有条款都带有z（z）得分为2分，至少5分，但少于100个符合标准的基因。

MAPPFinder的结果展示了与成年小鼠相比，12.5天胚胎中生物过程、细胞成分和分子功能增加和减少的总体情况（表（表2）。2). MAPPFinder使用显著增加基因表达变化的标准，初步确定了与细胞分裂和生长有关的GO术语。值得注意的GO术语包括“有丝分裂细胞周期”过程（70个基因中的62.9%，z（z）得分为8.1），“mRNA剪接”（21个基因中的90.5%，z（z）得分为7.5分）和“蛋白质生物合成”（104个基因中的50%，z（z）6.8分）。排名靠前的成分和功能术语反映了相同的生物过程。例如，组成术语“剪接体”表明，20个基因中有17个（85%，z（z）得分6.7）上调。这些过程的上调与心肌细胞在胚胎发育过程中保持有丝分裂活性这一事实相一致[17]. MAPPFinder结果表明，除了参与细胞分裂和生长的过程外，“跨膜受体蛋白丝氨酸/苏氨酸激酶信号通路”和“诱导凋亡”的过程也被上调，与细胞分裂和细胞生长有关z（z）得分约为2分。术语“跨膜受体蛋白丝氨酸/苏氨酸激酶信号通路”的出现是由于参与转化生长因子-β（TGFβ）受体信号传导的基因上调，TGFβ被认为调节心脏发育过程中形态发生所需的凋亡诱导[18,19].

与成年心脏相比，参与能量代谢的基因在12.5天的胚胎心脏中表现出最高水平的下调。特别是，过程术语“脂肪酸代谢”（30个基因中的63.3%，z（z）得分为5.9）和“碳水化合物代谢的主要途径”（39个基因中的51.3%，z（z）得分4.8），是术语“糖酵解”和“三羧酸循环”的父代，表明与成年小鼠相比，胚胎中的整体代谢基因下调。此外，组成术语“线粒体”显示187个基因中有88个（47.1%，z（z）分数9.1）被下调。脂肪酸代谢相关基因的下调与研究一致，研究表明发育中的心脏不同于成人心脏，它的能量不来自脂肪酸[20].

总的来说，MAPPFinder的结果为12.5天胚胎心脏与成年心脏相比的上调和下调过程提供了一个全局视角。结果证实了预期：与成人心脏相比，胚胎心脏的细胞分裂和生长增加，能量代谢降低。此外，MAPPFinder提供的全球基因表达谱允许将观察到的细胞分裂、生长和能量代谢的基因表达变化置于其他调控和发育过程的背景下，如TGFβ信号和凋亡。

MAPPFinder浏览器

将MAPPFinder结果作为排名列表进行查看可以提供丰富的信息，但它并没有充分利用GO是按层次结构排列的这一事实。MAPPFinder还显示了GO层次结构上下文中的结果（图（图2a2年,，3a）3a年)显示了整个层次结构，颜色编码的基因改变的百分比。用户可以逐步浏览层次结构，扩展显示基因表达变化的树分支，从广义的术语移动到更具体的类别。通常，术语的排名列表会显示许多相互关联的术语，有必要查看层次结构中的结果，以确定它们之间的关系。例如，术语“RNA代谢”、“RNA加工”、“mRNA加工”和“mRNA剪接”在表中显示为上调表2。2然而，树视图（图（图2a）2年)清楚地表明，mRNA剪接是RNA剪接和mRNA加工的子术语，而这又是RNA代谢的子术语。同样，术语“碳水化合物代谢的主要途径”、“分解代谢的碳水化合物代谢”和“糖酵解”也在表中显示为下调表2。2MAPPFinder浏览器（图（图3a）3a年)通过这些术语之间的层次关系，表明“糖酵解”与“碳水化合物代谢的主要途径”相关。

MAPPFinder浏览器还提供三种搜索和导航功能。首先，用户可以通过关键字或确切的GO术语名称进行搜索。其次，用户可以通过基因标识符进行搜索，以找到与该基因相关的GO项。例如，使用其SWISS-PROT标识符MYH6_MOUSE或其MGD标识符MGI:97255搜索α-肌球蛋白重链基因，可以找到GO过程术语“横纹肌收缩”、“细胞骨架组织和生物发生”、“蛋白质修饰”和“肌肉发育”。第三，用户可以自动展开GO树，以显示基因数量最少或基因百分比最小的所有节点，满足标准或最小z（z）分数。符合过滤器的术语以黄色突出显示，以清楚地指示搜索结果。

一旦用MAPPFinder识别出感兴趣的GO术语，用户就会想确切地知道哪些基因与这些术语相关，以及哪些基因正被差异表达。这可以使用GenMAPP完成。在MAPPFinder浏览器中选择GO术语会自动构建一个包含与该GO术语及其所有子项关联的基因的MAPP，并在GenMAPP中打开该MAPP。图图3b第3页显示了通过在MAPPFinder浏览器中选择GO术语“糖酵解”生成的MAPP。MAPP上的基因按照用于计算MAPPFinder结果的相同标准进行彩色编码，在12.5天胚胎时间点显著增加和减少。点击MAPP上的基因会打开一个“主页”，其中包含注释、基因表达数据以及指向公共数据库中该基因页面的超链接。通过集成GenMAPP和MAPPFinder，可以从所有生物过程、成分和功能的全球基因表达谱无缝过渡到对所涉及的特定基因的基因表达水平的详细描述。例如，对糖酵解MAPP的进一步检查表明，与成人心脏相比，12.5天胚胎中己糖激酶I上调，亚型II和IV下调。这与己糖激酶I是胚胎心脏的主要亚型一致[21].

将MAPPFinder扩展到GO之外

GO是分析生物途径背景下微阵列数据的良好起点，但这绝不是对相关基因进行分组的唯一方法。与其将每个GO过程表示为MAPP上的字母表，不如将这些基因之间的关系表示为一个完整描述的路径。作为这一方向的起点，GenMAPP.org[13]已经创建了50多个MAPP，描述了代谢途径、信号途径和基因家族。MAPPFinder可以将任何MAPP文件合并到其分析中，以增加GO层次结构。对于FVB基准开发数据集，我们在54个鼠标MAPP的存档上运行了MAPPFinder，可从[13]（有关完整结果，请参阅其他数据文件）。这些12.5天胚胎时间点的结果与GO结果一致，表明参与代谢途径“三羧酸循环”的基因表达（测量的12个基因中的83.3%，z（z）得分为5.91）和“脂肪酸降解”（测量的13个基因中的69.2%，z（z）得分4.82）显著降低。此外显著增加的标准鉴定了编码核糖体蛋白的基因（45个基因中的71.1%，z（z）得分6.75）和参与细胞周期的基因（15个基因中的53.3%，z（z）得分2.4）。

GenMAPP提供的MAPP档案并不全面。这一档案的增长取决于整个生物界的援助。我们希望，随着MAPPFinder用户看到将GO生物过程视为完整描述的路径的附加效用，他们将使用GenMAPP将基因列表组织成更具描述性的生物路径。图图3c3立方厘米给出了一个示例，说明如何使用GenMAPP中的工具重新排列GO术语“糖酵解”的基因，以描述显示酶级联、代谢中间产物和细胞隔室方向的完整路径。GenMAPP.org目前正在接受新MAPP文件的提交。社区贡献的MAPP将包含在可下载的MAPP档案中。

MAPPFinder是对当前分析工具的必要补充

通过从更高级别或组织访问大型数据集，MAPPFinder有助于简化数据分析并缩短对微阵列数据进行生物学理解所需的时间。MAPPFinder通过使用GO提供的大量注释，极大地扩展了当前基于路径的工具。这一广泛的分析将有助于确定尚未涉及特定实验条件的生物过程，并开始在以前认为不相关的生物过程之间建立联系。

MAPPFinder可用于酵母、小鼠和人类数据。我们计划将该计划扩展到GO中的许多其他物种，更新将在[13].

材料和方法

基因表达数据

公开可用的小鼠微阵列数据集，即心脏发育、成熟和衰老的FVB基准集，是从基因组应用的心脏基因组计划获得的[14]. 这些数据使用雄性和雌性FVB/N小鼠比较发育过程中不同时间点的健康小鼠心脏。具体而言，该数据集检查了12.5天胚胎、1天新生小鼠、1周小鼠、4周小鼠和5个月和1年成年小鼠的心脏组织。我们的分析集中于12.5天胚胎时间点和对照成年小鼠。每个时间点使用三个Affymetrix U74A版本1阵列。在胚胎发育期，每个阵列共有三个心脏，因为它们体积较小。为了提高我们分析中的统计能力，将5月龄和1年龄小鼠合并为一组正常成年小鼠。使用Affymetrix MAS 5.0软件获得信号强度值。将小于20的信号值提高到20，并取对数基数2。与联合对照组的平均值相比，根据每个时间点的平均值确定对数折叠。P（P）通过排列计算值t吨测试。使用R统计编程语言的multest包进行统计分析[22]. 将这些数据导入GenMAPP，并将生成的GenMAPP表达式数据集文件（.gex）导出到MAPPFinder。

MAPPFinder需要用户定义的标准来进行有意义的基因表达更改。在这种情况下，我们将折叠变化与统计滤波器相结合，以确定显著性。我们使用大于1.2的折叠变化第页值小于0.05，定义基因表达显著增加，并且倍变小于-1.2第页-值小于0.05，定义基因表达显著降低。为了确定每个GO项中基因表达变化的总数，一个大于1.2或小于1.2的折叠变化的附加标准和一个第页使用小于0.05的值（未显示数据）。

值得注意的是，虽然我们使用了Affymetrix GeneChips产生的基因表达数据，但来自其他微阵列平台和其他技术的数据，如SAGE（基因表达的序列分析），也可以同样容易地使用。

将表达数据链接到基因本体

MAPPFinder使用GO提供的三个本体文件（Process、Component和Function）构建GO层次结构的本地副本[12]. GO的有向无环图（DAG）结构[23]允许节点是多个父节点的子节点。这使得MAPPFinder结果的导航、可视化和计算比GO存储在经典树结构中更加困难。为了简化实现MAPPFinder算法所需的编程，DAG结构被转换为经典树。对于包含多个父节点的DAG的每个节点，使用本地标识符将多个副本插入GO的树表示中，以处理重复的GO项。此树结构维护GO DAG结构中实施的“真实路径”规则。MAPPFinder在内部处理此转换，对于用户来说，MAPPFinderbrowser中看到的GO层次结构将与其他GO浏览器中看到的相同。

GO项和表达式数据集中的基因之间的链接是通过基因关联文件建立的[15]. 这些协会来自欧洲生物信息学研究所[24]对于人类基因，小鼠基因组数据库（MGD）[16]小鼠基因，以及酵母菌属基因组数据库（SGD）[25]用于酵母基因。目前，输入数据中的基因必须使用GenBank、SWISS-PROT或SGD标识符进行识别。

MAPPFinder使用关系数据库将表达式数据集链接到基因关联文件。MAPPFinder数据库将基因表达数据与每个物种的适当基因识别系统相关联（图（图1）。1). 对于人类数据，基因关联文件使用SWISS-PROT标识符，需要SWISS-PROT到GenBank的关系表，以使用GenBank登录号将数据集链接到GO注释。对于酵母数据，基因关联文件使用SGD标识符。对于使用SWISS-PROT标识符的表达式数据集，还包括一个SWISS-PROT-to-SGD关系表。对于鼠标数据，GO基因关联文件使用MGD标识符，需要GenBank-to-MGD关系表和SWISS-PROT-to-MGD关系表。MAPPFinder利用了MGD也与UniGene相关的事实，允许将MGD-GenBank关系表中不存在的其他EST用作基因标识符。通过这个中间步骤，可以将更多的GenBank标识符链接到GO注释。目前，SWISS-PROT和UniGene之间没有直接关系，因此没有对人类数据使用类似的中间步骤。

计算MAPPFinder结果

MAPPFinder计算每个GO术语中符合用户定义标准的基因百分比，此测量称为“变化百分比”。MAPPFinder还计算了实验中测量到的与GO项相关的基因百分比，该测量称为“存在百分比”。计算存在百分比对于确定GO项在数据集中的表示程度是必要的。

GO基因关联文件[17]可能存在问题，因为它们独立处理每个GO项，从而消除了隐含的父子关系。因此，单独查看GO术语通常没有什么信息，因为与任何一个术语相关的基因数量小于该过程、成分或功能所涉及的实际基因数量。为了解决这个问题，我们计算了一个父术语的嵌套百分比，该父术语在层次结构中的所有子项都位于它下面。通过将子项与其父项相结合，结果包含了与层次结构的整个分支相关的基因，从而更准确地表示了参与该过程、组件或功能的基因数量。随着GO的更具体分支被检查，两个方程的分母将变小，用户可以找到他们想要的特异性水平。这种方法带来的一个复杂问题是，在某些情况下，一个基因与父项和子项或多个子项都相关。当计算子树的百分比时，我们确保每个基因只计数一次，这样具有多个注释的基因就不会被加权得更重。

计算MAPPFinder结果时出现的另一个复杂问题是阵列上同一基因的多个探针的问题。在这种情况下，特征或重复基因聚集到一个独特的基因。如果数组中该基因的任何实例符合用户定义的标准，则该基因符合用户定义标准。独特基因的数量也用于计算z（z）得分，意味着统计数据仅基于数据集中每个基因的一次出现。

还提供了每个MAPP和GO项中相对基因表达活性的统计评级。这是一个标准化的差异分数(z（z）得分）使用超几何分布下符合GO项标准的基因数量的期望值和标准偏差。这个z（z）该分数有助于根据基因表达变化的相对量对GO术语进行排名。积极的z（z）分数表明GO术语中符合标准的基因数量比偶然预期的要多。否定z（z）分数表明符合标准的GO术语的基因比偶然预期的要少。A类z（z）分数接近零表示符合标准的基因数量接近预期数量。极端阳性的分数表明GO术语具有最大的信心，即该组基因表达变化之间的相关性不是偶然发生的。P（P）没有为GO项或MAPP赋值，因为这样的标准化差异分数可能接近正常值z（z）单个MAPP的得分、GO术语之间缺乏独立性以及它们之间发生的多次测试肯定会使正常第页这样的值z（z）得分不可靠。因此，第页未将值分配给GO术语和MAPP。

这个z（z）分数的计算方法是从预期的基因数中减去符合标准的GO项（或MAPP）中观察到的基因数，再除以观察到的基因组数的标准差。使用的方程式为

保存图片、插图等的外部文件。对象名称为gb-2003-4-1-r7-i1.gif

或

保存图片、插图等的外部文件。对象名称为gb-2003-4-1-r7-i2.gif

哪里N个是测量的基因总数，R（右）是符合标准的基因总数，n个是该特定MAPP中的基因总数，以及第页是符合此特定MAPP标准的基因数。

因此，如果两个GO术语包含相同数量的基因，则符合标准的基因数量越多的术语将获得更高的分数。除以标准差可以调整GO项的大小，将大量符合标准的基因排在GO项（或MAPP）的前面，而GO项与MAPP的基因变化百分比相同，但总基因较少。

MAPPFinder结果在GO浏览器中生成，用于在GO层次结构的上下文中进行分析，并作为制表符分隔的文本文件，可用于电子表格程序中的数据排序和过滤。

其他数据文件

以下附加数据文件可用：

FVBN开发数据的形式为GenMAPP表达式数据集文件（.gex）。它包含微阵列数据集和用于定义增加和减少基因表达变化的标准。它可以在GenMAPP中打开进行编辑，是与MAPPFinder一起使用的适当数据类型。

FVBN开发数据作为数据库文件由MAPPFinder（.gdb）生成。它包含数据集中的基因和GO层次结构之间的关系。可以在Microsoft Access中打开该文件以进行查看。必须存在此文件，才能从现有MAPPFinder结果生成GenMAPP MAPP。

文件中包含了12.5天胚胎与成年小鼠的MAPPFinder结果：12.5天胚胎-显著增加-基因本体结果,12.5天胚胎-显著增加-局部结果,12.5天胚胎-显著减少-基因本体结果,12.5天胚胎-显著减少-局部结果,12.5天胚胎-所有变化-基因本体结果,12.5天胚胎-所有变化-局部结果。这些文本文件包含两个条件以及GO层次结构和GenMAPP.org MAPP的MAPPFinder结果。这些文件可以加载到MAPPFinder中，以便在MAPPFinder-GO浏览器中查看。这些文件以制表符分隔，也可以在Microsoft Excel中作为表格查看。“All Changes”文件包含寻找增加或减少基因表达变化的标准的结果。A类zip文件包含所有附加数据文件。

补充材料

附加数据文件1：

以GenMAPP表达式数据集文件（.gex）形式的FVBN开发数据。它包含微阵列数据集和用于定义增加和减少基因表达变化的标准。它可以在GenMAPP中打开进行编辑，是与MAPPFinder一起使用的适当数据类型。

单击此处查看其他数据文件^{（310万gex）}

附加数据文件2：

FVBN开发数据作为MAPPFinder（.gdb）生成的数据库文件。它包含数据集中的基因和GO层次结构之间的关系。可以在Microsoft Access中打开该文件以进行查看。必须存在此文件才能从现有的MAPPFinder结果构建GenMAPP MAP。

单击此处查看其他数据文件^{（4.1M，gdb）}

附加数据文件3：

12.5天胚胎-显著增加-基因本体结果

单击此处查看其他数据文件^{（96K，文本）}

附加数据文件4：

12.5天胚胎-显著增加-局部结果

单击此处查看其他数据文件^{（2.3K，文本）}

附加数据文件5:

12.5天胚胎-显著减少-基因本体结果

单击此处查看其他数据文件^{（93K，文本）}

附加数据文件6：

12.5天胚胎-显著减少-局部结果

单击此处查看其他数据文件^{（2.6K，txt）}

附加数据文件7：

12.5天胚胎-所有变化-基因本体结果

单击此处查看其他数据文件^{（128K，txt）}

附加数据文件8：

12.5天胚胎-所有变化-局部结果

单击此处查看其他数据文件^{（2.8K，txt）}

附加数据文件9：

包含所有附加数据文件的zip文件。

单击此处查看其他数据文件^{（2.5M，拉链）}

致谢

我们感谢A.Zambon、W.Tingley、T.Speed、P.Bacchetti和J.Myers就MAPPFinder的设计和实现进行了有益的对话，感谢B.Taylor帮助编写了这份手稿，感谢S.Izumo和CardioGenomics公开了微阵列数据集。这项工作得到了J.David Gladstone Institutes、旧金山总医院综合临床研究中心、国家心脏、肺和血液研究所、旧金山综合医院综合临床研发中心MO1RR00083（B.R.C.）和NHLBI基因组应用计划（BayGenomics）的支持。

工具书类

Eisen MB、Spellman PT、Brown PO、Botstein D.全基因组表达模式的聚类分析和显示。美国国家科学院程序。1998;95:14863–14868. doi:10.1073/pnas.95.25.14863。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Tamayo P、Slonim D、Mesirov J、Zhu Q、Dmitrovsky E、Lander ES、Golub TR。用自组织图解释基因表达：方法和在血样分化中的应用。美国国家科学院程序。1999;96:2907–2912. doi:10.1073/pnas.96.6.2907。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Dahlquist KD、Salomonis N、Vranizan K、Lawlor SC、Conklin BR.GenMAPP，一种查看和分析生物途径微阵列数据的新工具。自然遗传学。2002;31:19–20. doi:10.1038/ng0502-19。[公共医学] [交叉参考][谷歌学者]
Nakao M、Bono H、Kawashima S、Kamiya T、Sato K、Goto S、Kanehisa M。KEGG中基因表达分析和通路重建。基因组通知Ser WorkShop基因组通知。1999;10:94–103.[公共医学][谷歌学者]
Karp PD、Riley M、Paley SM、Pellegrini-Toole A.MetaCyc数据库。核酸研究。2002;30:59–61. doi:10.1093/nar/30.1.59。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Grosu P，Townsend J，Hartl D，Cavalieri D.路径处理器：将全基因组表达结果整合到代谢网络中的工具。基因组研究。2002;12:1121–1126. doi:10.1101/gr.226602。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Luyf A，de Gast J，van Kampen A.在全基因组范围内可视化代谢活动。生物信息学。2002;18:813–818. doi:10.1093/bioinformatics/18.6.813。[公共医学] [交叉参考][谷歌学者]
Ashburner M、Ball CA、Blake JA、Botstein D、Butler H、Cherry JM、Davis AP、Dolinski K、Dwight SS、Eppig JT等。基因本体：生物学统一的工具。自然遗传学。2000;25:25–29. doi:10.1038/75556。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Pletcher SD、MacDonald SJ、Marguerie R、Certa U、Stearns SC、Goldstein DB、Partridge L.衰老和热量限制的全基因组转录谱黑腹果蝇.当前生物量。2002;12:712–723. doi:10.1016/S0960-9822（02）00808-4。[公共医学] [交叉参考][谷歌学者]
Silcon Genetics产品：Gene Springhttp://www.silicongenetics.com/cgi/SiG.cgi/Products/GeneSpring/index.smf
Affymetrix-NetAffx分析中心http://www.affmetrix.com/analysis/index.affx
基因本体项目本体文件ftp://ftp.geneontology.org/go/ontology/
基因芯片通路分析http://www.GenMAPP.org（英文）
心脏基因组学：心脏发育、成熟和衰老的FVB基准数据集http://www.cardiogenomics.org/1550/groups/proj1/pages/fvb_home.html
基因本体工程基因关联文件ftp://ftp.geneontology.org/go/gene-associations公司
Blake JA、Richardson JE、Bult CJ、Kadin JA、Eppig JT、小鼠基因组数据库组小鼠基因组数据库（MGD）：实验室小鼠的模型生物数据库。核酸研究。2002;30:113–115. [PMC免费文章][公共医学][谷歌学者]
朱红。心肌细胞发育和形态发生。收录：Langer GA，编辑。在《心肌》中。加州圣地亚哥：学术出版社；1997年，第33–80页。[谷歌学者]
Poelmann R、Molin D、Wisse L、Gittenberger-de Groot A.心脏发育中的细胞凋亡。细胞组织研究。2000;301:43–52.[公共医学][谷歌学者]
Kubalak S，Hutson D，Scott K，Shannon R。在视网膜X受体α基因敲除的胚胎中，转化生长因子β2升高会促进细胞凋亡，并导致流出道和主动脉囊发育异常。发展。2002;129:733–746. [PMC免费文章][公共医学][谷歌学者]
Lopaschuk G，Collins-Nakai R，Itoi T。心脏能量底物使用的发育变化。心血管研究。1992;26:1172–1180.[公共医学][谷歌学者]
Fritz H，Smoak I，Branch S.Hexokinase I在器官发生早期和晚期胚胎小鼠心脏中的表达和活性。组织化学细胞生物学。1999;112:359–365. doi:10.1007/s004180050417。[公共医学] [交叉参考][谷歌学者]
在重复cDNA微阵列实验中识别差异表达基因的统计方法http://www.stat.berkeley.edu/users/terry/zarray/TechReport/578.pdf
基因本体联盟创建基因本体资源：设计和实现。基因组研究。2001;11:1425–1433. [PMC免费文章][公共医学][谷歌学者]
EMBL-EBI:GOA项目在线http://www.ebi.ac.uk/GOA/project.html
Dwight SS、Harris MA、Dolinski K、Ball CA、Binkley G、Christie KR、Fisk DG、Issel-Tarver L、Schroeder M、Sherlock G等。酵母菌属基因组数据库（SGD）使用基因本体（GO）提供二级基因注释。核酸研究。2002;30:69–72. [PMC免费文章][公共医学][谷歌学者]

文章来自基因组生物学由以下人员提供BMC公司

MAPPFinder：使用基因本体和GenMAPP从微阵列数据创建全局基因表达谱

斯科特·多尼格

内森·萨洛莫尼斯

坎·德·达尔奎斯特

卡伦·弗拉尼桑

史蒂文·劳勒

布鲁斯·康克林

关联数据

简短摘要

摘要

背景

结果和讨论

表1

表2

MAPPFinder浏览器

将MAPPFinder扩展到GO之外

MAPPFinder是对当前分析工具的必要补充

材料和方法

基因表达数据

将表达数据链接到基因本体

计算MAPPFinder结果

其他数据文件

补充材料

致谢

工具书类