MAPPFinder:使用基因本体和GenMAPP从微阵列数据创建全局基因表达谱
,1 ,1 ,1,2 ,1,4 ,1和1,2,三 斯科特·多尼格
1美国加州大学旧金山格莱斯顿心血管病研究所,邮编:94141-9100
内森·萨洛莫尼斯
1美国加州大学旧金山格莱斯顿心血管病研究所,邮编:94141-9100
坎·德·达尔奎斯特
1美国加州大学旧金山格莱斯顿心血管病研究所,邮编:94141-9100
2美国加州大学旧金山分校心血管研究所,邮编:94143
卡伦·弗拉尼桑
1美国加州大学旧金山格莱斯顿心血管病研究所,邮编:94141-9100
4美国加州大学伯克利分校功能基因组实验室,邮编:94720
史蒂文·劳勒
1美国加州大学旧金山格莱斯顿心血管病研究所,邮编:94141-9100
布鲁斯·康克林
1美国加州大学旧金山格莱斯顿心血管病研究所,邮编:94141-9100
2美国加州大学旧金山分校心血管研究所,邮编:94143
三美国加州大学旧金山分校医学系、细胞和分子药理学系,邮编:94143
1美国加州大学旧金山格莱斯顿心血管病研究所,邮编:94141-9100
2美国加州大学旧金山分校心血管研究所,邮编94143
三美国加州大学旧金山分校医学系、细胞和分子药理学系,邮编:94143
4美国加州大学伯克利分校功能基因组实验室,邮编:94720
通信:Bruce R Conklin。电子邮件:bconklin@gladstone.ucsf.edu
通讯作者。 接收日期:2002年9月11日;2002年10月8日修订;2002年11月8日接受。
版权©2003 Doniger等人。;被许可方BioMed Central Ltd.这是一篇开放存取文章:允许在所有媒体上出于任何目的逐字复制和重新分发这篇文章,前提是此通知与文章的原始URL一起保存。 - 补充资料
附加数据文件1 GenMAPP表达式数据集文件(.gex)形式的FVBN开发数据。它包含微阵列数据集和用于定义增加和减少基因表达变化的标准。它可以在GenMAPP中打开进行编辑,是与MAPPFinder一起使用的适当数据类型。
GUID:5B316EE7-F8EC-42A9-8B58-0E4106894535
附加数据文件2 FVBN开发数据作为MAPPFinder(.gdb)生成的数据库文件。它包含数据集中的基因和GO层次结构之间的关系。可以在Microsoft Access中打开该文件以进行查看。必须存在此文件,才能从现有MAPPFinder结果生成GenMAPP MAPP。
GUID:355CD3AC-B0E8-416C-B2BB-37DA5EAB7B20
附加数据文件3 12.5天胚胎-显著增加-基因本体结果
GUID:407B8DDB-ABC9-460B-8A77-2E6A9D9F0DCB
附加数据文件4 12.5天胚胎-显著增加-局部结果
GUID:D1E4886B-0885-4501-AA82-D1C70C7A9EDD
附加数据文件5 12.5天胚胎-显著减少-基因本体结果
GUID:76D638DF-C8E6-4B9B-88D2-567851AF833F
附加数据文件6 12.5天胚胎-显著减少-局部结果
指南:73CAFD5C-8CCE-4CAD-98F7-77657E6A570C
附加数据文件7 12.5天胚胎-所有变化-基因本体结果
GUID:81A3ACED-ED6A-4141-A6EC-3215314682B7
附加数据文件8 12.5天胚胎-所有变化-局部结果
GUID:445CA442-BE24-4AB7-8AA4-50E43D37FB96
附加数据文件9包含所有附加数据文件的zip文件。
GUID:DF685E64-4EC6-478D-9BE5-0041C9FE0920
简短摘要
MAPPFinder是一个工具,它通过将基因本体(GO)项目的注释与自由软件包GenMAPP集成,在生物学的所有领域创建全球基因表达谱。
摘要
MAPPFinder是一个工具,它通过将基因本体(GO)项目的注释与自由软件包GenMAPP集成,在生物学的所有领域创建全球基因表达谱http://www.GenMAPP.org(英文)。结果显示在一个可搜索的浏览器中,允许用户快速识别GO术语和基因表达变化过多的数字。点击GO术语会生成GenMAPP图形文件,在其中可以探索、注释基因关系,并且可以自由交换文件。
背景
DNA微阵列实验同时测量数千个基因的表达水平,产生了大量数据。对这些数据的分析对生物学家提出了巨大的挑战,需要新的工具来帮助从这些实验中获得生物学见解。虽然数据是针对单个基因生成的,但在逐个基因的基础上检查数据集是很耗时的,并且很难在整个数据集上执行。加快数据分析速度的一种方法是从更高级别的组织中获取数据。这可以使用数据驱动的方法来实现,例如层次聚类和自组织映射[1,2]识别具有相似表达模式的基因组。一种补充方法是在已知生物过程或途径的水平上查看数据。识别那些显示出大量基因表达变化的生物相关基因组,将对特定数据集中发生的生物学进行信息描述,从而产生新的假设,并确定需要更详细调查的特定生物学领域。
GenMAPP(Gene MicroArray Pathway Profiler)是一种有助于识别重要生物过程的工具[三]是一个程序,用于查看和分析微阵列路径剖面(MAPP)上的微阵列数据,该微阵列路径轮廓表示生物路径或任何其他基因功能分组。当MAPP链接到基因表达数据集时,GenMAPP会根据用户提供的标准自动动态地对MAPP上的基因进行颜色编码。GenMAPP是基于路径的基因表达数据分析的有用起点,但在使用该工具识别所有生物学中相关的基因表达变化之前,需要满足几个关键要求。在实践层面上,需要自动化基于路径的微阵列数据分析,以便探索所有可能的路径。识别单个通路中的相关基因表达变化通常很有趣,但有必要知道在特定通路上看到的基因表达变化是该通路独有的还是发生在许多其他通路中。对自动化同样重要的是扩展以数字表示的路径信息。GenMAPP目前有50多个描述各种生物途径和基因家族的MAPP文件,但这仍然只是所有已知生物学的一小部分[三]. 其他几个途径项目,如KEGG[4]、经济周期/元周期[5],路径处理器(使用KEGG)[6]和ViMAc[7]可与微阵列数据分析集成,但这些程序侧重于明确定义的代谢途径,如GenMAPP,将从更广泛的途径信息基础中受益。
为了解决这个问题,我们使用了基因本体(GO)联盟提供的信息[8]. GO联盟正在创建一个定义的词汇表,描述所有基因的生物过程、细胞成分和分子功能。GO以分层方式构建,GO术语之间存在父子关系。公共基因数据库的馆长正在将基因分配给GO术语,以便为单个基因提供注释和生物背景。除了提供基因注释外,GO还提供了一种结构,用于将基因组织成生物相关组。这些分组可以作为鉴定微阵列实验中显示相关基因表达变化的生物学领域的基础。虽然GO已被手动和一些软件包用于注释微阵列数据[9,10,11],还没有自动化的方法将其用于基于路径的分析。
我们开发了一个名为MAPPFinder的工具,它将基因表达式数据动态链接到GO层次结构。对于11239个([12]; 截至2002年5月6日])GO生物过程、细胞成分和分子功能术语,MAPPFinder计算符合用户定义标准的被测基因的百分比。这是针对每个特定GO节点进行的,并针对父GO项及其所有子项中符合标准的基因的累积总数,给出了与特定GO项相关的基因数量的完整图片。使用此百分比和z(z)score(参见材料和方法),用户可以根据基因表达变化的相对数量对GO术语进行排名。因此,MAPPFinder在生物过程、细胞成分和分子功能的水平上生成基因表达谱,快速确定需要进一步研究的生物学领域(图).
MAPPFinder的工作原理。微阵列数据作为GenMAPP基因表达数据集导入MAPPFinder。MAPPFinder使用关系数据库和GO中的基因关联文件,将数据集中的数千个基因分配给数千个GO术语。MAPPFinder使用用户定义的显著基因表达变化标准,计算符合标准的基因百分比以及每个GO项的统计分数。使用MAPPFinder生成的排名列表和GO浏览器,用户可以快速识别有趣的GO术语,并对其进行高水平的基因表达更改。这些GO术语中涉及的特定基因可以使用GenMAPP在自动生成的MAPP上进行检测。
MAPPFinder和GenMAPP都可以在免费充值[13].
结果和讨论
为了证明MAPPFinder的实用性,我们使用该程序分析了公开可用的小鼠微阵列数据集,即FVB心脏发育、成熟和衰老基准集[14]. 该数据集测量了12.5天胚胎和成年小鼠心脏中的基因表达水平。我们利用12.5天的胚胎时间点来确定那些显示胚胎心脏和成年心脏之间差异表达基因的生物过程。我们使用两个标准对此数据集进行了MAPPFinder分析,要么是增加(倍数变化>1.2第页<0.05)或减少(折叠变化<-1.2和第页<0.05)。我们之所以选择这个数据集进行演示,是因为与成年小鼠心脏组织相比,在12.5天胚胎中观察到的基因表达存在大量差异。
MAPPFinder将本实验中测量的9946个探针组与11239个GO项联系起来[12]并计算符合标准和a的基因百分比z(z)每个GO学期的得分。表对数据集和GO之间的联系以及MAPPFinder进行的计算进行了总体总结。在FVB基准数据集中测量的9946个探针组中,近一半与GO项有关,约占与GO项相关的小鼠基因的70%[15]并且涵盖了目前已知的关于小鼠生物学的大部分内容。随着小鼠基因组数据库(MGD)添加更多GO术语和基因关联,微阵列数据集中与GO术语相关的基因比例将增加[16].
表1
| 用于开发的FVB基准数据集 |
测量的基因 | 9,946 |
与MGD直接相关的基因 | 6, 267 |
通过UniGene与MGD相关的基因 | 220 |
与GO术语相关的基因 | 5,120 |
与GO相关的独特基因 | 4,574 |
GO过程中测量/相关基因 | 3,544/4,962 (71.4%) |
GO成分中测得/相关基因 | 3,238/4,691 (69.0%) |
GO功能中测量/相关基因 | 3,999/5,846 (68.4%) |
| 12.5天胚胎 |
|
|
| 增加 | 降低 |
|
基因改变 | 2,219 | 1,775 |
与GO过程相关的基因 | 806 | 711 |
与GO成分相关的基因 | 726 | 657 |
与GO功能相关的基因 | 885 | 783 |
MAPPFinder将微阵列数据集中的基因分配给GO结构后,它计算每个GO项的百分比和z(z)符合用户标准的基因得分(参见材料和方法)。这两个值可用于识别GO术语,这些术语表示的基因表达变化数量过多(或不足)。MAPPFinder结果以两种形式显示。第一个是GO浏览器,它以图形方式显示GO层次结构中的MAPPFinder结果(图,). 第二个是一个文本文件,列出了所有度量的GO术语,按z(z)分数。给出了符合标准的基因数量、实验中测量的基因数量以及MGD分配给每个GO项的基因数量,以及各自的百分比和z(z)分数,在文本文件和GO浏览器中(图). 表显示了带有z(z)在胚胎12.5天的时间点,显著增加和减少的标准的得分大于2。改变基因少于5个或超过100个的GO术语被从列表中删除,因为这些术语对于我们的数据分析来说要么太具体,要么太笼统。该过滤器确定了显著增加标准的前108个(8.0%)GO项和显著减少标准的前63个(4.8%)GO-项。通过升高或降低z(z)得分截止,或包括基因数量较多或较少的术语。然后,手动修剪过滤后的列表中的相关GO项,以删除GO层次结构中任何过度表示的分支(有关完整结果,请参阅其他数据文件)。当父项和子项都出现在列表中时,如果父项的出现完全是由于符合子项标准的基因所致,则会删除父项。清单上的其余术语仍然有很大程度的相关性,但为了完整起见,保留在这里。
MAPPFinder浏览器。(a)GO层次的分支植根于生物过程术语“RNA加工”。这些术语用MAPPFinder结果着色,表示与成年小鼠相比,12.5天胚胎中的基因显著增加。基因发生0-5%变化的术语为黑色、5-15%紫色、15-25%深蓝色、25-35%浅蓝色、35-45%绿色、45-55%橙色和大于55%红色。术语RNA处理以黄色突出显示,表明它满足搜索或筛选要求。(b)MAPPFinder结果。RNA处理这一术语以标记的各种MAPPFinder结果显示。计算了符合标准的基因百分比和本实验测量的GO中的基因百分比。将单独计算此节点的结果,并将其与所有子节点(即嵌套结果)结合计算。这个z(z)分数表示符合标准的基因数量是否高于或低于预期。正值表示基因的改变比预期的要多;负分数意味着改变的基因比预期少,接近0的分数表示改变的数量接近GO项的预期值。
将MAPPFinder链接到GenMAPP。(a)MAPPFinder浏览器显示了12.5天胚胎增加的GO过程术语“糖酵解”结果。GO术语的颜色编码与图中相同.(b)在MAPPFinder浏览器中单击GO术语糖酵解生成相应的GenMAPP MAPP文件。此MAPP文件包含与此术语及其所有子项相关的基因列表。(c)使用GenMAPP中的工具对GO列表中的基因进行重排,以描述具有代谢中间体和细胞区室的糖酵解途径。(b)和(c)基因的颜色编码如下:红色,折叠变化>1.2和第页12.5天胚胎小鼠与成年小鼠之间的差异<0.05。蓝色,折叠变化<-1.2和第页< 0.05. 灰色,不符合上述标准。白色,阵列上未找到基因。
表2
与成年小鼠相比,12.5天胚胎的MAPPFinder基因结果显著增加,但显著减少
GO名称 | 编号已更改 | 测量的数量 | GO中的数字 | %已更改 | %出席 | z(z)分数 |
显著增加 | | | | | | |
过程 | | | | | | |
有丝分裂细胞周期 | 44 | 70 | 89 | 62.9 | 78.7 | 8.1631 |
DNA代谢 | 67 | 135 | 163 | 49.6 | 82.8 | 7.6807 |
信使核糖核酸剪接 | 19 | 21 | 30 | 90.5 | 70 | 7.4868 |
RNA加工 | 29 | 41 | 60 | 70.7 | 68.3 | 7.4411 |
RNA代谢 | 30 | 44 | 66 | 68.2 | 66.7 | 7.3038 |
细胞周期 | 98 | 240 | 291 | 40.8 | 82.5 | 7.0096 |
mRNA处理 | 24 | 33 | 45 | 72.7 | 73.3 | 6.9456 |
蛋白质生物合成 | 52 | 104 | 152 | 50 | 68.4 | 6.8095 |
高分子生物合成 | 57 | 121 | 172 | 47.1 | 70.3 | 6.5863 |
DNA复制 | 28 | 46 | 55 | 60.9 | 83.6 | 6.2752 |
DNA复制与染色体周期 | 29 | 49 | 62 | 59.2 | 79 | 6.1944 |
核糖体生物发生 | 19 | 28 | 37 | 67.9 | 75.7 | 5.7749 |
生物合成 | 89 | 242 | 334 | 36.8 | 72.5 | 5.4866 |
依赖DNA的DNA复制 | 13 | 18 | 22 | 72.2 | 81.8 | 5.0697 |
有丝分裂 | 13 | 18 | 24 | 72.2 | 75 | 5.0697 |
核部门 | 14 | 21 | 30 | 66.7 | 70 | 4.8663 |
DNA包装 | 20 | 36 | 46 | 55.6 | 78.3 | 4.7782 |
细胞组织和生物发生 | 74 | 207 | 294 | 35.7 | 70.4 | 4.6913 |
M相 | 15 | 25 | 36 | 60 | 69.4 | 4.5110 |
mRNA剪接位点选择 | 7 | 8 | 8 | 87.5 | 100 | 4.4125 |
DNA复制启动 | 6 | 7 | 7 | 85.7 | 100 | 4.0138 |
染色体组织和生物发生(真核感觉) | 18 | 37 | 51 | 48.6 | 72.5 | 3.8338 |
DNA修复 | 21 | 46 | 53 | 45.7 | 86.8 | 3.7895 |
蛋白质折叠 | 12 | 22 | 31 | 54.5 | 71 | 3.6157 |
细胞质组织和生物发生 | 56 | 169 | 241 | 33.1 | 70.1 | 3.3912 |
染色质结构的建立和/或维护 | 13 | 27 | 35 | 48.1 | 77.1 | 3.2089 |
蛋白质合成伸长 | 6 | 9 | 37 | 66.7 | 24.3 | 3.1815 |
染色质组装/拆卸 | 10 | 20 | 25 | 50 | 80 | 2.9585 |
生物过程未知 | 34 | 98 | 250 | 34.7 | 39.2 | 2.9354 |
蛋白质-甘氨酸依赖性蛋白质降解 | 17 | 43 | 58 | 39.5 | 74.1 | 2.6968 |
泛素依赖性蛋白质降解 | 16 | 42 | 57 | 38.1 | 73.7 | 2.4404 |
蛋白质-核输入 | 5 | 9 | 10 | 55.6 | 90 | 2.3820 |
泛素循环 | 6 | 12 | 16 | 50 | 75 | 2.2896 |
核质转运 | 6 | 12 | 17 | 50 | 70.6 | 2.2896 |
肌动蛋白细胞骨架组织与生物发生 | 6 | 12 | 19 | 50 | 63.2 | 2.2896 |
跨膜受体蛋白Ser/Thr激酶信号通路 | 10 | 25 | 31 | 40 | 80.6 | 2.1081 |
诱导细胞凋亡 | 7 | 16 | 24 | 43.8 | 66.7 | 2.0449 |
组件 | | | | | | |
剪接体 | 17 | 20 | 42 | 85 | 47.6 | 6.7175 |
细胞质核糖体(真核感觉) | 19 | 26 | 33 | 73.1 | 78.8 | 6.2032 |
细胞质溶胶 | 40 | 85 | 112 | 47.1 | 75.9 | 5.4872 |
核糖体 | 35 | 71 | 93 | 49.3 | 76.3 | 5.4624 |
染色体 | 19 | 36 | 55 | 52.8 | 65.5 | 4.3772 |
核膜内质网 | 9 | 12 | 17 | 75 | 70.6 | 4.3676 |
粘合连接 | 6 | 7 | 14 | 85.7 | 50 | 4.0138 |
内质网膜 | 7 | 9 | 13 | 77.8 | 69.2 | 3.9811 |
染色质 | 15 | 28 | 41 | 53.6 | 68.3 | 3.9579 |
蜂窝组件未知 | 41 | 117 | 291 | 35 | 40.2 | 3.3057 |
核仁 | 10 | 19 | 34 | 52.6 | 55.9 | 3.1587 |
26S蛋白酶体 | 11 | 22 | 23 | 50 | 95.7 | 3.1036 |
内质网 | 39 | 117 | 141 | 33.3 | 83 | 2.8569 |
20S核心蛋白酶体 | 9 | 19 | 19 | 47.4 | 100 | 2.6078 |
核膜 | 6 | 11 | 18 | 54.5 | 61.1 | 2.5536 |
细胞骨架 | 64 | 223 | 306 | 28.7 | 72.9 | 2.2918 |
胶原蛋白 | 10 | 25 | 31 | 40 | 80.6 | 2.1081 |
高尔基膜 | 7 | 16 | 18 | 43.8 | 88.9 | 2.0449 |
肌动蛋白细胞骨架 | 16 | 46 | 63 | 34.8 | 73 | 2.0140 |
功能 | | | | | | |
RNA结合 | 51 | 113 | 155 | 45.1 | 72.9 | 5.8498 |
周期蛋白依赖性蛋白激酶 | 17 | 24 | 33 | 70.8 | 72.7 | 5.6944 |
核糖体的结构组成 | 39 | 83 | 101 | 47 | 82.2 | 5.4055 |
细胞周期素依赖性蛋白激酶,调节器 | 12 | 17 | 24 | 70.6 | 70.8 | 4.7646 |
结构分子 | 77 | 223 | 278 | 34.5 | 80.2 | 4.4306 |
前mRNA剪接因子 | 7 | 8 | 12 | 87.5 | 66.7 | 4.4125 |
mRNA结合 | 10 | 14 | 19 | 71.4 | 73.7 | 4.3979 |
蛋白丝氨酸/苏氨酸激酶 | 62 | 181 | 243 | 34.3 | 74.5 | 3.8821 |
肌动蛋白结合 | 25 | 58 | 83 | 43.1 | 69.9 | 3.7927 |
蛋白酶体内肽酶 | 11 | 19 | 19 | 57.9 | 100 | 3.7096 |
DNA定向DNA聚合酶 | 7 | 10 | 15 | 70 | 66.7 | 3.6069 |
RHO小单体GTPase | 7 | 10 | 10 | 70 | 100 | 3.6069 |
核苷酸转移酶 | 16 | 33 | 41 | 48.5 | 80.5 | 3.5964 |
激酶调节器 | 15 | 33 | 42 | 45.5 | 78.6 | 3.1777 |
DNA依赖性腺苷三磷酸酶 | 8 | 14 | 16 | 57.1 | 87.5 | 3.1151 |
细胞骨架蛋白结合 | 33 | 93 | 144 | 35.5 | 64.6 | 3.0423 |
DNA修复蛋白 | 11 | 23 | 27 | 47.8 | 85.2 | 2.9232 |
翻译因子,核酸结合 | 14 | 32 | 43 | 43.8 | 74.4 | 2.8970 |
转录辅激活剂 | 6 | 10 | 14 | 60 | 71.4 | 2.8483 |
染色质结合 | 5 | 8 | 11 | 62.5 | 72.7 | 2.7166 |
激酶 | 89 | 311 | 394 | 28.6 | 78.9 | 2.6983 |
磷酸转移酶,醇基为受体 | 87 | 305 | 386 | 28.5 | 79 | 2.6301 |
蛋白激酶 | 76 | 263 | 336 | 28.9 | 78.3 | 2.5796 |
核酸外切酶 | 6 | 11 | 15 | 54.5 | 73.3 | 2.5536 |
小单体GTPase | 15 | 38 | 46 | 39.5 | 82.6 | 2.5247 |
GTP绑定 | 43 | 141 | 201 | 30.5 | 70.1 | 2.3248 |
肽基脯氨酸顺-反式异构酶 | 6 | 12 | 16 | 50 | 75 | 2.2896 |
平移延伸系数 | 6 | 12 | 16 | 50 | 75 | 2.2896 |
转录因子结合 | 11 | 27 | 43 | 40.7 | 62.8 | 2.2838 |
鸟苷酸结合 | 46 | 155 | 219 | 29.7 | 70.8 | 2.1927 |
腺苷三磷酸酶 | 12 | 31 | 38 | 38.7 | 81.6 | 2.1763 |
分子功能未知 | 29 | 91 | 230 | 31.9 | 39.6 | 2.1739 |
蛋白质结合 | 99 | 368 | 539 | 26.9 | 68.3 | 2.1328 |
伴侣 | 16 | 45 | 62 | 35.6 | 72.6 | 2.1166 |
具有抗拉强度的胞外基质结构成分 | 10 | 25 | 31 | 40 | 80.6 | 2.1081 |
DNA定向RNA聚合酶 | 5 | 10 | 11 | 50 | 90.9 | 2.0897 |
细胞骨架的结构组成 | 21 | 63 | 79 | 33.3 | 79.7 | 2.0838 |
转移酶,转移单碳基团 | 8 | 19 | 29 | 42.1 | 65.5 | 2.0570 |
GTP酶 | 25 | 78 | 95 | 32.1 | 82.1 | 2.0488 |
异构酶 | 12 | 32 | 42 | 37.5 | 76.2 | 2.0468 |
显著减少 | | | | | | |
过程 | | | | | | |
脂肪酸代谢 | 19 | 30 | 41 | 63.3 | 73.2 | 5.9082 |
碳水化合物代谢的主要途径 | 20 | 39 | 50 | 51.3 | 78 | 4.8600 |
有机化合物氧化产生的能量 | 23 | 50 | 66 | 46 | 75.8 | 4.5739 |
分解代谢碳水化合物代谢 | 18 | 36 | 45 | 50 | 80 | 4.4754 |
三羧酸循环 | 6 | 8 | 10 | 75 | 80 | 3.8664 |
己糖代谢 | 18 | 41 | 49 | 43.9 | 83.7 | 3.8016 |
脂质代谢 | 42 | 127 | 167 | 33.1 | 76 | 3.6708 |
脂质转运 | 5 | 7 | 11 | 71.4 | 63.6 | 3.3807 |
糖酵解 | 12 | 26 | 32 | 46.2 | 81.2 | 3.3091 |
过氧化物酶体组织和生物发生 | 7 | 12 | 15 | 58.3 | 80 | 3.2972 |
葡萄糖代谢 | 15 | 36 | 42 | 41.7 | 85.7 | 3.2247 |
淋巴腺发育 | 8 | 15 | 17 | 53.3 | 88.2 | 3.2043 |
细胞增殖 | 10 | 21 | 34 | 47.6 | 61.8 | 3.1400 |
体液免疫应答 | 15 | 37 | 79 | 40.5 | 46.8 | 3.0982 |
碳水化合物代谢 | 31 | 95 | 135 | 32.6 | 70.4 | 3.0557 |
细胞增殖的调节 | 5 | 8 | 15 | 62.5 | 53.3 | 2.9848 |
肌肉收缩 | 9 | 20 | 28 | 45 | 71.4 | 2.7716 |
肌肉发育 | 13 | 34 | 43 | 38.2 | 79.1 | 2.6328 |
中胚层发育 | 28 | 90 | 111 | 31.1 | 81.1 | 2.6096 |
钾运输 | 17 | 49 | 60 | 34.7 | 81.7 | 2.5450 |
金属离子运输 | 24 | 77 | 100 | 31.2 | 77 | 2.4230 |
单价无机阳离子转运 | 21 | 67 | 88 | 31.3 | 76.1 | 2.2935 |
补体激活 | 8 | 20 | 23 | 40 | 87 | 2.2132 |
阳离子运输 | 28 | 98 | 135 | 28.6 | 72.6 | 2.0923 |
电子传输 | 25 | 87 | 113 | 28.7 | 77 | 2.0075 |
组件 | | | | | | |
线粒体 | 88 | 187 | 293 | 47.1 | 63.8 | 9.3508 |
过氧化物酶体 | 18 | 29 | 42 | 62.1 | 69 | 5.6381 |
线粒体内膜 | 19 | 36 | 60 | 52.8 | 60 | 4.8922 |
线粒体电子传递链复合体 | 10 | 14 | 32 | 71.4 | 43.8 | 4.7848 |
线粒体膜 | 20 | 40 | 72 | 50 | 55.6 | 4.7195 |
细胞色素C氧化酶 | 6 | 8 | 16 | 75 | 50 | 3.8664 |
线粒体基质 | 9 | 22 | 33 | 40.9 | 66.7 | 2.4283 |
基底层 | 5 | 11 | 11 | 45.5 | 100 | 2.0910 |
细胞骨架 | 57 | 223 | 306 | 25.6 | 72.9 | 2.0527 |
功能 | | | | | | |
氢离子转运器 | 11 | 15 | 33 | 73.3 | 45.5 | 5.1373 |
初级活性转运蛋白 | 27 | 64 | 107 | 42.2 | 59.8 | 4.4175 |
阳离子转运体 | 17 | 36 | 61 | 47.2 | 59 | 4.0585 |
离子运输器 | 19 | 43 | 79 | 44.2 | 54.4 | 3.9406 |
细胞色素c氧化酶 | 6 | 8 | 16 | 75 | 50 | 3.8664 |
氧化还原酶 | 48 | 149 | 207 | 32.2 | 72 | 3.7213 |
主要组织相容性复合物抗原 | 13 | 30 | 54 | 43.3 | 55.6 | 3.1700 |
氧化还原酶,作用于供体的醛基或氧基 | 7 | 13 | 16 | 53.8 | 81.2 | 3.0285 |
承运人 | 40 | 131 | 196 | 30.5 | 66.8 | 2.9960 |
补充组件 | 8 | 16 | 19 | 50 | 84.2 | 2.9770 |
型三磷酸腺脢 | 5 | 9 | 11 | 55.6 | 81.8 | 2.6467 |
水解酶,作用于酸酐,催化物质的跨膜运动 | 15 | 42 | 67 | 35.7 | 62.7 | 2.5199 |
核酸酶、核苷、核苷酸激酶 | 7 | 16 | 19 | 43.8 | 84.2 | 2.3531 |
磷酸转移酶,磷酸基团作为受体 | 5 | 10 | 13 | 50 | 76.9 | 2.3520 |
谷胱甘肽转移酶 | 5 | 10 | 13 | 50 | 76.9 | 2.3520 |
P-P-键水解驱动转运体 | 17 | 52 | 78 | 32.7 | 66.7 | 2.2609 |
ATP-装订盒(ABC)运输机 | 11 | 30 | 50 | 36.7 | 60 | 2.2573 |
钾离子通道 | 15 | 45 | 56 | 33.3 | 80.4 | 2.2093 |
碳碳裂解酶 | 5 | 11 | 18 | 45.5 | 61.1 | 2.0910 |
MAPPFinder的结果展示了与成年小鼠相比,12.5天胚胎中生物过程、细胞成分和分子功能增加和减少的总体情况(表). MAPPFinder使用显著增加基因表达变化的标准,初步确定了与细胞分裂和生长有关的GO术语。值得注意的GO术语包括“有丝分裂细胞周期”过程(70个基因中的62.9%,z(z)得分为8.1),“mRNA剪接”(21个基因中的90.5%,z(z)得分为7.5分)和“蛋白质生物合成”(104个基因中的50%,z(z)6.8分)。排名靠前的成分和功能术语反映了相同的生物过程。例如,组成术语“剪接体”表明,20个基因中有17个(85%,z(z)得分6.7)上调。这些过程的上调与心肌细胞在胚胎发育过程中保持有丝分裂活性这一事实相一致[17]. MAPPFinder结果表明,除了参与细胞分裂和生长的过程外,“跨膜受体蛋白丝氨酸/苏氨酸激酶信号通路”和“诱导凋亡”的过程也被上调,与细胞分裂和细胞生长有关z(z)得分约为2分。术语“跨膜受体蛋白丝氨酸/苏氨酸激酶信号通路”的出现是由于参与转化生长因子-β(TGFβ)受体信号传导的基因上调,TGFβ被认为调节心脏发育过程中形态发生所需的凋亡诱导[18,19].
与成年心脏相比,参与能量代谢的基因在12.5天的胚胎心脏中表现出最高水平的下调。特别是,过程术语“脂肪酸代谢”(30个基因中的63.3%,z(z)得分为5.9)和“碳水化合物代谢的主要途径”(39个基因中的51.3%,z(z)得分4.8),是术语“糖酵解”和“三羧酸循环”的父代,表明与成年小鼠相比,胚胎中的整体代谢基因下调。此外,组成术语“线粒体”显示187个基因中有88个(47.1%,z(z)分数9.1)被下调。脂肪酸代谢相关基因的下调与研究一致,研究表明发育中的心脏不同于成人心脏,它的能量不来自脂肪酸[20].
总的来说,MAPPFinder的结果为12.5天胚胎心脏与成年心脏相比的上调和下调过程提供了一个全局视角。结果证实了预期:与成人心脏相比,胚胎心脏的细胞分裂和生长增加,能量代谢降低。此外,MAPPFinder提供的全球基因表达谱允许将观察到的细胞分裂、生长和能量代谢的基因表达变化置于其他调控和发育过程的背景下,如TGFβ信号和凋亡。
MAPPFinder浏览器
将MAPPFinder结果作为排名列表进行查看可以提供丰富的信息,但它并没有充分利用GO是按层次结构排列的这一事实。MAPPFinder还显示了GO层次结构上下文中的结果(图,)显示了整个层次结构,颜色编码的基因改变的百分比。用户可以逐步浏览层次结构,扩展显示基因表达变化的树分支,从广义的术语移动到更具体的类别。通常,术语的排名列表会显示许多相互关联的术语,有必要查看层次结构中的结果,以确定它们之间的关系。例如,术语“RNA代谢”、“RNA加工”、“mRNA加工”和“mRNA剪接”在表中显示为上调然而,树视图(图)清楚地表明,mRNA剪接是RNA剪接和mRNA加工的子术语,而这又是RNA代谢的子术语。同样,术语“碳水化合物代谢的主要途径”、“分解代谢的碳水化合物代谢”和“糖酵解”也在表中显示为下调MAPPFinder浏览器(图)通过这些术语之间的层次关系,表明“糖酵解”与“碳水化合物代谢的主要途径”相关。
MAPPFinder浏览器还提供三种搜索和导航功能。首先,用户可以通过关键字或确切的GO术语名称进行搜索。其次,用户可以通过基因标识符进行搜索,以找到与该基因相关的GO项。例如,使用其SWISS-PROT标识符MYH6_MOUSE或其MGD标识符MGI:97255搜索α-肌球蛋白重链基因,可以找到GO过程术语“横纹肌收缩”、“细胞骨架组织和生物发生”、“蛋白质修饰”和“肌肉发育”。第三,用户可以自动展开GO树,以显示基因数量最少或基因百分比最小的所有节点,满足标准或最小z(z)分数。符合过滤器的术语以黄色突出显示,以清楚地指示搜索结果。
一旦用MAPPFinder识别出感兴趣的GO术语,用户就会想确切地知道哪些基因与这些术语相关,以及哪些基因正被差异表达。这可以使用GenMAPP完成。在MAPPFinder浏览器中选择GO术语会自动构建一个包含与该GO术语及其所有子项关联的基因的MAPP,并在GenMAPP中打开该MAPP。图显示了通过在MAPPFinder浏览器中选择GO术语“糖酵解”生成的MAPP。MAPP上的基因按照用于计算MAPPFinder结果的相同标准进行彩色编码,在12.5天胚胎时间点显著增加和减少。点击MAPP上的基因会打开一个“主页”,其中包含注释、基因表达数据以及指向公共数据库中该基因页面的超链接。通过集成GenMAPP和MAPPFinder,可以从所有生物过程、成分和功能的全球基因表达谱无缝过渡到对所涉及的特定基因的基因表达水平的详细描述。例如,对糖酵解MAPP的进一步检查表明,与成人心脏相比,12.5天胚胎中己糖激酶I上调,亚型II和IV下调。这与己糖激酶I是胚胎心脏的主要亚型一致[21].
将MAPPFinder扩展到GO之外
GO是分析生物途径背景下微阵列数据的良好起点,但这绝不是对相关基因进行分组的唯一方法。与其将每个GO过程表示为MAPP上的字母表,不如将这些基因之间的关系表示为一个完整描述的路径。作为这一方向的起点,GenMAPP.org[13]已经创建了50多个MAPP,描述了代谢途径、信号途径和基因家族。MAPPFinder可以将任何MAPP文件合并到其分析中,以增加GO层次结构。对于FVB基准开发数据集,我们在54个鼠标MAPP的存档上运行了MAPPFinder,可从[13](有关完整结果,请参阅其他数据文件)。这些12.5天胚胎时间点的结果与GO结果一致,表明参与代谢途径“三羧酸循环”的基因表达(测量的12个基因中的83.3%,z(z)得分为5.91)和“脂肪酸降解”(测量的13个基因中的69.2%,z(z)得分4.82)显著降低。此外显著增加的标准鉴定了编码核糖体蛋白的基因(45个基因中的71.1%,z(z)得分6.75)和参与细胞周期的基因(15个基因中的53.3%,z(z)得分2.4)。
GenMAPP提供的MAPP档案并不全面。这一档案的增长取决于整个生物界的援助。我们希望,随着MAPPFinder用户看到将GO生物过程视为完整描述的路径的附加效用,他们将使用GenMAPP将基因列表组织成更具描述性的生物路径。图给出了一个示例,说明如何使用GenMAPP中的工具重新排列GO术语“糖酵解”的基因,以描述显示酶级联、代谢中间产物和细胞隔室方向的完整路径。GenMAPP.org目前正在接受新MAPP文件的提交。社区贡献的MAPP将包含在可下载的MAPP档案中。
MAPPFinder是对当前分析工具的必要补充
通过从更高级别或组织访问大型数据集,MAPPFinder有助于简化数据分析并缩短对微阵列数据进行生物学理解所需的时间。MAPPFinder通过使用GO提供的大量注释,极大地扩展了当前基于路径的工具。这一广泛的分析将有助于确定尚未涉及特定实验条件的生物过程,并开始在以前认为不相关的生物过程之间建立联系。
MAPPFinder可用于酵母、小鼠和人类数据。我们计划将该计划扩展到GO中的许多其他物种,更新将在[13].
材料和方法
基因表达数据
公开可用的小鼠微阵列数据集,即心脏发育、成熟和衰老的FVB基准集,是从基因组应用的心脏基因组计划获得的[14]. 这些数据使用雄性和雌性FVB/N小鼠比较发育过程中不同时间点的健康小鼠心脏。具体而言,该数据集检查了12.5天胚胎、1天新生小鼠、1周小鼠、4周小鼠和5个月和1年成年小鼠的心脏组织。我们的分析集中于12.5天胚胎时间点和对照成年小鼠。每个时间点使用三个Affymetrix U74A版本1阵列。在胚胎发育期,每个阵列共有三个心脏,因为它们体积较小。为了提高我们分析中的统计能力,将5月龄和1年龄小鼠合并为一组正常成年小鼠。使用Affymetrix MAS 5.0软件获得信号强度值。将小于20的信号值提高到20,并取对数基数2。与联合对照组的平均值相比,根据每个时间点的平均值确定对数折叠。P(P)通过排列计算值t吨测试。使用R统计编程语言的multest包进行统计分析[22]. 将这些数据导入GenMAPP,并将生成的GenMAPP表达式数据集文件(.gex)导出到MAPPFinder。
MAPPFinder需要用户定义的标准来进行有意义的基因表达更改。在这种情况下,我们将折叠变化与统计滤波器相结合,以确定显著性。我们使用大于1.2的折叠变化第页值小于0.05,定义基因表达显著增加,并且倍变小于-1.2第页-值小于0.05,定义基因表达显著降低。为了确定每个GO项中基因表达变化的总数,一个大于1.2或小于1.2的折叠变化的附加标准和一个第页使用小于0.05的值(未显示数据)。
值得注意的是,虽然我们使用了Affymetrix GeneChips产生的基因表达数据,但来自其他微阵列平台和其他技术的数据,如SAGE(基因表达的序列分析),也可以同样容易地使用。
将表达数据链接到基因本体
MAPPFinder使用GO提供的三个本体文件(Process、Component和Function)构建GO层次结构的本地副本[12]. GO的有向无环图(DAG)结构[23]允许节点是多个父节点的子节点。这使得MAPPFinder结果的导航、可视化和计算比GO存储在经典树结构中更加困难。为了简化实现MAPPFinder算法所需的编程,DAG结构被转换为经典树。对于包含多个父节点的DAG的每个节点,使用本地标识符将多个副本插入GO的树表示中,以处理重复的GO项。此树结构维护GO DAG结构中实施的“真实路径”规则。MAPPFinder在内部处理此转换,对于用户来说,MAPPFinderbrowser中看到的GO层次结构将与其他GO浏览器中看到的相同。
GO项和表达式数据集中的基因之间的链接是通过基因关联文件建立的[15]. 这些协会来自欧洲生物信息学研究所[24]对于人类基因,小鼠基因组数据库(MGD)[16]小鼠基因,以及酵母菌属基因组数据库(SGD)[25]用于酵母基因。目前,输入数据中的基因必须使用GenBank、SWISS-PROT或SGD标识符进行识别。
MAPPFinder使用关系数据库将表达式数据集链接到基因关联文件。MAPPFinder数据库将基因表达数据与每个物种的适当基因识别系统相关联(图). 对于人类数据,基因关联文件使用SWISS-PROT标识符,需要SWISS-PROT到GenBank的关系表,以使用GenBank登录号将数据集链接到GO注释。对于酵母数据,基因关联文件使用SGD标识符。对于使用SWISS-PROT标识符的表达式数据集,还包括一个SWISS-PROT-to-SGD关系表。对于鼠标数据,GO基因关联文件使用MGD标识符,需要GenBank-to-MGD关系表和SWISS-PROT-to-MGD关系表。MAPPFinder利用了MGD也与UniGene相关的事实,允许将MGD-GenBank关系表中不存在的其他EST用作基因标识符。通过这个中间步骤,可以将更多的GenBank标识符链接到GO注释。目前,SWISS-PROT和UniGene之间没有直接关系,因此没有对人类数据使用类似的中间步骤。
计算MAPPFinder结果
MAPPFinder计算每个GO术语中符合用户定义标准的基因百分比,此测量称为“变化百分比”。MAPPFinder还计算了实验中测量到的与GO项相关的基因百分比,该测量称为“存在百分比”。计算存在百分比对于确定GO项在数据集中的表示程度是必要的。
GO基因关联文件[17]可能存在问题,因为它们独立处理每个GO项,从而消除了隐含的父子关系。因此,单独查看GO术语通常没有什么信息,因为与任何一个术语相关的基因数量小于该过程、成分或功能所涉及的实际基因数量。为了解决这个问题,我们计算了一个父术语的嵌套百分比,该父术语在层次结构中的所有子项都位于它下面。通过将子项与其父项相结合,结果包含了与层次结构的整个分支相关的基因,从而更准确地表示了参与该过程、组件或功能的基因数量。随着GO的更具体分支被检查,两个方程的分母将变小,用户可以找到他们想要的特异性水平。这种方法带来的一个复杂问题是,在某些情况下,一个基因与父项和子项或多个子项都相关。当计算子树的百分比时,我们确保每个基因只计数一次,这样具有多个注释的基因就不会被加权得更重。
计算MAPPFinder结果时出现的另一个复杂问题是阵列上同一基因的多个探针的问题。在这种情况下,特征或重复基因聚集到一个独特的基因。如果数组中该基因的任何实例符合用户定义的标准,则该基因符合用户定义标准。独特基因的数量也用于计算z(z)得分,意味着统计数据仅基于数据集中每个基因的一次出现。
还提供了每个MAPP和GO项中相对基因表达活性的统计评级。这是一个标准化的差异分数(z(z)得分)使用超几何分布下符合GO项标准的基因数量的期望值和标准偏差。这个z(z)该分数有助于根据基因表达变化的相对量对GO术语进行排名。积极的z(z)分数表明GO术语中符合标准的基因数量比偶然预期的要多。否定z(z)分数表明符合标准的GO术语的基因比偶然预期的要少。A类z(z)分数接近零表示符合标准的基因数量接近预期数量。极端阳性的分数表明GO术语具有最大的信心,即该组基因表达变化之间的相关性不是偶然发生的。P(P)没有为GO项或MAPP赋值,因为这样的标准化差异分数可能接近正常值z(z)单个MAPP的得分、GO术语之间缺乏独立性以及它们之间发生的多次测试肯定会使正常第页这样的值z(z)得分不可靠。因此,第页未将值分配给GO术语和MAPP。
这个z(z)分数的计算方法是从预期的基因数中减去符合标准的GO项(或MAPP)中观察到的基因数,再除以观察到的基因组数的标准差。使用的方程式为
或
哪里N个是测量的基因总数,R(右)是符合标准的基因总数,n个是该特定MAPP中的基因总数,以及第页是符合此特定MAPP标准的基因数。
因此,如果两个GO术语包含相同数量的基因,则符合标准的基因数量越多的术语将获得更高的分数。除以标准差可以调整GO项的大小,将大量符合标准的基因排在GO项(或MAPP)的前面,而GO项与MAPP的基因变化百分比相同,但总基因较少。
MAPPFinder结果在GO浏览器中生成,用于在GO层次结构的上下文中进行分析,并作为制表符分隔的文本文件,可用于电子表格程序中的数据排序和过滤。
补充材料
附加数据文件1:以GenMAPP表达式数据集文件(.gex)形式的FVBN开发数据。它包含微阵列数据集和用于定义增加和减少基因表达变化的标准。它可以在GenMAPP中打开进行编辑,是与MAPPFinder一起使用的适当数据类型。
附加数据文件2:FVBN开发数据作为MAPPFinder(.gdb)生成的数据库文件。它包含数据集中的基因和GO层次结构之间的关系。可以在Microsoft Access中打开该文件以进行查看。必须存在此文件才能从现有的MAPPFinder结果构建GenMAPP MAP。
附加数据文件3:12.5天胚胎-显著增加-基因本体结果
附加数据文件4:12.5天胚胎-显著增加-局部结果
附加数据文件5:12.5天胚胎-显著减少-基因本体结果
附加数据文件6:12.5天胚胎-显著减少-局部结果
附加数据文件7:12.5天胚胎-所有变化-基因本体结果
附加数据文件8:12.5天胚胎-所有变化-局部结果
附加数据文件9:包含所有附加数据文件的zip文件。
致谢
我们感谢A.Zambon、W.Tingley、T.Speed、P.Bacchetti和J.Myers就MAPPFinder的设计和实现进行了有益的对话,感谢B.Taylor帮助编写了这份手稿,感谢S.Izumo和CardioGenomics公开了微阵列数据集。这项工作得到了J.David Gladstone Institutes、旧金山总医院综合临床研究中心、国家心脏、肺和血液研究所、旧金山综合医院综合临床研发中心MO1RR00083(B.R.C.)和NHLBI基因组应用计划(BayGenomics)的支持。