摘要

基因集富集分析(GSEA)在大规模数据分析中发挥着重要作用,帮助科学家发现基因列表中过度表达的潜在生物模式,例如“组学”研究。基因本体(GO)注释是基因集定义中最常用的分类机制。在这里,我们提出了一个新的GSEA工具,PANGEA(PANWEY,Network and Gene-set Enrich Analysis;https://www.flyrnai.org/tools/pangea(网址:https://www.flyrnai.org/tools/pangea)/),开发用于使用各种分类集实现更灵活和可配置的数据分析方法。PANGEA允许对不同的GO注释集执行GO分析,例如排除高通量研究。除了GO之外,还包括来自各种资源的通路注释和蛋白质复合物数据的基因集,以及来自基因组资源联盟(Alliance of Genome resources)的表达和疾病注释。此外,通过提供查看基因集到基因关系网络的选项,可以增强结果的可视化。该工具还允许对多个输入基因列表进行比较,并附带可视化工具,以便快速轻松地进行比较。此新工具将促进GSEA果蝇属以及基于这些物种可用的高质量注释信息的其他主要模式生物。

PANGEA是一种新的在线基因集富集分析工具,具有从多种资源收集的分类集,涵盖GO、通路、表达、疾病、表型等数据。
图形摘要

PANGEA是一种新的在线基因集富集分析工具,具有从多种资源收集的分类集,涵盖GO、通路、表达、疾病、表型等数据。

简介

现代遗传学和基因组学在很大程度上得益于使用普通模式生物所做的工作。这些模型继续为理解发育、新陈代谢、神经科学、行为和疾病做出重要贡献。随着“大数据”时代的到来,人们需要分析平台来消除多物种研究中的复杂数据。模型生物数据库(MOD)是专门为其研究社区管理、存储和整合物种特定数据的知识库。在过去的十年中,我们做出了许多努力,旨在将模型生物和人类数据汇集在一起,以促进一种更加跨学科的方法;例子包括MARRVEL(稀有变异体实验的模型生物聚合资源)(1),Gene2功能(2)和君主倡议(). 此外,基因组资源联盟(Alliance of Genome Resources)(4)是一个由七个模型生物数据库和基因本体(GO)联盟(GOC)组成的联盟,最近成立,目标是构建一个伞形资源,用户可以从中导航单个集成知识库中的组合数据。为了帮助支持这种资源,国防部正在努力减少主要数据的管理、存储和呈现方式的差异,以促进比较和翻译研究。

尽管这些集成资源允许跨特定数据类进行搜索和比较,但大规模数据分析仍属于独立的生物信息工具(如DAVID)领域(5),TermMapper(6),戈里拉(7),PANTHER基因列表分析(8),网络格式塔(9)和g:分析器(10),重点是处理基因列表以提取共享生物特征的统计度量,通常称为基因集富集分析(GSEA)。GSEA中最常用的基因集分类是GO注释,该注释基于生物学研究中最广泛使用的本体(一种分层控制词汇),用于与给定基因产品相关的野生型分子功能、生物过程和细胞成分(11,12). 许多GSEA工具还包括来自其他来源的分类,如Reactome(13)和KEGG(14)路径(例如DAVID、WebGestalt和g:Profiler),对于人类研究,可能还有其他数据源,例如人类表型本体(HPO)(15)和人类孟德尔在线遗传(OMIM)(16)(例如网络格式塔)。在GO之外添加基因集允许用户提取更多的分类信息,并在丰富的集合中寻找趋势和重叠。DAVID和g:Profiler是为数不多的两种资源,使用户可以在同一显示器上比较不同的集合;然而,在这些资源中与结果后处理交互的能力相当有限。

尽管有丰富的工具,但我们发现它们并不能完全满足社区的需求,主要是因为它们过于关注人类基因数据,没有使用其他物种的最新数据。例如,Reactome路径注释是基于人工管理的人类路径得出的计算预测。有一些针对组织的分析工具;原核中心GSEA FUNAGE-Pro(17)是一个例子,其中基础知识库是为了满足特定研究群体的需要而组装的。果蝇RNAi筛选中心(DRSC)和果蝇知识库FlyBase开发了许多有用的基因分类资源(例如通路、复合物、基因组)(18–22). 此外,在FlyBase中,甚至在MOD中,有几种常见的精选数据,包括疾病模型、表型和基因表达,可用于GSEA。与GO对基因功能数据的注释不同,GO在多个生物体中以一致的方式进行注释,其他数据类型在MOD中以不同的方式表示,反映了这些生物体遗传学中的一些技术差异。联盟的成立是为了整合多个国防部的数据(4)现在提供了一个协调数据源,也可用于GSEA。为了充分利用对不同模式生物的研究,我们描述了我们创建的一个新工具,我们命名为PANGEA。尽管我们的主要关注点是果蝇基因,但我们开发了PANGEA,还包括大鼠、小鼠、斑马鱼、线虫的数据,以及协调的人类数据,以促进转化研究。PANGEA不仅结合了Alliance和MOD的额外基因集分类,而且还实现了一些功能,通过允许用户选择集合并对其进行视觉比较来增强富集结果的呈现,以便于解释,并使对多个基因列表进行并行GSEA变得容易。这种灵活性使用户能够根据自己的需要调整工具,并通过扩大用于分析的知识库来实现“偶然”发现。

材料和方法

为PANGEA建立知识库

基因集分类是一种基于共同性(如相同的生物途径)对基因进行分组的方法。我们从各种公共资源中收集了30多万个基因集(表1,2)用于果蝇D.黑腹果蝇线虫秀丽线虫斑马鱼斑马鱼,鼠标小M,老鼠褐鼠和人类智人对于基于按层次结构排列的受控词汇的注释,例如FlyBase中的基因组和表型注释,在层次结构扁平化后组装基因到基因集的关系。GO注释是一个例外,它以两种方式组装,有平铺的和无平铺的,允许用户选择在分析中使用的输出。GO注释包括指示支持注释的证据类型的证据代码。例如,“IDA”表示注释由直接分析支持,而“ISS”表示注释是根据序列或结构相似性推断出来的。使用这些证据码,GO基因集以额外的配置构建:(i)基于实验证据码的子集,即仅排除基于系统发育、序列或结构相似性和其他计算分析的注释(IEA、IBA、IBD、IKR、IRD、ISS、ISO、ISA、ISM、IGC、RCA);(ii)不包括仅由高通量(HTP)证据代码(HTP、HDA、HMP、HGI和HEP)支持的注释的子集;(iii)GOC提供的GO通用术语子集(GO-slim)(http://geneontology.org/docs/download-ontology/#子集); (iv)FlyBase和联盟最初生成用于支持GO摘要功能区显示的非常高级GO术语分类子集。对于来自FlyBase的果蝇表型注释,我们使用FlyBaseDownloads页面中的“genotype_phenotype_data”文件组装了基因与表型关联,其中表型与单个基因型关联,并指示了受控词汇标识符。这使得我们只能提取那些我们可以确定表型与单个果蝇基因(即单个经典或插入等位基因)的扰动相关的基因型。由于不同的资源使用不同的基因或蛋白质标识符,我们使用内部映射程序将ID与NCBI Entrez基因ID、官方基因符号和物种特定资源的基因标识符同步,例如MGI和FlyBase(表1). PANGEA知识库存储了从NCBI获得的基因集分类信息、基因注释信息以及各种资源之间的ID映射信息。

表1。

PANGEA和相应物种特定数据库的物种覆盖率

物种缩写特定物种数据库统一资源定位地址例子
黑腹果蝇糖尿病FlyBase飞基https://flybase.orgwg,FBgn0284084
智人小时HGNC公司https://www.genenames.orgWNT1、HGNC:12774
小家鼠毫米MGI公司http://www.informatics.jax.org/Wnt1,MGI:98953
秀丽隐杆线虫总工程师蜗杆底座https://www.wormbase.orgcwn-1,WBGene00000857
达尼奥雷里奥博士ZFIN公司网址:https://zfin.orgwnt1,ZDB基因980526–526
褐家鼠尼泊尔RDG公司网址:https://rgd.mcw.edu/Wnt1,RGD:1597195
物种缩写物种特定数据库统一资源定位地址例子
黑腹果蝇糖尿病FlyBase飞基https://flybase.orgwg,FBgn0284084
智人小时HGNC公司https://www.genenames.orgWNT1、HGNC:12774
小家鼠毫米MGI公司http://www.informatics.jax.org/Wnt1,MGI:98953
秀丽隐杆线虫总工程师蜗杆底座https://www.wormbase.orgcwn-1,WBGene00000857
达尼奥雷里奥博士ZFIN公司https://zfin.orgwnt1,ZDB-GENE-980526–526
褐家鼠尼泊尔RDG公司网址:https://rgd.mcw.edu/Wnt1,RGD:1597195
表1。

PANGEA和相应的特定物种数据库的物种覆盖率

物种缩写物种特定数据库统一资源定位地址例子
黑腹果蝇糖尿病FlyBase飞基https://flybase.orgwg,FBgn0284084
智人小时HGNC公司https://www.genenames.orgWNT1、HGNC:12774
小家鼠毫米MGI公司http://www.informatics.jax.org/Wnt1,MGI:98953
秀丽隐杆线虫总工程师蜗杆底座https://www.wormbase.orgcwn-1,WBGene00000857
达尼奥·雷里奥博士ZFIN公司网址:https://zfin.orgwnt1,ZDB-GENE-980526–526
褐家鼠尼泊尔RDG公司网址:https://rgd.mcw.edu/Wnt1,RGD:1597195
物种缩写物种特定数据库统一资源定位地址例子
黑腹果蝇糖尿病FlyBase飞基https://flybase.orgwg,FBgn0284084
智人小时HGNC公司https://www.genenames.orgWNT1、HGNC:12774
小家鼠毫米MGI公司http://www.informatics.jax.org/Wnt1,MGI:98953
秀丽隐杆线虫总工程师蜗杆底座https://www.wormbase.orgcwn-1,WBGene00000857
达尼奥雷里奥博士ZFIN公司https://zfin.orgwnt1,ZDB-GENE-980526–526
褐家鼠尼泊尔RDG公司网址:https://rgd.mcw.edu/Wnt1,注册资本:1597195
表2。

利用各种基因注释资源构建PANGEA知识库

类型来源统一资源定位地址PANGEA涵盖的物种源更新频率
基因本体论GO(开始)http://geneontology.org/hs、mm、rn、dr、dm、ce不定期,通常1-2个月
通路KEGG公司https://www.genome.jp/kegg/hs、mm、rn、dr、dm、ce未知的
通路反应https://reactome.org/hs、mm、rn、dr、dm、ce未知的
通路豹DB网址:http://www.pantherdb.org/糖尿病不规则的
通路FlyBase路径https://flybase.org/糖尿病2个月
通路路径ONhttps://www.flyrnai.org/tools/pathon网站/糖尿病不规则的
HGNC公司https://www.genenames.org/小时未知的
FlyBase基因组https://flybase.org/糖尿病2个月
压盖https://www.flyrnai.org/tools/glow网站/糖尿病不规则的
蛋白质投诉https://www.flyrnai.org/compleat网站/糖尿病不规则的
蛋白质EBI蛋白复合物https://www.ebi.ac.uk/complexportal网站hs、mm、rn、dr、dm、ce2个月
表型AGR病https://www.alliancegenome.org/hs、mm、rn、dr、dm、ce3-4个月
表型FlyBase表型https://flybase.org/糖尿病2个月
表达AGR表达https://www.alliancegenome.org/mm、rn、dr、dm、ce3-4个月
类型来源统一资源定位地址PANGEA涵盖的物种源更新频率
基因本体论GO(开始)http://geneontology.org/hs、mm、rn、dr、dm、ce不定期,通常1-2个月
通路KEGG公司https://www.genome.jp/kegg/hs、mm、rn、dr、dm、ce未知的
通路反应https://reactome.org网站/hs、mm、rn、dr、dm、ce未知的
通路豹DBhttp://www.pantherdb.org网站/糖尿病不规则的
通路FlyBase路径https://flybase.org/糖尿病2个月
通路路径ONhttps://www.flyrnai.org/tools/pathon网站/糖尿病不规则的
HGNC公司https://www.genenames.org/小时未知的
FlyBase基因组https://flybase.org/糖尿病2个月
压盖https://www.flyrnai.org/tools/glow网站/糖尿病不规则的
蛋白质投诉https://www.flyrnai.org/compleat网站/糖尿病不规则的
蛋白质EBI蛋白复合物https://www.ebi.ac.uk/complexportal网站hs、mm、rn、dr、dm、ce2个月
表型AGR病https://www.alliancegenome.org网站/hs、mm、rn、dr、dm、ce3-4个月
表型FlyBase表型https://flybase.org/糖尿病2个月
表达AGR表达https://www.alliancegenome.org/mm、rn、dr、dm、ce3-4个月
表2。

利用各种基因注释资源构建PANGEA知识库

类型来源统一资源定位地址PANGEA涵盖的物种源更新频率
基因本体论GO(开始)网址:http://geneontology.org/hs、mm、rn、dr、dm、ce不定期,通常1-2个月
通路KEGG公司https://www.genome.jp/kegg/hs、mm、rn、dr、dm、ce未知的
通路反应https://reactome.org/hs、mm、rn、dr、dm、ce未知的
通路豹DBhttp://www.pantherdb.org网站/糖尿病不规则的
通路FlyBase路径https://flybase.org/糖尿病2个月
通路路径ONhttps://www.flyrnai.org/tools/pathon网站/糖尿病不规则的
HGNC公司https://www.genenames.org/小时未知的
FlyBase基因组https://flybase.org/糖尿病2个月
压盖https://www.flyrnai.org/tools/glow网站/糖尿病不规则的
蛋白质投诉https://www.flyrnai.org/compleat网站/糖尿病不规则的
蛋白质EBI蛋白复合物https://www.ebi.ac.uk/complexportal网站hs、mm、rn、dr、dm、ce2个月
表型AGR病https://www.alliancegenome.org/hs、mm、rn、dr、dm、ce3-4个月
表型FlyBase表型https://flybase.org/糖尿病2个月
表达AGR表达https://www.alliancegenome.org网站/mm、rn、dr、dm、ce3-4个月
类型来源统一资源定位地址PANGEA涵盖的物种源更新频率
基因本体论GO(开始)http://geneontology.org/hs、mm、rn、dr、dm、ce不定期,通常1-2个月
通路KEGG公司https://www.genome.jp/kegg/hs、mm、rn、dr、dm、ce未知的
通路反应https://reactome.org/hs、mm、rn、dr、dm、ce未知的
通路豹DBhttp://www.pantherdb.org网站/糖尿病不规则的
通路FlyBase路径https://flybase.org/糖尿病2个月
通路路径ONhttps://www.flyrnai.org/tools/pathon网站/糖尿病不规则的
HGNC公司https://www.genenames.org/小时未知的
FlyBase基因组https://flybase.org/糖尿病2个月
压盖https://www.flyrnai.org/tools/glow网站/糖尿病不规则的
蛋白质投诉https://www.flyrnai.org/compleat网站/糖尿病不规则的
蛋白质EBI蛋白复合物https://www.ebi.ac.uk/complexportal网站hs、mm、rn、dr、dm、ce2个月
表型AGR病https://www.alliancegenome.org/hs、mm、rn、dr、dm、ce3-4个月
表型FlyBase表型https://flybase.org/糖尿病2个月
表达AGR表达https://www.alliancegenome.org/mm、rn、dr、dm、ce3-4个月

构建首选组织表达的基因集

为了研究果蝇转录组的多样性和动力学,modENCODE联盟对29个解剖组织中的转录组进行了测序(23)处理后的数据集可在FlyBase上获取(http://ftp.flybase.net/releases/current/precomputed_files/genes/). 用Python编程语言实现了一个程序,以识别在一个组织中相对于任何其他组织中以更高水平表达的基因。该程序首先基于组织对RNA-seq数据集进行分组。例如,所有与神经系统相关的数据都被分组在一起。然后,它计算每个组织组中每个基因的每千碱基每百万映射读取(RPKM)平均表达值。如果基因在组织组中的平均表达是任何其他组织组中平均表达的3倍或更高,则确定基因优先在给定组织组中表达。排除RPKM平均值低于10的基因。以这种方式定义为“组织特异性”的基因,然后用相关组织进行注释,以生成组织表达分类集。

用于测试的数据集

果蝇细胞RNAi筛查表型数据来自DRSC(网址:https://www.flyrnai.org/)通过下载所有可用公共屏幕“点击”(结果)的文件(https://www.flyrnai.org/RNAi_all_hits.txt). 选择优化设计的RNAi试剂。优化设计的标准是无CAN或CAR重复,少于6个预测的OTE(19 bp的非靶向比对位点)和一个单基因靶点。CAN和CAR重复是三个基本串联重复,例如CAACAGCACCAT(CAN重复,第三个位置可以是A、G、C或T)和CAACAGACAA(CAR重复,第3个位置可以为A或G)。使用DRSC内部定位工具将RNAi试剂定位到当前的FlyBase基因标识符。选择主要信号通路的筛选用于PANGEA分析(24–29). 蛋白质组学数据来自Tang等。 (30)以及通过质谱鉴定的高置信猎物蛋白(补充表S2)用于分析。

PANGEA使用的基因集富集统计

使用R.Bonferroni修正中的PypeR函数计算GSEA的P值进行了超几何检验,用于多个统计检验,使用R.中的P.adjust函数执行了Benjamini-Hochberg错误发现率调整程序,以及Benjamini-Yekutieli错误发现率调整程序。

Web工具实现

PANGEA是一个SaaS(软件即服务)网络工具(https://www.flyrnai.org/tools/pangea/)它是按照三层模型构建的,前端是基于web的用户界面,后端是知识库,中间层的业务逻辑通过将输入基因与基因集匹配、进行统计分析和构建可视化图形在前端和后端之间进行通信。首页使用PHP编写,使用Symfony框架,前端HTML页面使用Twig模板引擎。JQuery JavaScript库用于促进对后端的Ajax调用,其中DataTables插件用于显示表视图,Cytoscape和VegaLite包用于数据可视化。用户界面上使用了Bootstrap框架和一些自定义CSS。mySQL数据库用于存储知识库。网站和数据库都托管在O2高性能计算集群上,该集群由哈佛医学院的研究计算小组提供。

结果

GSEA分类基因集的制备:PANGEA知识库

GSEA依赖于高质量的基因/基因产品注释及其生物功能相关信息。对于PANGEA,我们使用多个注释来源为五种主要模式生物生成了>300000种不同类别的基因功能(D.melanogaster、C.elegans、D.rerio、M.musclus、R.褐家鼠)和人类。例如,通路注释允许用户识别基因列表中过度表达的代谢或信号通路,并帮助从屏幕上了解观察到的表型背后的因果机制。KEGG、PantherDB和Reactome的Pathway注释,以及手动管理的果蝇基因集,如FlyBase Signaling Pathways和DRSC PathON注释(18,21),包含在PANGEA知识库中。

GO注释集提供了关于基因功能的全面知识,我们以两种方式存储GO中的基因到基因集的关系。一个是从基因关联文件中获得的直接基因到GO术语关联,而另一个存储了考虑到孩子-父母关系的基因到GO-术语关联。后者建议在GSEA中使用,因为它反映了本体在管理实践中的预期用途。直接的基因到术语集可能有助于理解每个基因的注释深度。此外,我们还使用证据码生成了两个基因注释子集。“仅实验数据”子集仅包括实验证据代码支持的那些基因关联。“排除高通量实验”子集排除了仅由HTP证据代码支持的注释。在分析类似研究时,排除HTP数据对于避免偏见可能很重要(31). GO-slim子集是GO的精简版本,它提供了本体内容的广泛概述,而没有特定细粒度术语的详细信息。PANGEA知识库包括来自不同资源的两组GO slim注释。

除了GO和通路注释外,MOD还提供了GO中未捕获的基因信息的重要方面(如基因表达和突变表型)的有机体特异性管理。联盟专注于协调和集中主要国防部数据(4,32). 为了利用这一成果,我们将联盟的基因到组织表达和基因到疾病(模型)关联注释集成到PANGEA知识库中。由于联盟中的所有生物都使用疾病本体论(DO)进行注释,因此这一集合很容易在不同物种之间进行比较。Alliance DO注释集还包括疾病关联,通过电子管道使用人类疾病基因的正畸学来建模生物体基因,从而扩展了MOD提供的集合。此外,对于果蝇基因,我们通过提取与“单个等位基因”基因型(即单个经典或插入等位基因)相关的表型数据,从FlyBase的表型注释中组合了一个额外的基因集,使用户可以首次对该数据类进行有意义的富集分析。

PANGEA还包括来自生物体特定资源(人类和苍蝇)的基因组分类(例如激酶和转录因子),来自EMBL-EBI复合物门户的多个生物体的蛋白质复合物注释(33)和投诉(22)以及使用果蝇modENcode RNAseq数据定制基因集,以识别在一个组织中特别高表达的基因(见材料和方法)。

总之,我们已经组装了30多万个不同的基因集,可用于PANGEA评估输入基因列表中特定生物特征的丰富性。

PANGEA用户界面的功能

GSEA可以是计算密集型的,因为测试的基因集的数量以及用户输入的潜在大量基因。因此,通过将输入基因标识符映射到用于基因集注释的基因标识符来预处理用户输入的步骤被设置为独立的ID映射页面(通过单击顶部工具栏上的“gene ID mapping”访问),而不是将其与分析步骤相结合。PANGEA支持的基因标识符包括Entrez Gene ID、官方基因符号和来自MOD的主要基因标识符。用户可能需要分析其他标识符的列表,如UniProtKB ID和Ensemble基因ID。用户可以使用“基因Id映射”工具,选择一个生物体来映射Id。由于基因注释是一个持续的过程,基因标识符和基因符号可能会随着时间的推移而变化。即使使用相同类型的基因标识符,如FlyBase基因ID,用户使用的ID也可能来自不同的FlyBase版本。因此,ID-map步骤是可选的但建议的第一步,以确保输入的ID与PANGEA基因集注释使用的ID同步。FlyBase的用户还可以通过从下拉菜单“导出”中选择“PANGEA扩展工具(DRSC)”,将FlyBase中生成的基因的“HitList”直接导出到该工具(补充图S1). 用户可以选择上传背景基因列表进行分析;例如,当使用激酶子库而不是基因组尺度库分析聚焦屏幕的点击时,这可能很有用。PANGEA识别所有相关基因集并提供富集统计数据,如P(P)-值,已调整P(P)-值、折叠富集以及输入基因列表和基因集成员共享的基因。用户可以选择设置不同的P(P)-使用柱状图对切割值进行估值并将结果可视化,柱状图的高度和颜色强度可以定制(图1安培). 此外,用户可以使用“基因集节点图”可视化选项选择感兴趣的基因集来检查不同基因集中的基因重叠。网络中不同形状的节点表示基因或基因集,而边缘反映基因与基因集的关系。这种可视化可以帮助用户识别每个基因集中最相关的基因,以及所选基因集中常见或不同的基因成员(图1B年,C类).

使用PANGEA分析单个基因列表的示例。蛋白质组相互作用数据集选自m6A甲基转移酶复合物MTC(30)的研究。通过PANGEA的“Search Single”选项提交了果蝇S2R+细胞亲和纯化质谱鉴定的MTC四个亚单位(METTL3、METTL14、Fl(2)d和Nito)的75个高置信相互作用体,并对表型进行了富集分析,GO SLIM2 BP和COMPLEAT的蛋白质复合物注释(基于文献)。使用P值1×10−5截止值对结果进行过滤,结果显示为(A)条形图和(B)从表型注释和GO SLIM2 BP中选择的基因集的网络图。三角形节点表示基因集,圆形节点表示基因,而边缘表示基因与基因集的关联。(C) 从表型注释和COMPLEAT蛋白复合物注释中选择的基因集的网络图(基于文献)。
图1。

使用PANGEA分析单个基因列表的示例。蛋白质组相互作用数据集选自m6A甲基转移酶复合物MTC的研究(30). 通过亲和纯化质谱鉴定了MTC四个亚单位(METTL3、METTL14、Fl(2)d和Nito)的75个高置信相互作用体果蝇属通过PANGEA的“Search Single”选项提交S2R+细胞,对表型、GO SLIM2 BP和COMPLEAT的蛋白复合物注释进行富集分析(基于文献)。使用筛选结果P(P)值1×10−5截止日期,如图所示()条形图和(B类)从表型注释和GO SLIM2 BP中选择的基因集的网络图。三角形节点表示基因集,圆形节点表示基因,而边缘表示基因与基因集的关联。(C类)从表型注释和COMPLEAT蛋白复合物注释中选择的基因集的网络图(基于文献)。

GSEA工具的一个被低估的用途是,研究人员经常将其用作简单的基因分类工具,例如,询问“我的列表中的哪些基因是激酶?”为进一步的计算或实验分析提供信息。拥有不同的分类集很重要,因为根据所分析的数据/实验的类型,不同的基因集可能比其他的更有用。能够比较不同来源的相似基因集以帮助评估支持证据通常是有用的。此外,PANGEA不仅报告了富集基因集中的基因,还报告了所选基因集类别未涵盖的基因,这可能很有趣,因为它们缺乏特征化。这个功能可以帮助用户回答诸如“我的列表中哪些基因没有被KEGG注释覆盖?”之类的问题。

用户通常需要分析多个基因列表并比较结果;然而,目前大多数基于web的工具只允许分析单个输入列表(加上背景)。因此,用户必须手动或使用不同的工具进行比较。为了满足这一需求,PANGEA允许用户输入多个基因列表,并通过热图或点图可视化直接比较结果。例如,用户可以输入来自不同表型屏幕的基因点击,并比较结果中常见或不同的路径、基因组或生物过程(图2).

使用PANGEA分析多个基因列表的示例。(A) 来自AP质谱数据集(30)的多个毒饵的猎物蛋白质通过PANGEA的“搜索多个”选项提交。从COMPLEAT中选择蛋白质复合物注释的基因集。使用热图说明了四种不同毒饵的相互作用蛋白对注释蛋白复合物的富集情况。(B) 信号通路研究的RNAi筛选数据从DRSC RNAi数据存储库(24)获得,点击数通过PANGEA的“搜索多个”选项提交。使用FlyBase路径注释的基因集。使用热图对五项研究的屏幕点击中信号通路成分的富集进行了比较。
图2。

使用PANGEA分析多个基因列表的示例。()AP质谱数据中多个毒饵的猎物蛋白(30)通过PANGEA的“搜索多个”选项提交。从COMPLEAT中选择蛋白质复合物注释的基因集。使用热图说明了四种不同毒饵的相互作用蛋白对注释蛋白复合物的富集情况。(B类)信号通路研究的RNAi筛选数据来自DRSC RNAi数据存储库(24)点击数是通过PANGEA的“搜索多个”选项提交的。使用FlyBase路径注释的基因集。使用热图对五项研究的屏幕点击中信号通路成分的富集进行了比较。

测试PANGEA的效用

为了测试PANGEA的效用,我们首先分析了来自m6A甲基转移酶复合物MTC研究的蛋白质组相互作用数据集(30). 在这项研究中,使用MTC复合物的四个亚基(METTL3、METTL14、Fl(2)d和Nito)的单独下拉,通过质谱法从果蝇属S2R+电池。通过PANGEA的“Search Single”(搜索单一)选项(通过点击顶部工具栏上的“Seach Single(搜索单一,我们确定了mRNA代谢过程(GO:0016071)、蛋白质折叠(GO:0006457)、异常性别决定(FBcv:0000436)、异常神经解剖学(FBcv:0000435)、CCT复合体和剪接体复合体等p值最显著的顶级富集基因集(均<1×10−5)(图1安培). 接下来,我们使用网络图可视化了SLIM2 GO BP和表型注释。GO mRNA代谢过程点击与异常性别决定和异常神经解剖学表型重叠,但GO蛋白折叠点击仅与异常神经解剖学表现重叠(图1B年). 我们还使用不同的网络图可视化了蛋白质复合体和表型注释,显示拼接体点击与异常性别决定和异常神经解剖学的表型重叠,而CCT复合体点击仅与异常神经解剖学表型重叠(图1摄氏度). 性/生殖表型的丰富与MTC在调节女性特异性致死性(Sxl)剪接中的已知功能及其在选择性剪接和性二型性以及卵巢生殖干细胞分化中的作用一致(34). 这些GSEA结果也与MTC在神经元mRNA调节中也有重要作用这一事实相一致。当查看基因集分配如何重叠时,网络可视化的好处显而易见(图1B年,C类)这揭示了一些MTC相互作用蛋白与异常神经解剖学表型相关,其关联机制是通过蛋白质折叠过程中的CCT复合体实现的。相反,剪接体的相互作用蛋白通过mRNA代谢过程对异常的神经解剖学表型和异常的性别决定表型有更广泛的影响。

我们使用PANGEA的“搜索多个”选项(通过点击顶部工具栏上的“搜索多个”访问)并输入每个诱饵的相互作用蛋白质列表,进一步分析了与每个单个亚基相关的蛋白质复合物,然后使用热图可视化比较富集结果(图2安培). 结果表明,一些复合物,如剪接体亚基,对所有MTC亚基都是常见的,而一些更具特异性,如METTL14和METTL13的蛋白质复合物CCT复合物。此外,我们使用“搜索多个”选项进一步分析了与每个单独亚单位相关的蛋白质的表型富集,富集结果的比较显示了许多重叠的表型,特别是在不育方面(补充图S2).

在另一个用例中,我们查看了表型细胞筛选数据。大规模RNA干扰(RNAi)筛选是一种强有力的功能研究方法果蝇属在DRSC上,100多个屏幕生成的数据集是公开可用的(24). 我们选择了五个旨在识别主要信号通路基因的筛选,并使用PANGEA的多基因列表富集功能对点击进行了GSEA分析。选择了FlyBase信号通路基因集,并使用热图并排比较了五个筛选的结果,这清楚地说明了相应通路的核心成分的富集,以及通路之间的潜在串扰(图2B型).

PANGEA用于表型筛查数据和蛋白质组学数据的这些用例证明了该工具在验证筛查结果以及生成新假设以进行进一步研究方面的价值。

讨论

GSEA是一种计算方法,用于通过对基于先验知识组装的基因集进行测试来识别输入基因列表中显著过度表示的基因类。输入基因列表通常来自高通量筛选或分析。在这里,我们介绍了PANGEA,这是一种新开发的GSEA工具,以主要模式生物为重点,包括其他GSEA工具通常不使用的基因集,例如联盟的表达和疾病注释、FlyBase的表型注释,以及具有不同配置的GO子集。PANGEA易于使用,并具有一些新功能,例如允许对多个输入基因列表进行富集分析,并生成图形输出,使用户可以直接进行比较。除了这里介绍的用例,即分析表型筛选和蛋白质组数据外,我们预计该工具还将有助于分析其他类型数据的基因列表。例如,对PANGEA的单细胞RNA-seq数据集的分析可能有助于用户识别各种细胞类型所特有的通路和生物过程。用户还可以回答有关分类的问题,例如“此列表中的哪些基因是激酶?”。PANGEA旨在容纳广泛的生物数据类型和问题,为用户提供易于访问和用户友好的基于web的分析工具。

我们还注意到,基因分类并不是静态的,该工具的通用设计意味着将很容易更新或扩展PANGEA以用于更多基因集分类和/或更多物种。在开发PANGEA的过程中,我们试图通过以下方式提高GSEA的有效性:(i)提供多个按功能分类的基因集合(分类基因集);(ii)确保基因功能分类的基础数据是最新的,以及(iii)改进可视化,以便可以轻松比较多个基因集或多个基因列表的结果。

数据可用性

在线资源无限制可用https://www.flyrnai.org/tools/pangea/.

补充数据

补充数据可从NAR Online获取。

致谢

我们要感谢佩里蒙实验室、FlyBase联盟、果蝇RNAi筛选中心(DRSC)和转基因RNAi项目(TRiP)的成员在工具设计和实施过程中的讨论和建议,以及工具测试过程中的反馈。另外,感谢FlyBase的Gil dos Santos(美国哈佛大学)和Gillian Millburn(英国剑桥大学)的基因型对表型研究。

基金

NIH/NIGMS【P41 GM132087】;FlyBase拨款NIH/NGHRI[U41HG000739];英国医学研究委员会[MR/W0024233/1];N.P.是霍华德·休斯医学研究所的研究员。开放存取费用的资金来源:NIH/NIGMS拨款[P41 GM132087]。

利益冲突声明。未声明。

REFRENCES参考

1

J。
,
Al-Ouran公司
R。
,
年。
,
基姆
S.Y.公司。
,
Y.W.公司。
,
旺勒
M.F.(货币基金组织)。
,
山本
美国。
,
H.T.公司。
,
科姆让
答:。
,
莫尔
瑞典。
等。
MARRVEL:整合人类和模式生物遗传资源以促进人类基因组的功能注释
.
Am.J.Hum.遗传学。
2017
;
100
:
843
853
.

2

Y。
,
康让
答:。
,
莫尔
瑞典。
,
FlyBase飞基
C、。
,
佩里蒙
N。
Gene2Function:用于基因功能发现的集成在线资源
.
G3(贝塞斯达)
.
2017
;
7
:
2855
2858
.

三。

谢夫切克
K.A.公司。
,
哈里斯
不适用。
,
加加诺
M。
,
马滕佐格鲁
N。
,
乌尼
D。
,
刷子
M。
,
基思
D。
,
康林
T。
,
华西列夫斯基
N。
,
X.A.公司。
等。
2019年君主倡议:一个跨物种表型与基因型连接的综合数据和分析平台
.
核酸研究。
2020
;
48
:
D704型
D715型
.

4

基因组资源联盟
统一基因组资源联盟中的模型生物数据
.
遗传学
.
2022
;
220
:https://doi.org/10.1093/genetics/iyac022.

5

谢尔曼
B.T.公司。
,
M。
,
J。
,
十、。
,
巴塞莱尔
M.W.公司。
,
车道
高压断路器。
,
伊马西希
T。
,
西。
DAVID:用于基因列表功能富集分析和功能注释的web服务器(2021年更新)
.
核酸研究。
2022
;
50
:
第216周
W221号机组
.

6

波义耳
E.I.公司。
,
美国。
,
戈卢布
J。
,
H。
,
博茨坦
D。
,
樱桃
J.M.公司。
,
夏洛克
G.公司。
GO::TermFinder–用于访问基因本体信息和查找与基因列表相关的显著丰富的基因本体术语的开源软件
.
生物信息学
.
2004
;
20
:
3710
3715
.

7

伊甸园
E.公司。
,
纳文
R。
,
斯坦菲尔德
一、。
,
利普森
D。
,
亚基尼
Z.公司。
GOrilla:一种用于发现和可视化排序基因列表中丰富GO术语的工具
.
BMC生物信息。
2009
;
10
:
48
.

8

惯性矩
小时。
,
穆鲁加努扬
答:。
,
十、。
,
埃伯特
D。
,
米尔斯
C、。
,
十、。
,
托马斯
P.D.公司。
使用PANTHER分类系统进行大规模基因组和基因功能分析的方案更新(v.14.0)
.
《国家协议》。
2019
;
14
:
703
721
.

9

年。
,
J。
,
杰尼格
E.J.公司。
,
Z.公司。
,
B。
WebGestalt 2019:基因集分析工具包,带有改进的UI和API
.
核酸研究。
2019
;
47
:
W199号
W205型
.

10

劳德韦勒
美国。
,
科尔伯格
L。
,
库兹明
一、。
,
阿拉克
T。
,
阿德勒
第页。
,
彼得森
H。
,
维洛
J。
g: profiler:用于功能富集分析和基因列表转换的web服务器(2019年更新)
.
核酸研究。
2019
;
47
:
第191页
W198号
.

11

基因本体论,C。
基因本体资源:丰富GOld地雷
.
核酸研究。
2021
;
49
:
第325天
D334号
.

12

阿什伯恩
M。
,
首席执行官。
,
布莱克
J.A.公司。
,
博茨坦
D。
,
巴特勒
H。
,
樱桃
J.M.公司。
,
戴维斯
A.P.公司。
,
多林斯基
英国。
,
德怀特
S.S.公司。
,
Eppig公司
J.T.公司。
等。
基因本体:生物学统一的工具。基因本体联盟
.
自然遗传学。
2000
;
25
:
25
29
.

13

吉莱斯皮
M。
,
贾萨尔
B。
,
斯蒂芬
R。
,
米拉西克语
M。
,
罗特费尔斯
英国。
,
塞夫·里贝罗
答:。
,
格里斯
J。
,
塞维利亚
C、。
,
马修斯
L。
,
C类
等。
反应途径知识库2022
.
核酸研究。
2022
;
50
:
第687页
D692型
.

14

卡内希萨
M。
,
古道
M。
,
佐藤
年。
,
川岛
M。
,
Ishiguro-Watanabe公司
M。
KEGG用于基于分类学的路径和基因组分析
.
核酸研究。
2023
;
51
:
D587型
D592型
.

15.

科勒
美国。
,
加加诺
M。
,
马滕佐格鲁
N。
,
卡莫迪
有限责任公司。
,
刘易斯·史密斯
D。
,
华西列夫斯基
不适用。
,
丹尼斯
D。
,
巴拉古拉
G.公司。
,
拜纳姆
G.公司。
,
浏览器
上午。
等。
2021年的人类表型本体
.
核酸研究。
2021
;
49
:
D1207号
D1217号
.

16

Amberger公司
J.S.公司。
,
哈马斯
在线搜索人类孟德尔遗传(OMIM):人类基因和遗传表型知识库
.
Curr Protoc生物信息学
.
2017
;
58
:
1 2 1
1 2 12
.

17

德容
答:。
,
Kuipers公司
O.P.公司。
,
科克
J型
FUNAGE-Pro:原核生物基因集富集分析综合网络服务器
.
核酸研究。
2022
;
50
:
W330码
W336码
.

18

格拉茨
L.S.公司。
,
木乃伊
J。
,
Attrill公司
H。
,
卡尔维
业务风险管理。
,
克罗斯比
文学硕士。
,
多斯桑托斯
G.公司。
,
古德曼
法学博士。
,
古特·加塔特
D。
,
詹金斯
V.K公司。
,
考夫曼
T。
等。
Fly Base:重点特色导览
.
遗传学
.
2022
;
220
:
国际建筑协会035
.

19

Attrill公司
H。
,
瀑布
英国。
,
古德曼
法学博士。
,
米尔本
G.H.公司。
,
安东纳佐
G.公司。
,
雷伊
A.J.公司。
,
玛丽戈尔德
S.J.公司。
,
FlyBase飞基
C、。
FlyBase:建立果蝇基因群资源
.
核酸研究。
2016
;
44
:
D786型
D792号
.

20

年。
,
科姆让
答:。
,
珀金斯
洛杉矶。
,
佩里蒙
N。
,
莫尔
瑞典。
GLAD:果蝇基因表注释在线数据库
.
基因组学杂志
.
2015
;
:
75
81
.

21

G.公司。
,
十、。
,
年。
,
G.公司。
,
年。
,
比纳里
R。
,
科姆让
答:。
,
J。
,
拉什沃思
E.公司。
,
Z轴
等。
肿瘤衍生Upd3对肿瘤生长和宿主损耗的协调作用
.
单元格代表。
2021
;
36
:
109553
.

22

维纳亚加姆
答:。
,
年。
,
库尔卡尼
M。
,
勒泽尔
C、。
,
索普科
R。
,
莫尔
瑞典。
,
佩里蒙
N。
基于蛋白质复合物的高通量数据集分析框架
.
科学。信号
.
2013
;
6
:
卢比5
.

23

棕色
J.B.公司。
,
博利
N。
,
艾斯曼
R。
,
五月
通用电气公司。
,
斯托伊贝尔
M.H.医学博士。
,
达夫
M.O.公司。
,
展位
B.W.公司。
,
J。
,
公园
美国。
,
铃木
上午。
等。
果蝇转录组的多样性和动力学
.
自然
.
2014
;
512
:
393
399
.

24

年。
,
科姆让
答:。
,
罗迪格
J。
,
线路接口单元
年。
,
年。
,
五、。
,
齐林
J。
,
佩里蒙
N。
,
莫尔
瑞典。
FlyRNAi.org——果蝇RNAi筛选中心和转基因RNAi项目数据库:2021年更新
.
核酸研究。
2021
;
49
:
D908号
D915型
.

25

尼巴肯
英国。
,
沃克斯
南非。
,
土耳其。
,
麦克马洪
A.P.公司。
,
佩里蒙
N。
全基因组RNA干扰筛选黑腹果蝇Hh信号通路新成分的细胞
.
自然遗传学。
2005
;
37
:
1323
1332
.

26

达斯·古普塔
R。
,
凯卡斯
答:。
,
月亮
R.T.公司。
,
佩里蒙
N。
Wnt-wingless信号通路的功能基因组分析
.
科学类
.
2005
;
308
:
826
833
.

27

Baeg公司
G.H.公司。
,
R。
,
佩里蒙
N。
果蝇JAK/STAT信号成分的全基因组RNAi分析
.
基因发育。
2005
;
19
:
1861
1870
.

28

科克尔
L。
,
克尔
韩国。
,
梅尔尼克
M。
,
布鲁克纳
英国。
,
希布罗克
M。
,
佩里蒙
N。
果蝇Akt-TOR信号负反馈调节的动态切换
.
PLos基因。
2010
;
6
:
e1000990
.

29

弗里德曼
答:。
,
塔克
G.公司。
,
辛格
R。
,
雁鸣声
D。
,
维纳亚加姆
答:。
,
Y。
,
比纳里
R。
,
商行
第页。
,
太阳
十、。
,
波尔图
M(M)
等。
受体酪氨酸激酶和ras对细胞外信号调节激酶信号转导的蛋白质组学和功能基因组图谱
.
科学。信号
.
2011
;
4
:
10卢比
.

30

高压水。
,
J.H.公司。
,
W.X.公司。
,
年。
,
L。
,
美国。
,
G.公司。
,
比纳里
R。
,
C、。
,
机械工程师
等。
mTORC1-CCT信号调节m(6)A RNA甲基化以抑制自噬
.
程序。国家。阿卡德。科学。美国。
2021
;
118
:
e2021945118号
.

31

Attrill公司
H。
,
高德特
第页。
,
亨特利
钢筋混凝土。
,
爱情
钢筋混凝土。
,
恩格尔
S.R.公司。
,
美国。
,
范·奥肯
K.M.公司。
,
乔治乌
G.公司。
,
基布科斯
M.C.公司。
,
贝拉尔迪尼
T.Z.公司。
等。
利用基因本体从高通量研究中注释基因产物功能
.
数据库(牛津)
.
2019
;
2019
:
巴兹007
.

32.

基因组资源联盟,C。
基因组资源联盟门户网站:统一的模式生物研究平台
.
核酸研究。
2020
;
48
:
D650型
D658号
.

33

梅尔达尔
B.H.M.公司。
,
佩尔费托
L。
,
梳子
C、。
,
卢布亚纳
T。
,
费雷拉·卡瓦尔坎特
合资公司。
,
拜伊
A.J.H.公司。
,
瓦格梅斯特
答:。
,
德尔·托罗
N。
,
什里瓦斯塔瓦
答:。
,
巴雷拉
E.公司。
等。
综合门户2022:新的管理前沿
.
核酸研究。
2022
;
50
:
D578型
D586型
.

34

伦塞
T。
,
阿赫塔
J。
,
拜耳公司
M。
,
施密德
英国。
,
纺纱机
L。
,
C.H.公司。
,
克里姆
N。
,
安德拉德·纳瓦罗
文学硕士。
,
珀克
B。
,
赫尔姆
M。
等。
m(6)A调节果蝇的神经元功能和性别决定
.
自然
.
2016
;
540
:
242
247
.

这是一篇根据知识共享署名许可条款发布的开放存取文章(https://creativecommons.org/licenses/by/4.0/)它允许在任何介质中不受限制地重用、分发和复制原始作品,前提是正确引用了原始作品。

补充数据

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由期刊自行审核和发表。请通过电子邮件查看更多通知。