跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
数据库(牛津)。2011; 2011年:bar039。
2011年9月7日在线发布。 doi(操作界面):10.1093/数据库/bar039
预防性维修识别码:项目经理3169995
PMID:21903633

Biomart中的综合癌症基因组学(IntOGen)

摘要

最近,我们创建了IntOGen,这是一种整合大量癌症基因组数据的资源。IntOGen旨在促进检测驱动肿瘤发生的最经常性改变。它整理、注释和分析了有关特定癌症类型注释的不同研究中肿瘤中发生的转录、基因组和突变变化的高通量数据。目前,它包含118项mRNA表达谱研究和188项基因组改变研究,涵盖了总共64种不同的肿瘤地形图。在本文中,我们描述了IntOGen的Biomart门户。该门户网站提供了对不同类型数据的轻松访问,并方便了所有分析结果的批量下载。在这里,我们描述了IntOGen的一般特性,并给出了示例查询来演示其使用。

数据库URL:网址:www.intogen.org.

项目描述

肿瘤发生的特点是大量变化的积累。在研究这些蚀变时,高通量技术已变得很常见。然而,这类数据的分析具有挑战性。其中一个主要困难是要从那些仅仅是癌细胞大量分裂的副产品而对致癌表型没有影响的改变中找出导致肿瘤发生的改变。此外,不同类型的变化的存在使得检测致因变化更加困难。因此,很明显需要分析和整合癌症基因组数据的方法。IntOGen整合了与癌症中发生的不同类型改变相关的高通量数据,如拷贝数改变、点突变和许多独立研究的转录组变化,以确定不同肿瘤类型中更显著改变的基因和模块(例如KEGG通路、GO术语)(1).

数据内容和来源

IntOGen中的数据包括从基因表达综合数据库(GEO)等数据库收集的公开可用的癌症基因组研究()、ArrayExpress(4),宇宙(5)、孕酮(6)桑格癌症基因组项目(http://www.sanger.ac.uk/genetics/CGP/)和癌症基因组图谱的数据门户(7). 每项研究都包含了大量人类原发肿瘤样本的高通量分析结果,并将其与与一种或多种癌症相关的正常细胞(在表达情况下为同一组织的正常细胞)进行了比较,以确定特定的变化。第一步,研究中的所有样本都用国际肿瘤疾病分类(ICD-O)中的适当术语进行了注释(8):表示人体位置的地形术语,如果可用,则表示描述组织学分类的形态学术语。研究还使用实验所用的平台进行注释。IntOGen中的一项实验包括一组来自同一研究的分析,这些研究是在同一平台上进行的。分析管道将分析分组到“分析单位”中,对应于一个实验中的一组分析,该实验使用相同的地形和形态进行注释。此外,还创建了“分析单元”,在一个实验中使用相同的地形和任何形态进行分析(图1). 因此,一项研究可以生成几个“分析单元”。表1总结了当前版本IntOGen(v03)中包含的研究、实验和分析单元的数量。

保存图片、插图等的外部文件。对象名称为bar039f1.jpg

数据注释和分类。研究中的每个样品分析都针对平台和ICD-O拓扑和形态学术语进行了注释。IntOGen中的一项实验包括一组来自同一研究的分析,这些研究是在同一平台上进行的。然后,分析管道以两种方式在“分析单元”中生成来自同一实验的重叠分析组,1)根据地形和形态学,2)根据地形(形态学注释为“任何形态学”)。

表1。

IntOGen(v03)中的数据内容摘要

变更类型主要数据来源独立研究数量实验次数分析单元数量
转录组的地理位置118122243
阵列Express
TCGA公司
基因组(拷贝数)Progenetix公司188188343
桑格癌症基因组项目
TCGA公司
总计306310586

IntOGen中的数据分析

在IntOGen框架中,分析是在不同的层次上进行的:在一个方面,每个实验都是独立分析的(实验层次),并且那些使用相同地形和形态学术语分类的实验被组合起来(组合层次)。另一方面,分析是在基因层面(基因层面)和模块层面(模块层面)进行的。模块由一组具有某些共同生物学特性的基因定义,我们目前分析了基因本体(GO)模块、KEGG通路模块、源自启动子中共享转录因子结合侧(TFBS)的基因的模块以及在其3′-UTR中共享microRNA靶模体的基因[见参考文献(1)有关详细信息]。

图2显示了IntOGen中的分析流程图。首先,在每个分析单元中,我们使用Oncodrive(参见参考文献(1)有关详细信息]。相同基因的结果在分析实验中进行统计合并,使用加权z(z)-方法(9). ICD-O的一个优点是它的层次结构。如果研究包含足够多的样本(至少20个),其中形态类型信息已知,则可以在地形和形态水平上检测显著变化。设置20个样本的限制是为了提高结果的可靠性,因为我们认为大规模研究中较小的重复次数会导致异常结论(1). 通过这种方式,可以确定特定形态类型的改变以及一般癌症地形的共同改变。检测到显著改变的基因后,进行富集分析,以发现每个实验中显著改变的模块(例如生物过程或路径)。与之前一样,相同模块的结果在分析相同癌症类型的研究中进行了合并。

保存图片、插图等的外部文件。对象名为bar039f2.jpg

IntOGen中的分析流程图。对每个分析单元(使用相同平台从相同研究中获得的一组分析,并用相同的ICD-O术语注释)进行分析,以检测显著改变的基因。进一步分析基因级实验结果,以检测显著改变的模块。将具有相同ICD-O项的实验结果在基因水平和模块水平进行组合。有关方法的详细信息,请参阅(1).

可从IntOGen Biomart访问数据

可以预料,解释这些高度相关的结果需要强大的可视化方法。IntOGen的浏览器有助于探索和直观地可视化不同级别的结果(可在以下网址获得:网址:http://www.intogen.org),而Biomart门户(2)(网址:http://biomert.intogen.org)允许复杂查询,并便于批量下载所有分析结果。

在IntOGen Biomart门户中,用户可以查询三种类型的数据。每种类型都有一个数据库;IntOGen实验、IntOGen组合和IntOGen Oncomodules(表2).

表2。

IntOGen BioMart中的数据库和数据集

数据库数据集描述
实验基因基因组改变在实验水平上每个基因的基因组改变(增益和损耗)的重复性和重要性
基因转录组改变在实验水平上每个基因转录组改变(上调和下调)的复发率和意义
KEGG基因组改变实验水平上每个KEGG途径的基因组改变(增益和损耗)的复发率和重要性
KEGG转录组改变实验水平上每个KEGG通路转录组改变(上调和下调)的复发和意义
GO基因组改变在实验水平上每个GO术语的基因组改变(增益和损耗)的重复性和重要性
GO转录组改变实验水平上每个GO术语转录组改变(上调和下调)的复发率和意义
TFBS基因组改变在实验水平上每个TF的假定靶点的基因组改变(增益和损耗)的复发率和意义
TFBS转录组改变在实验水平上,每个TF的假定靶点的转录组改变(上调和下调)的重复性和重要性
miRNA基因组改变在实验水平上每个miRNA的假定靶点的基因组改变(增益和损耗)的重复性和重要性
miRNA转录组改变在实验水平上每个miRNA的假定靶点的转录组改变(上调和下调)的重复性和重要性
组合基因基因组改变每个基因在组合水平(肿瘤类型和亚型)的基因组改变(增益和损耗)的复发率和意义
基因转录组改变每个基因在组合水平(肿瘤类型和亚型)转录组改变(上调和下调)的复发率和意义
KEGG基因组改变在组合水平(肿瘤类型和亚型)上,每个KEGG途径的基因组改变(获得和损失)的复发率和意义
KEGG转录组改变在组合水平(肿瘤类型和亚型)每个KEGG通路转录组改变(上调和下调)的复发率和意义
GO基因组改变在组合水平(肿瘤类型和亚型)上,每个GO术语的基因组改变(增加和减少)的复发率和意义
GO转录组改变每个GO术语在组合水平(肿瘤类型和亚型)转录组改变(上调和下调)的复发率和意义
TFBS基因组改变在组合水平(肿瘤类型和亚型)每个TF的假定靶点的基因组改变(增益和损耗)的复发率和意义
TFBS转录组改变在组合水平(肿瘤类型和亚型)每个TF的假定靶点的转录组改变(上调和下调)的复发率和意义
miRNA基因组改变在组合水平(肿瘤类型和亚型)每个miRNA的假定靶点的基因组改变(增益和损耗)的复发率和意义
miRNA转录组改变在组合水平(肿瘤类型和亚型),每个miRNA的假定靶点的转录组改变(上调和下调)的复发率和意义
Oncom模块组合每种癌症类型和亚型的基因组发生显著变化
实验在每个实验中,基因组都发生了显著变化

在IntOGen实验数据库中,有基因组和转录组改变的数据集。对于IntOGen中包含的每个实验,用户可以在基因或模块级别查询这些变化的重复分析结果,例如KEGG通路和GO类别。对于这两种类型的数据集,可以用多种不同的方式过滤结果。这里有几个例子:用GO id列表注释的基因、特定染色体带中的基因、选定的Entrez/Ensembl基因id列表。用户还可以按重要性级别进行筛选,结果可以限制为特定作者在特定平台类型等上进行的实验。结果中的列可以通过在属性部分中进行的选择来确定。对于实验级数据,有许多可从分析中检索到的统计数据,如实验中的样本数量、预期/观察到的变化数量和对-最后,检索包含基因或模块的选定属性的表。

在IntOGen Combinations数据库中,用户可以查询组合结果,即使用相同ICD-O术语注释的实验结果的集成。该数据库包括基因和模块的基因组和转录组改变的数据集。过滤器和属性的工作方式与实验数据库中的类似,但没有发布或平台属性和过滤器,并且包括特定于组合方法的结果属性。

在IntOGen Oncomodules数据库中,有两个数据集,一个用于组合,另一个用于实验。每个数据集都包含在特定ICD-O术语组合或特定实验中显著改变的基因列表。同样,用户可以根据基因的某些特征,以多种方式过滤结果,对于癌症类型,以及对于实验级别的肿瘤模块,对于作者或平台类型,以他/她喜欢的显著性级别过滤结果。

查询示例

查询#1使用基因列表检查它们在拓扑结构中是否有显著的增加或减少。

数据库数据集过滤器属性
数据库:IntOGen组合基因基因组改变基因:ID列表限制了带有ID的文件(Ensembl、Entrez等)基因>集合>基因集合ID
ICD-O地形和形态:乳房;任何形态基因>集合>基因符号
参考>外部参考>Entrez Gene id
结果>基因组学>增益对-价值
结果>基因组学>损失对-价值

高通量分析的结果通常是一系列基因,例如在表达实验中显著解除调控的基因。由于资源有限,为了进行下游分析,必须优先考虑该基因列表。一种方法是在IntOGen的癌症实验小组中检查单个基因是否以任何方式改变。在查询1中,用户可以通过单击“ID列表限制”框并指定他们使用的ID类型,下载基因组改变的组合结果,并将其与基因列表一起过滤。例如,为了使用基因符号(如TP53和RB1)进行过滤,用户应在过滤器部分选中“ID list limit”(ID列表限制)框,并从下拉菜单中选择“gene symbols”(基因符号)。用户可以使用许多id进行筛选,例如GO id、Refseq等。在图3显示了为该查询选择属性的web界面的屏幕截图。

保存图片、插图等的外部文件。对象名称为bar039f3.jpg

显示查询1的属性选择的屏幕截图。左侧显示了选定的数据集、过滤器和属性。右侧是详细的属性选择视图。要检索结果,用户应单击左上方黑色条上的“结果”按钮,“计数”按钮给出与查询匹配的行数,“新建”按钮允许启动新查询。

查询#2–3找出肺癌中获得的基因。检查肺癌中获得的基因的转录组改变状态。

查询2

数据库数据集过滤器属性
IntOGen肿瘤模块组合:Oncomodules变更类型:收益基因>集合>基因集合ID
ICD-O地形和形态学:肺;任何形态

查询3

数据库数据集过滤器属性
IntOGen组合基因转录组改变基因:上次查询的ID列表基因>集合>基因集合ID
ICD-O地形和形态:肺;任何形态基因>集合>基因符号
结果>转录组学>上调P(P)-价值
结果>转录组学>下调P(P)-价值

癌症有不同类型的改变。交叉检查不同蚀变类型的相对贡献很重要。通过查询2,用户将得到一个在‘lung,nos;任何形态学的实验。用户还可以通过更改基因的属性来检索他/她选择的标识符,如基因符号、EntrezGene id等。使用查询3,用户可以使用上一个查询中的列表来筛选结果以进行转录组更改。

查询#4比较脑癌一般和两种特定形态类型的基因组改变;室管膜瘤和星形细胞瘤。

数据库数据集过滤器属性
IntOGen组合基因基因组改变ICD-O地形和形态学:大脑;任何形态基因>集合>基因集合ID
ICD-O地形和形态学:大脑;星形细胞瘤基因>Ensembl>基因符号
ICD-O地形和形态学:大脑;室管膜瘤结果>基因组学>增益对-价值
结果>基因组学>损失对-价值

由于将脑癌分解为固有亚型具有预后价值,因此寻找能够区分癌症亚型的基因列表一直是实验科学家的兴趣所在。通过查询4,用户可以下载脑癌的基因组改变,以及特定肿瘤、室管膜瘤和星形细胞瘤的基因组改变。在过滤器部分ICD-O中,可以通过单击选择多个ICD-O术语,同时在Windows机器上按住控制键,在Mac机器上按住命令键。

查询#5比较不同乳腺癌实验中用GO细胞周期术语注释的基因的表达水平。用最多的样本获取实验结果。

查询5

数据库数据集过滤器属性
IntOGen实验基因转录组改变ICD-O地形和形态:乳房;任何形态基因>集合>基因集合ID
过滤器:ID列表限制(按GO ID:GO:0007049)基因>集合>基因符号
结果>转录组学>上调,P(P)-价值
结果>转录组学>下调,P(P)-价值
结果>转录组学>上调:样本总数

虽然使用模块进行富集可以提供信息,但用户也可以获得模块中基因的结果。通过比较这两个结果,可以看出在同一癌症类型的不同实验中,来自该通路的哪些基因更有可能决定该通路的活性。通过查询5,用户可以筛选所有乳腺研究结果中带有细胞周期注释的基因,并对研究进行比较。要筛选具有特定GO id的基因的结果,请在筛选器部分中激活“id list limit”框,并选择“GO term id”作为标识符的类型。

查询#6比较不同前列腺癌实验中上调或下调的途径。

问题6:

数据库数据集过滤器属性
IntOGen实验KEGG通路转录组改变ICD-O地形和形态:前列腺;任何形态KEGG途径id
KEGG名称
结果>转录组学>上调对-价值
结果>转录组学>下调对-价值

虽然不同患者的癌症在改变的特定基因方面表现出广泛的异质性,但受这些改变影响的一系列生物过程/途径是相似的。具有特定生物特性的基因集的富集分析对于检测此类模式非常有用。使用查询6,用户可以从KEGG检索研究乳腺癌的不同实验的路径结果。

查询#7a检索一个表,该表列出IntOGen中转录组改变的分析单位。

查询7a

数据库数据集过滤器属性
IntOGen实验KEGG途径转录组改变未选择任何内容ICD-O:地形和形态学
实验:出版物作者、出版年份、PubMed id、出版物标题、实验id
平台:平台标题

查询#7b检索一个表,该表列出IntOGen中基因组学改变的分析单位。

查询7b

数据库数据集过滤器属性
IntOGen实验KEGG途径基因组改变未选择任何内容ICD-O:地形和形态学
实验:出版物作者、出版年份、PubMed id、出版物标题、实验id
平台:平台标题

为了检索IntOGen中的分析单元列表,用户必须执行两个查询,一个查询转录组变化,另一个查询基因组变化。这是因为相应的数据位于不同的数据集中。重要的是选择适当的属性来描述分析单位,不使用过滤器,只检索唯一结果(单击“仅限唯一结果”)。

讨论和未来方向

IntOGen是一种癌症分析工具,旨在促进肿瘤基因组数据的整合、分析、探索和解释。除了浏览器之外,它的BioMart界面还可以访问与不同类型癌症中发生的基因组和转录组改变相关的高通量数据。IntOGen的一个独特功能是它提供不同集成级别的分析。用户可以将单个实验的结果与通过合并研究相同癌症类型的实验获得的结果进行比较。这两种类型的数据都可以通过BioMart界面访问。BioMart接口的一个主要功能是它方便了数据的批量下载。我们将继续从公共数据库以及TCGA等癌症项目中添加新数据(5)和ICGC(10).

使用IntOGen的另一个优点是可以在Gitools中直接分析下载的数据(11) (http://www.gitools.org),是一个专为分析和可视化高通量数据而设计的独立工具。Gitools还可以用于从其他可用的BioMart门户下载数据。例如,人们可以使用来自各种Biomart门户的模块或基因集轻松地对IntOGen数据进行富集分析,以探索癌症基因组数据中的大规模模式(参见http://help.gitools.org/xwiki/bin/view/Tutorials/例如)。

随着更便宜和更快的测序技术的不断出现,预计未来几年将有大量癌症基因组数据。像IntOGen这样能够集成、可视化和解释大量肿瘤基因组学数据的资源将变得越来越重要。我们不断对系统进行改进和更新,以便能够合并使用测序技术获得的数据。随着IntOGen中包含更多高质量的数据和新的分析方法,我们希望它成为实验研究人员的重要资源。

基金

西班牙科学技术部(安全部2009年6月954日); 加泰罗尼亚政府AGAUR奖学金(发给G.G.)。开放获取费用资助:西班牙科学技术部(SAF2009-06954型).

工具书类

1Gundem G、Perez-Llamas C、Jene-Sanz A等。IntOGen:多维肿瘤基因组数据的集成和数据挖掘。自然方法。2010;7:92–93.[公共医学][谷歌学者]
2Smedley D、Haider S、Ballester B等。生物超市-生物查询变得简单。BMC基因组学。2009;10:22.. http://www.biomedcentral.com/1471-2164/10/22。[PMC免费文章][公共医学][谷歌学者]
三。Edgar R,Domrachev M,Lash AE。基因表达总括:NCBI基因表达和杂交阵列数据存储库。核酸研究。2002;30:207–210. [PMC免费文章][公共医学][谷歌学者]
4Parkinson H、Kapushesky M、Shojatalab M等。ArrayExpress——微阵列实验和基因表达谱的公共数据库。核酸研究。2007;35:D747–D750。 [PMC免费文章][公共医学][谷歌学者]
5Forbes SA,Tang G,Bindal N,et al.COSMIC(癌症体细胞突变目录):研究人类癌症获得性突变的资源。核酸研究。2010;38:D652–D657。 [PMC免费文章][公共医学][谷歌学者]
6Baudis M,Cleary ML.Progenetix.net:分子细胞遗传学畸变数据的在线存储库。生物信息学。2001;17:1228–1229.[公共医学][谷歌学者]
7TCGA财团。全面的基因组特征定义了人类胶质母细胞瘤基因和核心通路。自然。2008;455:1061–1068. [PMC免费文章][公共医学][谷歌学者]
8世界卫生组织。国际肿瘤疾病分类。第3版。(ICD-O-3)。http://www.who.int/classifications/icd/adaptations/oncology/en/ [谷歌学者]
9Whitlock MC。结合独立测试的概率:加权Z方法优于Fisher方法。J.进化。生物。2005;18:1368–1373.[公共医学][谷歌学者]
10国际癌症基因组联合会。癌症基因组项目国际网络。自然。2010;464:993–998. [PMC免费文章][公共医学][谷歌学者]
11Perez-Llamas C,Lopez-Bigas N.Gitools:使用交互式热图分析和可视化基因组数据。《公共科学图书馆·综合》。2011;6:e19541。 [PMC免费文章][公共医学][谷歌学者]

文章来自数据库:《生物数据库与治疗杂志》由以下人员提供牛津大学出版社