跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
数据库(牛津)。2011; 2011年:bar024。
2011年6月11日在线发布。 doi(操作界面):10.1093/数据库/bar024
PMCID公司:项目经理3114646
PMID:21666272

使用BioMart作为框架管理和查询胰腺癌数据

摘要

我们描述了胰腺表达数据库(PED),这是第一个最初基于BioMart基础设施设计的癌症数据库。PED门户网站汇集了来自文献的多维胰腺癌数据,包括基因组、蛋白质组、miRNA和基因表达谱。基于BioMart 0.7框架,该数据库很容易与其他BioMart-compliant资源(如Ensembl和Reactome)集成,以便访问各种注释以及详细的实验条件。本文旨在概述PED,描述其数据内容,并通过示例说明如何成功挖掘和集成胰腺癌数据集和其他BioMart资源。

数据库URL: http://www.pancreasexpression.org

项目描述

在癌症研究中,技术的进步产生了大量复杂的数据。有效使用这些数据的障碍包括异构性和孤立资源之间缺乏互操作性(1). 我们试图通过使用BioMart来克服癌症研究的这些障碍(2)设计综合癌症资源的通用模型。最初,我们专注于胰腺癌,建立了胰腺表达数据库(PED)(3–5).

PED是整合和挖掘胰腺癌文献数据的主要资源。随着数据内容的不断增长,PED包含了最大的胰腺癌分子分析数据集集合。目前,该数据库包括使用一系列组学技术获得的6万多个测量值;包括转录组学、蛋白质组学、基因组学和miRNA。数据内容的扩展提高了查询能力,增强了互操作性,促进了胰腺癌的系统研究。尽管存在大量的表达数据存储库和文献数据库,但PED提供了一种独特的方法来集成和挖掘与胰腺癌相关的数据以及来自其他生物标记数据库的交叉查询数据,因此,允许社区对胰腺癌的各个方面进行高度详细的查询。

PED系统由能够查询数据内容的工具组成,这些工具可以使用基于单个前提(如基因表达)的简单查询,也可以组合跨多个数据类型的信息(如对基因表达和拷贝数数据进行查询)(图1和2)。2). 通过提供根据各种标准完善任何生物数据查询的能力,PED提供了一种资源,允许胰腺癌社区探索和发现导致该疾病发病的因素之间的新关系。由此产生的信息可用于阐明与肿瘤发生相关的变化以及对治疗产生耐药性,并有助于开发用于预防和诊断胰腺癌的新型分子诊断工具。

保存图片、插图等的外部文件。对象名为bar024f1.jpg

PED CNV数据集查询过程的示意图。(A类)过滤器和(B类)属性。

保存图片、插图等的外部文件。对象名称为bar024f2.jpg

PED表达式数据集查询过程的示意图。(A类)过滤器和(B类)属性。

与所有BioMarts一样,PED提供了多个访问级别,以确保对研究社区所有成员的普遍吸引力。数据库可通过BioMart基于web的查询界面自由访问,网址为:www.pancreasexpression.org为了确保最大程度的暴露,PED也可用作DAS服务器(6),这意味着它可以在其他资源或浏览器(如Ensembl)中使用(7). 提供数据链接以提醒EntrezGene(8)PED中相关基因的用户也可以作为链接资源访问。此外,可以通过R/BioConductor等第三方软件工具进行编程访问(9),银河(10)和细胞景观(11). 最重要的是,PED可以与国际癌症基因组联盟(ICGC)互操作(12)这是一项大规模合作,旨在检测包括胰腺癌在内的50种全球重要肿瘤类型或亚型的体细胞获得的转录组和表观遗传学改变。ICGC数据门户在其基因报告页面上包含PED注释(13).

数据内容

该数据库描述了6000多个DNA拷贝数变化的关联;8000个基因及其30000个转录本和22000个蛋白质;胰腺癌中的279个miRNAs,以及在广泛的样本和实验类型中观察到的放松调节水平(表1). 这些包括健康/患者组织和体液样本、细胞系和小鼠模型,以及提供研究期间对样本进行的任何治疗/药物的相关信息。

表1。

当前PED数据内容概述

数据内容
抄本30 324
蛋白质22 336
基因8229
微小RNA279
基因组拷贝数改变:增益和扩增4068
基因组拷贝数变化:丢失和缺失1420
基因组拷贝数改变:杂合性缺失875

查询示例

PED允许用户结合复杂的查询来提出详细的疾病特定问题,并将结果与公共注释源结合。有基因组学、蛋白质组学、转录组学和miRNA分析的选项,可以单独或组合查询这些数据类型(图1和2)。2). 该界面集成了Ensembl和BioMart的全部功能和数据,用于交叉链接不同的数据集。

为了演示PED的实用性,我们提出了几个可以使用当前系统执行的生物相关查询。

查询1:查找胰腺癌前病变、胰腺上皮内瘤样病变(PanIN)样本中常见的解除调控的基因,并显示基因信息、比较和调控方向。

数据集过滤器属性
胰腺表达数据库样本:HGNC符号
PanIN-1b:仅限集成基因Id
PanIN-1b/2:仅限乐团成绩单ID
PanIN-2:仅限比较
PanIN-3:仅限监管方向

预测性生物标记物对癌症研究至关重要,并且已经证明可以提高许多实体肿瘤的长期生存率。这些数据对于识别无症状的早期疾病生物标记物至关重要。胰腺癌尤其如此,胰腺癌是最致命的实体肿瘤之一,患者往往在疾病晚期被诊断(14).

胰腺癌(PDAC)是由非侵袭性胰腺病变-胰腺上皮内瘤变(PanINs)发展而来的,这一点已经得到了广泛认可(15). 根据细胞和核异型性的程度,这些前体肿瘤被划分为PanIN-1a、PanIN-1b、PanIN-2和PanIN-3。

根据查询1检索的结果显示了数据库中包含的所有PanIN集合中已表达的基因。结果表还将提供原始研究的链接。在这种情况下,S100P基因的放松调控被强调为胰腺癌发展的早期事件。这与之前公布的结果一致(16,17).

问题2:与胰腺良性疾病(慢性胰腺炎和胰腺假性囊肿)患者的血清相比,找出胰腺癌患者血清中差异表达的基因。通过与Reactome的查询集成查找相关路径。显示基因和蛋白质信息、实验细节和通路信息。

数据集过滤器属性
胰腺表达数据库比较:HGNC符号
胰腺癌与良性胰腺疾病(CP和胰腺假性囊肿)(血清)集成基因Id
限制输出:胰腺癌患者/良性胰腺疾病(慢性胰腺炎和胰腺假性囊肿)(血清)集合蛋白质ID
比较
监管方向
折叠更改
站台
反应体[途径]物种:智人路径名称
路径数据库ID

在试图避免手术干预和限制患者的任何生理和心理压力时,确定可靠的非侵入性生物标记物,如血清中的标记物,是很重要的。PED不仅允许用户查询来自组织的配置文件,还可以查询来自血清、血浆和尿液等介质的配置文件。此外,PED资源与Reactome的链接(18)能够识别胰腺癌特异的潜在基因,以便发现生物标记物并可视化受影响的途径。

问题3:在PDAC样本中发现DNA拷贝数高水平扩增,这些样本也包含PDAC与慢性胰腺炎(CP)中差异表达的基因,并显示拷贝数信息、基因信息和差异表达实验细节(图1).

数据集过滤器属性
拷贝数变化(胰腺癌)标本/细胞类型:胰腺癌(PDAC):仅染色体
拷贝号信息:高级放大:仅限起点
胰腺表达比较:胰腺癌(PDAC)与慢性胰腺炎(CP)(显微解剖):仅终点
集合基因ID
胰腺表达比较

上面的查询显示了一种简单的方法,通过将拷贝数变化的数据与微分表达式的结果相结合来集成多维数据。这将概述由PED中存储的各种平台确定的选定样本中任何染色体或染色体区域的基因组或转录组变化。通过将来自表达阵列和基因内容的转录解除调控信息与来自基因组阵列的拷贝数变化叠加,可以快速突出研究患者群体中常见的受影响区域以及拷贝数异常对基因表达模式的影响。例如,通过寻找PDAC中与慢性胰腺炎相比上调的高水平扩增和基因,可以突出潜在的致癌基因。

问题4:找出PDAC和CP中差异表达的miRNA,这些miRNA的表达已通过RT-PCR技术确认,并显示miRNA属性和研究信息(图2).

数据集过滤器属性
胰腺表达数据库基因:基因类型:miRNA miRNA图谱:平台:qRT-PCR比较:PDAC与CP(显微解剖)集合基因Id-miRBase-Id(s)miRBase接入研究比较调节方向

miRNAs与mRNA 3′-UTR区域的靶位点结合,并作为蛋白编码基因的阻遏物或RNA降解的激活物。胰腺癌中miRNAs的异常表达很容易从PED中恢复。

讨论和未来方向

PED作为挖掘相关文献信息的关键资源,在胰腺癌社区已得到广泛认可。最近的更新增加了不同的信息类型,包括胰腺癌样本的拷贝数变化和其他表达实验,如蛋白质组学和miRNA。

PED的成功开发和实施满足了胰腺癌社区对资源的迫切需求,这些资源能够整合新的高通量技术产生的大量数据。

基于PED BioMart模式的架构灵活性意味着它可以很容易地扩展到包括其他恶性和非恶性疾病,并已被用作其他恶性疾病(如乳腺癌)的原型(http://bioinformatics.breastcancertisuebank.org).

BioMart作为框架的使用促进了与其他癌症资源的互操作性,并使用户能够从多个相关资源中交叉查询数据,而不限于单个数据库。国际癌症基因组联盟(International Cancer Genome Consortium)使用BioMart技术共享数据并将其公开。来自PED的数据自动从ICGC交叉查询(参见本期ICGC论文),并且可以使用COSMIC数据进行查询(19)通过BioMart框架。这允许将两个ICGC胰腺癌项目(澳大利亚和加拿大)的实验结果与PED的文献衍生信息进行直接交叉比较。

该数据库的计划包括扩展到包括重新分析的差异表达数据和方法,以使用户能够评估添加到数据库中的信息的质量。此外,还计划改进图形数据视图,尤其是基因组信息。

基金

英国癌症研究(项目拨款C355/A6253)和FW6欧盟项目MolDiag-Paca;乳腺癌运动(至注册会计师。). 开放获取费用资助:英国癌症研究院(项目拨款C355/A6253).

利益冲突。未声明。

致谢

作者感谢胰腺癌科学家为数据库提供了文献数据。

工具书类

1Gadaleta E、Lemoine NR、Chelala C.癌症数据在线资源:障碍、益处和教训。简要生物信息。2011;12:52–63.[公共医学][谷歌学者]
2Haider S、Ballester B、Smedley D等。生物商业中心门户——统一访问生物数据。核酸研究。2009;37:W23–W27。 [PMC免费文章][公共医学][谷歌学者]
三。Chelala C、Hahn SA、Whiteman HJ等。胰腺表达数据库:用于组织、集成和挖掘复杂癌症数据集的通用模型。BMC基因组学。2007;8:439. [PMC免费文章][公共医学][谷歌学者]
4Chelala C、Lemoine NR、Hahn SA等。胰腺表达数据集挖掘的网络平台。胰腺学。2009;9:340–343.[公共医学][谷歌学者]
5Cutts RJ、Gadaleta E、Hahn SA等。胰腺表达数据库:2011年更新。核酸研究。2011;39:D1023–D1028。 [PMC免费文章][公共医学][谷歌学者]
6Dowell RD、Jokerst RM、Day A、Eddy SR、Stein L.分布式注释系统。BMC生物信息学。2001;2:7. [PMC免费文章][公共医学][谷歌学者]
7Hubbard TJ、Aken BL、Ayling S等人,合奏2009。核酸研究。2009;37:D690–D697。 [PMC免费文章][公共医学][谷歌学者]
8Tatusova T.国家生物技术信息中心的基因组数据库和资源。方法分子生物学。2010;609:17–44.[公共医学][谷歌学者]
9生物导体。www.bioconductor.org(2011年4月14日,上次访问日期)
10Giardine B、Riemer C、Hardison RC等,《银河:交互式大规模基因组分析平台》。基因组研究。2005;15:1451–1455. [PMC免费文章][公共医学][谷歌学者]
11Cline MS、Smoot M、Cerami E等。使用Cytoscape整合生物网络和基因表达数据。《国家协议》。2007;2:2366–2382. [PMC免费文章][公共医学][谷歌学者]
12Hudson TJ、Anderson W、Artez A.癌症基因组项目国际网络。自然。2011;464:993–998. [PMC免费文章][公共医学][谷歌学者]
13.ICGC数据门户。http://dcc.icgc.org(2011年4月20日,上次访问日期)
14Hruban RH,Maitra A,Goggins M.胰腺上皮内瘤变最新进展。国际临床杂志。实验病理学。2008;1:306–316. [PMC免费文章][公共医学][谷歌学者]
15.Hruban RH,Adsay NV,Albores Saavedra J等。胰腺上皮内瘤变:胰管病变的新命名和分类系统。美国外科病理学杂志。2001;25:579–586.[公共医学][谷歌学者]
16Nakata K、Nagai E、Ohuchida K等。S100P是一种新的识别导管内乳头状黏液性肿瘤的标记物。嗯,病态。2010;41:824–831.[公共医学][谷歌学者]
17Crnogorc Jurcevic T,Missiaglia E,Blaveri E等。胰腺癌的分子改变:表达谱显示S100基因表达失调非常普遍。《病理学杂志》。2003;201:63–74.[公共医学][谷歌学者]
18Matthews L、Gopinath G、Gillespie M等。人类生物途径和过程的反应组知识库。核酸研究。2009;37:D619–D622。 [PMC免费文章][公共医学][谷歌学者]
19Forbes SA、Bindal N、Bamford S等。COSMIC:在癌症体细胞突变目录中挖掘完整的癌症基因组。核酸研究。2011;39:D945–D950。 [PMC免费文章][公共医学][谷歌学者]

文章来自数据库:《生物数据库与治疗杂志》由提供牛津大学出版社