跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2013年1月;41(数据库问题):D983–D986。
2012年11月21日在线发布。 数字对象标识:1093/nar/gks1099年10月10日
预防性维修识别码:项目经理3531173
PMID:23175614

LncRNADisease:长时间非编码RNA相关疾病数据库

耿晨,1,2的情况下, 王紫云,2 王东青(Dongqing Wang),2 邱成祥,2 刘明熙,4 邢晨,4 张奇鹏,2 桂英燕,4,*崔清华1,2的情况下,三,*

摘要

在本文中,我们描述了一个长非编码RNA(lncRNA)和疾病关联数据库(LncRNADise),该数据库可在http://cmbi.bjmu.edu.cn/lncrnadisease网站近年来,大量lncRNA被鉴定出来,越来越多的证据表明lncRNA在各种生物过程中发挥着关键作用。因此,lncRNA的功能障碍与多种疾病有关。因此,了解lncRNAs在疾病中的作用并确定候选lncRNAs对疾病诊断、治疗和预后至关重要。为此,一个高质量的lncRNA–疾病关联数据库将非常有益。在这里,我们描述了LncRNADisease数据库,该数据库收集并整理了大约480个实验支持的lncRNA疾病关联条目,包括166种疾病。LncRNADisease还收集了478条不同分子水平的lncRNA相互作用伙伴,包括蛋白质、RNA、miRNA和DNA。此外,我们用基因组信息、序列、参考文献和物种注释了lncRNA–疾病关联。我们对疾病名称和lncRNA功能障碍类型进行了标准化,并对每个条目进行了详细描述。最后,我们开发了一种生物信息学方法来预测新的lncRNA-疾病关联,并将该方法和1564个人类lncRNAs的预测关联疾病整合到数据库中。

简介

人类转录组分析中一个令人惊讶的发现是,蛋白质编码序列只占基因组转录的一小部分(1). 大多数人类基因组转录物是非编码RNA,特别是长非编码RNA(lncRNAs)(2). 通常,lncRNAs在物种间的保守性较低,并且通常表现出低表达水平和高组织特异性(3–5). 因此,在首次发现时,lncRNAs通常被认为是转录噪声(5). 近年来,越来越多的研究表明,一些lncRNA不是转录噪声,但具有重要功能,例如影响基因转录、靶向RNA聚合酶II、调节剪接和参与表观遗传学(6). 此外,根据竞争内源性RNA理论(7),lncRNAs可能通过与microRNA(miRNAs)竞争性结合,在功能上与广泛的RNA分子相互作用,这表明lncRNA可能在广泛的生物过程中发挥关键作用。先前的研究产生了大量lncRNA相关数据,包括序列、表达谱和功能。因此,安排和注释这些数据对于更好地理解lncRNAs非常重要。几个lncRNA数据库确实为研究lncRNA提供了帮助(8–10). 例如,NRED是lncRNA表达数据的数据库(10). lncRNAdb数据库提供详细的lncRNA信息,包括序列、功能、表达、相关蛋白和细胞位置(8). 尽管NONCODE数据库不是lncRNA的特异性数据库,但它在第三个版本(NONCODE v3.0)中对lncRNA的序列、功能、表达和细胞位置进行了策划(9).

最近,研究人员试图了解lncRNA与疾病之间的关系。研究表明,lncRNA功能障碍与多种疾病有关(5)包括癌症(11)、心血管疾病(12)和神经变性疾病(13). 例如,lncRNAPCA3公司是一种高度前列腺癌特异性分子PCA3公司score有可能成为前列腺癌侵袭性的生物标志物(14). lncRNA的上调HOTAIR公司是肝移植后肝癌患者肿瘤复发的独立预后因素(15). 一项研究证实了lncRNA的高度特异性和敏感性UCA1公司从尿沉渣中诊断膀胱癌,表明UCA1公司是膀胱癌诊断的潜在生物标志物(16). 戈迪尼奥等。(17)发现lncRNABCAR4号机组可能是抗雌激素抵抗乳腺癌治疗的潜在靶点,因为在有各种抗雌激素和无雌激素的情况下,其在乳腺癌细胞中的强制表达会导致细胞增殖。上述研究表明,lncRNAs可能有助于了解疾病,并有助于发现疾病诊断、治疗和预后中的潜在分子。因此,对lncRNA-疾病关联性的研究正成为lncRNAs和疾病最重要的课题之一。因此,一个高质量的lncRNA–疾病关联数据库将有助于研究lncRNA在疾病中的作用,但目前尚不可用。为了建立这样一个数据库,我们手动整理了文献中实验报告的lncRNA与疾病的关系,并创建了一个数据库LncRNADise。我们为每个条目提供了详细的注释信息。此外,我们策划并注释了实验支持的lncRNA相互作用伙伴。此外,我们开发了一种生物信息学方法来预测新的lncRNA与疾病的相关性,并将该方法及其预测结果集成到数据库中。

数据源和实施

首先,我们从国家生物技术信息中心下载了PubMed数据、非蛋白编码RNA基因信息和基因-PubMed-关联数据。其次,我们手动整理数据并检索lncRNA–疾病对。不同的研究人员对所有lncRNA-疾病对进行了双重检查。提供了PubMed数据库中原始文章的超链接。我们还注释了序列和物种信息。我们进一步规范了lncRNAs和疾病的名称。我们总共策划了166种疾病,其中癌症(39.8%)、心血管疾病(10.8%)和神经变性疾病(8.4%)是前三类(图1A) ●●●●。此外,我们对lncRNAs与疾病的相关性进行了详细描述,并为每个条目策划了功能障碍类型。例如,如果条目的功能障碍证据来源于表达数据,则该条目的功能障碍类型将被视为“表达”。功能障碍类型的分布如所示图1B.除了lncRNA–疾病关联数据外,我们还整理了实验支持的lncRNA相互作用,并根据相互作用分子和相互作用特征对相互作用进行了分类。例如,在RNA水平上,lncRNA可能与蛋白质相互作用(18),RNA(19),lncRNA(20)和miRNA(21). 它们的相互作用可能是约束、调节和共同表达。在DNA水平上,lncRNA基因的启动子可能与转录因子(TF)结合并受TF调节(22).

保存图片、插图等的外部文件。对象名称为gks1099f1p.jpg

疾病统计和分布(A类)和功能障碍类型(B类)LncRNADise数据库中的lncRNAs。

所有数据都使用SQLite(轻量级数据库管理系统)组织在“LncRNADise”数据库中。该网站是基于Python web框架Django开发的http://cmbi.bjmu.edu.cn/lncrnadisease网站.

预测新型LNCRNA–疾病关联

LncRNADisease不仅被设计为实验支持的lncRNA-疾病关联数据的资源,而且被设计为预测新的lncRNA-疾病关联的平台。在这项研究中,我们提出了一种基于给定lncRNA的基因组背景预测新lncRNA与疾病关联的方法。我们之前表明,miRNAs在基因组中彼此紧密定位(尤其是2kb内的miRNAs),并且往往与类似疾病相关(23,24). 在这里,我们研究了lncRNAs是否倾向于与与其基因组相邻基因相似的疾病相关。因此,我们确定了与报告的疾病相关的任何lncRNA中2 kb nts内的蛋白编码基因和miRNAs。然后我们鉴定了与相邻基因/miRNAs具有相同相关疾病的lncRNAs。我们发现33个lncRNAs与其相邻基因/miRNAs与同一疾病相关。为了评估其重要性,我们随机对与lncRNAs相关的疾病进行了10000次重复验证,并计算了与其相邻基因/miRNAs相同的相关疾病相关的lncRNA的数量。结果,没有一个计数大于33,预期数字为9,表明lncRNAs及其相邻基因/miRNAs往往与同一疾病相关(P(P)< 1 × 104、随机试验;图2). 这一结果表明,我们可以通过与相邻基因/miRNA相关的疾病来预测lncRNA的潜在相关疾病。基于上述观察结果,我们开发了一种工具来预测新的lncRNA与疾病的关联,并使用该工具识别出人类基因组中所有lncRNA的潜在相关疾病。最后,我们将工具和预测结果集成到LncRNADisease数据库中。

保存图片、插图等的外部文件。对象名为gks1099f2p.jpg

lncRNAs与其相邻基因/miRNAs共患病的意义。蓝色三角形表示随机病例中与其相邻基因/miRNAs相同疾病相关的lncRNAs数量分布。红色箭头表示与其相邻基因/miRNAs同一疾病相关的lncRNAs的实际数量。

查询数据库

我们为用户提供了几种查询LncRNADise数据库的方法。首先,用户可以通过lncRNA名称或疾病名称浏览LncRNADisease。在“浏览”页面中单击一个lncRNA或疾病时,LncRNADise将返回匹配条目的列表。其次,我们为“搜索”页面中lncRNAs或疾病的完整或部分名称的条目提供了“模糊搜索”功能。“搜索”不区分大小写。我们还提供了一个页面,提供了预测新型lncRNA与疾病关联的工具。此外,数据库中的所有数据,包括lncRNA-疾病关联、预测的lncRNA–疾病关联和lncRNA相互作用,都可以下载。用户还可以向数据库提交新数据。此外,“帮助”页面中提供了有关数据库使用的详细教程。

未来的扩展

LncRNADisease数据库是该项目的第一步。将进一步扩展。LncRNADisease数据库将每2个月更新一次实验支持的lncRNA-疾病关联数据。与此同时,正在开发一些用于分析lncRNA–疾病关联数据的新工具,并将在未来集成到LncRNADisease数据库中。例如,我们正在开发基于表达谱和相互作用伙伴的方法来预测新型lncRNA与疾病的关联,并期望在不久的将来将这些方法集成到数据库中。

讨论和结论

越来越多的研究表明,lncRNA具有重要功能,并与广泛的疾病相关。LncRNAs正在成为疾病诊断、治疗和预后的潜在新分子。在本文中,我们描述了一个lncRNA和疾病关联数据库LncRNADise。LncRNADisease数据库集成了多种类型的数据,例如实验支持的lncRNA–疾病关联数据、实验支持的lincRNA相互作用数据和预测的lncRNA-疾病关联数据。此外,我们开发了一种生物信息学方法,根据新lncRNA的基因组背景预测其潜在相关疾病,并将该方法整合到lncRNA疾病中。

lncRNA在疾病中的重要作用正在吸引更多的生物医学研究人员。因此,预计未来将公布更多实验支持的lncRNA-疾病关联,这些数据将整合到LncRNADisease数据库中。更重要的是,尽管已鉴定出数千种lncRNA,但据报道,与疾病相关的lncRNA数量有限。越来越需要通过生物信息学方法预测lncRNA的潜在相关疾病。因此,LncRNADise的另一个主要目标是开发和整合更多的生物信息学方法,以分析和预测lncRNA-疾病关联。最后,我们相信LncRNADise对于lncRNAs和疾病的研究是有用的,并且当它在未来集成更多的数据和工具时,将在这个主题中提供更多帮助。

基金

国家基础研究计划[2012年CB517500]; 国家自然科学基金[31000585; 11021161]. 开放获取费用资助:国家基础研究计划[2012CB517500]。

利益冲突声明。未声明。

参考文献

1Bertone P、Stolc V、Royce TE、Rozowsky JS、Urban AE、Zhu X、Rinn JL、Tongprasit W、Samanta M、Weissman S等。利用基因组拼接阵列对人类转录序列进行全球鉴定。科学。2004;306:2242–2246.[公共医学][谷歌学者]
2Kapranov P、Cheng J、Dike S、Nix DA、Duttagupta R、Willingham AT、Stadler PF、Hertel J、Hackermuler J、Hofacker IL等。RNA图谱揭示了新的RNA类别和普适转录的可能功能。科学。2007;316:1484–1488.[公共医学][谷歌学者]
三。Mercer TR、Dinger ME、Sunkin SM、Mehler MF、Mattick JS。小鼠脑中长非编码RNA的特异性表达。程序。美国国家科学院。科学。美国。2008;105:716–721. [PMC免费文章][公共医学][谷歌学者]
4Pauli A、Valen E、Lin MF、Garber M、Vastenhouw NL、Levin JZ、Fan L、Sandelin A、Rinn JL、Regev A等。斑马鱼胚胎发生期间表达的长非编码RNA的系统鉴定。基因组研究。2012;22:577–591. [PMC免费文章][公共医学][谷歌学者]
5Ponting CP,Oliver PL,Reik W.长非编码RNA的进化和功能。单元格。2009;136:629–641.[公共医学][谷歌学者]
6Managadze D、Rogozin IB、Chernikova D、Shabalina SA、Koonin EV。长基因间非编码RNA的表达水平和进化率之间的负相关。基因组生物学。进化。2011;:1390–1404. [PMC免费文章][公共医学][谷歌学者]
7Salmena L、Poliseno L、Tay Y、Kats L、Pandolfi PP。ceRNA假说:隐藏RNA语言的罗塞塔石碑?单元格。2011;146:353–358. [PMC免费文章][公共医学][谷歌学者]
8Amaral PP、Clark MB、Gascoigne DK、Dinger ME、Mattick JS。lncRNAdb:长非编码RNA的参考数据库。核酸研究。2011;39:D146–D151。 [PMC免费文章][公共医学][谷歌学者]
9Bu D,Yu K,Sun S,Xie C,Skogerbo G,Miao R,Xiao H,Liao Q,Luo H,Zhao G等。NONCODE v3.0:长非编码RNA的综合注释。核酸研究。2012;40:D210–D215。 [PMC免费文章][公共医学][谷歌学者]
10Dinger ME、Pang KC、Mercer TR、Crowe ML、Grimmond SM、Mattick JS。NRED:长非编码RNA表达数据库。核酸研究。2009;37:D122–D126。 [PMC免费文章][公共医学][谷歌学者]
11Spizzo R,Almeida MI,Colombati A,Calin GA。长非编码RNA与癌症:翻译研究的新前沿?致癌物。2012;31:4577–4587. [PMC免费文章][公共医学][谷歌学者]
12Congrains A、Kamide K、Oguro R、Yasuda O、Miyata K、Yamamoto E、Kawai T、Kusunoki H、Yamamoto H、Takeya Y等。9p21位点的遗传变异通过调节ANRIL和CDKN2A/B促进动脉粥样硬化。动脉粥样硬化。2012;220:449–455.[公共医学][谷歌学者]
13Johnson R.亨廷顿舞蹈症神经退行性变中的长非编码RNA。神经生物学。数字化信息系统。2012;46:245–254.[公共医学][谷歌学者]
14van Poppel H、Haese A、Graefen M、de la Taille A、Irani J、de Reijke T、Remzi M、Marberger M。前列腺癌基因3(PCA3)与前列腺癌意义的关系。北京大学国际。2012;109:360–366.[公共医学][谷歌学者]
15杨Z,周磊,吴立明,赖MC,谢海燕,张飞,郑SS。长非编码RNA HOTAIR的过度表达可预测肝移植后肝癌患者的肿瘤复发。安·外科学·Oncol。2012;18:1243–1250.[公共医学][谷歌学者]
16Zhang Z,Hao H,Zhang CJ,Yang XY,He Q,Lin J.【新基因UCA1作为膀胱癌检测肿瘤生物标志物的评价】中华医学杂志。2012;92:384–387.[公共医学][谷歌学者]
17Godinho M,Meijer D,Setyono-Han B,Dorssers LC,van Agthoven T.BCAR4,一种引起人类乳腺癌细胞内分泌抵抗的新癌基因的特征。《细胞生理学杂志》。2011;226:1741–1749.[公共医学][谷歌学者]
18Pasmant E、Sabbagh A、Vidaud M、Bieche I.ANRIL是一种长的非编码RNA,是GWAS中一个意想不到的主要热点。美国财务会计准则委员会J。2011;25:444–448.[公共医学][谷歌学者]
19Faghihi MA、Modarresi F、Khalil AM、Wood DE、Sahagan BG、Morgan TE、Finch CE、St Laurent G、3rd、Kenny PJ等。阿尔茨海默病中非编码RNA的表达升高,并推动β-分泌酶的快速前馈调节。自然医学。2008;14:723–730。 [PMC免费文章][公共医学][谷歌学者]
20Clark MB,Mattick JS公司。细胞生物学中的长非编码RNA。塞明。细胞发育生物学。2011;22:366–376.[公共医学][谷歌学者]
21Wilusz JE、Sunwoo H、Spector DL。长的非编码RNA:来自RNA世界的功能惊喜。基因发育。2009;23:1494–1504。 [PMC免费文章][公共医学][谷歌学者]
22Koshimizu TA、Fujiwara Y、Sakai N、Shibata K、Tsuchiya H。催产素刺激人类神经母细胞瘤细胞系中非编码RNA肿瘤标记物的表达。生命科学。2010;86:455–460.[公共医学][谷歌学者]
23Lu M,Zhang Q,Deng M,Miao J,Guo Y,Gao W,Cui Q.人类微RNA与疾病相关性分析。公共科学图书馆一号。2008;:e3420。 [PMC免费文章][公共医学][谷歌学者]
24王德,王杰,卢敏,宋凤,崔琴。基于microRNA相关疾病推断人类microRNA功能相似性和功能网络。生物信息学。2010;26:1644–1650.[公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社