核酸研究。2000年1月1日;28(1): 193–196.
UTRdb和UTRsite:真核mRNA 5′和3′非翻译区序列和功能元件的专业数据库
,1,2,一 ,2,三 ,2 ,2 ,4 ,5和2,三,4
格拉齐亚诺Pesole
1意大利米兰大学鱼类和生物科学研究所,途经塞勒利亚2620133,2Bari地区,Consiglio Nazionale delle Ricerche(CNR),途经Amendola 166/5,70126 Bari,意大利,三意大利巴里Orabona 4,70126,国家能源委员会能源代谢中心(CNR),4巴里大学生物化学与生物分子研究所,途经意大利巴里Orabona 4,701265美国马里兰州贝塞斯达NLM-NIH国家生物技术信息中心
萨比诺·刘尼
1意大利米兰大学鱼类和生物科学研究所,途经塞勒利亚2620133,2Area di Ricerca di Bari,Consiglio Nazionale delle Ricerche(CNR),via Amendola 166/5,70126 Bari(意大利巴里),三意大利巴里Orabona 4,70126,国家能源委员会能源代谢中心(CNR),4巴里大学生物化学与生物分子研究所,途经意大利巴里Orabona 4,701265美国马里兰州贝塞斯达NLM-NIH国家生物技术信息中心
乔治·格里洛
1意大利米兰大学鱼类和生物科学研究所,途经塞勒利亚2620133,2Area di Ricerca di Bari,Consiglio Nazionale delle Ricerche(CNR),via Amendola 166/5,70126 Bari(意大利巴里),三意大利巴里Orabona 4,70126,国家能源委员会能源代谢中心(CNR),4巴里大学生物化学与生物分子研究所,途经意大利巴里Orabona 4,701265美国马里兰州贝塞斯达NLM-NIH国家生物技术信息中心
地衣Flavio Licciulli
1意大利米兰大学鱼类和生物科学研究所,途经塞勒利亚2620133,2Area di Ricerca di Bari,Consiglio Nazionale delle Ricerche(CNR),via Amendola 166/5,70126 Bari(意大利巴里),三意大利巴里Orabona 4,70126,国家能源委员会能源代谢中心(CNR),4巴里大学生物化学与生物分子研究所,途经意大利巴里Orabona 4,701265美国马里兰州贝塞斯达NLM-NIH国家生物技术信息中心
亚历山德拉·拉里扎
1意大利米兰大学鱼类和生物科学研究所,途经塞勒利亚2620133,2Area di Ricerca di Bari,Consiglio Nazionale delle Ricerche(CNR),via Amendola 166/5,70126 Bari(意大利巴里),三意大利巴里Orabona 4,70126,国家能源委员会能源代谢中心(CNR),4巴里大学生物化学与生物分子研究所,途经意大利巴里Orabona 4,701265美国马里兰州贝塞斯达NLM-NIH国家生物技术信息中心
沃伊西奇·马卡卢夫斯基(Wojciech Makalowski)
1意大利米兰大学鱼类和生物科学研究所,途经塞勒利亚2620133,2Area di Ricerca di Bari,Consiglio Nazionale delle Ricerche(CNR),via Amendola 166/5,70126 Bari(意大利巴里),三意大利巴里Orabona 4,70126,国家能源委员会能源代谢中心(CNR),4巴里大学生物化学与生物分子研究所,途经意大利巴里Orabona 4,701265美国马里兰州贝塞斯达NLM-NIH国家生物技术信息中心
塞西莉亚·萨科内
1意大利米兰大学鱼类和生物科学研究所,途经塞勒利亚2620133,2Area di Ricerca di Bari,Consiglio Nazionale delle Ricerche(CNR),via Amendola 166/5,70126 Bari(意大利巴里),三意大利巴里Orabona 4,70126,国家能源委员会能源代谢中心(CNR),4巴里大学生物化学与生物分子研究所,途经意大利巴里Orabona 4,701265美国马里兰州贝塞斯达NLM-NIH国家生物技术信息中心
1意大利米兰大学鱼类和生物科学研究所,途经塞勒利亚2620133,2Area di Ricerca di Bari,Consiglio Nazionale delle Ricerche(CNR),via Amendola 166/5,70126 Bari(意大利巴里),三意大利巴里Orabona 4,70126,国家能源委员会能源代谢中心(CNR),4巴里大学生物化学与生物分子研究所,途经意大利巴里Orabona 4,701265美国马里兰州贝塞斯达NLM-NIH国家生物技术信息中心
一通信地址:意大利米兰大学费西奥洛加生物科学研究所,地址:Celoria 2620133 Milano,Italy。电话:+39 02 7064 4803;传真:+39 02 7063 2811;电子邮件:graziano比索@unimi.it
接收日期:1999年9月30日;1999年10月4日接受。
摘要
真核生物mRNA的5′和3′非翻译区可能在控制mRNA定位、稳定性和翻译效率的基因表达调控中发挥关键作用。为此,我们开发了UTRdb,这是一个专门的真核生物mRNAs 5′和3′非翻译序列数据库,用于清除冗余。UTRdb条目丰富了初级数据库中没有的专门信息,包括实验分析已经证明具有某些功能作用的核苷酸序列模式的存在。所有这些模式都已收集在UTRsite数据库中,因此可以搜索任何输入序列中是否存在带注释的功能基序。此外,UTRdb条目已针对重复元素的存在进行了注释。所有用于真核mRNA 5′和3′非翻译区检索和功能分析的互联网资源均可访问http://bigarea.area.ba.cnr.it:8000/EmbIT/UTRHome/
引言
理解细胞生长、分化和对环境刺激的反应的基本机制,即控制分子事件的时间和空间顺序的程序,正在成为分子生物学中的一个真正挑战。事实上,尽管大多数调控元件被认为嵌入基因组的非编码部分,但核苷酸数据库因表达序列的存在而存在偏差,这些表达序列大多与基因的蛋白质编码部分相对应。在非编码区中,真核mRNAs的5′和3′非翻译区(5′-UTR和3′-UTR)经常被实验证明含有对基因调控和表达的许多方面至关重要的序列元件(1–7).
到目前为止,5′-和3′-UTR序列的主要功能作用是:(i)控制mRNA的细胞和亚细胞定位(4,7,8); (ii)mRNA稳定性的控制(1,9); 和(iii)mRNA翻译效率的控制(10,11).
在5′-和3′-UTR序列中已经发现了一些调节信号,通常对应于短的寡核苷酸束,也能够折叠在特定的二级结构中,这些二级结构是各种调节蛋白的蛋白结合位点。
功能等价序列的大集合分析(12,13),例如5′-和3′-UTR序列,对于定义其结构和组成特征以及搜索所谓的与功能相关的序列模式确实非常有用(14–16). 为此,我们构建了UTRdb,这是一个从真核生物mRNA中去除冗余的5′-和3′-UTR序列的专门序列集合。
UTRdb条目中包含了初级数据库中没有的专门信息,包括实验证据所证明的序列模式的存在,以发挥某些功能作用。此外,由于约10%的哺乳动物mRNA在其UTR中含有重复性元件(17)原始记录中通常没有注释,我们决定将这些信息包含在我们的数据库中。
我们还创建了UTR位点,这是一个位于5′-或3′-UTR序列中的功能序列模式集合,可以证明它对于自动注释测序项目生成的匿名序列以及在已知基因序列中发现以前未检测到的信号非常有用。
组装UTRdb系列
UTR序列的专用数据库由UTRdb_gen生成,UTRdb.gen是我们为此任务设计的计算机程序。为5′-和3′-UTR序列生成了八个序列集合,分别用于EMBL/GenBank核苷酸数据库的真核生物分区,即:(i)人类;(ii)啮齿动物;(iii)其他哺乳动物;(iv)其他脊椎动物;(v) 无脊椎动物;(vi)装置;(vii)真菌;和(viii)专利。
UTRdb_gen能够对相关EMBL条目的Feature Table进行准确解析,从而自动生成各种UTRdb集合。尽管功能键“5’UTR”和“3”UTR”是EMBL/Genbank条目的有效功能,但只有一小部分条目得到了充分注释。事实上,在UTRdb_gen能够提取5′-或3′-UTR序列的120 767个主要条目中,只有15.8%的条目在相应的EMBL条目中包含5′UTR或3′UTR特征键。UTRdb_gen能够通过使用其他相关特征键(如mRNA、CDS、外显子、内含子等)的预定义句法分析来定义UTR区域,即使这些键没有在主要条目中报告。
UTRdb_gen通过向主数据库条目添加一些专门信息,如UTR区域的完整性(或不完整性)、跨外显子的数量和交叉引用,自动注释生成的UTR条目。来自同一mRNA的5′-和3′-UTR序列之间也建立了交叉参考。
使用CLEANUP程序生成从冗余中清除的UTR条目(18)它能够通过删除具有相似性和重叠程度的条目,自动、快速地生成清理过的集合,而数据库中存在的条目长度超过了用户限定的阈值。在这种情况下,我们用于CLEANUP应用程序的截止参数相似性为95%,重叠性为90%。
通过使用程序UTRnote(由G.Grillo,Area de Ricerca di Bari del Consiglio Nazionale delle Ricerche善意提供)进一步丰富了UTR条目,其中包括UTRsite中收集的实验定义模式的位置信息以及Repbase数据库中存在的重复元素的位置信息(19). UTR站点条目描述了UTR区域中存在的各种调节元素,其功能作用已在实验基础上确立。每个UTR位点条目都是基于文献中报告的信息构建的,并由从事相关UTR调节元件功能表征实验的杰出科学家进行修订。
UTRdb的内容
表报告了UTRdb(12.0版)的摘要描述,其中总共包含120 767个条目和37 353 172个核苷酸。平均而言,超过29.3%的条目被证明是冗余的,并从数据库中删除。
表1。
冗余清理后UTRdb集合(12.0版)的条目数(N)和核苷酸长度(L)
| | | 冗余 |
---|
| N个 | L(左) | %N个 | %L(左) |
---|
5′-UTR公司 | | | | |
真菌 | 1136 | 195 215 | 23.91 | 13.04 |
人类 | 8785 | 1 887 755 | 38.61 | 28.15 |
无脊椎动物 | 5376 | 1 033 413 | 27.63 | 15.52 |
其他_妈妈 | 2429 | 339 321 | 36.06 | 27.62 |
其他脊椎动物 | 3564 | 519 656 | 25.63 | 18.19 |
工厂 | 8499 | 924 695 | 24.91 | 13.98 |
啮齿动物 | 8496 | 1 629 025 | 34.98 | 24.92 |
专利 | 213 | 55 918 | 29 | 41.86 |
总计 | 38 498 | 6 584 998 | | |
三′-UTR公司 | | | | |
真菌 | 1415 | 338 564 | 13.61 | 9.47 |
人类 | 10 207 | 8 367 057 | 36.91 | 30.95 |
无脊椎动物 | 6677 | 2 607 959 | 19.89 | 17.06 |
其他_妈妈 | 3202 | 1 457 422 | 29.14 | 24.27 |
其他脊椎动物 | 4419 | 2 195 694 | 21.22 | 14.36 |
工厂 | 11 548 | 2 777 812 | 15.16 | 14.15 |
啮齿动物 | 9181 | 5 737 426 | 34.66 | 27.41 |
专利 | 232 | 91 287 | 27.04 | 43.03 |
总计 | 46 881 | 23 573 221 | | |
5′-UTR序列被定义为从cap位点到起始密码子(排除)的mRNA区域,而3′-UTR序列被定义为由终止密码子(不包括)到poly-A起始位点的mRNA区。
图中显示了一个示例UTRdb条目UTRdb条目已根据EMBL数据库格式格式化。
UTRdb的示例条目。主要EMBL/GenBank数据库中没有的专业信息以粗体显示,并与其他数据库进行了有效的交叉连接。“UT”行报告有关相关UTR条目完整性或不完整性(例如完整或部分)的信息,以及基因组DNA序列中跨越外显子的数量。在该序列条目中,还注释了“5”核糖体mRNA TOP(32–34)(UTR位点条目:U0010)和微卫星元素的存在。
表报告UTRsite(3.0版)中包含的功能模式和重复元素。更多条目将包含在进一步的版本中。图中报告了一个示例UTR站点条目根据文献中报告的信息和/或该领域科学家专家的建议定义的功能模式,通过使用PATSCAN程序中使用的模式描述语法进行描述(20).
UTR站点样本条目,描述“铁响应元件(IRE)”(23)。IRE功能模式由一级和二级结构信息组成,根据PATSCAN程序采用的格式,在“模式”一节中进行了描述(http://bio-www.ba.cnr.it:8000/BioWWW/patscanGCG.html ).
表2。
UTRsite(v3.0)中迄今包含的功能模式
功能模式 | 参考 | UTRdb 12.0中发现的点击数 |
---|
铁响应元件(IRE)
| 23
| 65
|
组蛋白3′UTR干环结构
| 24
| 27
|
富含AU的II类不稳定元素
| 25
| 175
|
TGE平移调节元件
| 26
| 45
|
硒代半胱氨酸插入序列(SECIS)
| 27,28
| 189
|
APP 3′-UTR稳定控制元件
| 29
| 7
|
细胞质多腺苷酸化元件(CPE)
| 30
| 4614
|
纳米
| 31
| 397
|
核糖体蛋白mRNA 5′TOP
| 32–34
| 298
|
TNF mRNA翻译抑制元件
| 35
| 14
|
波形蛋白3′UTR mRNA元件
| 36
| 12
|
GLUT1 mRNA稳定元件
| 37
| 48
|
15-LOX-DICE系列
| 38
| 83
|
重复元素 | | 44 806 |
UTRdb的可用性
UTRdb和UTRsite通过匿名FTP公开(ftp://area.ba.cnr.it/pub/embnet/数据库/utr/ ). 我们用于检索和功能分析5′-和3′-UTR序列的所有互联网资源都可以访问http://bigarea.area.ba.cnr.it:8000/EmbIT/UTRHome/ (21). 其中包括SRS检索(22)UTRdb和UTRsite的,也可在EBI WWW服务器上获得(http://srs.ebi.ac.uk:80/)、UTRscan和UTRfasta。UTRscan实用程序允许查询者搜索用户提交的序列以查找UTRsite中收集的任何模式。UTRfasta实用程序允许对完全注释的UTRdb条目进行数据库搜索。
结论和展望
真核生物mRNAs的非翻译区在基因调控和表达中的重要作用现已被广泛认识。事实上,实验研究已经证明,位于未翻译区域的序列基序参与了关键的生物功能。
UTRdb中存储的大量功能等效序列现在使得研究其结构和组成特征以及应用统计方法识别重要信号成为可能。然而,为了避免冗余序列造成的伪影,有必要提前清理数据库。即使统计显著性不一定意味着生物学显著性,它也可能为进一步的实验工作提供有用的指示,例如定点突变。
UTRdb将使用新的EMBL数据库版本进行更新,UTRsite将通过添加描述其生物作用已被实验证明的功能模式的新条目而不断更新。
致谢
对于UTR位点条目的修订,我们要感谢Jim Malter(APP 3′-UTR稳定性控制元件)、Alain Krol(SECIS)、Matthias Hentze(IRE和15-LOX DICE)、Bill Marzluff(组蛋白干环结构)、Ann-Bin Shyu(ARE)、Arturo Verrotti(CPE)、Robin Wharton(nanos)、Elizabeth Goodwin(TGE)、Roger Kaspar(核糖体蛋白mRNA TOP)、,Danuta Radzioch(TNF mRNA翻译抑制元件)、Ruben Boado(GLUT1 mRNA稳定元件)和Zendra E.Zehner(Vimentin 3′UTR mRNA元件)。这项工作得到了欧盟拨款ERB-BIO4-CT96-0030和Programma Biotecnologie legge 95/95(MURST 5%)的支持。
参考文献
1Decker C.J.和Parker,R.(1994)生物化学趋势。科学。,19, 336–340. [公共医学][谷歌学者] 2考夫曼·R.J.(1994)货币。操作。生物技术。,5, 550–557. [公共医学][谷歌学者] 三。Klausner R.D.、Rouault,T.A.和Harford,J.B.(1993)单元格,72, 19–28. [公共医学][谷歌学者] 4歌手R.H.(1992)货币。操作。细胞生物学。,4, 15–19. [公共医学][谷歌学者] 6McCarthy J.E.G.和Kollmus,H.(1995)生物化学趋势。科学。,20, 191–197. [公共医学][谷歌学者] 7Bashirullah A.,Cooperstock,R.L.和Lipshitz,H.D.(1998年)每年。生物化学评论。,67, 335–394. [公共医学][谷歌学者] 8Johnston D.(1995)单元格,81, 161–170.[谷歌学者] 9Beelman C.A.和Parker,R.(1995)单元格,81, 179–183. [公共医学][谷歌学者] 10.Curtis D.,Lehman,R.和Zamore,P.D.(1995)单元格,81, 171–178. [公共医学][谷歌学者] 11Sonenberg N.(1994)货币。操作。遗传学。开发。,4, 310–315. [公共医学][谷歌学者] 12Mengeristky G.和Smith,T.F.(1987)计算。申请。Biosci公司。,三, 223–227. [公共医学][谷歌学者] 13Konopka A.K.(1994)In Smith,D.W.(编辑),信息学和基因组项目。学术出版社,加利福尼亚州圣地亚哥。
14Pesole G.、Liuni S.、Grillo G.和Saccone C.(1997)基因,205, 95–102. [公共医学][谷歌学者] 15Pesole G.、Grillo G.和Liuni S.(1996年)公司。化学.,20, 141–144. [公共医学][谷歌学者] 16Pesole G.、Fiormarino,G.和Saccone,C.(1994)基因,140, 219–225. [公共医学][谷歌学者] 17Makalowski W.,Zhang,J.和Boguski,M.(1996)基因组研究。,6, 846–857. [公共医学][谷歌学者] 18Grillo G.、Attimonelli,M.、Liuni,S.和Pesole,G.(1996)计算。申请。Biosci公司。,12, 1–8. [公共医学][谷歌学者] 19Jurka J.(1998)货币。操作。结构。生物。,8, 333–337. [公共医学][谷歌学者] 20Dsouza M.、Larsen,N.和Overbeek,R.(1997)趋势基因。,13, 497–498. [公共医学][谷歌学者] 21Pesole G.和Liuni S.(1999)趋势基因。,15, 379–380. [公共医学][谷歌学者] 22Etzold T.、Ulyanov,A.和Argos,P.(1996)方法酶学。,266, 114–128. [公共医学][谷歌学者] 23Hentze M.W.和Kuhn,L.C.(1996年)程序。美国国家科学院。科学。美国,93, 8175–8182.[PMC免费文章][公共医学][谷歌学者] 25.Chen C.和Shyu,A.(1995)生物化学趋势。科学。,20, 465–470. [公共医学][谷歌学者] 26Goodwin E.B.、Okkema,P.G.、Evans,T.C.和Kimble,J.(1993)单元格,75, 329–339. [公共医学][谷歌学者] 27Hubert N.、Walczak R.、Sturchler C.、Schuster C.、Westhof E.、Carbon P.和Krol A.(1996)生物化学,78, 590–596. [公共医学][谷歌学者] 28Walczak R.、Westhof,E.、Carbon,P.和Krol,A.(1996)核糖核酸,2, 367–379.[PMC免费文章][公共医学][谷歌学者] 29Zaidi S.H.E.和Malter,J.S.(1994年)生物学杂志。化学。,269, 24007–24013. [公共医学][谷歌学者] 30Verrotti A.、Thompson,S.、Wreden,C.、Strickland,S.和Wickens,M.(1996)程序。美国国家科学院。科学。美国,93, 9027–9032.[PMC免费文章][公共医学][谷歌学者] 31Dahanukar A.和Wharton,R.(1996年)基因开发。,10, 2610–2620. [公共医学][谷歌学者] 32Amaldi F.和Pierandrei-Amaldi,P.(1997)掠夺。分子亚细胞。生物。,18, 1–17. [公共医学][谷歌学者] 33Kaspar R.L.、Kakegawa,T.、Cranston,H.、Morris,D.R.和White,M.W.(1992)生物学杂志。化学。,267, 508–514. [公共医学][谷歌学者] 34Morris D.R.、Kakegawa,T.、Kaspar,R.L.和White,M.W.(1993)生物化学,32, 2931–2937. [公共医学][谷歌学者] 35Hel Z.、Di Marco,S.和Radzioch,D.(1998)核酸研究。,26, 2803–2812.[PMC免费文章][公共医学][谷歌学者] 36Zehner Z.E.、Shepherd R.K.、Gabriszuk J.、Fu T.F.、Al-Ali M.和Holmes W.M.(1997)核酸研究。,25, 3362–3370.[PMC免费文章][公共医学][谷歌学者] 37Boado R.J.和Pardridge,W.M.(1998)大脑研究摩尔大脑研究。,59, 109–113. [公共医学][谷歌学者] 38奥斯塔雷克-莱德勒A.、奥斯塔雷克D.、斯坦德N.和蒂勒B.(1994)EMBO J。,13, 1476–1481.[PMC免费文章][公共医学][谷歌学者]