跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2000年1月1日;28(1): 193–196.
数字对象标识:1993年10月10日/nar/28.1.193
预防性维修识别码:PMC102415型
PMID:10592223

UTRdb和UTRsite:真核mRNA 5′和3′非翻译区序列和功能元件的专业数据库

摘要

真核生物mRNA的5′和3′非翻译区可能在控制mRNA定位、稳定性和翻译效率的基因表达调控中发挥关键作用。为此,我们开发了UTRdb,这是一个专门的真核生物mRNAs 5′和3′非翻译序列数据库,用于清除冗余。UTRdb条目丰富了初级数据库中没有的专门信息,包括实验分析已经证明具有某些功能作用的核苷酸序列模式的存在。所有这些模式都已收集在UTRsite数据库中,因此可以搜索任何输入序列中是否存在带注释的功能基序。此外,UTRdb条目已针对重复元素的存在进行了注释。所有用于真核mRNA 5′和3′非翻译区检索和功能分析的互联网资源均可访问http://bigarea.area.ba.cnr.it:8000/EmbIT/UTRHome/

引言

理解细胞生长、分化和对环境刺激的反应的基本机制,即控制分子事件的时间和空间顺序的程序,正在成为分子生物学中的一个真正挑战。事实上,尽管大多数调控元件被认为嵌入基因组的非编码部分,但核苷酸数据库因表达序列的存在而存在偏差,这些表达序列大多与基因的蛋白质编码部分相对应。在非编码区中,真核mRNAs的5′和3′非翻译区(5′-UTR和3′-UTR)经常被实验证明含有对基因调控和表达的许多方面至关重要的序列元件(17).

到目前为止,5′-和3′-UTR序列的主要功能作用是:(i)控制mRNA的细胞和亚细胞定位(4,7,8); (ii)mRNA稳定性的控制(1,9); 和(iii)mRNA翻译效率的控制(10,11).

在5′-和3′-UTR序列中已经发现了一些调节信号,通常对应于短的寡核苷酸束,也能够折叠在特定的二级结构中,这些二级结构是各种调节蛋白的蛋白结合位点。

功能等价序列的大集合分析(12,13),例如5′-和3′-UTR序列,对于定义其结构和组成特征以及搜索所谓的与功能相关的序列模式确实非常有用(1416). 为此,我们构建了UTRdb,这是一个从真核生物mRNA中去除冗余的5′-和3′-UTR序列的专门序列集合。

UTRdb条目中包含了初级数据库中没有的专门信息,包括实验证据所证明的序列模式的存在,以发挥某些功能作用。此外,由于约10%的哺乳动物mRNA在其UTR中含有重复性元件(17)原始记录中通常没有注释,我们决定将这些信息包含在我们的数据库中。

我们还创建了UTR位点,这是一个位于5′-或3′-UTR序列中的功能序列模式集合,可以证明它对于自动注释测序项目生成的匿名序列以及在已知基因序列中发现以前未检测到的信号非常有用。

组装UTRdb系列

UTR序列的专用数据库由UTRdb_gen生成,UTRdb.gen是我们为此任务设计的计算机程序。为5′-和3′-UTR序列生成了八个序列集合,分别用于EMBL/GenBank核苷酸数据库的真核生物分区,即:(i)人类;(ii)啮齿动物;(iii)其他哺乳动物;(iv)其他脊椎动物;(v) 无脊椎动物;(vi)装置;(vii)真菌;和(viii)专利。

UTRdb_gen能够对相关EMBL条目的Feature Table进行准确解析,从而自动生成各种UTRdb集合。尽管功能键“5’UTR”和“3”UTR”是EMBL/Genbank条目的有效功能,但只有一小部分条目得到了充分注释。事实上,在UTRdb_gen能够提取5′-或3′-UTR序列的120 767个主要条目中,只有15.8%的条目在相应的EMBL条目中包含5′UTR或3′UTR特征键。UTRdb_gen能够通过使用其他相关特征键(如mRNA、CDS、外显子、内含子等)的预定义句法分析来定义UTR区域,即使这些键没有在主要条目中报告。

UTRdb_gen通过向主数据库条目添加一些专门信息,如UTR区域的完整性(或不完整性)、跨外显子的数量和交叉引用,自动注释生成的UTR条目。来自同一mRNA的5′-和3′-UTR序列之间也建立了交叉参考。

使用CLEANUP程序生成从冗余中清除的UTR条目(18)它能够通过删除具有相似性和重叠程度的条目,自动、快速地生成清理过的集合,而数据库中存在的条目长度超过了用户限定的阈值。在这种情况下,我们用于CLEANUP应用程序的截止参数相似性为95%,重叠性为90%。

通过使用程序UTRnote(由G.Grillo,Area de Ricerca di Bari del Consiglio Nazionale delle Ricerche善意提供)进一步丰富了UTR条目,其中包括UTRsite中收集的实验定义模式的位置信息以及Repbase数据库中存在的重复元素的位置信息(19). UTR站点条目描述了UTR区域中存在的各种调节元素,其功能作用已在实验基础上确立。每个UTR位点条目都是基于文献中报告的信息构建的,并由从事相关UTR调节元件功能表征实验的杰出科学家进行修订。

UTRdb的内容

表11报告了UTRdb(12.0版)的摘要描述,其中总共包含120 767个条目和37 353 172个核苷酸。平均而言,超过29.3%的条目被证明是冗余的,并从数据库中删除。

表1。

冗余清理后UTRdb集合(12.0版)的条目数(N)和核苷酸长度(L)
   冗余
 N个L(左)%N个%L(左)
5-UTR公司    
真菌1136   195 21523.9113.04
人类8785 1 887 75538.6128.15
无脊椎动物5376 1 033 41327.6315.52
其他_妈妈2429   339 32136.0627.62
其他脊椎动物3564   519 65625.6318.19
工厂8499   924 69524.9113.98
啮齿动物8496 1 629 02534.9824.92
专利213    55 9182941.86
总计38 498 6 584 998  
-UTR公司    
真菌1415   338 56413.61 9.47
人类10 207 8 367 05736.9130.95
无脊椎动物6677 2 607 95919.8917.06
其他_妈妈3202 1 457 42229.1424.27
其他脊椎动物4419 2 195 69421.2214.36
工厂11 548 2 777 81215.1614.15
啮齿动物9181 5 737 42634.6627.41
专利232    91 28727.0443.03
总计46 88123 573 221  

UTRdb 12.0由EMBL 59版生成。还显示了根据条目数(%N)和核苷酸长度(%L)计算的相关冗余百分比。

5′-UTR序列被定义为从cap位点到起始密码子(排除)的mRNA区域,而3′-UTR序列被定义为由终止密码子(不包括)到poly-A起始位点的mRNA区。

图中显示了一个示例UTRdb条目图1。1UTRdb条目已根据EMBL数据库格式格式化。

保存图片、插图等的外部文件。对象名称为gkd03301.jpg

UTRdb的示例条目。主要EMBL/GenBank数据库中没有的专业信息以粗体显示,并与其他数据库进行了有效的交叉连接。“UT”行报告有关相关UTR条目完整性或不完整性(例如完整或部分)的信息,以及基因组DNA序列中跨越外显子的数量。在该序列条目中,还注释了“5”核糖体mRNA TOP(32–34)(UTR位点条目:U0010)和微卫星元素的存在。

表22报告UTRsite(3.0版)中包含的功能模式和重复元素。更多条目将包含在进一步的版本中。图中报告了一个示例UTR站点条目图2。2根据文献中报告的信息和/或该领域科学家专家的建议定义的功能模式,通过使用PATSCAN程序中使用的模式描述语法进行描述(20).

保存图片、插图等的外部文件。对象名称为gkd03302.jpg

UTR站点样本条目,描述“铁响应元件(IRE)”(23)。IRE功能模式由一级和二级结构信息组成,根据PATSCAN程序采用的格式,在“模式”一节中进行了描述(http://bio-www.ba.cnr.it:8000/BioWWW/patscanGCG.html ).

表2。

UTRsite(v3.0)中迄今包含的功能模式
功能模式参考UTRdb 12.0中发现的点击数
铁响应元件(IRE)
23
65
组蛋白3′UTR干环结构
24
27
富含AU的II类不稳定元素
25
175
TGE平移调节元件
26
45
硒代半胱氨酸插入序列(SECIS)
27,28
189
APP 3′-UTR稳定控制元件
29
7
细胞质多腺苷酸化元件(CPE)
30
4614
纳米
31
397
核糖体蛋白mRNA 5′TOP
32–34
298
TNF mRNA翻译抑制元件
35
14
波形蛋白3′UTR mRNA元件
36
12
GLUT1 mRNA稳定元件
37
48
15-LOX-DICE系列
38
83
重复元素 44 806

对于每个模式,还会报告UTRdb条目的点击数。

UTRdb的可用性

UTRdb和UTRsite通过匿名FTP公开(ftp://area.ba.cnr.it/pub/embnet/数据库/utr/ ). 我们用于检索和功能分析5′-和3′-UTR序列的所有互联网资源都可以访问http://bigarea.area.ba.cnr.it:8000/EmbIT/UTRHome/ (21). 其中包括SRS检索(22)UTRdb和UTRsite的,也可在EBI WWW服务器上获得(http://srs.ebi.ac.uk:80/)、UTRscan和UTRfasta。UTRscan实用程序允许查询者搜索用户提交的序列以查找UTRsite中收集的任何模式。UTRfasta实用程序允许对完全注释的UTRdb条目进行数据库搜索。

结论和展望

真核生物mRNAs的非翻译区在基因调控和表达中的重要作用现已被广泛认识。事实上,实验研究已经证明,位于未翻译区域的序列基序参与了关键的生物功能。

UTRdb中存储的大量功能等效序列现在使得研究其结构和组成特征以及应用统计方法识别重要信号成为可能。然而,为了避免冗余序列造成的伪影,有必要提前清理数据库。即使统计显著性不一定意味着生物学显著性,它也可能为进一步的实验工作提供有用的指示,例如定点突变。

UTRdb将使用新的EMBL数据库版本进行更新,UTRsite将通过添加描述其生物作用已被实验证明的功能模式的新条目而不断更新。

致谢

对于UTR位点条目的修订,我们要感谢Jim Malter(APP 3′-UTR稳定性控制元件)、Alain Krol(SECIS)、Matthias Hentze(IRE和15-LOX DICE)、Bill Marzluff(组蛋白干环结构)、Ann-Bin Shyu(ARE)、Arturo Verrotti(CPE)、Robin Wharton(nanos)、Elizabeth Goodwin(TGE)、Roger Kaspar(核糖体蛋白mRNA TOP)、,Danuta Radzioch(TNF mRNA翻译抑制元件)、Ruben Boado(GLUT1 mRNA稳定元件)和Zendra E.Zehner(Vimentin 3′UTR mRNA元件)。这项工作得到了欧盟拨款ERB-BIO4-CT96-0030和Programma Biotecnologie legge 95/95(MURST 5%)的支持。

参考文献

1Decker C.J.和Parker,R.(1994)生物化学趋势。科学。,19, 336–340. [公共医学][谷歌学者]
2考夫曼·R.J.(1994)货币。操作。生物技术。,5, 550–557. [公共医学][谷歌学者]
三。Klausner R.D.、Rouault,T.A.和Harford,J.B.(1993)单元格,72, 19–28. [公共医学][谷歌学者]
4歌手R.H.(1992)货币。操作。细胞生物学。,4, 15–19. [公共医学][谷歌学者]
5Wilhelm J.E.和Vale,R.D.(1993年)细胞生物学杂志。,123, 269–274.[PMC免费文章][公共医学][谷歌学者]
6McCarthy J.E.G.和Kollmus,H.(1995)生物化学趋势。科学。,20, 191–197. [公共医学][谷歌学者]
7Bashirullah A.,Cooperstock,R.L.和Lipshitz,H.D.(1998年)每年。生物化学评论。,67, 335–394. [公共医学][谷歌学者]
8Johnston D.(1995)单元格,81, 161–170.[谷歌学者]
9Beelman C.A.和Parker,R.(1995)单元格,81, 179–183. [公共医学][谷歌学者]
10.Curtis D.,Lehman,R.和Zamore,P.D.(1995)单元格,81, 171–178. [公共医学][谷歌学者]
11Sonenberg N.(1994)货币。操作。遗传学。开发。,4, 310–315. [公共医学][谷歌学者]
12Mengeristky G.和Smith,T.F.(1987)计算。申请。Biosci公司。,, 223–227. [公共医学][谷歌学者]
13Konopka A.K.(1994)In Smith,D.W.(编辑),信息学和基因组项目。学术出版社,加利福尼亚州圣地亚哥。
14Pesole G.、Liuni S.、Grillo G.和Saccone C.(1997)基因,205, 95–102. [公共医学][谷歌学者]
15Pesole G.、Grillo G.和Liuni S.(1996年)公司。化学.,20, 141–144. [公共医学][谷歌学者]
16Pesole G.、Fiormarino,G.和Saccone,C.(1994)基因,140, 219–225. [公共医学][谷歌学者]
17Makalowski W.,Zhang,J.和Boguski,M.(1996)基因组研究。,6, 846–857. [公共医学][谷歌学者]
18Grillo G.、Attimonelli,M.、Liuni,S.和Pesole,G.(1996)计算。申请。Biosci公司。,12, 1–8. [公共医学][谷歌学者]
19Jurka J.(1998)货币。操作。结构。生物。,8, 333–337. [公共医学][谷歌学者]
20Dsouza M.、Larsen,N.和Overbeek,R.(1997)趋势基因。,13, 497–498. [公共医学][谷歌学者]
21Pesole G.和Liuni S.(1999)趋势基因。,15, 379–380. [公共医学][谷歌学者]
22Etzold T.、Ulyanov,A.和Argos,P.(1996)方法酶学。,266, 114–128. [公共医学][谷歌学者]
23Hentze M.W.和Kuhn,L.C.(1996年)程序。美国国家科学院。科学。美国,93, 8175–8182.[PMC免费文章][公共医学][谷歌学者]
24Williams A.S.和Marzluff,W.F.(1995)核酸研究。,23, 654–662.[PMC免费文章][公共医学][谷歌学者]
25.Chen C.和Shyu,A.(1995)生物化学趋势。科学。,20, 465–470. [公共医学][谷歌学者]
26Goodwin E.B.、Okkema,P.G.、Evans,T.C.和Kimble,J.(1993)单元格,75, 329–339. [公共医学][谷歌学者]
27Hubert N.、Walczak R.、Sturchler C.、Schuster C.、Westhof E.、Carbon P.和Krol A.(1996)生物化学,78, 590–596. [公共医学][谷歌学者]
28Walczak R.、Westhof,E.、Carbon,P.和Krol,A.(1996)核糖核酸,2, 367–379.[PMC免费文章][公共医学][谷歌学者]
29Zaidi S.H.E.和Malter,J.S.(1994年)生物学杂志。化学。,269, 24007–24013. [公共医学][谷歌学者]
30Verrotti A.、Thompson,S.、Wreden,C.、Strickland,S.和Wickens,M.(1996)程序。美国国家科学院。科学。美国,93, 9027–9032.[PMC免费文章][公共医学][谷歌学者]
31Dahanukar A.和Wharton,R.(1996年)基因开发。,10, 2610–2620. [公共医学][谷歌学者]
32Amaldi F.和Pierandrei-Amaldi,P.(1997)掠夺。分子亚细胞。生物。,18, 1–17. [公共医学][谷歌学者]
33Kaspar R.L.、Kakegawa,T.、Cranston,H.、Morris,D.R.和White,M.W.(1992)生物学杂志。化学。,267, 508–514. [公共医学][谷歌学者]
34Morris D.R.、Kakegawa,T.、Kaspar,R.L.和White,M.W.(1993)生物化学,32, 2931–2937. [公共医学][谷歌学者]
35Hel Z.、Di Marco,S.和Radzioch,D.(1998)核酸研究。,26, 2803–2812.[PMC免费文章][公共医学][谷歌学者]
36Zehner Z.E.、Shepherd R.K.、Gabriszuk J.、Fu T.F.、Al-Ali M.和Holmes W.M.(1997)核酸研究。,25, 3362–3370.[PMC免费文章][公共医学][谷歌学者]
37Boado R.J.和Pardridge,W.M.(1998)大脑研究摩尔大脑研究。,59, 109–113. [公共医学][谷歌学者]
38奥斯塔雷克-莱德勒A.、奥斯塔雷克D.、斯坦德N.和蒂勒B.(1994)EMBO J。,13, 1476–1481.[PMC免费文章][公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社