摘要
生命科学中最早专门收集核酸序列的其中一个是“tRNA序列和tRNA基因序列的汇编”(http://www.trna.uni-bayreuth.de). 这里给出了该汇编的更新和完全重组版本(http://trnadb.bioinf.uni-leipzig.de). 新数据库tRNAdb由莱比锡、马尔堡和斯特拉斯堡大学合作托管和维护。tRNAdb作为关系数据库重新实现后,将定期更新,并以高度灵活和用户友好的方式进行搜索。目前,它包含超过12000个tRNA基因,根据氨基酸特异性分类为家族。此外,NCBI分类树的实现方便了与系统发育相关的查询。该数据库提供各种服务,包括tRNA二级结构的图形表示、对齐或未对齐序列的自定义输出以及各种单独和可组合的搜索标准,以及为任何选定的tRNA集合构建一致序列。
简介
随着越来越多的完整基因组被公布,有必要将现有序列汇编转移到最先进的it基础设施,以应对后基因组时代的挑战。tRNA分子是核酸中最丰富的一类,存在于所有类型的细胞和细胞器中。这些分子的独特特征包括(i)高度的结构保守性,(ii)过多的细胞因子tRNA相互作用,以及(iii)自然界中核苷修饰的最大多样性和最高密度。此外,在系统发育方面,tRNA具有独特的复杂性:由于每个细胞和真核细胞器都有一组相关但不同的tRNA物种,系统发育分析允许对经历共同进化的整套tRNA进行综合观察,而不局限于单个RNA物种的比较。因此,tRNA数据库必须满足特定的标准才能满足这些特征。tRNAdb是RNA数据库中条目数量最多的数据库之一,它不仅是实现和验证自动化核酸数据传输算法和过程的优秀模型系统,而且也是开发新型序列分析工具的良好模型系统(1). 在其重组版本中,tRNAdb满足了当今基于web的接口的需求,并为结构-功能关系的集成以及进化和系统发育的附加信息提供了基础。
数据库内容和组织
在新的tRNA数据库中,序列存储在MySQL数据库服务器上(网址:http://dev.mysql.com)也作为BLAST数据库(2). 关系数据库管理系统实现了一个强大的搜索引擎,允许访问所有数据,并在查询中提供了高度的灵活性。特别是,使用BLAST数据库的机会提供了高效的相似性搜索。哺乳动物线粒体tRNA序列数据库(Mamit-tRNA)及其用户友好的web界面(http://mamit-trna.u-strasbg.fr)用作新数据库的模板。因此,从Mamit-tRNA汇编中采用了颜色代码和可视化样式(三).
新版本的tRNAdb基于“tRNA序列和tRNA基因序列的编译”,作为MS Excel电子表格的集合分发(1). 为了将这个原始序列集合集成到新的编译中,使用几个定制脚本检索完整的数据集并将其存储在索引表中。在验证了各个序列的完整性之后,将数据传输到关系数据库系统。对于详细的分类查询,NCBIs分类部分提供的树(http://www.ncbi.nlm.nih.gov/sites/entrez?db=taxonomy(分类法))实现了,现在提供了一整套单独的分类单元名称和同义词。此外,原始tRNA编译中出现的所有分类单元名称都与分类树手动匹配。根据当前的分类法,确定并调整了几个过时的条目,这些条目中的生物体同时被重命名或重新分类。此外,对细菌序列进行手动校对,替换之前的错误条目,并在注释中标记为“已纠正”。对DNA和RNA序列分别使用前缀“tdbD”和“tdbR”实现了新的ID管理。然而,出于兼容性原因,新设计的web界面同时支持前者和新的ID格式。
除了导入的数据集外,最近从提交给NCBI的一系列完整的古生物基因组中检索到255个新的tRNA基因序列(埃及产甲烷球菌Nankai-3,acetivorans甲烷八叠球菌C2A,匈牙利产甲烷螺菌JF-1,马纳米古菌Kin4-M,海洋金黄色葡萄球菌F1和嗜酸亚硫酸盐DSM 639)由tRNAscan-SE扫描(4)并使用直接连接到数据库的新数据输入接口导入。
为了清晰和兼容性,所有序列都以Mamit-tRNA数据库的对齐格式显示(三),包括由核苷酸位置编号赋值生成的结构注释。目前,数据集包含12099个tRNA基因序列(577个生物体)和623个tRNA序列(104个生物体)(表1).
出租车. | 生物体 . | tRNA基因 . | tRNA序列 . |
---|
. | tRNA基因. | tRNA序列. | 细胞质. | 线粒体. | 叶绿体. | 细胞质. | 线粒体. | 叶绿体. |
---|
根 | 577 | 104 | 9758 | 1965 | 376 | 474 | 111 | 38 |
细胞生物 | 571 | 99 | 9705 | 1965 | 376 | 457 | 111 | 38 |
细菌 | 235 | 19 | 6368 | 0 | 0 | 139 | 0 | 0 |
太古宙 | 49 | 9 | 1088 | 0 | 0 | 76 | 0 | 0 |
真核生物 | 287 | 71 | 2249 | 1965 | 376 | 242 | 111 | 38 |
病毒 | 6 | 5 | 53 | 0 | 0 | 17 | 0 | 0 |
出租车. | 生物体 . | tRNA基因 . | tRNA序列 . |
---|
. | tRNA基因. | tRNA序列. | 细胞质. | 线粒体. | 叶绿体. | 细胞质. | 线粒体. | 叶绿体. |
---|
根 | 577 | 104 | 9758 | 1965 | 376 | 474 | 111 | 38 |
细胞生物 | 571 | 99 | 9705 | 1965 | 376 | 457 | 111 | 38 |
细菌 | 235 | 19 | 6368 | 0 | 0 | 139 | 0 | 0 |
太古宙 | 49 | 9 | 1088 | 0 | 0 | 76 | 0 | 0 |
真核生物 | 287 | 71 | 2249 | 1965 | 376 | 242 | 111 | 38 |
病毒 | 6 | 5 | 53 | 0 | 0 | 17 | 0 | 0 |
出租车. | 生物体 . | tRNA基因 . | tRNA序列 . |
---|
. | tRNA基因. | tRNA序列. | 细胞质. | 线粒体. | 叶绿体. | 细胞质. | 线粒体. | 叶绿体. |
---|
根 | 577 | 104 | 9758 | 1965 | 376 | 474 | 111 | 38 |
细胞生物 | 571 | 99 | 9705 | 1965 | 376 | 457 | 111 | 38 |
细菌 | 235 | 19 | 6368 | 0 | 0 | 139 | 0 | 0 |
太古宙 | 49 | 9 | 1088 | 0 | 0 | 76 | 0 | 0 |
真核生物 | 287 | 71 | 2249 | 1965 | 376 | 242 | 111 | 38 |
病毒 | 6 | 5 | 53 | 0 | 0 | 17 | 0 | 0 |
出租车. | 生物体 . | tRNA基因 . | tRNA序列 . |
---|
. | tRNA基因. | tRNA序列. | 细胞质. | 线粒体. | 叶绿体. | 细胞质. | 线粒体. | 叶绿体. |
---|
根 | 577 | 104 | 9758 | 1965 | 376 | 474 | 111 | 38 |
细胞生物 | 571 | 99 | 9705 | 1965 | 376 | 457 | 111 | 38 |
细菌 | 235 | 19 | 6368 | 0 | 0 | 139 | 0 | 0 |
太古宙 | 49 | 9 | 1088 | 0 | 0 | 76 | 0 | 0 |
真核生物 | 287 | 71 | 2249 | 1965 | 376 | 242 | 111 | 38 |
病毒 | 6 | 5 | 53 | 0 | 0 | 17 | 0 | 0 |
数据库分为两个独立且完全可搜索的部分。其中一部分结合了tRNA基因序列,在之前出版的汇编中(1),被分为“基因组tRNA编译”部分[主要通过使用tRNAScan-SE对完整基因组进行注释来识别(4)]和“tRNA基因的编译”。数据库的这一部分还包括病毒和噬菌体中编码的tRNA-like结构('TLS')。在第二部分中,从直接tRNA分析中获得的序列[包括确定的核苷修饰(5,6)]与前一节“tRNA序列的编译”相对应。
序列搜索工具
使用基于MySQL和BLAST的数据库的高级功能,新的编译提供了一个强大而快速的搜索引擎。查询结果存储在服务器上,并链接到相应的会话对象。此外,检索到的数据可以手动编辑。查询可以包括DNA或RNA序列、氨基酸家族、反密码子、参考文献、参考文献的Pubmed-ID、基因描述以及注释。通过搜索特定的名称、菌株、分类组ID甚至同义词,可以识别分类群。此外,还可以对序列和/或结构特征(例如保守或半保守核苷酸)进行单独搜索。此外,服务器接受新的和以前的tRNA数据库的序列ID作为查询,并可以执行BLAST搜索。
查询结果显示在一个排列清晰的列表中,并且可以根据个人详细信息进行调整。由于3′-CCA末端不包括在Mamit-tRNA颜色代码中(CCA末端不编码在线粒体tRNA基因中),因此为CCA三联体指定了一种新的颜色。此外,该列表涵盖了与每种生物体、氨基酸特异性和tRNA一级序列相关的信息。也可以选择显示每种序列(DNA或RNA)的二级结构。为了方便起见,缩略图表示允许快速预览二级结构。为了直接突出选定tRNA的三叶草结构,实现了一个图像生成器,支持所有tRNA域,包括可变的茎和环大小。核苷酸的位置按照常规规则编号(1,7). 此外,还实现了一个附加模块,为每个比对输出提供统计信息,以便于对单个序列进行比较。根据Mamit-tRNA数据库,可以计算和显示选定序列的一致性和典型结构(三). 最方便的是,可以下载各种文件格式的检索数据,以便使用其他应用程序进行进一步调查。在FASTA中导出序列(8)、ClustalW(9)和维也纳RNA包(10)文件格式有助于进一步分析。
与tRNA基因相比,tRNA序列的表示带来了额外的挑战。细菌、古生菌和真核生物的tRNAs中已有90多个修饰核苷的特征(http://library.med.utah.edu/RNAmods网站/). 大多数碱基修饰都在tRNA数据库中如实地表示。然而,由于大多数RNA生物信息学软件无法处理非标准核苷酸,因此进一步处理这些信息并非易事。因此,检索到的RNA序列可以转化为相容的DNA序列。
讨论和结论
完善且最新的数据库是分子生物学和遗传学的一个非常有用的工具。虽然第一个tRNA数据库版本对tRNA研究界来说是一个有价值的工具,但各种不同基因组测序项目发布的大量新序列使得开发现代关系数据库系统成为必要。在新版本中,基于Excel的原始编译的所有序列(http://www.trna.uni-bayreuth.de)以及最近发表的几个古生物基因组的完整tRNA基因序列也被包括在内。此外,已经实现了标准化的NCBI分类系统,从而与其他序列数据库高度兼容。新的通用搜索引擎允许对序列、结构和分类进行复杂的查询组合,从而满足tRNA序列/结构关系的系统研究需求。对于本汇编的下一版本,将完成剩余序列(尤卡里亚和古生大陆)的校对。此外,将导入新发布的tRNA基因和tRNA序列。数据库的可能扩展包括:(i)包含5′-和3′-侧翼核苷酸,以提取tRNA成熟信息(11),(ii)tRNA内含子的指示(12),(iii)提取用于氨酰化的特征元素的工具(13),(iv)反密码编辑指示(14),(v)病理性tRNA突变的显示(三,15),(vi)在微调tRNA结构和功能中具有已知作用的转录后修饰信息(16),(vii)显示具有相同反密码子但其他地方存在序列偏差的等受体和等解码器[tRNAs(17)],或(viii)tRNA表达水平的信息[例如真核生物中的组织特异性差异(18)].
访问
tRNAdb可在网址:http://trnadb.bioinf.uni-leipzig.de本文应在使用数据库辅助的研究项目中引用。欢迎评论、更正和新条目。
基金
这项工作由国家科学研究中心(CNRS)、路易斯·巴斯德斯特拉斯堡大学1号、法国控制肌病协会(AFM)、德国Forschungsgemeinschaft[DFG-MO-634/2、MO-634/3、HA 1672/7-3/4/5和SPP-1174(“后生动物深层系统学”)项目STA 850/3-2]资助法国-德国PROCOPE项目(DAAD D/0628236,EGIDE PHC 14770PJ)。开放存取费用的资金来源:CNRS和DFG。
利益冲突声明。未声明。
致谢
我们感谢凯瑟琳·弗洛伦茨(Catherine Florentz)和理查德·吉格(Richard Giegé)对手稿进行的富有启发性的讨论和富有洞察力的评论。
参考文献
1, . tRNA序列和tRNA基因序列的编译
, 核酸研究。
, 2005
,卷。 33
(第D139号
-D140型
) 2, , , , . 基本本地对齐搜索工具
, 分子生物学杂志。
, 1990
,卷。 215
(第403
-410
) 三, , , . 哺乳动物线粒体tRNA一级和二级结构数据库Mamit-tRNA
, 核糖核酸
, 2007
,卷。 13
(第1184
-1190
) 4, . tRNAscan-SE:改进基因组序列中转移RNA基因检测的程序
, 核酸研究。
, 1997
,卷。 25
(第955
-964
) 5, , . RNA修饰数据库:1999年更新
, 核酸研究。
, 1999
,卷。 27
(第196
-197
) 6, . , RNA的修改和编辑
, 1998
华盛顿特区
ASM出版社
7, , . , 基于酵母tRNA的tRNA编码系统苯丙氨酸在Transfer-RNA中:结构、属性和识别
, 1979
纽约
冷泉港实验室
(第518
-519
) 8, . 改进的生物序列比较工具
, 程序。美国国家科学院。科学。美国
, 1988
,卷。 85
(第2444
-2448
) 9, , . 集群W:通过序列加权、特定位置间隙惩罚和权重矩阵选择提高渐进式多序列比对的敏感性
, 核酸研究。
, 1994
,卷。 22
(第4673
-4680
) 10, , , , , . RNA二级结构的快速折叠和比较
, 莫纳什。化学。
, 1994
,卷。 125
(第167
-188
) 11, , , , . tRNAs和更多的制造-RNase P和tRNase Z
, 程序。核酸研究分子生物学。
, 2008
,卷。 85
12, . tRNA组学:对真核生物、古生菌和细菌50个基因组的tRNA基因进行分析,揭示了反牙合策略和区域特异性特征
, 核糖核酸
, 2002
,卷。 8
(第1189
-1232
) 13, , . tRNA鉴定的通用规则和特性
, 核酸研究。
, 1998
,卷。 26
(第5017
-35
) 14, , . 线粒体tRNA成熟过程中的C到U编辑和修饰天冬氨酸有袋动物
, 核酸研究。
, 1995
,卷。 23
(第3380
-3384
) 15, . 人类线粒体转移RNA:致病性突变在疾病中的作用
, 肌肉神经
, 2008
,卷。 37
(第150
-171
) 16, , . tRNA
, 货币。操作。微生物。
, 2008
,卷。 11
(第134
-140
) 17, . 真核生物中tRNA基因的多样性
, 核酸研究。
, 2006
,卷。 34
(第6137
-6146
) 18, , . 人类转移RNA表达的组织特异性差异
, 公共科学图书馆-遗传学。
, 2006
,卷。 2
第页。 第221页
牛津大学出版社2008年出版
这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/2.0/uk/)它允许在任何媒体上无限制地非商业性使用、分发和复制原始作品,前提是正确引用了原始作品。