跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2008年1月;36(数据库问题):D120–D124。
2007年12月23日在线发布。 数字对象标识:10.1093/nar/gkm994年
预防性维修识别码:第238961页
PMID:18158297

RegulonDB(6.0版):基因调控模型大肠杆菌K-12超转录、活性(实验)注释启动子和Textpresso导航

摘要

RegulonDB公司(http://regulondb.ccg.unam.mx/)是主要的参考数据库,提供转录调控网络的精选知识大肠杆菌K12是目前最著名的自由生物遗传调控网络电子编码数据库。本文总结了6.0版中的改进、新生物学和新功能。从现在起,每一本新书都会更新原创文学的策划。所有的物体都有相应的证据支持,现在分为强证据和弱证据。转录因子根据其效应器的来源和基因本体类进行分类。我们现在有σ的计算预测54σ的五种不同启动子类型70家庭及其对应的10和−35箱。除了那些来自文献的策划,我们还添加了大约300个来自我们自己的高通量绘图工作的实验绘制的启动子。RegulonDB v.6.0现在扩展到转录起始之外,包括RNA调节元件,特别是核糖开关、衰减器和小RNA,以及它们已知的相关靶点。这些数据可以通过概述基因调控的相关性来获得。现在可以使用Textpresso文本挖掘引擎搜索RegulonDB相关的原始文献以及4000多份策展笔记。

简介

生物信息学当前的一项主要任务是将生物信息表示为电子和可计算的形式。这些计算表示使大量数据易于分析、集成并最终转化为知识。理解单个细胞生物学的整合和新方法,例如大肠杆菌K12是基因组学的一个重大挑战,应该是系统生物学的一个里程碑。RegulonDB是目前最大的数据库之一,提供任何自由生物转录调控网络的精选知识(1).大肠杆菌K12约占其总基因含量的三分之二,而约三分之一的基因含量有其调控信息。我们的管理为RegulonDB和EcoCyc提供了支持(2)数据库。

RegulonDB不断更新来自原始研究论文的信息。中的第二行表1提供了指向全年策展对象总数汇总表的链接。我们自己在启动子高通量实验定位方面所做的努力(其初始结果在此报告)使实验确定的转录起始位点(TSS)总数显著增加。

RegulonDB包含与细胞已知调控网络一致的不同元件的详细信息,例如转录因子(TF)、小RNA(sRNAs)和操纵子结构及其相关调控元件:启动子、TF结合位点和终止子,以及从此版本起的衰减器、,核糖开关和sRNA靶点。网络的描述也通过更精确的定义进行了概念上的丰富,例如简单和复杂的调节子(3)和调节器类别(全局或本地以及内部或外部传感),如下所述。RegulonDB补充了对操纵子、启动子、TF结合位点、核糖体结合位点以及首次RNA调控靶点的计算分析和全基因组预测。

RegulonDB中的可视化工具允许用户在基因组中导航(基因组浏览器),识别特定TF的共同调节器,在调节网络中定位基因的近邻,并识别功能相关的基因集(Nebulon工具)。此外,它还集成了用于分析全球基因表达实验的转录调控的工具大肠杆菌K12(GETtools),以及专注于检测上游监管区域监管信号的详尽分析(RSA工具)。

本文总结了过去两年中所做的修改和改进,这些修改和改进将RegulonDB转换为更全面的基因表达调控计算模型大肠杆菌.

转录起始调控元件的增强和扩展描述

RegulonDB主要是一个手动的监管信息数据库大肠杆菌由一组来自初级文学的策展人组成。PubMed摘要使用一组与基因调控相关的关键词进行选择。当有直接或可疑的新相关信息时,对文章全文进行分析,并将数据添加到RegulonDB和EcoCyc。

从2008年1月开始,RegulonDB和EcoCyc的每次发布都将包含最新的策展,延迟不超过3个月。为了实现这一点,我们使用了三种主要的管理策略:按年、按调节子和西格姆龙以及按生理系统。

证据分类(强证据和弱证据)

根据支持对象及其关系的实验或预测的置信水平,与所有RegulonDB对象相关的证据现在被分类为“强”或“弱”。当实验数据提供了物体存在的高度确定性时,“强有力”的证据被分配给物体;否则,这是一个“薄弱”的证据。强有力的证据包括纯化TF的DNA结合用于调节相互作用、启动子TSS的定位以及转录单位mRNA的长度。另一方面,基因表达分析和计算预测被认为是薄弱的证据。重要的是要说明,一个物体的几个弱证据并不会变成强证据。对于强证据或弱证据支持的对象,分别用实线或虚线以图形方式区分这两类证据。

实验TSS映射

TSS的实验测定为识别控制基因表达的启动子和调控区域提供了关键的基本信息。为了超越文献检索,我们对监管领域的知识大肠杆菌,我们启动了一个全基因组项目,在该生物体中实验性地绘制尽可能多的启动子。为此,我们使用了改进的5′RACE协议(4)带有基因特异性寡核苷酸。为了验证该策略的准确性,我们测定了50个TU的TSS,这些TU之前已经发表过,其中92%的TU显示出完美的匹配(与已发表的TSS相比,最多有一个核苷酸的差异)。其余的显示出RACE协议固有的轻微模糊性,即多达六个核苷酸。我们在14个TU中检测到一个以上的TSS。有趣的是,只有其中两个国家报告了额外的TSS。因此,我们的结果非常准确,并确定了超过25%的TU的额外启动子。

使用5′RACE方法绘制了269个TU的317个TSS(38个TSS不止一个)。其中110个与TU相对应,其假设基因尚未推断出其功能。新绘制的TSS已包含在RegulonDB中。这些调查结果的详细概要将在其他地方出版。

选择性σ因子启动子的计算预测

我们对σ的四种不同的启动子进行了计算预测70系列:σ24、28、32和38,以及现有σ70发起人。σ的启动子预测也已生成54因子,它定义了与σ不同的σ因子族70。转录起始的假定+1以及−35和−10框可以从RegulonDB下载(参见上的“预测启动子”表1). 用于生成启动子预测的方法如所述(5)(请参阅中的“促销员分析工具”表1).

转录因子的内部和外部传感类别

TF的活性和非活性构象由特定的细胞信号(通常称为“效应器”)调节,这些信号可以是代谢物、离子或其他化学分子,通过共价或变构相互作用。这些效应器的来源可以是内源性的(在细胞内合成)、外源性的(从细胞外合并或运输)或两者兼而有之(杂交)。如中所建议(6)TF根据其效应器的来源分为内部效应器、外部效应器、混合效应器或未知效应器。这一功能已被添加到数据库中的转录因子中,并创建了一个指向特定网页的链接,该网页显示了转录调节因子的细胞感应特性的详细信息(表1).

所有编码已知和预测TF的基因都已用相应的基因本体类进行了注释(7)我们上传了EcoCyc基因组其余基因的数据。

RNA调节元件

直到最近,转录起始以外的调控还被纳入了外部表格。RegulonDB v.6.0有一个扩展的概念和关系模型,包括基因表达调控的其他水平和机制,如转录延伸、转录后修饰和翻译起始。现在建模和填充的第一个元素是RNA调节元素,特别是核糖开关和衰减器,以及小RNA。用户界面具有图形表示和关于它们的序列、位置、证据和参考的文本信息;示例如所示图1以及包含所有这些数据的表格可在表1.

保存图片、插图等的外部文件。对象名为gkm994f1.jpg

RegulonDB中新对象的图形表示:1。衰减器,2。核糖开关,3。sRNA。

核子开关和预测衰减器

肋骨开关和衰减器顺式-调节转录延伸或翻译起始的调节元件。核糖开关是特定细菌mRNAs中5′非翻译区的一部分,可以直接对小分子作出反应而调节基因表达,而无需蛋白质中间产物。这些调控元件在结构和序列上都高度保守,可能是由于对效应器形成高度结构化的结合囊的限制。核糖开关通常与转录或翻译衰减器有关(8). 其中一些核糖开关已经过实验描述,其序列来自RNA家族数据库Rfam(9). 除了所有已知的核糖开关外,我们还在RegulonDB中添加了所有其他的顺式-Rfam中存在的调节性RNA元件。

衰减器是一些mRNA未翻译区域中的RNA片段,可以形成几个相互排斥的二级结构,但与核糖开关相反,在序列水平上很少保守。在某些条件下,其中一个结构将是最稳定的,具有监管作用。衰减器可以在转录水平发挥作用,导致转录提前终止,或在翻译开始时形成Shine-Dalgarno隔离结构(10–12). 美利奴产生了一组700多个预测衰减器(包括转录和翻译衰减器)等。(13)考虑到已知衰减器的结构特性;这些预测现在包含在RegulonDB中。

小RNA

编码长度小于350核苷酸的RNA序列的sRNAs基因可以具有内在催化活性(例如RNase P的10S催化亚基),修改蛋白质活性(例如。csrB公司/RNA,与CsrA翻译调节器结合,从而拮抗其活性),或调节信使稳定性或翻译效率(例如。微碳纤维,它绑定到ompF(ompF)mRNA抑制其翻译)(14). RegulonDB现在包括sRNA及其靶基因之间的49种相互作用。

基因调控生物学概述和额外的计算改进

到目前为止,我们已经提供了两种主要的机制来访问RegulonDB中可用的知识:通过单个对象及其关联链接的导航,以及通过下载带有对象及其属性完整列表的平面文件(例如,调控交互、预测的启动子、终止子、操纵子等)。现在,我们提供了两种新的加入机制:一种是通过下载完整的数据库(数据和模式都可以在转储文件中下载,以填充最常见的数据库管理系统,如MySQL、Postgress、Oracle和Apache Derby);以及对基因调控生物学的新的综合描述,表格和图表提供了不同关系及其分布的观点集合。例如,这些新的表格和图表有助于确定七个σ因子中每个因子转录了多少和哪些基因,操纵子中基因的分布,以及激活子和阻遏物结合位点位置的分布(参见表1).

RegulonDB v.6.0有几个计算和图形用户界面改进:所有基因和操纵子图的图形显示都得到了改进,质量更好,清晰度更好;对象名称在图形对象中完全可见,每个对象上都实现了鼠标悬停工具提示,以简化用户对它们的识别(例如,绑定站点工具提示提供了它们的中心位置);另一个改进是基因本体论的展示。还实现了不同对象的自动一致性检查,以提高数据完整性。

Textpresso文本挖掘引擎的实现

RegulonDB文献现在可以使用Textpresso文本挖掘引擎进行搜索(15),为自定义大肠杆菌.Textpresso允许直接在高度特定的关键字级别以及整个类别或本体类(源自GO概念或自定义单词列表)上探索策划的文献。例如,用户可以搜索一种在不同论文的句子中提及基因或操纵子和特定TF的调控类型。目前,该工具可以搜索2472篇全文论文、3125篇论文摘要和4200多篇馆长笔记。将此文本管理工具添加到RegulonDB将为最终用户扩展遍历以下知识空间的可能性大肠杆菌新陈代谢和基因调控,将允许我们的馆长完善和确认他们的注释。另请参见(16).

新的外部链接

除了现有的外部数据库链接(Swiss-Prot、GenBank、GenProtEC、OU MicroarrayDB)外,还可以通过EBI访问RegulonDB数据(17). 我们还与EcoliHub团队协调,将RegulonDB链接为其wiki和集成数据库工具的一部分(http://www.ecolihub.org).

通过研究基因在不同生物体中的保存环境,可以获得许多功能性见解。在RegulonDB的这个版本中,我们包含了一个到Gene Context Tool的链接(18)对于数据库中的每个蛋白质,允许用户可视化所有细菌测序基因组中的基因组上下文。作为该工具的使用示例,在许多情况下,可以通过观察其他细菌中其直系同源基因的相邻基因来推断没有注释的基因的一般功能。

讨论

生物信息学的主要挑战之一是提供有助于以新的、可理解的方式整合大量数据的概念和方法。我们对基因调控的管理和建模为研究最深入的生物之一,即大肠杆菌细菌。

RegulonDB的关系模型已经扩展到包括转录以外的调控,并纳入了基因调控的概念,如sigmulon和TF类。未来应包括刺激、模块和网络图案。

相关资源的链接、格式和可用性也增强了此信息的价值,包括相关数据库和用于分析和显示的有用程序。RegulonDB v.6.0有新的外部资源链接(wiki EcoliHub,EBI)和新的数据库,可访问我们的精选知识(EcoGene,uniprot-genome摘要)。内部可用资源已经扩大,特别是通过以文本为中心的方式访问特定的文摘和论文语料库大肠杆菌、与TractorDB的链接,以及中法规相关性和分布的动态概述大肠杆菌.

致谢

我们感谢Víctor del Moral对计算机的支持,感谢Alfredo Mendoza、Leticia Olvera和Maricela Olvera。这项工作得到了国立卫生研究院拨款GM071962-03和墨西哥国立自治大学拨款214905的支持。支付这篇文章的开放存取出版费用的资金由同一笔赠款提供。

利益冲突声明。未声明。

参考文献

1Salgado H、Gama-Castro S、Peralta-Gil M、Diaz-Peredo、E、Sanchez-Solano F、Santos-Zavaleta A、Martinez-Flores I、Jimenez-Jacinto V、Bonavides-Martinez C等。RegulonDB(5.0版):大肠杆菌K-12转录调控网络、操纵子组织和生长条件。核酸研究。2006;34:D394–D397。 [PMC免费文章][公共医学][谷歌学者]
2Keseler IM、Collado-Vides J、Gama-Castro S、Ingraham J、Paley S、Paulsen IT、Peralta-Gil M、Karp PD。EcoCyc:综合数据库资源大肠杆菌.核酸研究。2005;33:D334–D337。 [PMC免费文章][公共医学][谷歌学者]
三。Gutierrez-Rios RM、Rosenblueth DA、Loza JA、Huerta AM、Glassner JD、Blattner FR、Collado-Vides J.监管网络大肠杆菌:文献知识和微阵列图谱之间的一致性。基因组。物件。2003;13:2435–2443. [PMC免费文章][公共医学][谷歌学者]
4不列颠哥伦比亚省谢弗。cDNA末端快速扩增的革命:全长cDNA末端聚合酶链反应克隆的新策略。分析。生物化学。1995;227:255–273.[公共医学][谷歌学者]
5Huerta AM,Collado Vides J.Sigma70启动子大肠杆菌:重叠启动子样信号密集区的特异转录。分子生物学杂志。2003;333:261–278.[公共医学][谷歌学者]
6Martinez-Antonio A、Janga SC、Salgado H、Collado-Vides J。内部传感机制指导大肠杆菌.微生物趋势。2006;14:22–27.[公共医学][谷歌学者]
7Ashburner M、Ball CA、Blake JA、Botstein D、Butler H、Cherry JM、Davis AP、Dolinski K、Dwight SS等。基因本体:生物学统一的工具。基因本体联盟。自然遗传学。2000;25:25–29. [PMC免费文章][公共医学][谷歌学者]
8Nudler E,Mironov AS。细菌代谢的核糖开关控制。生物化学趋势。科学。2004;29:11–17.[公共医学][谷歌学者]
9Griffiths-Jones S、Moxon S、Marshall M、Khanna A、Eddy SR、Bateman A.Rfam:在完整基因组中注释非编码RNA。核酸研究。2005;33:D121–D124。 [PMC免费文章][公共医学][谷歌学者]
10Yanofsky C.控制细菌操纵子表达的衰减。自然。1981;289:751–758.[公共医学][谷歌学者]
11Dubnau D.转化衰减:细菌对大环内酯基-亚麻酸-葡萄球菌素B抗生素耐药性的调节。CRC生物化学评论。1984;16:103–132.[公共医学][谷歌学者]
12Lovett PS。翻译衰减作为可诱导猫基因的调节器。《细菌学杂志》。1990;172:1–6. [PMC免费文章][公共医学][谷歌学者]
13Merino E,Yanofsky C.转录衰减:细菌使用的高度保守的调控策略。趋势Genet。2005;21:260–264。[公共医学][谷歌学者]
14Storz G,Haas D.微生物小RNA指南。货币。操作。微生物。2007;10:93–95. [谷歌学者]
15Muller HM,Kenny EE,Sternberg PW。Textpresso:基于本体论的生物文献信息检索和提取系统。《公共科学图书馆·生物》。2004;2:e309。 [PMC免费文章][公共医学][谷歌学者]
16Rodriguez-Penagos C,Salgado H,Martinez-Flores I,Collado-Vides J.使用自然语言处理自动重建细菌调控网络。BMC生物信息学。2007;8:293. [PMC免费文章][公共医学][谷歌学者]
17Kersey P、Bower L、Morris L、Horne A、Petryszak R、Kanz C、Kanapin A、Das U、Michoud K等。整合8和基因组综述:完整基因组和蛋白质组的综合观点。核酸研究。2005;33:D297–D302。 [PMC免费文章][公共医学][谷歌学者]
18Ciria R、Abreu-Goodger C、Morett E、Merino E.GeConT:基因背景分析。生物信息学。2004;20:2307–2308.[公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社