跳到主要内容

解读协调应对环境变化的转录规则

摘要

背景

基因共表达作为对环境变化的响应,表明转录活性是协调的,这明确了转录调控网络(TRN)的作用。然而,基于转录因子(TF)与结合位点(BS)的亲和力对TRN的预测通常会对网络内可观察到的TF/BS关系产生过度估计,因此许多预测的关系是虚假的。

结果

我们出席伦巴第这是一种生物信息学方法,它从一组预测的TF/BS亲和力确定的TRN中提取一个子网络,通过选择最可能参与共同调节的TF和BS来解释一组给定的观察到的共同表达。伦巴第解决了一个优化问题,即在给定的TRN中选择可靠的路径,通过调节级联将两个共表达基因与一个假定的公共调节器连接起来。为了评估该方法,我们使用了以下公共数据大肠杆菌生成一个监管网络,解释几乎所有观察到的共表达,同时仅使用19%的输入TF/BS亲和力,但在输入数据中包括约66%的独立实验验证的监管。当所有已知的验证TF/BS亲和力被集成到输入数据中时伦巴第显著增加。获得的子网拓扑特征与已知验证TRN的特征相似。

结论

伦巴第为破译生物体对环境挑战的表型反应的调控机制提供了一个有用的建模方案。该方法可以成为进一步研究基因组尺度转录调控研究的可靠工具。

背景

解释生物体基因表达的协调变化是对环境变化的响应的机制,是系统生物学的基本挑战之一。此外,高通量表达数据证明,这些机制以有趣的方式协调基因表达,强调了作为适应过程一部分的调控的复杂性。

一般来说生物信息学转录调控过程的重建分别考虑表达谱和基因组序列。识别共表达基因最常用的策略是考虑线性相关性[1]或ARACNe等相互信息方法[2],清除[]和MRNET[4]. 其中一些方法已成功识别合成网络和模型生物中的调控相互作用[5]. 尽管如此,两个基因表达谱的相互依赖并不一定意味着存在物理相互作用。此外,计算的相关性没有方向性,因此无法进行因果解释。即使如此,它们也传递了有关转录机制的信息。

另一方面,不同生物信息学基因组序列的研究方法已经发展起来。这些方法试图模拟形成假定转录调控网络(TRN)的物理相互作用,并依赖于对基因的识别,其中第一个基因编码转录因子(TF),该转录因子可能结合在第二个基因的启动子区域[6,7]. TF编码基因通常通过基因组序列和TF数据库(如RegulonDB)之间的同源性获得[8]或Prodoric[9]). 在这些数据库中,每个TF都有一个关联的位置加权矩阵(PWM),它估计TF和启动子区域中的潜在结合位点(BS)之间的亲和力。目前用于识别转录调控的方法特异性低,这意味着发现的TF/BS亲和性数量通常很大,而实际上,只有少数对应于观察到的调控相互作用。然而,即使许多预测的相互作用发生的概率很低,或从未观察到,也可以合理地假设,根据它们重建的TRN包含给定过程中发生的大多数物理相互作用,因此该网络应该能够解释基因的共表达。此外第页-为给定TF/BS交互计算的关联值提供了可以解释为可能性这种相互作用的发生。

在这种假设下,我们要解决的问题是:给定一个由TF/BS亲和力构建的假定TRN,并给定一组共表达基因对,如何确定生物体用来协调基因表达变化的最可能的一组相互作用。换句话说,我们希望找到一个简单而自信假定TRN的子网络能够解释一组给定的共同表达。

定义子网络的含义解释一对共同表达的基因,我们考虑网络中允许坐标变化的所有拓扑结构。最简单的情况是,一对共同表达的基因也与假定的TRN中的TF/BS相互作用相对应。显然,TRN中以基因之间的单个弧表示的直接相互作用是共同表达的可能解释,表明一个基因正在调节另一个基因的表达。另一种可能性是,这两个基因的共同表达不是通过一个调节相互作用,而是通过一系列TF/BS相互作用来关联,监管级联。这种级联在TRN中表示为从一个基因到另一个基因的定向路径。因此,连接两个相关基因的路径也是共同表达的可能解释。最后,这种相关性可能是第三个基因同时调控两个共表达基因的结果。在这种情况下,两个相关基因将位于两个调节级联的末端,这两个级联都从这个共同的调节基因开始(见图右侧)。1). 我们将这些配置定义为解释用于相关性。

图1
图1

解释概念的简单表示。左侧:一个代表9个基因之间12个TF/BS亲和相互作用的TRN。成本1、3和9根据其第页-值(k个=3,第页=3).正确的:共表达对的六种可能解释(F,I);其中两个是最佳解释(成本=10)

识别简单而自信我们建议,子网络解释了一系列共同规则伦巴第这是一种优化策略,从假定的TRN中提取最简单和可靠的TF/BS相互作用,解释一组给定的共同调控基因。这个伦巴第该方法还接受一个额外的经实验验证的转录调控的独立列表作为输入。

的精确度伦巴第显然,这取决于我们的假设,即最初假定的TRN包括大多数观察到的TF/BS相互作用。当这个假设被满足时,每个真正的共同表达至少应该有一个解释。有趣的是,我们发现一个假定的TRN是为大肠杆菌使用经典的生物信息管道生成TF/BS亲和对解释了近60000个观察到的共表达中的91.1%(有关详细信息,请参阅结果和讨论)。

什么时候?伦巴第应用于这个假定大肠杆菌TRN和一组观察到的共同表达产生了一个子网络,它只保留了19.2%的初始交互弧,同时仍然解释了91.1%的共同表达。伦巴第强烈倾向于保留实验验证的法规。它保留了假定的一组独立的实验验证弧的66%以上大肠杆菌TRN只保留了18.4%的未验证交互。此外,当伦巴第通过添加所有独立的实验验证弧,将其应用于相同的假定TRN扩展,得到的子网络保留了92%的验证弧,仅包括11.3%的其他假定法规。此外伦巴第显示了可靠的拓扑特征,并恢复了大肠杆菌文学。监管机构也根据其在网络中的角色进行了正确排名。我们得出的结论是伦巴第是破译转录调控相互作用的可靠策略,可以解释在环境变化下观察到的共同表达。

材料和方法

根据TF/BS亲和力和一组共表达基因对计算出假定的TRN伦巴第是从这个网络中提取一个简单而可靠的子网络,其中包含对给定集合中每个共同表达的解释。在这里,我们描述了所提出的模型和所使用的方法。我们还将定义用于建模简单且自信的子网络的优化策略与其他优化策略进行了比较。

的输入伦巴第

如果\(\mathbb{G}\)是被研究生物体中的一组基因,那么伦巴第需要以下输入:

  1. 1

    共表达对:一套\(\mathcal{C}\subseteq\mathbb{G}\times\mathbb{G}\)共表达基因对,根据其相关性或相互信息的值进行选择。ARACNe的结果就是这样一个例子[2]、MRNET[4],或使用在不同环境条件下获得的表达谱评估的其他基于互信息的方法。

  2. 2

    相似性对:一套\(\mathcal{A}\subseteq\mathbb{G}\times\mathbb{G}\)基于TF/BS序列亲和力获得的基因对及其相关第页-值。具体来说,一对基因(A类,B类)在中\(\数学{A}\)if基因A类在基因启动子区与BS具有高亲和力的TF的编码B类例如,\(\mathcal{A}\)可能是Prodoric数据库中匹配的结果[9]. 我们假设高第页-值已经从中丢弃\(\mathcal{A}\).

  3. 三。

    验证的对:(可选)一组\(\mathcal{V}\subseteq\mathbb{G}\times\mathbb{G}\)与独立的实验验证的调控相对应的基因对(如果可用的话)。

伦巴第最初打算应用于Prokarya,其中给定操纵子的所有基因通常在单个多顺反子mRNA分子中转录;因此,我们假设基因的表达意味着它所属的操纵子的表达。鉴于所研究生物体的特殊操纵子结构,大肠杆菌,我们可以考虑\(\mathbb{G}\)作为一组操纵子和\(\数学{C}\),\(\mathcal{A}\)\(\mathcal{V}\)作为操作子对的集合,简化了分析,减少了方法的运行时间。这种简化纯粹是操作性的,可以由用户自行决定。

定义先验的图表\(\mathcal{G}\)和解释

最初,伦巴第定义先验图 \(\mathcal{G}\)作为节点对应于基因的有向图\(\mathbb{G}\)和有向弧对应于\(\mathcal{A}\)和中的成对已知规则\(\mathcal{V}\)也就是说,\(\mathcal{G}=(\mathbb{G},\mathcali{A}\cup\mathcal{V})\)因此,基因会有一个定向弧A类到基因B类如果有一些先验的证据(实验或理论,弱或强)表明A类直接调节B类。如果没有有效的法规,则\(\mathcal{G}=(\mathbb{G},\mathcal{A})\)重要的是要注意监管级联,基因间调控关系的序列\(\mathcal{G}\),应在此图中显示为有向路径(见图右侧。1),尽管显然不是每一条路径都代表真正的监管级联。最终目标是突出最有可能对应于控制共同表达数据的实际监管级联的路径。

在这个TRN的代表下,观察到两个基因在\(\mathcal{C}\)可以通过考虑两个案例来解释。一是存在从一个基因到另一个基因的定向路径,这意味着第一个基因通过调节级联调节最后一个基因(直接调节被认为是一个大小为1的调节级联)。第二,考虑到没有一个基因调节另一个,而是两者都由第三个基因共同调节。这种情况在先验的通过从一个共同的调节器到每个共同调节的基因的两条路径绘制图表(参见图右侧。1).

定义 1.

给一对\((A,B)\在\数学{C}\中)共表达基因(A,B)的解释在里面\(\mathcal{G}\)是一组弧\(\mathcal{E}\)满足以下任何条件:

  • \(\mathcal{E}\)是来自的定向路径A类B类;

  • \(\mathcal{E}\)是来自的定向路径B类A类;

  • \(\mathcal{E}\)是从基因开始的两条不同定向路径的结合C类分别到达A类B类,其中只有顶点C类常见的。

定义 2.

我们说一个子图\(\mathcal{G}^{prime}\subseteq\mathcal{G}\)解释\(\mathcal{C}\)如果,每对\((A,B)\在\数学{C}\中),子图\(\mathcal{G}^{\prime}\)包含的解释(A类,B类).

理想情况下,每对(A类,B类)英寸\(\mathcal{C}\)中应至少有一个解释\(\数学{G}\)如果不是这种情况,则表明在建模假设下,A类B类并不是真正的共同调节或用于计算集合的方法\(\mathcal{A}\)没有捕捉到所有参与共同调控的转录机制A类B类。这些无法解释的对对应于方法范围之外缺少或不准确的输入数据,因此从\(\mathcal{C}\)。移除后,我们可以假设先验的图表\(\数学{G}\)解释\(\mathcal{C}\)然而,如前所述\(\mathcal{G}\)表示发生概率低或从未观察到的TF/BS关系。因此,我们的目标是找到一个简单而自信子图\(\mathcal{G}'\subseteq\mathcal{G}\)这解释了每一对\(\数学{C}\).

成本定义

我们考虑了两种定义简单自信子图的方法\(\mathcal{G}\)这就解释了\(\mathcal{C}\):(i)培养使用少量弧的解释,(2)培养具有高度亲和力弧的解释(低的第页-值)。同时考虑这两个标准的一种方法是以最可能的TF/BS相似性具有最低成本的方式定义弧上的成本。

而不是在中定义弧的成本\(\mathcal{G}\)作为第页-相关TF/BS的价值,我们通过定义可能性水平的确,因为第页-值没有真正的生物学意义,我们考虑了所有具有相似性的弧第页-值。这种方法提高了方法的稳健性,并防止了与最佳解决方案略有不同但没有显著差异的解决方案被丢弃。

我们定义了弧的成本\(\数学{G}\)使用以下程序,其中\(k\在{\mathbb N}\中)第页(0,)是参数。我们定义了k个可能性等级,从等级=0(最高可能性)至水平=k个−1(最低可能性),每一级包含相同数量的弧(在等频率仓中)。弧in\(\mathcal{V}\)被分配到最大似然水平(值=0),因为它们对应于已验证的法规。最后,一段弧线的成本{0,…,k个−1}设置为第页 .以这种方式第页表示连续级别之间的增量成本;也就是说,水平面上有一个弧成本等于第页标高中的圆弧−1.我们分析了不同参数值的使用k个第页在实际数据集上(请参见“成本参数分析'小节了解详细信息)。

最优解释和子图

定义了弧的成本后,很自然地将子图的成本定义为它包含的弧的成本之和。通过这个,我们定义了一个最优的 解释:

定义 .

我们定义一个解释\(\mathcal{E}\)对于这一对(A类,B类)英寸\(\mathcal{C}\)作为最优的如果它在所有对的解释中成本最低。

注意一对(A类,B类)英寸\(\mathcal{C}\)可以有多个最佳解释(参见图。2),尤其是在成本分类之后,所有具有相似第页-值被认为是同样可能的。因此,我们定义了最优子图:

图2
图2

伦巴第共同表达式(F,I)、(A,B)和(G,H)的输出。左侧: 伦巴第计算(F,I)的两个最佳解释。中心: 伦巴第继续计算(A,B)和(G,H)的最佳解释。正确的:输出\(\mathcal{希腊}_{五十} \)是所有最佳解释的结合

定义 4.

我们定义一个子图\(\mathcal{G}^{prime}\subseteq\mathcal{G}\)作为最优子图的解释\(\mathcal{C}\)如果\(\mathcal{G}^{\prime}\)是的联盟\(|\mathcal{C}|\)(基数\(\mathcal{C}\))最佳解释,每对基因对应一个\(\mathcal{C}\)也就是说,

$$\mathcal{G}^{prime}=\bigcup_{(A,B)\in\mathcal{C}}\mathcar{电子}_{(A,B)}$$

哪里\(\mathcal{电子}_{(A,B)}\)是对(A类,B类).

可以有大量的最优子图来解释\(\数学{C}\),因为每对都有几个最佳解释(A类,B类)英寸\(\mathcal{C}\)可能存在。例如,如果\(\mathcal{C}\)包含20个基因对,每个基因对有两个最优解释,然后是解释最优子图的数量\(\mathcal{C}\)可能达到一百万(当每个可能的最优解释组合产生不同的子图时)。

而不是枚举所有的最优子图来解释\(\mathcal{C}\),这在计算上可能是不可行的,我们计算了一个子图\(\mathcal{希腊}_{五十} \)定义为解释所有最优子图的并集\(\mathcal{C}\)显然没有必要计算每个最优子图,而是需要计算每个(A类,B类)配对\(\mathcal{C}\)只有一组最佳解释(A类,B类). 因此,图表\(\mathcal{希腊}_{五十} \)获得为,

$${}\数学{希腊}_{五十} =\bigcup_{(A,B)\in\mathcal{C}}\{\mathcal{E}\|\\mathcal}E}\\text{是}\,(A,B)\,\text{in}\,\mathcali{G}\}的最佳解释$$

此图是伦巴第(参见图。2例如)。

备选优化问题分析

我们提议\(\mathcal{希腊}_{五十} \)作为一个简单而自信的子图\(\mathcal{G}\)解释中提供的共同表达\(\数学{C}\)通过在\(\mathcal{C}\)。这可以视为地方的优化问题,因为解释每一对的成本\(\mathcal{C}\)独立性被最小化。选择这种本地策略的主要原因是其他考虑解决全球的优化问题在计算上是不可行的[10].

例如,考虑计算解释最小成本的子图 \(\mathcal{C}\)。此标准可以给出不同于\(\mathcal{希腊}_{五十} \)(参见图。例如)。然而,这种方法并不可靠,因为添加新的共表达对可能会完全改变全局解决方案。此外,与最佳解释相比,它为给定对提供的最佳解释可能具有非常高的成本。除了具有这些不良特性外,这个问题也很难解决。事实上,这已经被证明是一个NP-hard问题[10]从斯坦纳加权有向树问题。这意味着,只有在很小的情况下,才能在合理的时间内准确地解决问题。

图3
图3

比较伦巴第产出和替代性最低全球成本解释。左侧:具有最小成本的图,用于解释所有共表达式对。注意,为(G,H)提出的解释具有成本18,这比成本6的最优解释高得多。中心: 伦巴第为每对输出所有最佳解释。正确的:包含每对最佳解释的最小成本子图。此图始终包含在伦巴第输出

另一个可选的优化问题,可以被视为局部优化和全局优化的混合,是计算一个最小代价子图,其中包含对中每一对的最优解释\(\mathcal{C}\); 也就是说,最优子图解释\(\mathcal{C}\)以最低的全球成本。虽然这种方法看起来比以前的方法更有趣,但它也有一些缺点。一个缺点是可能存在多个解决方案,因为可能存在大量具有相同最小全局代价的最优子图。更糟糕的缺点是,从最小命中集只找到一个解决方案的问题是NP-hard[10](尽管在实践中,对于较大的实例,这个问题可以解决)。除了缺点之外,这种替代优化产生的结果在实践中并不比下面给出的结果更有趣伦巴第因为它们总是对应于\(\mathcal{希腊}_{五十} \)因此,伦巴第不仅给出了优化问题的全局最优解,还为每对优化问题提供了可选的最优解释。此外,下面给出的解决方案伦巴第总是唯一的,并且在计算上是可行的。

结果和讨论

大量TF/BS关联已通过实验验证大肠杆菌; 因此,我们使用这种细菌的公共数据来评估我们的模型。的基因组序列和基因注释大肠杆菌K12[GenBank:NC_000913]从NCBI ftp站点下载[11] (http://www.ncbi.nlm.nih.gov/nuccore/NC_000913.3). 907种条件下的差异表达谱来自Ecoli_v4_Build_6_chips907问题4297.tab多微生物微阵列数据库[12]http://m3d.mssm.edu/norm/E_coli_v4_Build_6.tar.gz.

输入数据

在这里,我们简要描述了用于生成输入数据的来源和方法伦巴第如上所述,对于细菌,我们将信息浓缩为操纵子以简化计算。需要注意的是,我们用于生成输入的方法伦巴第只是一种选择。由于数据生成不是我们的主要关注点,我们尽可能使用社区当前使用的简单管道来构建假定的TRN。

  1. \(\mathcal{C}\):共表达操纵子对:通过分析大肠杆菌差异表达谱如下。4297所有对之间具有互信息的矩阵大肠杆菌使用参数高斯密度估计器计算基因地雷[13]R统计包库[14]. 该矩阵有超过1800万个值,尽管其中大多数值要么微不足道,要么冗余,并被MRNET丢弃[4]战略。在剩下的基因对中,我们只考虑了10万个具有最高互信息的基因,大约占总数的5%。选择这个数字是为了支持纳入主要的共同表达。最后,如果每个操纵子都包含来自一对共表达基因的基因,则认为两个操纵子是共表达的。在剔除多余和琐碎的病例后,我们获得了一组61506对共表达操纵子,涉及2492个不同的操纵子。

  2. \(\数学{A}\):亲和网络及其p值:产生了一组25604对具有高TF/BS亲和力的操纵子,如下所示。通过BLAST同源性搜索(E值截止值为10−10)基因产物和Prodoric数据库中已知的TF实例之间[9] (网址:http://www.prodoric.de). 然后,对于每个TF,每次MEME/FIMO定位基因上游区域(高达300 bp)的假定结合位点时,都会考虑BS[15]带有第页-值小于10−5如果第一个操纵子包含一个编码TF的基因,并且在第二个操纵符的上游区域具有假定的BS,则报告了一对操纵子。这个第页-对的值定义为第页-所表示的关联值。(最小值第页-如果第一个操作子中的多个TF与第二个操作子的启动子区域具有亲和力,则使用该值。)。这组25604对包含2390个不同的操纵子。

  3. \(\mathcal{V}\):已验证网络:生成了一组1652对操纵子,它们代表独立的实验验证的转录调控。根据Salgado等人的汇编,如果第一个操作子包含一个TF基因编码,该TF调节第二个操作子的表达,则报告每对操作子[8,16]可在获取http://regulondb.ccg.unam.mx/这组1652对包含823个不同的操纵子。

我们使用这些数据构建先验的由使用的图形伦巴第。然后我们模拟了两种可能的应用场景。

  1. (\(\mathcal{希腊}_{\mathcal{A}}\))从头算:此场景模拟了没有有效法规的情况;因此,只有共同表达\(\mathcal{C}\)和亲缘关系\(\mathcal{A}\)用作输入。这个先验的图表\(\mathcal{希腊}_{\mathcal{A}}\)由该输入生成的包含25604条弧,对应于\(\mathcal{A}\)尽管有一套独立验证的法规\(\mathcal{V}\)在的输入中被丢弃伦巴第,这组独立信息用于评估方法的偏差,以包括已确认的法规,因为\(\mathcal{A}\)也在\(\mathcal{V}\).

  2. (\(\mathcal{希腊}_{\mathcal{AV}}\))扩展:此场景考虑所有数据\(\mathcal{C},\mathcal{A}\)、和\(\mathcal{V}\)作为输入和使用隆巴德以通常的方式。这个先验的图表\(\mathcal{希腊}_{\mathcal{AV}}\)由该输入生成的包含26812个弧,对应于并集\(\mathcal{A}\cup\mathcal{V}\)(交叉口有444对,也通过实验验证了TF/BS亲和力)。在这种情况下\(\mathcal{V}\)分配成本为1,对应于最大可能性。

评估的结果伦巴第与已知的TRN相比,我们定义了经验证的监管网络如图所示\(\mathcal{G}_{\mathcal{V}}\)只有弧线\(\mathcal{V}\).

的解释潜力大肠杆菌 先验的图表

如果我们考虑经验证的监管网络\(\mathcal{G}(G)_{\mathcal{V}}\)(仅由中经过验证的弧组成\(\mathcal{V}\)),只有3990个共同表达(6.5%\(\mathcal{C}\))进行了解释。这个低值的主要原因是共表达对的集合\(\mathcal{C}\)涉及2492个不同的操纵子,而经验证的法规网络仅包含823个不同的操作子。因此\(\mathcal{C}\)未包含在经验证的法规网络中。有趣的是,在3990个解释的共表达中,只有83个由单一的验证弧解释,而其余的仅通过调节级联解释。这一结果与Sun等人的研究结果一致[17]并表明仅使用表达数据重建TRN似乎是不可行的,并证实了调控级联的作用。

另一方面,当从头算场景(中计算的亲缘关系\(\mathcal{A}\))经过考虑,我们发现先验的图表\(\mathcal{希腊}_{\mathcal{A}}\)解释了56044对共表达操纵子(91.1%\(\mathcal{C}\)). 这一数字上升至56789人(占总人数的92.3%)\(\mathcal{C}\))在扩展的情况下,验证的弧包含在先验的图表\(\mathcal{希腊}_{\mathcal{AV}}\)这一结果揭示了先验的\(\mathcal{希腊}_{\mathcal{A}}\)\(\mathcal{希腊}_{\mathcal{AV}}\).

然而,大量的亲和性(超过已知调控数量的15倍)与证据一致,即许多预测的TF/BS亲和性是虚假的,它们不是协调作为输入的基因共表达的真正调控过程的一部分,它是从一组特定的实验中获得的。建模原理伦巴第就是我们可以选择最有信心的子网络来解释所研究的数据。

伦巴第结果偏向于验证的交互

考虑到从头算脚本,伦巴第首次应用于\(\数学{希腊}_{\mathcal{A}}\)和套装\(\mathcal{C}\)观察到的共表达大肠杆菌.设置成本参数后k个=9和第页=10(下面对该选项进行了分析),伦巴第产生了一个只有19.2%初始弧的子网络(25604中的4922个),这仍然解释了91.1%的共同表达。有趣的是,伦巴第显示出强烈倾向于在\(\mathcal{V}\)(见表1). 的确,伦巴第保留了66.4%的验证弧\(\mathcal{希腊}_{\mathcal{A}}\)只保留了18.4%的未验证交互。超几何测试证实了这种偏差第页-值小于10−105对于扩展场景,当伦巴第已应用于扩展图\(\mathcal{希腊}_{\mathcal{AV}}\)(,添加所有经验证的法规)。由此产生的子网保留了92%的已验证弧(1652条中的1520条),仅包括11.3%的未验证假定法规(25604条中的2854条)。在未来的工作中,有兴趣探索2854项假定法规是否包含实际的监管关系大肠杆菌尚未通过实验验证。

表1的特性先验的图形和伦巴第输出网络

需要注意的是伦巴第优先选择低弧第页-值,它还包括高第页-当需要它们来解释共同表达时(参见图。4). 验证的弧也偏向较低第页-值,尽管有些值确实很高。因此,方法仅基于第页-值阈值将不会恢复所有已验证的弧,并且可能不会产生最大的网络。

图4
图4

分配第页-中TF/BS亲和力的值先验的图表\(\mathcal{希腊}_{\!\mathcal{A}}\),输出伦巴第当应用于\(\mathcal{希腊}_{\mathcal{A}})和TRN\(\mathcal{希腊}_{\mathcal{V}}\)构造自\(\mathcal{V}\)显示了

我们预料到了伦巴第将恢复许多未经验证的弧,因为一组经验证的规则只代表当前的知识,可能对应于生物体中所有转录规则的一小部分。

的学位分布伦巴第输出与观察到的TRN类似

伦巴第结果表明,该网络在拓扑结构上更接近于其他观测到的TRN,而不是先验的\(\mathcal{希腊}_{\mathcal{A}}\)\(\数学{G}_{\mathcal{AV}}\)事实上\(\mathcal{希腊}_{\mathcal{A}}\)为10.7,远高于文献中建议的1.5–2.0的值[18]对于TRN。生成的平均度伦巴第产出为2.1,这与预期值非常接近。该值也接近现有网络的平均度值2.0\(\mathcal{希腊}_{\mathcal{V}}\)已验证法规的大肠杆菌此外,度分布(每个度的操纵子比例)伦巴第输出与现有有效法规网络中的度分布高度相关,这表明它们具有一些结构属性,如图所示。5相比之下\(\mathcal{希腊}_{\mathcal{A}}\)\(\mathcal{希腊}_{\mathcal{AV}}\)差异显著;因此,它们的结构不同于已验证法规的观测网络的结构。

图5
图5

网络的度分布。这个先验的图表\(\mathcal{希腊}_{\mathcal{A}}\)(绿色),输出伦巴第当应用于\(\mathcal{希腊}_{\mathcal{A}})(红色)和TRN\(\mathcal{希腊}_{\mathcal{V}}\)构造自\(\mathcal{V}\)(蓝色)显示

全球监管机构排名

伦巴第包含了大多数被描述为大肠杆菌[19]. 从开始\(\mathcal{希腊}_{\mathcal{A}}\),输出伦巴第包括19个已知的全球细菌监管机构中的16个。

为了确定与全球监管机构相对应的顶点伦巴第输出,我们根据网络的连接结构对其进行排序。特别是,我们考虑了顶点辐射性作为一个中心性指数,衡量图中每个顶点到达其他顶点的能力[20]. 如果d日(u个,v(v))表示距离u个v(v)(最短路径的未加权长度u个v(v))和D类直径图表的(\(D=\max\{D(\bar u,\bar v):\bar u、\bar v\)在图}中),然后是值R(右) u个,v(v) =1+D类d日(u个,v(v))最小值(值为1),当u个v(v)是图的极端顶点,当顶点为u个v(v)是邻居。然后是辐射度R(右) d日(u个)顶点的u个定义为R(右) u个,v(v) 在里面伦巴第的输出。与辐射度较低的顶点相比,具有高辐射度的顶点能够以较少的平均步长到达更多的顶点。

我们在中定义了一个顶点伦巴第输出为中央调节器如果其辐射指数排名在前30%。十个已知的全球监管机构是伦巴第输出(表2). 相反,\(\mathcal{希腊}_{\mathcal{A}}\)在中央监管机构中,只有7家全球监管机构。

表2大肠杆菌全球监管机构及其基于辐射中心度指数的排名伦巴第输出

什么时候?伦巴第已应用于\(\mathcal{希腊}_{\mathcal{AV}}\)(该公司在\(\mathcal{V}\)),在已知的全球监管机构中,有18家恢复了产出,其中14家是中央监管机构。因此,伦巴第产生的网络为文献中描述的大多数全球监管机构发挥了核心作用。

伦巴第应用于一组有意义的共同表达

当一组共同表达\(\mathcal{C}\)与生物体中的大多数基因有关,伦巴第产生了全基因组推测的TRN。然而,伦巴第也可以应用于任何一组具有生物学意义的特定基因,以破译它们之间的调控关系。作为这方面的一个例子从头算在场景中,我们限制了集合\(\数学{C}\)为获得大肠杆菌到子集\(\mathcal{C}^{\prime}\)由八对包含共表达基因的操纵子组成。先验的图表\(\mathcal{希腊}_{\mathcal{A}}),伦巴第生成了小型假定监管网络,如图所示。6该网络使用30条规则解释了所有的共同表达。在大多数情况下,只有一种最佳解释。例如,基因毛皮调节包含metA、metF、metNIQ、pyrD、purEK、purC、和密码BA通过涉及以下方面的监管级联金属J采购在其他情况下,有几种最佳解释。例如编号A-ydfN-tfaQclcB公司可以用级联来解释毛皮或来自加仑.在由伦巴第,16个已经过实验验证。

图6
图6

减少一组共调节基因获得的TRN\(\mathcal{C}'\)先验的图表\(\mathcal{希腊}_{\mathcal{A}}\)。所有弧都由预测伦巴第。以实线绘制的圆弧已通过实验验证,尽管预测中未使用此信息。基因purC程序与联合表达metF公司,、和金属Q;金属N与联合表达purE(纯E)吡咯烷酮;金属Q与联合表达密码A;clcB公司与联合表达ydfN码; agaS公司与联合表达乌干达

不同输入数据结果的稳健性

用于生成先验的使用的图形伦巴第可以根据用于获取它们的生物信息学方法而变化。通过分析获取输入数据的不同方法,我们发现伦巴第对许多变化都相当稳健。我们还检查了,当输入数据如预期那样包含更多信息时,伦巴第做出了更好的预测。

例如先验的图取决于用于确定TF/BS亲和集的TF和BS模式的来源。我们比较了伦巴第应用于先验的使用RegulonDB而不是Prodoric数据库构建的图形发现伦巴第生成包含较大比例验证弧的较小图形(图。7,条形图C)。这并不奇怪,因为Prodoric基于多种原核生物,而RegulonDB仅基于大肠杆菌然而,当纳入经验证的法规时,差异并不显著(图。7,条形图D)。

图7
图7

的比较伦巴第不同输入数据的性能。使用了不同的方法和参数来生成输入大肠杆菌使用的数据伦巴第。保留在先验的输出中的图形与中的验证弧相关\(\mathcal{V}\)和中未验证的弧\(\mathcal{A}\).中圆弧的成本先验的图表\(\mathcal{希腊}_{\mathcal{A}}\)计算了四个参数值k个.b条这套\(\mathcal{C}\)使用四种不同的方法计算,以推断相互信息。c(c)d日使用了两个不同的数据库来推断集合\(\mathcal{A}\)因此先验的\(\mathcal{希腊}_{\mathcal{A}}\)\(\mathcal{希腊}_{\mathcal{AV}}\)分别生成

这个伦巴第结果对用于测定共表达的方法也很可靠。我们评估了伦巴第使用ARACNe确定的不同组共表达[2]、C3NET、CLR[]和MRNET[4]. 这个伦巴第两种方法的结果相似。C3NET除外(参见图中的条形图B。7),它产生了最小的一组共同表达伦巴第产生的解释较少。

成本参数分析

中每个弧的成本先验的图是按照以下两个标准选择的:相似的值被认为是等效的,因此伦巴第结果对以下方面的微小变化是稳健的第页-价值估计;并且成本应随着电弧的减少而降低第页-值减小,因此具有更高可能性的弧具有更低的成本。第一个标准通过将每个弧分类为k个并根据第二个标准分配离散成本。

如果没有进一步的限制,最小化算法必须区分具有生物相关性的替代路径:两个基因之间的调节级联可能是具有低置信弧的短路径,或者是具有高置信弧的长路径。伦巴第仅当路径长度达到第页乘以具有低置信弧的路径长度。因此,属于-第个箱子({0,…,k个−1})是第页 .

选择有用的值k个第页我们探讨了表中总结的条件。的大小伦巴第无论哪种情况,输出都会下降第页k个增加,并且当验证的弧数增加时也会增加。中所有弧中已验证弧的比率伦巴第产量随着增加而增加k个第页该结果建议选择参数第页=10和k个=9会产生偏差伦巴第建立更加自信的人际网络。

表3参数的影响k个第页伦巴第输出

结论

解读哪些调控相互作用可以为一组观察到的共同表达提供因果解释,这仍是系统生物学中的一个重要挑战。我们开发了伦巴第这是一种建模方法,使用优化原理确定一组简单而可靠的规则,作为给定一组共同表达的因果解释。当共同表达集涉及全基因组相互作用时,伦巴第产生了一个解释性的假定TRN,该TRN具有与观察到的TRN相近的一些基本拓扑特征,并且偏向于包括经过独立实验验证的法规。这个伦巴第方法是针对大肠杆菌数据集,其中共同表达是在几种环境条件下使用相互信息确定的。伦巴第已应用于先验的该图考虑了BLAST和MEME/FIMO恢复的TF/BS亲和力,并生成了一个简单而自信的解释性假定TRN,解释了大多数观察到的共表达。伦巴第放弃了最初TRN中的许多弧,但有趣的是,保留了其中大多数独立的实验验证法规。

敏感性分析表明伦巴第在所有联合表达集的情况下都偏向于经验证的法规先验的用作输入的图形。此外,当先验的该图对目标生物体进行了微调。

我们已经评估伦巴第使用大肠杆菌作为一个测试用例,因为许多监管交互已经过验证,因此适合用于评估目的。伦巴第可以直接应用于其他原核生物,我们预计,只要预测的规则的可信度调整到目标生物,对真实规则的偏见将是相同的。

总之,伦巴第是一种工具,可以提供有用的见解,了解生物体对环境挑战的表型反应的调控机制,并且可以用作基因组转录调控研究的进一步研究的可靠工具。

支持数据的可用性

用于评估的源代码和原始数据可在http://github.com/anaraven/Lombarde和作为附加文件1。该方法也可以从网址:http://mobyle.inria.cl.

工具书类

  1. Eisen MB,Spellman PT,Brown PO,Botstein D.全基因组表达模式的聚类分析和显示。美国国家科学院院刊1998;95(25):14863–8.

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  2. Margolin AA、Nemenman I、Basso K、Wiggins C、Stolovitzky G、Favera RD等。Aracne:哺乳动物细胞环境中基因调控网络重建的算法。BMC生物信息学006 7:S7。2006; 7补充1:7。

    第条 谷歌学者 

  3. Faith JJ、Hayete B、Thaden JT、Mogno I、Wierzbowski J、Cottarel G等。表达谱简编中大肠杆菌转录调控的大规模绘图和验证。《公共科学图书馆·生物》。2007; 5(1):8.

    第条 谷歌学者 

  4. Meyer PE,Kontos K,Lafitte F,Bontempi G.大型转录调控网络的信息论推断。EURASIP生物信息系统生物学杂志。2007:79879. 数字对象标识:10.1155/2007/79879.

  5. Olsen C,Meyer PE,Bontempi G.关于熵估计对基于互信息的转录调控网络推断的影响。EURASIP生物信息系统生物学杂志。2009:308959. 数字对象标识:10.1155/2009/308959.

  6. 罗迪奥诺夫DA。细菌转录调控网络的比较基因组重建。化学评论,2007年;107(8):3467–97.

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  7. Guhathakurta D.dna序列中转录调控元件的计算鉴定。2006年《核酸研究》;34(12):3585–98.

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  8. Salgado H、Peralta-Gil M、Gama-Castro S、Santos-Zavaleta A、Muniz-Rascado L、Garcia-Sotelo JS等。Regulondb v8.0:组学数据集、进化保守性、监管短语、交叉验证金标准等。2013年《核酸研究》;41(D1):203–13。

    第条 谷歌学者 

  9. Grote A、Klein J、Retter I、Haddad I、Behling S、Bunk B等。Prodoric(2009年版):原核生物基因调控分析的数据库和工具平台。核酸研究2009;37(数据库问题):61–5。

    第条 谷歌学者 

  10. Acuña V、Aravena a、Maass a和Siegel a。简约假设监管网络建模:复杂性和启发式方法。In:验证、模型检查和抽象解释。计算机科学系列讲座笔记第8318卷。柏林-海德堡:施普林格出版社:2014年。第322-336页。

    谷歌学者 

  11. 普鲁特KD。Ncbi参考序列(refseq):基因组、转录物和蛋白质的精选非冗余序列数据库。核酸研究2004;33(数据库问题):501–4。

    第条 谷歌学者 

  12. Faith JJ、Driscoll ME、Fusaro VA、Cosgrove EJ、Hayete B、Juhn FS等。许多微生物微阵列数据库:具有结构化实验元数据的统一标准化affmetrix简编。核酸研究2008;36(数据库问题):866–70。

    谷歌学者 

  13. Meyer PE,Lafitte F,Bontempi G.minet:一种利用互信息推断大型转录网络的r/生物导管包。BMC生物信息学。2008; 9:461.

    第条 公共医学 公共医学中心 谷歌学者 

  14. R核心团队。R: 统计计算语言和环境。奥地利维也纳:R统计计算基金会;2012.R统计计算基金会。国际标准图书编号(ISBN)3-900051-07-0。

    谷歌学者 

  15. Bailey TL、Boden M、Buske FA、Frith M、Grant CE、Clementi L等。模因套件:模因发现和搜索工具。核酸研究2009;37(Web服务器问题):202。

    第条 谷歌学者 

  16. Gama Castro S、Salgado H、Peralta Gil M、Santos Zavaleta A、Muñiz Rascado L、Solano Lira H等人Regulondb 7.0版:整合在遗传感觉反应单元(gensor单元)内的大肠杆菌k-12的转录调控。核酸研究2011;39(数据库问题):98–105。

    第条 谷歌学者 

  17. Sun J、Tuncay K、Haidar A、Ensman L、Stanley F、Trelinski M等。通过多种方法集成发现转录调控网络:对大肠杆菌k12的应用。算法分子生物学。2007; 2(1):2–2.

    第条 公共医学 公共医学中心 谷歌学者 

  18. Leclerc RD。最稀疏的生存:健壮的基因网络是简约的。分子系统生物学。2008; 4:213.

    第条 公共医学 公共医学中心 谷歌学者 

  19. Martínez-Nonio A,Collado-Vides J.《确定细菌转录调控网络中的全球调节器》。2003; 6(5):482–9.

    第条 公共医学 谷歌学者 

  20. Valente T,Foreman R.整合与辐射性:衡量个人在网络中的连通性和可达性。Soc Networks。1998; 20(1):89–105.

    第条 谷歌学者 

下载参考资料

致谢

我们感谢Alejandra Medina-Rivera、Heladia Salgado和Julio Collado-Vides就RegulonDB数据库的解释和使用进行了有益的讨论。这项工作得到了基金会15090007、基础CMM、基金会1140631和ANR Biotempo ANR10-BLANC0218的资助。我们还感谢国际合作研究金综合生物智利国际研究所协会团队和智利国际研究院。

作者信息

作者和附属机构

作者

通讯作者

与的通信亚历杭德罗·马斯.

其他信息

竞争性利益

作者声明,他们没有相互竞争的利益。

作者的贡献

这项工作由VA、AA、AM和AS构思和设计。实验由AA进行。结果分析和论文由VA、CA、CG、DE、AS和AM撰写。所有作者阅读并批准了最终稿。

其他文件

附加文件1

用于评估的源代码和原始数据作为附加文件1提供。(邮政编码1340 kb)

权利和权限

开放式访问本文根据Creative Commons Attribution 4.0 International License的条款分发(http://creativecommons.org/licenses/by/4.0/),允许在任何媒体中不受限制地使用、分发和复制,前提是您对原作者和来源给予适当的信任,提供到知识共享许可证的链接,并说明是否进行了更改。知识共享公共领域专用豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有说明。

转载和许可

关于本文

检查更新。通过CrossMark验证货币和真实性

引用这篇文章

Acuña,V.,Aravena,a.,Guziolowski,C。等。解读协调应对环境变化的转录规则。BMC生物信息学 17, 35 (2016). https://doi.org/10.1186/s12859-016-0885-0

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • DOI程序:https://doi.org/10.1186/s12859-016-0885-0

关键词