Asymptotic structural properties of quasi-random saturated structures of RNA

Clote, Peter; Kranakis, Evangelos; Krizanc, Danny

doi:10.1186/1748-7188-8-24

研究
开放式访问
出版：2013年10月25日

RNA准随机饱和结构的渐近结构性质

分子生物学算法 体积 8，物品编号：24(2013)引用这篇文章

3067访问
1引文
1海拔高度
韵律学细节

摘要

背景

RNA折叠依赖于动力学陷阱在所有二级结构景观中的分布。Nussinov能量模型中的动力学陷阱正是那些二级结构饱和的，这意味着在不引入伪结或基三元组的情况下，不能添加任何基对。在以前的工作中，我们研究了这两者的渐近组合随机的，随机的饱和结构和准随机饱和结构，后者由自然随机过程建造。

结果

我们证明了对于具有均匀分布，外部循环的渐近期望数为O（运行）（日志n个)渐近期望最大杆长为O（运行）（日志n个)，而在Zipf分发，外部循环的渐近预期数量为O（运行）（日志2n个)渐近期望最大杆长为O（运行）（日志n个/日志n个).

结论

准随机饱和结构由随机贪婪方法生成，该方法实现简单。随机饱和结构的结构特征似乎与准随机饱和结构相似，后者似乎构成了一个类，对于该类，采样结构的生成以及结构特征的组合研究可能更容易进行。

背景

RNA是一种重要的生物分子，目前已知它在携带信息作用，如在逆转录病毒中，如HIV，其基因组由RNA组成，以及催化的作用，如RNA对肽基转移酶的催化作用，RNA将氨基酸连接到生长的肽链上，在核糖体上形成蛋白质[1]. 最近发现，RNA在许多生物过程中发挥着以前未曾预料到的广泛作用，包括重新翻译遗传密码（硒代半胱氨酸插入[2]，核糖体移码[三])转录和翻译基因调控[4，5]，温度敏感型构象开关[6，7]，核糖体中特定核苷酸的化学修饰[8]、替代拼接的规定[9]等。

RNA分子所执行的多种生物重要功能在很大程度上取决于RNA的三级结构，众所周知，三级结构受二级结构的限制，后者充当三级接触形成的支架[10]. 因此，许多工作都集中在RNA二级结构预测上[11–14]RNA折叠动力学[15–17]. 在[18]Stein和Waterman开创了RNA二级结构的渐近组合学研究，他们开发了递归关系来计算二级结构数量。这些递归关系后来被Nussinov和Jacobson修改[19]尤其是祖克[20]计算最小自由能二级结构。

形式上，给定RNA核苷酸序列的二级结构一₁, …,一_n个是一套S公司碱基对的(我，j个)，因此（i）如果(我，j个) ∈ S公司然后一_我，一_j个形成Watson-Crick（AU、UA、CG、GC）或摆动（GU）碱基对，（ii）如果(我，j个) ∈ S公司然后j个 - 我 > θ=3（立体约束要求至少有θ = 任意两个配对碱基之间的3个未配对碱基），（iii）如果(我，j个) ∈ S公司那么对所有人来说j个^′ ≠ j个和我^′ ≠ 我, (我^′，j个) ∉ S公司和(我，j个^′) ∉ S公司（不存在基本三元组），（iv）如果(我，j个) ∈ S公司和(k个，ℓ) ∈ S公司，那么情况并非如此我 < k个 < j个 < ℓ（不存在伪结）。在本文中，遵循Stein和Waterman[18]，我们认为均聚物RNA模型，在何种条件下（i）被丢弃，因此意味着任何基都可以与任何其他基配对，我们修改了条件（ii）以便θ = 1.在组合数学中有一些不必要的额外复杂性，我们可以处理以下情况θ是任何固定的正常数。

对于给定的RNA序列饱和二级结构是这样的一种，在不引入伪结或基三元组的情况下，不能添加任何基对；换句话说，饱和结构具有最大碱基对的数量，而Nussinov最小能量结构有一个最大限度碱基对的数量。由于RNA结构形成的动力学取决于二级结构能量分布，特别是取决于动力学陷阱（饱和结构）的分布，因此在以前的工作中，我们设计了一种算法来计算饱和结构的数量[21]，确定饱和二级结构的渐近数[22]饱和和准随机饱和结构中的期望碱基对数[23]。

二级结构在维也纳很方便地展示点括号表示法，由带圆点的平衡括号表达式组成，其中位置处有一个未配对的核苷酸我在该位置用点表示，而基对(我，j个)由分别位于位置的匹配左括号和右括号表示我和j个硒代半胱氨酸插入序列（SECIS）的最小自由能二级结构fruA，由

CCUCGAGGGAAACCCGAAAGGGACCGAGAGG ((((..(((...(((....))).)))..))))

是饱和结构。相反，小鼠乳腺肿瘤病毒Gag/pro核糖体移码位点的以下结构[24]不仅不饱和，还包括伪结，如显示交叉碱基对所需的方括号符号所示。

AAAAAA CUUGUAAAGGGGGAUCCCCUAGCCCGCUCAAAGGGAUG ..............(((((.[[[[[[[.)))))........]]]]]]].

转到本文考虑的均聚物模型，长度为5的RNA正好有五种饱和结构

((∙)) ， ∙ (∙ ∙) ， (∙ ∙) ∙ ， (∙) ∙ ∙ ， ∙ ∙ (∙)

长度为6的RNA正好有8个饱和结构

\begin{align} ((∙)) ∙ ， ∙ ((∙)) ， ((∙) ∙) ， (∙ (∙)) ， \\ ((∙ ∙)) ， (∙) (∙) ， (∙ ∙) ∙ ∙ ， ∙ ∙ (∙ ∙) . \end{align}

已定义饱和的结构，我们现在定义一个随机贪婪过程来生成随机的，随机的饱和结构，技术上表示准随机饱和结构。该概念的定义见[23]其中，我们表明准随机饱和结构中的期望碱基对数为0.340633·n个，略高于预期数字0.337361·n个所有饱和结构中的碱基对。

考虑以下生成饱和结构的随机过程。假设n个底座在一条线上按顺序排列。选择碱基对（1，u个)通过选择u个，其中θ + 2 ≤ u个 ≤ n个，随机，概率为1/(n个 - θ ——————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————1). 连接1和u个把这条线分成两部分。左侧区域具有k个基数严格在1和之间u个，其中k个 ≥ θ，右侧区域包含剩余的n个 - k个 - 端点内适当包含2个基底k个 + 2和n个（见图1). 递归地处理这两个部分中的每一个。请注意，随机过程产生的二级结构将始终与最左边的可用基配对，并且生成的结构始终是饱和的。注意，概率第页_我，j个那个(我，j个)饱和结构中的碱基对是不与概率相同q个_我，j个那个(我，j个)是准随机饱和结构中的一个碱基对（如所示[23]，使用我们编写的程序生成饱和结构）。

结果和讨论

有了这些定义，我们现在可以说明有关结构特征（准）随机饱和结构。在均匀分布，我们证明了外循环的渐近期望数为O（运行）（日志n个)，预计最大杆长为O（运行）（日志n个). 相反，在齐普夫分布，外部循环的渐近期望数为O（运行）（日志2n个)，预计最大杆长为O（运行）（日志n个/日志n个)^一.

在RNA组合学的文献中([18]以及随后的论文），已经证明了均聚物和Bernouilli模型的组合结果，其中后者假设粘性参数第页 = 2(第页_一个第页_U型 + 第页_G公司第页_U型 + 第页_G公司第页_C类)任何两个位置都可以打底线。据我们所知，目前的论文似乎是对RNA二级结构的首批组合分析之一，其中涉及碱基对的Zipf分布。

结论

相对于Nussinov能量模型，饱和二级结构在能量景观中形成了自然动力学陷阱[19]从能量上来说，从饱和结构移动到任何相邻结构（相差一个碱基对）都是不利的。然而，尽管我们在年开发了一些程序，但目前还没有程序对与Nussinov能量有关的饱和二级结构进行采样（给定均聚物或RNA序列）[21，22]可以扩展到均聚物和RNA序列。（注意程序RNAsat卫星，如中所述[25]可以对特纳能源景观中的饱和结构进行采样RNA锁定，如中所述[26]，罐装样品局部最优特纳能源景观中的结构）。相比之下，实现对准随机饱和结构进行采样的程序非常简单，因此可以很容易地了解准随机结构集合中的各种结构特征。我们预计许多结构特征将在随机饱和结构和准随机饱和结构之间近似共享——例如，如前所述，准随机饱和结构中的预期碱基对数量为0.340633·n个而饱和结构中的预期碱基对数为0.337361·n个，几乎相同的值[23]。

一般来说，它需要花费大量的精力来应用复杂分析的深层结果，例如Flajolet-Odlyzko定理[27]或Drmota-Lalley-Woods定理[28–30]（另见弗拉乔莱特和塞奇威克的文本[31])证明渐近结果，例如饱和结构的渐近数为1.07427·n个^-3/2 · 2.35467^n个碱基对的渐近期望数为0.337361·n个发夹的渐近期望数量为0.323954·1.69562^n个[23]. 相比之下，本文给出的论点是初步的，不需要复杂的分析。综上所述，我们认为随机贪婪方法，如图1，在抽样饱和结构时表现得相当好，这似乎代表了所有饱和结构的集合，并支持比所有饱和结构所需的组合分析更简单的组合分析。

方法

准随机饱和二次结构的结构特性

给定的二级结构S公司，一个外部碱基对是一个基本对(我，j个) ∈ S公司，它不在S公司; 即没有(x个，年) ∈ S公司拥有x个 < 我 < j个 < 年.外部碱基对序列是序列(一_我，b_我),我 = 1, 2, …,k个这样的话一_我 < b_我 < 一_我+1 < b_我+1，对于所有人我 < k个，其中每个(一_我，b_我)是外部的。碱基对(一_我，b_我)据说关闭相应的外部回路; 参见图2. The外部回路数给定二级结构的S公司定义为中外部碱基对的总数S公司。我们定义了茎长度的k个是一系列嵌套的碱基对（见图三) (一_我，b_我),我 = 1, 2, …,k个，因此一_我 < 一_我+1 < b_我+1 < b_我，对于所有人我 < k个. The阀杆长度给定二级结构的S公司此处定义为所有杆的最大长度S公司; 即中嵌套碱基对的最大数量S公司.

我们对随机饱和二次结构的结构性质的研究通过定义一个类似于[32]; 然而，请注意，形式定义与[32]. 给定二级结构S公司关于核苷酸序列[1，n个]，定义关联图G公司(S公司) = (V（V），电子)，其顶点集V（V）由碱基对组成v（v） = (我，j个)在S公司和其无向边集电子由对组成{v（v），v（v）^′}嵌套顶点的数量，v（v） = (我，j个)和v（v）^′ = (我^′，j个^′)，可以直接看见彼此；即{v（v），v（v）^′}∈ 电子确切时间我 < 我^′ < j个^′<j个并且不存在碱基对(x个，年) ∈ S公司，因此我 < x个 < 我^′ < j个^′ < 年 < j个，或担任副总裁v（v），v（v）^′颠倒的。图4描述了图形G公司(S公司)与饱和二级结构有关S公司.

一般来说G公司(S公司)是一片森林；即一组树。在接下来的部分中，我们确定了随机饱和二级结构的几个结构参数的大小，特别是预期杆长和预期外环数。研究了均匀分布和Zipf分布的这些参数。在继续之前，我们首先定义要考虑的概率分布。

概率分布

齐普夫定律已故哈佛语言学家乔治·金斯利·齐普夫首次发现第页_我英语单词的等级我（在英语单词列表中，按照频率降序排序），遵守幂律第页_我 ≈ 我^- α更一般地说，当绘制频率与秩的关系时（齐普夫第一定律）或当绘制频率与反向秩的关系时（齐普夫第二定律），齐普夫定律是幂律的陈述。在生物信息学中，在微阵列数据中差异表达基因的频率/秩图中观察到了Zipf定律[33]以及蛋白质结构的频率/秩图[34]，其中有一些非常常见的结构，以及非常多的罕见结构。在本文的其余部分中，我们考虑与Zipf定律相关的概率分布。

节点，例如1≤u个 ≤ n个，使用随机选择α-拉链分布，如果给定的基对（1，u个)选择等于 $\frac{1}{{(u个 - 1)}^{α} {H（H）}_{α} (n个 - 1)}$ ，其中

{H（H）}_{α} (n个 - 1) = \sum_{k个 = 1}^{n个 - 1} \frac{1}{{k个}^{α}}

定义为α-谐波数n个 - 1.任意阈值的期望碱基对数θ表示为 ${电子}_{n个}^{θ}$ ，对于随机饱和二级结构n个基数，由α-Zipf随机过程。 ${电子}_{n个}^{0}$ 满足以下递归公式

\begin{array}{l} {电子}_{n个}^{0} = 1 + \frac{1}{{H（H）}_{α} (n个 - 1)} \sum_{k个 = 0}^{n个 - 2} \frac{1}{{(k个 + 1)}^{α}} ({电子}_{k个}^{0} + {电子}_{n个 - k个 - 2}^{0}) ， \end{array}

（1）

为所有人n个≥2

请注意，当α = 0的α-Zipf分布与均匀分布相同，但如果α = 1，我们有（经典）Zipf分布[35]. 此外，观察如下α增加，“较短”碱基对被选择的概率更高(1).

根据方程式生成随机饱和二级结构的随机过程(1)，属于“分治”类型，在计算机科学中非常常见，其中著名的算法如快速排序根据均匀分布选择一个分割点。对于均匀分布，这类随机算法已被深入研究。已知结果表明，由前面描述的随机过程（均匀选择碱基对）生成的随机饱和结构中碱基对数量的概率分布是渐近高斯的（参见[36]和[37]). 我们还注意到，树木的结构特征已经得到了很好的研究，包括预期深度和深度的准确分布；例如，请参见[36，38，39]. 在续集中，我们考虑一个随机二叉搜索树n个通过插入获得的节点n个i.i.d.随机变量X（X）₁, …,X（X）_n个.仔细分析[36]和[39]暗示了我们在均匀分布部分的结果。然而，我们将使用一种不同且更简单的技术，不仅可以分析下一节关于均匀分布的均匀分布，还可以分析本节下一节中的Zipf分布。

重要的观察结果与阈值有关θ如上所述。本节中证明的所有结果都是“上界”，因此很容易看出它们对任何阈值都有效θ≥因此，为了简化后继中的证明，我们考虑了阈值的情况θ = 0

均匀分布

本节的主要定理涉及随机饱和结构的杆长和外环数S公司，由与树图相关联的自然随机过程生成G公司(S公司). 在本文的其余部分中，我们将从以下方面陈述结果随机饱和结构，尽管我们只打算指那些由与图形相关的随机过程生成的结构G公司(S公司); 我们将区分制服和α-随机过程的Zipf变量。没有这个约定，引理和定理的陈述将过于繁琐。

背景

定理1。在高概率下，均匀分布变量生成的随机饱和结构的外环数和最大杆长为O（运行）（日志n个).

证明。在我们给出主要定理的证明之前，有必要给出两个引理的证明。在第一个引理中，我们考虑预期的外部循环数。

背景

引理1。在高概率下，外部循环的数量为O（运行）（日志n个).

证明。我们定义了一系列随机变量X（X）₁，X（X）₂, …,X（X）_t吨归纳如下。让X（X）₁是选择基数的随机变量k个在2、3、…、…，n个随机且独立地均匀分布以形成基对（1，k个). 通过归纳，假设X（X）₁, …,X（X）_t吨已定义。让X（X）_t吨+1是选择基数的随机变量k个从中选择X（X）_t吨 + 2,X（X）_t吨 + 3, …,n个随机且独立地均匀分布，以形成一个碱基对(X（X）_t吨 + 1,k个). 接下来我们估计 $电子 [{X（X）}_{t吨}]$ ，对于所有人t吨的确，请注意 $对 [{X（X）}_{1} = k个] = \frac{1}{n个 - 1}$ 和

\begin{array}{l} 电子 [{X（X）}_{1}] & = & \sum_{我 = 2}^{n个} 我 \cdot \frac{1}{n个 - 1} \\ = & \frac{1}{n个 - 1} \sum_{我 = 2}^{n个} 我 \\ = & \frac{1}{n个 - 1} (\frac{n个 (n个 + 1)}{2} - 1) . \end{array}

接下来我们计算条件概率

\begin{array}{l} 电子 [{X（X）}_{t吨 + 1} | {X（X）}_{t吨} = k个] & = & \sum_{我 = k个 + 2}^{n个} 我 \cdot 对 [{X（X）}_{t吨 + 1} = 我 | {X（X）}_{t吨} = k个] \\ = & \sum_{我 = k个 + 2}^{n个 - 1} 我 \cdot \frac{1}{n个 - k个 - 1} \\ = & \frac{1}{n个 - k个 - 1} \sum_{我 = k个 + 2}^{n个 - 1} 我 \\ = & \frac{1}{n个 - k个 - 1} (\sum_{我 = 0}^{n个 - 1} 我 - \sum_{我 = 0}^{k个 + 1} 我) \\ = & \frac{n个 + k个 + 1}{2} - \frac{n个 + k个 + 1}{2 (n个 - k个 - 1)} \\ \geq & \frac{n个 + k个 + 1}{4} ， \end{array}

其中最后一个不等式对k个 + 3 ≤ n个.

最后，我们可以估计

\begin{array}{l} 电子 [{X（X）}_{t吨 + 1}] & = & 电子 [电子 [{X（X）}_{t吨 + 1} | {X（X）}_{t吨}]] \\ = & \sum_{k个} 电子 [{X（X）}_{t吨 + 1} | {X（X）}_{t吨} = k个] \cdot 对 [{X（X）}_{t吨} = k个] \\ \geq & \sum_{k个} \frac{n个 + k个 + 1}{4} \cdot 对 [{X（X）}_{t吨} = k个] \\ = & \frac{n个 + 1}{4} + \frac{1}{4} \sum_{k个} k个 \cdot 对 [{X（X）}_{t吨} = k个] \\ = & \frac{n个 + 1}{4} + \frac{1}{4} 电子 [{X（X）}_{t吨}] \\ = & \frac{n个 + 1}{4} \cdot (1 + 2^{- 1} + \dots + 2^{- t吨}) \\ = & \frac{n个 + 1}{2} \cdot (1 - 2^{- t吨 - 1}) . \end{array}

我们感兴趣的是确定随机变量的行为，其值是随机饱和结构中的外部循环数。

{T型}_{n个} = 最小值 {t吨 : {X（X）}_{t吨 + 1} \geq (n个 + 1) / 2} .

(2)

由此我们得出

\begin{array}{l} 对 [{T型}_{n个} > t吨] & = & 对 [{X（X）}_{t吨 + 1} < (n个 + 1) / 2] \\ = & 对 [(n个 + 1) / 2 - {X（X）}_{t吨 + 1} > 0] \\ \leq & 电子 [(n个 + 1) / 2 - {X（X）}_{t吨 + 1}] \\ = & \frac{n个 + 1}{2} - 电子 [{X（X）}_{t吨 + 1}] \\ \leq & \frac{n个 + 1}{2} - \frac{n个 + 1}{2} \cdot (1 - 2^{- t吨 - 1}) \\ = & \frac{n个 + 1}{2} \cdot 2^{- t吨 - 1} . \end{array}

特别地， $对 [{T型}_{n个} > (1 + ϵ) 日志 n个)] \leq {n个}^{- ϵ} + o个 ({n个}^{- ϵ})$ 这就完成了引理1的证明。□

接下来我们证明以下引理。

背景

引理2。很有可能，最大杆长为O（运行）（日志n个).

证明。根据递归结构，在后续阶段随机选择一个碱基对后的每个阶段，碱基对都嵌套在这个碱基对中。因此，最大杆长等于最大嵌套碱基对数。后一个数字也可以通过以下方式获得。我们定义了以下序列Y（Y）₁，Y（Y）₂, …,Y（Y）_t吨随机变量。在2、3、…、…，n个随机且独立且均匀分布。让Y（Y）₁是产生的随机变量。通过归纳，假设Y（Y）₁, …,Y（Y）_t吨已定义。定义随机变量Y（Y）_t吨+1，从中选择一个底座t吨 + 2, …,Y（Y）_t吨 - 1随机且独立，分布均匀。显然，当Y（Y）_t吨 ≤ t吨 + 2，因此嵌套碱基对的最大数目也是t吨暂停之前的迭代次数。因此，我们有兴趣了解随机变量的行为

{T型}^{'} = 最小值 {t吨 : {Y（Y）}_{t吨} \leq t吨 + 2}

(3)

（注意随机变量的相关性T型^′在n个).

从定义上看Y（Y）_我+1从中选择我 + 2,我 + 3, …,Y（Y）_我 - 任意整数的均匀分布随机且独立为1k个 ≥ 我 + 2, $电子 [{Y（Y）}_{我 + 1} | {Y（Y）}_{我} = k个] = \frac{k个 + 我 + 1}{2} .$ 考虑随机变量 $电子 [{Y（Y）}_{我 + 1} | {Y（Y）}_{我}]$ 其值为k个等于 $电子 [{Y（Y）}_{我 + 1} | {Y（Y）}_{我} = k个]$ 使用条件概率的已知恒等式，我们可以导出以下等式。

\begin{array}{l} 电子 [{Y（Y）}_{我 + 1}] & = & 电子 [电子 [{Y（Y）}_{我 + 1} | {Y（Y）}_{我}]] \\ = & \sum_{k个} 电子 [{Y（Y）}_{我 + 1} | {Y（Y）}_{我} = k个] \cdot 对 [{Y（Y）}_{我} = k个] \\ = & \sum_{k个} \frac{k个 + 我 + 1}{2} \cdot 对 [{Y（Y）}_{我} = k个] \\ = & \frac{1}{2} \sum_{k个} k个 \cdot 对 [{Y（Y）}_{我} = k个] + \frac{我 + 1}{2} \\ = & \frac{1}{2} 电子 [{Y（Y）}_{我}] + \frac{我 + 1}{2} . \end{array}

特别是，因为 $电子 [{Y（Y）}_{1}] = \frac{n个 + 2}{2}$ ，我们得出结论 $电子 [{Y（Y）}_{t吨}] \leq {(1 / 2)}^{t吨} \cdot n个$ 。最后，我们可以推导 $对 [{T型}^{'} > t吨] = 对 [{Y（Y）}_{t吨} > 0] \leq 电子 [{Y（Y）}_{t吨}] \leq {(1 / 2)}^{t吨} \cdot n.（名词）。$ 由此可见 $对 [{T型}^{'} > (1 + ϵ) 日志 n个)] \leq {n个}^{- ϵ} .$

我们还没有完全完成引理2的证明。证明表明，在高概率下，递归构造给出的最左边的碱基对序列最多有长度O（运行）（日志n个). 我们想证明任何嵌套碱基对序列都是相同的。为此，定义随机间隔我_秒，其中秒是0s和1s的有限序列，通过对长度的归纳秒。考虑间隔我_∅= [1,n个]. 假设我_秒= [一_秒，b_秒]已经定义了，我们考虑一个随机过程，它将其随机分为两个子区间，即选择一个整数第页 ∈ 我_秒随机且独立的均匀分布我_秒0 = [一_秒，第页]和我_秒1 = [第页 + 1,b_秒]. 自 $电子 [| 我_{某人} |] \leq \frac{1}{2} \cdot 电子 [| 我_{秒} |]$ 因此，预期长度我_秒最多为2^-|秒|现在考虑随机变量T型^′′其定义如下T型^′′ = 最小值{k个:∃秒(|秒|================================================================k个&我_秒 = ∅)}（注意随机变量的相关性T型^′′在n个)并观察到T型^′′ > k个当且仅当∀秒(|秒| = k个 ⇒ 我_秒 ≠ ∅). 因此

\begin{array}{l} 对 [{T型}^{′′} > k个] & = & 对 [\underset{k个 : | 秒 | = k个}{最小值} | 我_{秒} | > 0] \leq 电子 [\underset{k个 : | 秒 | = k个}{最小值} | 我_{秒} |] \\ \leq & 电子 [| 我_{秒} |] ， (对于所有序列 秒 这样的话 | 秒 | = k个) \\ \leq & 2^{- k个} . \end{array}

因此，我们得出结论： $对 [{T型}^{′′} > (1 + ϵ) 日志 n个)] \leq {n个}^{- ϵ} .$ 这就完成了引理2的证明。□

最后，我们可以完成定理1的主要结果的证明，因为这是从引理1和2直接得出的。

齐普夫分布

可以考虑其他概率分布，如Zipf和广义概率分布一-齐普夫。Zipf分布（首先考虑的是[35])可能是最有趣的，因为它支持距离较短的碱基对。一个碱基对（1，u个)使用Zipf分发随机选择。即，碱基对（1，u个)选择等于 $\frac{1}{(u个 - 1) H（H） (n个 - 1)}$ ，其中

H（H） (n个 - 1) = \sum_{k个 = 1}^{n个 - 1} \frac{1}{k个}

定义为(n个 - 1） st谐波数。如前所述，连接1和u个把环分成两部分。一部分有k个介于1和之间的基数u个，其中k个 ≤ n个 - 2，另一部分剩余n个-k个-2个底座（见图1).

定义Z轴_n个为随机饱和二级结构的预期碱基对数n个基础，其中n个 ≥ 2.一对碱基（1，u个)添加如下。选择u个 ≥ 在2、3、…、…，n个有可能 $\frac{1}{(u个 - 1) H（H） (n个 - 1)}$ .

由此得出以下公式

{Z轴}_{n个} = 1 + \frac{1}{H（H） (n个 - 1)} \sum_{k个 = 0}^{n个 - 2} \frac{1}{k个 + 1} ({Z轴}_{k个} + {Z轴}_{n个 - k个 - 2}) ，

(4)

为所有人n个 ≥ 2.本节的主要定理涉及随机二级结构的整体结构。

背景

定理2。Zipf分布生成的随机饱和二级结构具有较高的概率O（运行）（日志2n个)外环和阀杆长度O（运行）（日志n个/日志n个).

证明。在我们给出证明之前，有必要给出两个引理的证明。在第一个引理中，我们看外部循环的数量。

背景

引理3。在高概率下，外部循环的数量为O（运行）（日志2n个).

证明。我们定义了一系列随机变量X（X）₁，X（X）₂, …,X（X）_t吨归纳如下。让X（X）₁是当基对（1，k个)通过选择底座形成k个在2、3、…、…，n个随机且独立地使用Zipf分发。通过归纳，假设X（X）₁, …,X（X）_t吨已定义。让X（X）_t吨+1是当基对(X（X）_t吨 + 1,k个)通过选择底座形成k个是从中选择的X（X）_t吨 + 1,X（X）_t吨 + 2, …,n个随机且独立地使用Zipf分发。接下来我们计算 $电子 [{X（X）}_{t吨}]$ ，对于所有人t吨的确，请注意 $对 [{X（X）}_{1} = k个] = \frac{1}{(k个 - 1) H（H） (n个 - 1)}$ 和

\begin{array}{l} 电子 [{X（X）}_{1}] & = & \sum_{我 = 2}^{n个} 我 \cdot \frac{1}{(我 - 1) H（H） (n个 - 1)} \\ = & \frac{n个 - 1}{H（H） (n个 - 1)} + 1 . \end{array}

接下来我们计算条件概率

\begin{align} 电子 [{X（X）}_{t吨 + 1} | {X（X）}_{t吨} = k个] & = \sum_{我 = k个 + 1}^{n个} 我 \cdot 对 [{X（X）}_{t吨 + 1} = 我 | {X（X）}_{t吨} = k个] \\ = \sum_{我 = k个 + 1}^{n个} 我 \cdot \frac{1}{(我 - k个 - 1) H（H） (n个 - k个 - 1)} \\ = \frac{1}{H（H） (n个 - k个 - 1)} \sum_{我 = k个 + 1}^{n个} \frac{我}{我 - k个 - 1} \\ = \frac{1}{H（H） (n个 - k个 - 1)} \sum_{我 = k个 + 1}^{n个} (\frac{我 - k个 - 1}{我 - k个 - 1} \\ + \frac{k个 + 1}{我 - k个 - 1}) \\ = \frac{n个 - k个 - 1}{H（H） (n个 - k个 - 1)} + (k个 + 1) . \end{align}

最后，我们可以计算

\begin{array}{l} 电子 [{X（X）}_{t吨 + 1}] & = & 电子 [电子 [{X（X）}_{t吨 + 1} | {X（X）}_{t吨}]] \\ = & \sum_{k个} 电子 [电子 [{X（X）}_{t吨 + 1} | {X（X）}_{t吨} = k个]] \cdot 对 [{X（X）}_{t吨} = k个] \\ = & \sum_{k个} ((k个 + 1) + \frac{n个 - k个 - 1}{H（H） (n个 - k个 - 1)}) \cdot 对 [{X（X）}_{t吨} = k个] \\ = & 1 + 电子 [{X（X）}_{t吨}] + \sum_{k个} \frac{n个 - k个 - 1}{H（H） (n个 - k个 - 1)} \cdot 对 [{X（X）}_{t吨} = k个] \\ \geq & 1 + 电子 [{X（X）}_{t吨}] + \frac{1}{H（H） (n个 - 1)} \sum_{k个} (n个 - k个 - 1) \cdot 对 [{X（X）}_{t吨} = k个] \\ = & 1 + 电子 [{X（X）}_{t吨}] + \frac{1}{H（H） (n个 - 1)} (n个 - 1 - 电子 [{X（X）}_{t吨}]) \\ \geq & \frac{n个 - 1}{H（H） (n个 - 1)} + (1 - \frac{1}{H（H） (n个 - 1)}) 电子 [{X（X）}_{t吨}] . \end{array}

使用最后一个不等式进行的基本计算表明

电子 [{X（X）}_{t吨 + 1}] \geq (n个 - 1) (1 - {(1 - \frac{1}{H（H） (n个 - 1)})}^{t吨 + 2}) .

我们感兴趣的是确定随机变量的行为，其值是外部循环的数量；即外部碱基对最大序列的大小。定义随机变量

{T型}_{n个} = 最小值 {t吨 : {X（X）}_{t吨 + 1} \geq n个 - 1} .

(5)

由此我们得出

\begin{array}{l} 对 [{T型}_{n个} > t吨] & = & 对 [{X（X）}_{t吨 + 1} < n个 - 1] \\ = & 对 [n个 - 1 - {X（X）}_{t吨 + 1} > 0] \\ \leq & 电子 [n个 - 1 - {X（X）}_{t吨 + 1}] \\ = & n个 - 1 - 电子 [{X（X）}_{t吨 + 1}] \\ \leq & n个 - 1 - (n个 - 1) (1 - {(1 - \frac{1}{H（H） (n个 - 1)})}^{t吨 + 2}) \\ = & (n个 - 1) {(1 - \frac{1}{H（H） (n个 - 1)})}^{t吨 + 2} . \end{array}

特别是，因为H（H）(n个 - 1) 至自然对数n个我们的结论是 $对 [{T型}_{n个} > ϵ \overset{2}{自然对数} n个)] \leq {n个}^{- ϵ} .$ 这就完成了引理3的证明。□

下一个结果与最大杆长有关。我们可以证明以下结果。

背景

引理4。很有可能，最大杆长为O（运行）（日志n个/日志n个).

证明。根据递归结构，在每个阶段随机选择一个碱基对后，在随后的阶段中，将碱基对嵌套在此碱基对中。因此，最大茎长度等于最大嵌套碱基对数。后一个数字也可以通过研究随机变量序列来获得Y（Y）₁，Y（Y）₂, …,Y（Y）_t吨定义如下。从2、3、……中选择一个基数…，n个 - 1随机且独立地使用Zipf分发。让Y（Y）₁是产生的随机变量。通过归纳，假设Y（Y）₁, …,Y（Y）_t吨已定义。定义随机变量Y（Y）_t吨+1，从中选择一个底座t吨 + 2,t吨 + 3…，Y（Y）_t吨 - 1随机且独立地使用Zipf分发。显然，当Y（Y）_t吨 = 1，因此嵌套的碱基对的最大数量也是t吨暂停之前的迭代次数。因此，我们有兴趣了解随机变量的行为

{T型}^{'} = 最小值 {t吨 : {Y（Y）}_{t吨} > 0}

(6)

（注意随机变量的相关性T型^′在n个).

从定义上看Y（Y）_我+1是从中选择的我 + 2,我 + 3, …,Y（Y）_我 - 对于任何整数，使用Zipf分布随机且独立地为1k个 ≥ 我 + 2,

电子 [{Y（Y）}_{我 + 1} | {Y（Y）}_{我} = k个] = \frac{k个 - 我 - 1}{H（H） (k个 - 我 - 1)} .

考虑随机变量 $电子 [{Y（Y）}_{我 + 1} | {Y（Y）}_{我}]$ 其值为k个等于 $电子 [{Y（Y）}_{我 + 1} | {Y（Y）}_{我} = k个]$ 使用条件概率上的已知恒等式，我们可以导出以下不等式。

\begin{array}{l} 电子 [{Y（Y）}_{我 + 1}] & = & 电子 [电子 [{Y（Y）}_{我 + 1} | {Y（Y）}_{我}]] \\ = & \sum_{k个} 电子 [电子 [{Y（Y）}_{我 + 1} | {Y（Y）}_{我} = k个]] \cdot 对 [{Y（Y）}_{我} = k个] \\ = & \sum_{k个 \geq 我 + 2} \frac{k个 - 我 - 1}{H（H） (k个 - 我 - 1)} \cdot 对 [{Y（Y）}_{我} = k个] \\ \leq & \sum_{k个 \geq 我 + 2} \frac{k个}{H（H） (k个)} \cdot 对 [{Y（Y）}_{我} = k个] \\ \leq & \frac{1}{H（H） (我 + 2)} 电子 [{Y（Y）}_{我}] ， \end{array}

我们利用分数n个 / H（H）(n个)单调在增加吗n个特别是，由于 $电子 [{Y（Y）}_{1}] = \frac{n个 - 2}{H（H） (n个 - 2)}$ ，我们得出结论 $电子 [{Y（Y）}_{t吨}] \leq \frac{n个 - 2}{H（H） (t吨 + 1) \cdot H（H） (t吨) \dots H（H） (2)}$ 。最后，我们可以推导

\begin{array}{l} 对 [{T型}^{'} > t吨] & = & 对 [{Y（Y）}_{t吨} > 0] \\ \leq & 电子 [{Y（Y）}_{t吨}] \\ \leq & \frac{n个 - 2}{H（H） (t吨 + 1) \cdot H（H） (t吨) \dots H（H） (2)} \\ \leq & \frac{n个 - 2}{H（H） {(t吨 / 2)}^{t吨 / 2}} . \end{array}

特别地，

对 [{T型}^{'} > (1 + ϵ) \frac{日志 n个}{自然对数 自然对数 n个}] \leq {n个}^{- ϵ} .

证明表明，由随机二级结构的递归构造给出的最左边的碱基对序列至多有长度O（运行）（日志n个/日志n个)概率很高。我们想证明任何嵌套碱基对序列都是相同的。很容易看出，与上述证明类似的证明是有效的。这就完成了引理4的证明。□

如果我们现在结合引理3和4，我们就可以得到定理2的证明。

尾注

^一在本文中，所有对数都以2为底。

工具书类

Weinger JS、Parnell KM、Dorner S、Green R、Strobel SA：核糖体对肽键形成的底物辅助催化。自然结构分子生物学。2004, 11: 1101-1106.
第条中国科学院公共医学谷歌学者
Böck A，Forschhammer K，Heider J，Baron C：硒蛋白合成：遗传密码的扩展。生物化学科学趋势。1991, 16: 463-467.
第条公共医学谷歌学者
Bekaert M、Bidou L、Denise A、Duchateau-Nguyen G、Forest J、Froidevaux C、Hatin I、Rousset J、Termier M：迈向-1真核生物移码位点的计算模型。生物信息学。2003, 19: 327-335.
第条中国科学院公共医学谷歌学者
Lim L、Glassner M、Yekta S、Burge C、Bartel D：脊椎动物microRNA基因。科学。2003299（5612）：1540-
第条中国科学院公共医学谷歌学者
Mandal M、Boese B、Barrick J、Winkler W、Breaker R：核糖开关控制枯草芽孢杆菌和其他细菌的基本生化途径。细胞。2003, 113 (5): 577-586.
第条中国科学院公共医学谷歌学者
Chowdhury S、Ragaz C、Kreuger E、Narberhaus F：RNA温度计的温度控制结构变化。生物化学杂志。2003, 278 (48): 47915-47921.
第条中国科学院公共医学谷歌学者
Tucker BJ，Breaker RR：核糖开关作为多功能基因控制元件。当前操作结构生物。2005, 15 (3): 342-348.
第条中国科学院公共医学谷歌学者
Omer A、Lowe T、Russell A、Ebhardt H、Eddy S、Dennis P：古生菌中小核仁RNA的同源性。科学。2000, 288: 517-522.
第条中国科学院公共医学谷歌学者
Cheah MT，Wachter A，Sudarsan N，Breaker RR:通过真核生物核糖开关控制选择性RNA剪接和基因表达。自然。2007, 447 (7143): 497-500.
第条中国科学院公共医学谷歌学者
Banerjee A，Jaeger J，Turner D：第一组核酶的热去折叠：低温转变主要是三级结构的破坏。生物化学。1993, 32: 153-163.
第条中国科学院公共医学谷歌学者
Zuker M：用于核酸折叠和杂交预测的Mfold web服务器。《核酸研究》2003，31（13）：3406-3415。
第条公共医学中心中国科学院公共医学谷歌学者
Knudsen B，Hein J：Pfold：使用随机无上下文文法预测RNA二级结构。核酸研究，2003，31（13）：3423-3428。
第条公共医学中心中国科学院公共医学谷歌学者
Hofacker I：维也纳RNA二级结构服务器。《核酸研究》2003，31:3429-3431。
第条公共医学中心中国科学院公共医学谷歌学者
Markham NR，Zuker M:UNAFold:核酸折叠和杂交软件。方法分子生物学。2008, 453: 3-31.
第条中国科学院公共医学谷歌学者
Flamm C，Fontana W，Hofacker IL，Schuster P：初级步骤分辨率下的RNA折叠。RNA。2000, 6: 325-338.
第条公共医学中心中国科学院公共医学谷歌学者
Xayaphoumine A、Bucher T、Isambert H：用于RNA/DNA折叠路径和结构预测的Kinefold web服务器，包括假结和结。《核酸研究》2005，33（Web）：W605-W610。
第条公共医学中心中国科学院公共医学谷歌学者
Danilova LV、Pervouchine DD、Favorov AV、Mironov AA:RNA动力学：一个模拟伸长RNA二级结构动力学的网络服务器。生物信息计算生物学杂志。2006, 4 (2): 589-596.
第条中国科学院公共医学谷歌学者
Stein PR，Waterman MS：关于推广加泰罗尼亚数和莫茨金数的一些新序列。离散数学。1978, 26: 261-272.
第条谷歌学者
Nussinov R，Jacobson AB:预测单链RNA二级结构的快速算法。美国科学院学报，1980，77（11）：6309-6313。
第条公共医学中心中国科学院公共医学谷歌学者
Zuker M，Stiegler P：利用热力学和辅助信息优化计算机折叠大RNA序列。《核酸研究》1981，9:133-148。
第条公共医学中心中国科学院公共医学谷歌学者
Clote P：根据Nussinov-Jacobson能量模型计算局部最优RNA二级结构景观的有效算法。计算机生物学杂志。2005年，12:83-101。
第条中国科学院公共医学谷歌学者
克隆P：RNA饱和二级结构的组合。计算生物学杂志。2006, 13 (9): 1640-1657.
第条中国科学院公共医学谷歌学者
Clote P，Kranakis E，Krizanc D，Salvy B：典型和饱和RNA二级结构的渐近性。生物信息计算生物学杂志。2009年，7（5）：869-893。
第条中国科学院公共医学谷歌学者
Van Batenburg FH，Gultyaev AP，Pleij CW:伪碱基：RNA假结的结构信息。《核酸研究》，2001年，29:194-195。
第条公共医学中心中国科学院公共医学谷歌学者
Waldispuhl J，Clote P：根据特纳能量模型计算RNA饱和二级结构的配分函数和采样。计算机生物学杂志。2007, 14 (2): 190-215.
第条中国科学院公共医学谷歌学者
Lorenz WA，Clote P：计算动态捕获RNA二级结构的分配函数。公共科学图书馆一号。2011年6月：e16178。
第条公共医学中心中国科学院公共医学谷歌学者
Flajolet P，Odlyzko A：生成函数的奇异性分析。SIAM J离散数学。1990, 3 (2): 216-240. 10.1137/0403019.
第条谷歌学者
Drmota M：函数方程组。随机结构算法。1997, 10: 103-124. 10.1002/（SICI）1098-2418（199701/03）10:1/2<103:：AID-RSA5>3.3.CO；2-0.
第条谷歌学者
Lalley SP：自由群和同构树上的有限范围随机行走。安·普罗巴布。1993, 21: 2087-2130. 10.1214/aop/1176989012。
第条谷歌学者
伍兹AR：有限树的着色规则，以及一元二阶句子的概率。随机结构算法。1997, 10: 453-485. 10.1002/（SICI）1098-2418（199707）10:4<453:：AID-RSA3>3.0.CO；2-T。
第条谷歌学者
Sedgewick R，Flajolet P：分析组合数学。2009年，[ISBN-13:9780521898065]，剑桥：剑桥大学
谷歌学者
沃特曼理学硕士：计算生物学导论。1995年，博卡拉顿：查普曼和霍尔/CRC
书谷歌学者
Li W，Yang Y:利用微阵列数据对癌症进行分类的基因重要性的Zipf定律。理论生物学杂志。2002, 219 (4): 539-551.
第条中国科学院公共医学谷歌学者
Bornberg-Bauer E：模型蛋白质结构在序列空间中是如何分布的？。《生物物理杂志》1997，73（5）：2393-2403。
第条公共医学中心中国科学院公共医学谷歌学者
Zipf G：人类行为与最小努力原则。1949年，剑桥：艾迪森·卫斯理
谷歌学者
Devroye L：随机二叉搜索树子树函数和的极限定律。SIAM J计算。2003年，32:152-171。
第条谷歌学者
Hwang HK，Neininger R：不同收费函数下快速排序递归中极限定律的相位变化。SIAM J计算。2002, 31 (6): 1687-1722. 10.1137/S009753970138390X号。
第条谷歌学者
Nebel ME：RNA二级结构的伯努利模型研究。公牛数学生物学。2004, 66 (5): 925-964.
第条中国科学院公共医学谷歌学者
Devroye L：随机树深度的通用极限定律。SIAM J计算。1998, 28 (2): 409-432. 10.1137/S00975397979528383954。
第条谷歌学者

下载参考资料

致谢

非常感谢匿名推荐人的有用评论，这些评论大大改进了演示。

P.Clote的研究经费由国家科学基金会拨款DMS-1016618提供。本材料中表达的任何观点、发现、结论或建议均为作者的观点，并不一定反映国家科学基金会的观点。在访问马克斯·普朗克分子遗传学研究所（Max Planck Institute for Molecular Genetics）马丁·文格伦（Martin Vingron）的计算分子生物学系期间，德意志大学（DAAD）向P.Clote提供了额外支持。加拿大自然科学与工程研究委员会（NSERC）和信息技术与复杂系统数学（MITACS）为E.Kranakis的研究提供了资金。

作者信息

作者和附属机构

波士顿学院生物系，马萨诸塞州栗树山，02467，美国
彼得·克洛特
加拿大安大略省渥太华市K1S 5B6卡尔顿大学计算机科学学院
伊万杰洛斯·克拉纳基斯
美国康涅狄格州米德尔敦卫斯理大学数学与计算机科学系，06459
丹尼·克里桑克

作者

彼得·克洛特
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
埃文格洛斯·克拉纳基斯
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
丹尼·克里桑克
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者

通讯作者

与的通信彼得·克洛特或埃文格洛斯·克拉纳基斯.

其他信息

竞争性利益

作者声明，他们没有相互竞争的利益。

作者的贡献

所有三位作者都得出了结果并撰写了论文。所有作者阅读并批准了最终手稿。

作者提交的原始图像文件

下面是作者提交的原始图像文件的链接。

图1的作者原始文件

图2的作者原始文件

图3的作者原始文件

图4的作者原始文件

权利和权限

本文由BioMed Central Ltd.授权发布。这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品，前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

Clote，P.，Kranakis，E.&Krizanc，D.RNA准随机饱和结构的渐近结构特性。分子生物学算法 8, 24 (2013). https://doi.org/10.1186/1748-7188-8-24

下载引文

收到:2011年10月3日
认可的:2013年9月21日
出版:2013年10月25日
内政部:https://doi.org/10.1186/1748-7188-8-24

RNA准随机饱和结构的渐近结构性质

摘要

背景

结果

结论

背景

结果和讨论

结论