准随机饱和二次结构的结构特性
给定的二级结构S公司,一个外部碱基对是一个基本对(我,j个) ∈ S公司,它不在S公司; 即没有(x个,年) ∈ S公司拥有x个 < 我 < j个 < 年.外部碱基对序列是序列(一
我
,b
我
),我 = 1, 2, …,k个这样的话一
我
< b
我
< 一我+1 < b我+1,对于所有人我 < k个,其中每个(一
我
,b
我
)是外部的。碱基对(一
我
,b
我
)据说关闭相应的外部回路; 参见图2. The外部回路数给定二级结构的S公司定义为中外部碱基对的总数S公司。我们定义了茎长度的k个是一系列嵌套的碱基对(见图三) (一
我
,b
我
),我 = 1, 2, …,k个,因此一
我
< 一我+1 < b我+1 < b
我
,对于所有人我 < k个. The阀杆长度给定二级结构的S公司此处定义为所有杆的最大长度S公司; 即中嵌套碱基对的最大数量S公司.
我们对随机饱和二次结构的结构性质的研究通过定义一个类似于[32]; 然而,请注意,形式定义与[32]. 给定二级结构S公司关于核苷酸序列[1,n个],定义关联图G公司(S公司) = (V(V),电子),其顶点集V(V)由碱基对组成v(v) = (我,j个)在S公司和其无向边集电子由对组成{v(v),v(v)′}嵌套顶点的数量,v(v) = (我,j个)和v(v)′ = (我′,j个′),可以直接看见彼此;即{v(v),v(v)′}∈ 电子确切时间我 < 我′ < j个′<j个并且不存在碱基对(x个,年) ∈ S公司,因此我 < x个 < 我′ < j个′ < 年 < j个,或担任副总裁v(v),v(v)′颠倒的。图4描述了图形G公司(S公司)与饱和二级结构有关S公司.
一般来说G公司(S公司)是一片森林;即一组树。在接下来的部分中,我们确定了随机饱和二级结构的几个结构参数的大小,特别是预期杆长和预期外环数。研究了均匀分布和Zipf分布的这些参数。在继续之前,我们首先定义要考虑的概率分布。
概率分布
齐普夫定律已故哈佛语言学家乔治·金斯利·齐普夫首次发现第页
我
英语单词的等级我(在英语单词列表中,按照频率降序排序),遵守幂律第页
我
≈ 我 - α更一般地说,当绘制频率与秩的关系时(齐普夫第一定律)或当绘制频率与反向秩的关系时(齐普夫第二定律),齐普夫定律是幂律的陈述。在生物信息学中,在微阵列数据中差异表达基因的频率/秩图中观察到了Zipf定律[33]以及蛋白质结构的频率/秩图[34],其中有一些非常常见的结构,以及非常多的罕见结构。在本文的其余部分中,我们考虑与Zipf定律相关的概率分布。
节点,例如1≤u个 ≤ n个,使用随机选择α-拉链分布,如果给定的基对(1,u个)选择等于,其中
定义为α-谐波数n个 - 1.任意阈值的期望碱基对数θ表示为,对于随机饱和二级结构n个基数,由α-Zipf随机过程。满足以下递归公式
(1)
为所有人n个≥2
请注意,当α = 0的α-Zipf分布与均匀分布相同,但如果α = 1,我们有(经典)Zipf分布[35]. 此外,观察如下α增加,“较短”碱基对被选择的概率更高(1).
根据方程式生成随机饱和二级结构的随机过程(1),属于“分治”类型,在计算机科学中非常常见,其中著名的算法如快速排序根据均匀分布选择一个分割点。对于均匀分布,这类随机算法已被深入研究。已知结果表明,由前面描述的随机过程(均匀选择碱基对)生成的随机饱和结构中碱基对数量的概率分布是渐近高斯的(参见[36]和[37]). 我们还注意到,树木的结构特征已经得到了很好的研究,包括预期深度和深度的准确分布;例如,请参见[36,38,39]. 在续集中,我们考虑一个随机二叉搜索树n个通过插入获得的节点n个i.i.d.随机变量X(X)1, …,X(X)
n个
.仔细分析[36]和[39]暗示了我们在均匀分布部分的结果。然而,我们将使用一种不同且更简单的技术,不仅可以分析下一节关于均匀分布的均匀分布,还可以分析本节下一节中的Zipf分布。
重要的观察结果与阈值有关θ如上所述。本节中证明的所有结果都是“上界”,因此很容易看出它们对任何阈值都有效θ≥因此,为了简化后继中的证明,我们考虑了阈值的情况θ = 0
均匀分布
本节的主要定理涉及随机饱和结构的杆长和外环数S公司,由与树图相关联的自然随机过程生成G公司(S公司). 在本文的其余部分中,我们将从以下方面陈述结果随机饱和结构,尽管我们只打算指那些由与图形相关的随机过程生成的结构G公司(S公司); 我们将区分制服和α-随机过程的Zipf变量。没有这个约定,引理和定理的陈述将过于繁琐。
背景
定理1。在高概率下,均匀分布变量生成的随机饱和结构的外环数和最大杆长为O(运行)(日志n个).
证明。在我们给出主要定理的证明之前,有必要给出两个引理的证明。在第一个引理中,我们考虑预期的外部循环数。
背景
引理1。在高概率下,外部循环的数量为O(运行)(日志n个).
证明。我们定义了一系列随机变量X(X)1,X(X)2, …,X(X)
t吨
归纳如下。让X(X)1是选择基数的随机变量k个在2、3、…、…,n个随机且独立地均匀分布以形成基对(1,k个). 通过归纳,假设X(X)1, …,X(X)
t吨
已定义。让X(X)t吨+1是选择基数的随机变量k个从中选择X(X)
t吨
+ 2,X(X)
t吨
+ 3, …,n个随机且独立地均匀分布,以形成一个碱基对(X(X)
t吨
+ 1,k个). 接下来我们估计,对于所有人t吨的确,请注意和
接下来我们计算条件概率
其中最后一个不等式对k个 + 3 ≤ n个.
最后,我们可以估计
我们感兴趣的是确定随机变量的行为,其值是随机饱和结构中的外部循环数。
(2)
由此我们得出
特别地,这就完成了引理1的证明。□
接下来我们证明以下引理。
背景
引理2。很有可能,最大杆长为O(运行)(日志n个).
证明。根据递归结构,在后续阶段随机选择一个碱基对后的每个阶段,碱基对都嵌套在这个碱基对中。因此,最大杆长等于最大嵌套碱基对数。后一个数字也可以通过以下方式获得。我们定义了以下序列Y(Y)1,Y(Y)2, …,Y(Y)
t吨
随机变量。在2、3、…、…,n个随机且独立且均匀分布。让Y(Y)1是产生的随机变量。通过归纳,假设Y(Y)1, …,Y(Y)
t吨
已定义。定义随机变量Y(Y)t吨+1,从中选择一个底座t吨 + 2, …,Y(Y)
t吨
- 1随机且独立,分布均匀。显然,当Y(Y)
t吨
≤ t吨 + 2,因此嵌套碱基对的最大数目也是t吨暂停之前的迭代次数。因此,我们有兴趣了解随机变量的行为
(3)
(注意随机变量的相关性T型′在n个).
从定义上看Y(Y)我+1从中选择我 + 2,我 + 3, …,Y(Y)
我
- 任意整数的均匀分布随机且独立为1k个 ≥ 我 + 2,考虑随机变量其值为k个等于使用条件概率的已知恒等式,我们可以导出以下等式。
特别是,因为,我们得出结论。最后,我们可以推导由此可见
我们还没有完全完成引理2的证明。证明表明,在高概率下,递归构造给出的最左边的碱基对序列最多有长度O(运行)(日志n个). 我们想证明任何嵌套碱基对序列都是相同的。为此,定义随机间隔我
秒
,其中秒是0s和1s的有限序列,通过对长度的归纳秒。考虑间隔我
∅
= [1,n个]. 假设我
秒
= [一
秒
,b
秒
]已经定义了,我们考虑一个随机过程,它将其随机分为两个子区间,即选择一个整数第页 ∈ 我
秒
随机且独立的均匀分布我秒0 = [一
秒
,第页]和我秒1 = [第页 + 1,b
秒
]. 自因此,预期长度我
秒
最多为2-|秒|现在考虑随机变量T型′′其定义如下T型′′ = 最小值{k个:∃秒(|秒|================================================================k个&我
秒
= ∅)}(注意随机变量的相关性T型′′在n个)并观察到T型′′ > k个当且仅当∀秒(|秒| = k个 ⇒ 我
秒
≠ ∅). 因此
因此,我们得出结论:这就完成了引理2的证明。□
最后,我们可以完成定理1的主要结果的证明,因为这是从引理1和2直接得出的。
齐普夫分布
可以考虑其他概率分布,如Zipf和广义概率分布一-齐普夫。Zipf分布(首先考虑的是[35])可能是最有趣的,因为它支持距离较短的碱基对。一个碱基对(1,u个)使用Zipf分发随机选择。即,碱基对(1,u个)选择等于,其中
定义为(n个 - 1) st谐波数。如前所述,连接1和u个把环分成两部分。一部分有k个介于1和之间的基数u个,其中k个 ≤ n个 - 2,另一部分剩余n个-k个-2个底座(见图1).
定义Z轴
n个
为随机饱和二级结构的预期碱基对数n个基础,其中n个 ≥ 2.一对碱基(1,u个)添加如下。选择u个 ≥ 在2、3、…、…,n个有可能.
由此得出以下公式
(4)
为所有人n个 ≥ 2.本节的主要定理涉及随机二级结构的整体结构。
背景
定理2。Zipf分布生成的随机饱和二级结构具有较高的概率O(运行)(日志2n个)外环和阀杆长度O(运行)(日志n个/日志n个).
证明。在我们给出证明之前,有必要给出两个引理的证明。在第一个引理中,我们看外部循环的数量。
背景
引理3。在高概率下,外部循环的数量为O(运行)(日志2n个).
证明。我们定义了一系列随机变量X(X)1,X(X)2, …,X(X)
t吨
归纳如下。让X(X)1是当基对(1,k个)通过选择底座形成k个在2、3、…、…,n个随机且独立地使用Zipf分发。通过归纳,假设X(X)1, …,X(X)
t吨
已定义。让X(X)t吨+1是当基对(X(X)
t吨
+ 1,k个)通过选择底座形成k个是从中选择的X(X)
t吨
+ 1,X(X)
t吨
+ 2, …,n个随机且独立地使用Zipf分发。接下来我们计算,对于所有人t吨的确,请注意和
接下来我们计算条件概率
最后,我们可以计算
使用最后一个不等式进行的基本计算表明
我们感兴趣的是确定随机变量的行为,其值是外部循环的数量;即外部碱基对最大序列的大小。定义随机变量
(5)
由此我们得出
特别是,因为H(H)(n个 - 1) 至 自然对数n个我们的结论是这就完成了引理3的证明。□
下一个结果与最大杆长有关。我们可以证明以下结果。
背景
引理4。很有可能,最大杆长为O(运行)(日志n个/日志n个).
证明。根据递归结构,在每个阶段随机选择一个碱基对后,在随后的阶段中,将碱基对嵌套在此碱基对中。因此,最大茎长度等于最大嵌套碱基对数。后一个数字也可以通过研究随机变量序列来获得Y(Y)1,Y(Y)2, …,Y(Y)
t吨
定义如下。从2、3、……中选择一个基数…,n个 - 1随机且独立地使用Zipf分发。让Y(Y)1是产生的随机变量。通过归纳,假设Y(Y)1, …,Y(Y)
t吨
已定义。定义随机变量Y(Y)t吨+1,从中选择一个底座t吨 + 2,t吨 + 3…,Y(Y)
t吨
- 1随机且独立地使用Zipf分发。显然,当Y(Y)
t吨
= 1,因此嵌套的碱基对的最大数量也是t吨暂停之前的迭代次数。因此,我们有兴趣了解随机变量的行为
(6)
(注意随机变量的相关性T型′在n个).
从定义上看Y(Y)我+1是从中选择的我 + 2,我 + 3, …,Y(Y)
我
- 对于任何整数,使用Zipf分布随机且独立地为1k个 ≥ 我 + 2,
考虑随机变量其值为k个等于使用条件概率上的已知恒等式,我们可以导出以下不等式。
我们利用分数n个 / H(H)(n个)单调在增加吗n个特别是,由于,我们得出结论。最后,我们可以推导
特别地,
证明表明,由随机二级结构的递归构造给出的最左边的碱基对序列至多有长度O(运行)(日志n个/日志n个)概率很高。我们想证明任何嵌套碱基对序列都是相同的。很容易看出,与上述证明类似的证明是有效的。这就完成了引理4的证明。□
如果我们现在结合引理3和4,我们就可以得到定理2的证明。