在双向网络的假设下,所有的统计相关性都可以从两两边缘中推断出来,不需要更高阶的分析。虽然这并不意味着生物网络总是这样,但重要的是要了解这个假设是否允许用较少的误报推断真实交互的子集。因此,我们通过估计成对基因表达谱互信息来确定候选相互作用,我(克
我
,克
j个
) ≡我
ij公司
,一种信息理论上的相关性度量,为零若(iff) P(P)(克
我
,克
j个
) =P(P)(克
我
)P(P)(克
j个
). 然后,我们使用适当的阈值来过滤MI,我0,针对特定p值计算,第页0在两个独立基因的空假设中。此步骤基本上等同于关联网络方法[6]并受到同样的重大限制;也就是说,由一个或多个中介体(间接关系)分离的基因可能会高度共同调控,而不暗示不可还原的相互作用,从而导致大量假阳性。
因此,在第二步中,ARACNE删除了绝大多数间接候选交互(φ
ij公司
=0)使用一个众所周知的信息论性质,即数据处理不等式(DPI,稍后将详细讨论),该性质以前尚未应用于遗传网络的逆向工程。
相互信息
相互信息对于一对随机变量,x个和年,定义为我(x个,年) =S公司(x个) +S公司(年) -S公司(x个,年),其中S公司(t吨)是任意变量的熵t吨。对于离散变量熵是哪里第页(t吨
我
) =探针(t吨=t吨
我
)是变量的每个离散状态(值)的概率(在本工作中,对数是自然的)。对于连续变量,熵是无限的,但MI仍然定义良好,可以通过替换来计算S公司(x个)使用微分熵平均对数概率密度,而不是对数-质量。与更熟悉的皮尔逊相关性一样,MI衡量两个变量之间的统计相关性程度。然而,虽然相关系数在重新参数化下不是不变的,甚至对于明显的因变量也可能为零,但MI是重新参数化不变的,并且是非零的若(iff)任何一种统计相关性都存在。
MI估计
我们使用计算效率高的高斯核估计器估计MI[12]. 给定一组二维测量值,≡ {x个
我
,年
我
},我= 1 ...M(M),JPD近似为,其中G公司(…)是二元标准正态密度。使用(f)(x个)和(f)(年)成为…的边缘(f)(),MI是:
由于MI是重参数化不变量,因此我们进行了copula变换(即等级顺序)[8]x个和年MI估计;因此,这些变换变量的范围介于0和1之间,它们的边际概率分布明显一致。这减少了微阵列数据预处理中涉及的任意变换的影响,并且消除了考虑位置依赖性内核宽度的需要,小时,对于非均匀分布的数据可能更可取。
对于空间均匀的小时,高斯核MI估计量对于M(M)→ ∞, 只要小时(M(M))→0和[小时(M(M))]2M(M)→ ∞. 然而,对于有限M(M),偏差很大程度上取决于小时(M(M))正确的选择并不普遍。幸运的是,ARACNE的表现并不直接取决于MI估计的准确性,我而是关于MI等级估计的准确性。例如,确定MI是否具有统计显著性需要测试我
ij公司
≥我0,其中我0是统计显著性阈值。同样,DPI(见下文)只需要对MI进行排名。
对MI等级进行可靠估计是一项容易的任务。来自离散变量MI估计的工作[13],我们预计,对于采样良好的边缘和采样不足的关节,偏差为b条≈b条(Ī,小时)(其中条形表示真实MI)。对于相似的MI值,这种偏差几乎抵消;MI估计的排序仅弱依赖于小时即使MI本身不确定,也保持稳定(图1). 因此,单个“集合最佳”值为小时可以使用,而不是为每个估计优化内核宽度(计算密集型操作)。该结果是通用的,应适用于任何基于MI等级的方法。然而,我们强调,由于这一结果在很大程度上是经验的,因此在依赖这一结论之前,应重新评估具有显著不同统计特性的数据集的MI秩对平滑强度的依赖性。
互信息的统计阈值
由于MI始终是非负的,因此,即使对于事实上相互独立的变量,随机样本的评估也会给出正值。因此,我们消除了所有不能排除相互独立基因无效假设的边缘。在这种程度上,我们在不同的微阵列图谱中随机改变基因的表达,类似于[6]评估这些明显独立的基因的MI并指定一个p值,第页,达到MI阈值,我0,通过经验估算以下估算的分数我0。这是针对不同样本大小进行的M(M)和105基因对,以便可靠估计我0(第页)生产量达到第页= 10-4。使用以下方法外推较小的p值,其中参数α根据数据进行拟合。这个公式是基于大偏差理论的直觉[14]对于离散数据和无偏估计.由于连续情况下的MI可以通过精细离散变量来估计,因此应保持类似的结果,并且α在固定条件下估计量可能存在偏差的原因小时这与数值实验非常一致(参见附加文件1:相互信息统计显著性的确定)。
数据处理不平等
DPI(图2) [14]说明如果基因克1和克三只通过第三个基因相互作用,克2,(即,如果交互网络克1↔ ... ↔克2↔ ... ↔克三并且在克1和克三),然后
我(克1,克三)≤最小值[我(克1,克2);我(克2,克三)]. (3)
因此,三种MIs中的最少一种只能来自间接相互作用,根据DPI检查可以确定哪些基因对φ
ij公司
=0,即使P(P)(克
我
,克
j个
) ≠P(P)(克
我
)P(P)(克
j个
). 相应地,ARACNE以网络图开始,其中每个网络图我
ij公司
>我0由边表示(ij公司). 然后,该算法检查所有三个MIs都大于的每个基因三联体我0并删除值最小的边。对每个三元组进行分析时,不考虑其边缘是否已标记为通过之前对不同三元组的DPI应用移除。因此,由该算法重建的网络与检查三元组的顺序无关。
由于这种方法只关注成对相互作用网络的重建,一对相互独立的基因,我
ij公司
<我0,将永远不会被边缘连接。因此,由对应的成对电位为零的高阶电位表示的相互作用将无法恢复(见讨论)。此外,即使对于二阶交互网络,也可以想象直接交互的效果被通过其他节点的间接交互完全抵消的情况,从而导致φ
ij公司
≠0和P(P)(克
我
,克
j个
) ≈P(P)(克
我
)P(P)(克
j个
). 阿拉伯国家石油公司不会确定这种情况。然而,我们认为这种精确的抵消在生物学上是不现实的,以下定理规定了ARACNE精确重建网络的条件。所有定理的证明见附录A。
定理1
如果可以无误差地估计MI,那么ARACNE将准确地重建底层交互网络,前提是该网络是一棵树,并且只有成对交互。
然而,与标准树重建方法不同(例如Chow和Liu[15]),ARACNE不仅限于树,还可以生成包含许多循环的复杂结构。事实上,由于以下两个定理,ARACNE可以被视为Chow-Liu算法的自然推广,它克服了后者的生物-非现实树假设。
定理2
Chow-Liu(CL)最大互信息树是ARACNE重建的网络的一个子网络。
定理3
让π
伊克
是构成网络中节点之间最短路径的节点集我和k个然后,如果MIs可以无误差地估计,ARACNE将重建一个没有假阳性边的交互网络,前提是:(a)该网络仅由成对交互组成,(b)对于每个交互j个 ∊ π
伊克
,我
ij公司
≥我
伊克
此外,ARACNE不会产生任何假阴性,网络重建是准确的若(iff)(c) 对于每个直接连接的线对(ij公司)以及任何其他节点k个,我们有我
ij公司
≥最小值(我
jk公司
,我
伊克
).
树网络满足定理3的所有条件,而包含回路的拓扑可以满足也可以不满足。特别是,具有三个基因环的网络肯定违反了(c)[但仍可能满足(a)和(b)],并且每一个这样的循环将沿着最弱的边缘打开。对于树,有一个连接两个节点的唯一路径。类似地,对于满足(a)和(b)的网络,最短路径支配节点间的信息传输。我们称这些网络为局部树状换句话说,当且仅当通过网络图上的一个或多个中介体或分支不存在替代路径时,ARACNE才保留交互作用,这更好地解释了两个基因之间的信息交换。由于生物化学动力学本质上是随机的,在多个分离边上的统计相互作用通常较弱。因此,我们认为局部树假设在生物学上是现实的,我们期望ARACNE在实践中产生较低的假阳性率。
最后,为了最小化MI估计量方差的影响,τ,可以引入这样的DPI不等式形式我
ij公司
≤我
伊克
(1 -τ)和MI的闭合值未被修剪。对于低值τ(<15%)在真阳性和假阳性之间实现了合理的权衡(参见附加文件2:预测误差是DPI容差的函数)。该阈值在质量上与MI估计值的方差相匹配,并随样本大小的增加而减小。使用这种非零容忍导致一些3基因环的持续存在。
算法复杂性
因为对于一个网络N个基因最多也有N个选择3个基因三联体,ARACNE的复杂性是O(运行)(N个三+N个2M(M)2),其中M(M)是样本数N个是基因的数量。第一项涉及DPI分析,第二项涉及互信息估计。这与必须探索指数搜索空间的优化方法相比是有利的(参见比较算法)。在实践中,DPI应用于三元组的一个小子集,其中所有三条边都通过了互信息阈值。因此,对于大型M(M),计算密集型部分通常与第二项(计算互信息)相关联,该项按O(运行)(N个2M(M)2). 因此,ARACNE可以有效地分析具有成千上万个基因的网络。