ARACNE: An Algorithm for the Reconstruction of Gene Regulatory Networks in a Mammalian Cellular Context

Margolin, Adam A; Nemenman, Ilya; Basso, Katia; Wiggins, Chris; Stolovitzky, Gustavo; Favera, Riccardo Dalla; Califano, Andrea

doi:10.1186/1471-2105-7-S1-S7

第7卷增补1

NIPS计算生物学新问题和新方法研讨会

诉讼
开放式访问
出版：2006年3月20日

ARACNE：哺乳动物细胞环境中基因调控网络的重建算法

BMC生物信息学 体积 7，物品编号：第7部分(2006)引用这篇文章

9.1万访问
1789引文
21海拔高度
韵律学细节

摘要

背景

阐明基因调控网络对于理解正常细胞生理学和复杂病理表型至关重要。这种网络的全基因组“逆向工程”的现有计算方法仅在具有简单基因组的低等真核生物中获得成功。我们现在介绍阿拉伯国家石油公司这是一种使用微阵列表达谱的新算法，专门设计用于扩展到哺乳动物细胞中调控网络的复杂性，但其通用性足以解决更广泛的网络反褶积问题。该方法使用信息论方法来消除由共表达方法推断的大多数间接相互作用。

结果

我们证明，如果回路在网络拓扑中的影响可以忽略不计，ARACNE可以精确地（渐进地）重建网络，并且我们表明，该算法在实际中运行良好，即使存在大量回路和复杂拓扑。我们评估了ARACNE利用真实合成数据集和人类B细胞微阵列数据集重建转录调控网络的能力。在合成数据集上，ARACNE实现了非常低的错误率，并优于已建立的方法，如相关性网络和贝叶斯网络。应用于人类B细胞遗传网络的反褶积表明，ARACNE能够推断cMYC原癌基因的有效转录靶点。我们还研究了互信息错误估计对网络重建的影响，并表明基于互信息排序的算法对估计错误具有更强的弹性。

结论

ARACNE有望识别哺乳动物细胞网络中的直接转录相互作用，这一问题对现有的逆向工程算法提出了挑战。这种方法应该能够增强我们使用微阵列数据来阐明细胞过程的功能机制以及识别哺乳动物细胞网络中药理化合物的分子靶点的能力。

背景

细胞表型由共同调控基因的大型网络的动态活动决定。因此，剖析表型选择的机制需要阐明单个基因在其运作的网络环境中的功能。由于基因表达受蛋白质调节，蛋白质本身就是基因产物，因此基因mRNA丰度水平之间的统计关联虽然与活化蛋白浓度不成正比，但应为揭示基因调控机制提供线索。因此，高通量微阵列技术的出现，可以同时测量整个基因组的mRNA丰度水平，引发了许多研究，旨在利用这些数据构建概念性的“基因网络”模型，以简明地描述基因相互作用的调控影响。

基因表达谱的全基因组聚类[1]通过将对各种细胞条件表现出类似转录反应的基因组合在一起，为实现这一目标迈出了重要的第一步，因此可能参与类似的细胞过程。然而，将基因组织成共同调控的簇提供了细胞网络的一种非常粗略的表示。特别是，它无法将不可还原（即直接）的统计交互作用与那些由级联转录交互作用引起的统计交互效应分开，这些转录交互作用与许多非交互基因的表达相关。更一般地说，正如统计物理学所认识到的那样，长程序（即非直接相互作用变量之间的高相关性）很容易由短程相互作用产生[2]. 因此相关性，或任何其他如果没有额外的假设，局部依赖性度量不能作为重建交互网络的唯一工具。

在过去的几年里，出现了许多从基因表达数据进行细胞网络逆向工程（也称为反褶积）的复杂方法（在[三]). 他们的目标是以图形的形式生成细胞网络拓扑的高保真表示，其中基因被表示为顶点，并由表示直接调控相互作用的边连接。定义边缘的标准及其生物学解释仍然不精确，并且因应用而异。例如，图形建模[4]将边缘定义为最有可能解释数据的mRNA丰度水平之间的亲子关系，综合方法[5]使用独立的实验线索将边缘定义为显示物理交互证据的边缘，以及其他统计/信息理论方法[6]确定mRNA丰度水平之间统计关联最强的边缘。所有可用的方法都在不同程度上受到过拟合、高计算复杂性、对非现实网络模型的依赖或对仅适用于简单生物体的补充数据的严重依赖等问题的影响。这些局限性使得大多数方法的成功大规模应用只能局限于相对简单的生物体，如酵母酿酒酵母哺乳动物网络的全基因组反褶积尚待报道。

这里我们介绍一下阿拉伯国家石油公司（精确细胞网络重建算法），一种新的信息理论算法，用于从微阵列数据反向工程转录网络，克服了其中一些限制。ARACNE将边缘定义为基因表达谱之间不可减少的统计依赖性，不能解释为网络中其他统计依赖性的伪影。我们认为，这种不可还原的统计依赖性的存在很可能确定由与目标基因启动子区域结合的转录因子介导的直接调控相互作用，尽管也可能确定其他类型的相互作用（见讨论）。在本研究中，为了验证目的，我们将重点放在前一种交互类型上。我们证明，ARACNE与现有方法相比有优势，并且在使用真实希尔动力学建模的合成数据集中识别转录相互作用时，错误率极低。在生物学背景下，我们证明了该算法推断出哺乳动物基因网络中的bona-fide转录目标。我们还研究了互信息（MI）错误估计对网络重建的影响，并表明基于MI排名的算法对估计错误具有弹性。该算法的通用性足以处理生物、社会和工程领域中的各种其他网络重建问题。

理论背景

一些因素阻碍了全基因组哺乳动物网络的可靠重建。首先，对于高等真核生物来说，时间基因表达数据很难获得，而从不同个体获得的细胞群体通常捕获潜在生化动力学的随机稳定状态。这就排除了使用推断时间关联的方法，从而推断似是而非的因果关系（参见[7]). 只能研究稳态统计相关性，而这些相关性与潜在的物理相关性模型没有明显的联系。除此之外，在多变量设置中没有公认的统计相关性定义[8,9]. 在这项工作中，我们采用了[9]，建立在马尔可夫网络文献的基础上[10]. 简单地说，我们写出了所有基因平稳表达的联合概率分布（JPD），P（P）({克_我}),我= 1,...,N个，作为：

P（P） ({克_{我}}) = \frac{1}{Z轴} 经验 [- \sum_{我}^{N个} φ_{我} (克_{我}) - \sum_{我, j个}^{N个} φ_{我 j个} (克_{我}, 克_{j个}) - \sum_{我, j个, k个}^{N个} φ_{我 j个 k个} (克_{我}, 克_{j个}, 克_{k个}) - ...] \equiv {e（电子）}^{- H（H） ({克_{我}})} (1)

哪里N个是基因的数量，Z轴是标准化因子，也称为配分函数,φ…是电位、和H（H）({克_我})是哈密顿量它定义了系统的统计信息。在这样一个模型中，我们断言一组变量在且仅当(若（iff）)完全依赖于这些变量的单势是非零的。ARACNE的目标是准确地确定这些电位中哪些是非零的，并消除其他电位，即使它们相应的边际JPD可能无法分解。虽然算法没有直接使用这种表示法，但它有助于精确地形式化我们对交互的定义以及它将有助于阐明的不可约依赖类。

注意，等式(1)没有唯一地定义潜力，需要附加约束以避免歧义（见附录B）。合理的方法是指定φ…使用最大熵近似[9,11]至P（P）(克₁,...,克_N个)与已知边距一致，以便约束n个-路缘定义了其相应的潜力。我们建议读者参考[9]了解详细信息。

相互作用结构的近似值

由于典型的微阵列样本量相对较小，推断出潜在的指数数n个-等式的双向相互作用(1)是不可行的，必须对依赖结构进行一系列简化假设。等式(1)提供了引入此类近似值的原则性和可控方法。最简单的模型是假设基因是独立的，即。，H（H）({克_我}) = ∑φ(克_我)，这样一阶势可以从边际概率计算，P（P）(克_我)，这是根据实验观察估计的。随着越来越多的数据可用，我们应该能够可靠地估计更高阶的保证金，并逐步合并相应的潜力，以便M（M）→ ∞ （其中M（M）样本集大小）恢复JPD的完整形式。事实上，M（M）>100通常足以估计基因组学问题中的双向边缘，而P（P）(克_我,克_j个,克_k个)需要大约一个数量级的样本。因此，ARACNE的当前版本截断了等式(1)在两两互动层面， $H（H） ({克_{我}}) = \sum_{我} φ_{我} (克_{我}) + \sum_{我, j个} φ_{我 j个} (克_{我}, 克_{j个})$ 在这个近似值范围内φ_ij公司=0表示互不交互。这包括统计上独立的基因（即。，P（P）(克_我,克_j个) ≈P（P）(克_我)P（P）(克_j个))以及不直接相互作用但因其通过其他基因（即。P（P）(克_我,克_j个) ≠P（P）(克_我)P（P）(克_j个)，但是φ_ij公司= 0). 我们注意到P（P）(克_我,克_j个) =P（P）(克_我)P（P）(克_j个)不是以下情况的充分条件φ_ij公司= 0. 我们将在下面进行讨论。

由于潜在成对相互作用的数量在N个对于所有依赖统计关联的网络重建算法来说，识别间接统计交互是一项艰巨的挑战。然而，在关于网络拓扑的某些生物学现实假设下，ARACNE算法提供了一个框架，可以在计算可行的时间内从有限数量的样本可靠地重建双向交互网络。

算法

在双向网络的假设下，所有的统计相关性都可以从两两边缘中推断出来，不需要更高阶的分析。虽然这并不意味着生物网络总是这样，但重要的是要了解这个假设是否允许用较少的误报推断真实交互的子集。因此，我们通过估计成对基因表达谱互信息来确定候选相互作用，我(克_我,克_j个) ≡我_ij公司，一种信息理论上的相关性度量，为零若（iff） P（P）(克_我,克_j个) =P（P）(克_我)P（P）(克_j个). 然后，我们使用适当的阈值来过滤MI，我₀，针对特定p值计算，第页₀在两个独立基因的空假设中。此步骤基本上等同于关联网络方法[6]并受到同样的重大限制；也就是说，由一个或多个中介体（间接关系）分离的基因可能会高度共同调控，而不暗示不可还原的相互作用，从而导致大量假阳性。

因此，在第二步中，ARACNE删除了绝大多数间接候选交互(φ_ij公司=0）使用一个众所周知的信息论性质，即数据处理不等式（DPI，稍后将详细讨论），该性质以前尚未应用于遗传网络的逆向工程。

相互信息

相互信息对于一对随机变量，x个和年，定义为我(x个,年) =S公司(x个) +S公司(年) -S公司(x个,年)，其中S公司(t吨)是任意变量的熵t吨。对于离散变量熵是 $S公司 (t吨) = - 〈日志第页 ({t吨}_{我}) 〉 = - \sum_{我} 第页 ({t吨}_{我}) 日志第页 ({t吨}_{我})$ 哪里第页(t吨_我) =探针(t吨=t吨_我)是变量的每个离散状态（值）的概率（在本工作中，对数是自然的）。对于连续变量，熵是无限的，但MI仍然定义良好，可以通过替换来计算S公司(x个)使用微分熵平均对数概率密度，而不是对数-质量。与更熟悉的皮尔逊相关性一样，MI衡量两个变量之间的统计相关性程度。然而，虽然相关系数在重新参数化下不是不变的，甚至对于明显的因变量也可能为零，但MI是重新参数化不变的，并且是非零的若（iff）任何一种统计相关性都存在。

MI估计

我们使用计算效率高的高斯核估计器估计MI[12]. 给定一组二维测量值， ${\vec{z（z）}}_{我}$ ≡ {x个_我,年_我},我= 1 ...M（M），JPD近似为 $（f） (\vec{z（z）}) = 1 / M（M） \sum_{我} {小时}^{- 2} G公司 ({小时}^{- 1} | \vec{z（z）} - {\vec{z（z）}}_{我} |)$ ，其中G公司（…）是二元标准正态密度。使用（f）(x个)和（f）(年)成为…的边缘（f）( $\vec{z（z）}$ )，MI是：

我 ({{x个}_{我}}, {年_{我}}) = \frac{1}{M（M）} \sum_{我} 日志 \frac{（f） ({x个}_{我}, 年_{我})}{（f） ({x个}_{我}) （f） (年_{我})} (2)

由于MI是重参数化不变量，因此我们进行了copula变换（即等级顺序）[8]x个和年MI估计；因此，这些变换变量的范围介于0和1之间，它们的边际概率分布明显一致。这减少了微阵列数据预处理中涉及的任意变换的影响，并且消除了考虑位置依赖性内核宽度的需要，小时，对于非均匀分布的数据可能更可取。

对于空间均匀的小时，高斯核MI估计量对于M（M）→ ∞, 只要小时(M（M）)→0和[小时(M（M）)]²M（M）→ ∞. 然而，对于有限M（M），偏差很大程度上取决于小时(M（M）)正确的选择并不普遍。幸运的是，ARACNE的表现并不直接取决于MI估计的准确性，我而是关于MI等级估计的准确性。例如，确定MI是否具有统计显著性需要测试我_ij公司≥我₀，其中我₀是统计显著性阈值。同样，DPI（见下文）只需要对MI进行排名。

对MI等级进行可靠估计是一项容易的任务。来自离散变量MI估计的工作[13]，我们预计，对于采样良好的边缘和采样不足的关节，偏差为b条≈b条(Ī,小时)（其中条形表示真实MI）。对于相似的MI值，这种偏差几乎抵消；MI估计的排序仅弱依赖于小时即使MI本身不确定，也保持稳定（图1). 因此，单个“集合最佳”值为小时可以使用，而不是为每个估计优化内核宽度（计算密集型操作）。该结果是通用的，应适用于任何基于MI等级的方法。然而，我们强调，由于这一结果在很大程度上是经验的，因此在依赖这一结论之前，应重新评估具有显著不同统计特性的数据集的MI秩对平滑强度的依赖性。

互信息的统计阈值

由于MI始终是非负的，因此，即使对于事实上相互独立的变量，随机样本的评估也会给出正值。因此，我们消除了所有不能排除相互独立基因无效假设的边缘。在这种程度上，我们在不同的微阵列图谱中随机改变基因的表达，类似于[6]评估这些明显独立的基因的MI并指定一个p值，第页，达到MI阈值，我₀，通过经验估算以下估算的分数我₀。这是针对不同样本大小进行的M（M）和10⁵基因对，以便可靠估计我₀(第页)生产量达到第页= 10^-4。使用以下方法外推较小的p值 $第页 (我 \geq 我_{0} | \bar{我} = 0) \propto {e（电子）}^{- α M（M）我_{0}}$ ，其中参数α根据数据进行拟合。这个公式是基于大偏差理论的直觉[14]对于离散数据和无偏估计 $第页 (我 \geq 我_{0} | \bar{我} = 0) \propto {e（电子）}^{- M（M）我_{0}}$ .由于连续情况下的MI可以通过精细离散变量来估计，因此应保持类似的结果，并且α在固定条件下估计量可能存在偏差的原因小时这与数值实验非常一致（参见附加文件1：相互信息统计显著性的确定）。

数据处理不平等

DPI（图2) [14]说明如果基因克₁和克_三只通过第三个基因相互作用，克₂，（即，如果交互网络克₁↔ ... ↔克₂↔ ... ↔克_三并且在克₁和克_三)，然后

我(克₁,克_三)≤最小值[我(克₁,克₂);我(克₂,克_三)]. (3)

因此，三种MIs中的最少一种只能来自间接相互作用，根据DPI检查可以确定哪些基因对φ_ij公司=0，即使P（P）(克_我,克_j个) ≠P（P）(克_我)P（P）(克_j个). 相应地，ARACNE以网络图开始，其中每个网络图我_ij公司>我₀由边表示(ij公司). 然后，该算法检查所有三个MIs都大于的每个基因三联体我₀并删除值最小的边。对每个三元组进行分析时，不考虑其边缘是否已标记为通过之前对不同三元组的DPI应用移除。因此，由该算法重建的网络与检查三元组的顺序无关。

由于这种方法只关注成对相互作用网络的重建，一对相互独立的基因，我_ij公司<我₀，将永远不会被边缘连接。因此，由对应的成对电位为零的高阶电位表示的相互作用将无法恢复（见讨论）。此外，即使对于二阶交互网络，也可以想象直接交互的效果被通过其他节点的间接交互完全抵消的情况，从而导致φ_ij公司≠0和P（P）(克_我,克_j个) ≈P（P）(克_我)P（P）(克_j个). 阿拉伯国家石油公司不会确定这种情况。然而，我们认为这种精确的抵消在生物学上是不现实的，以下定理规定了ARACNE精确重建网络的条件。所有定理的证明见附录A。

定理1

如果可以无误差地估计MI，那么ARACNE将准确地重建底层交互网络，前提是该网络是一棵树，并且只有成对交互。

然而，与标准树重建方法不同（例如Chow和Liu[15])，ARACNE不仅限于树，还可以生成包含许多循环的复杂结构。事实上，由于以下两个定理，ARACNE可以被视为Chow-Liu算法的自然推广，它克服了后者的生物-非现实树假设。

定理2

Chow-Liu（CL）最大互信息树是ARACNE重建的网络的一个子网络。

定理3

让π_伊克是构成网络中节点之间最短路径的节点集我和k个然后，如果MIs可以无误差地估计，ARACNE将重建一个没有假阳性边的交互网络，前提是：（a）该网络仅由成对交互组成，（b）对于每个交互j个 ∊ π_伊克,我_ij公司≥我_伊克此外，ARACNE不会产生任何假阴性，网络重建是准确的若（iff）（c）对于每个直接连接的线对(ij公司)以及任何其他节点k个，我们有我_ij公司≥最小值(我_jk公司,我_伊克).

树网络满足定理3的所有条件，而包含回路的拓扑可以满足也可以不满足。特别是，具有三个基因环的网络肯定违反了（c）[但仍可能满足（a）和（b）]，并且每一个这样的循环将沿着最弱的边缘打开。对于树，有一个连接两个节点的唯一路径。类似地，对于满足（a）和（b）的网络，最短路径支配节点间的信息传输。我们称这些网络为局部树状换句话说，当且仅当通过网络图上的一个或多个中介体或分支不存在替代路径时，ARACNE才保留交互作用，这更好地解释了两个基因之间的信息交换。由于生物化学动力学本质上是随机的，在多个分离边上的统计相互作用通常较弱。因此，我们认为局部树假设在生物学上是现实的，我们期望ARACNE在实践中产生较低的假阳性率。

最后，为了最小化MI估计量方差的影响，τ，可以引入这样的DPI不等式形式我_ij公司≤我_伊克(1 -τ)和MI的闭合值未被修剪。对于低值τ（<15%）在真阳性和假阳性之间实现了合理的权衡（参见附加文件2：预测误差是DPI容差的函数）。该阈值在质量上与MI估计值的方差相匹配，并随样本大小的增加而减小。使用这种非零容忍导致一些3基因环的持续存在。

算法复杂性

因为对于一个网络N个基因最多也有N个选择3个基因三联体，ARACNE的复杂性是O（运行）(N个^三+N个²M（M）²)，其中M（M）是样本数N个是基因的数量。第一项涉及DPI分析，第二项涉及互信息估计。这与必须探索指数搜索空间的优化方法相比是有利的（参见比较算法）。在实践中，DPI应用于三元组的一个小子集，其中所有三条边都通过了互信息阈值。因此，对于大型M（M），计算密集型部分通常与第二项（计算互信息）相关联，该项按O（运行）(N个²M（M）²). 因此，ARACNE可以有效地分析具有成千上万个基因的网络。

结果

我们研究了ARACNE在重构一类由[16]基因表达谱数据中的人类B淋巴细胞遗传网络。后者已在[17]这里只做简要介绍。将ARACNE的性能与相关网络（RN）和贝叶斯网络（BN）进行了比较。RN对于描述与引入DPI相关的改进非常重要，而BN已成为一些最广泛使用的逆向工程方法，并提供了理想的比较基准。

比较算法

A类贝叶斯网络是将JPD表示为有向非循环图（DAG），其顶点对应于随机变量{X（X）₁,...,X（X）_n个}，其边对应变量之间的父子依赖关系；参见[10]介绍和[18]获取更新的教程。我们根据[19,20]. 特别是，我们使用贝叶斯评分指标对图表进行评分[21]其中，我们在图上采用统一的先验，并在参数上使用Dirichlet先验，以帮助推断给定父母的儿童的欠采样条件分布。这种方法固有地惩罚更复杂的图形。学习最可能的网络需要探索整个图形空间以获得得分最高的模型，这是一个NP完全问题[22]. 因此，启发式过程被用来搜索局部最优的图结构。这里的比较测试使用了随机重启的贪婪爬山算法（对模拟退火和其他结构搜索方法进行了测试和观察，以产生类似的结果）。这些结果是使用LibB软件包生成的[23]，这是该方法的最佳实现之一。

关联网络[6]计算微阵列数据集中所有基因对的互信息，并推断如果两个基因的MI高于某个阈值，则这两个基因在生物学上是相关的。该方法相当于ARACNE算法中的第一步（即无DPI）；然而，我们使用了比原始实现更准确的MI估计程序，并进一步发展了分配统计显著性的方法。

合成网络

网络规范

我们使用Mendes等人提出的合成转录网络对这三种算法进行基准测试[16]作为逆向工程算法比较的平台。这些网络由100个基因和200个相互作用组成，或者在Erdös-Rényi（随机网络）中组织[24]或无标度[25]拓扑（图三). 在前者中，图的每个顶点都有可能连接到任何其他顶点；在后者中，连接数的分布，k个，与每个顶点关联时遵循幂律，第页(k个) ~k个^-γ具有γ>0和大型交互中心存在。许多真实的生物网络似乎表现出这种结构[26].

门德斯模型使用乘法希尔动力学来近似转录相互作用：

\frac{d日 {x个}_{我}}{d日 t吨} = 一_{我} \prod_{j个 = 1}^{{N个}_{我}} \frac{我 {K（K）}_{j个}^{{n个}_{j个}}}{我 {K（K）}_{j个}^{{n个}_{j个}} + 我_{j个}^{{n个}_{j个}}} \prod_{我 = 1}^{{N个}_{A类}} (1 + \frac{{A类}_{我}^{米_{我}}}{A类 {K（K）}_{我}^{米_{我}} + {A类}_{我}^{米_{我}}}) - {b条}_{我} {x个}_{我}, (4)

哪里x个_我是我-th基因，N个_我和N个_A类分别是上游抑制剂和活化剂的数量，其浓度为我_j个和A类_我。所有其他参数在中指定[16].

我们获得每个基因的合成表达值x个_我在每个微阵列中M（M）_k个通过模拟其动力学直到系统松弛到稳定状态 ${\dot{x个}}_{我} \approx 0$ 在每次模拟之前，合成和降解反应的效率因设置而异一_我=λ_k个,我 ${\bar{一}}_{我}$ 和b条_我=γ_k个,我 ${\bar{b条}}_{我}$ ，其中 ${\bar{一}}_{我}$ 和 ${\bar{b条}}_{我}$ 是参数的原始常量值，以及λ_k个,我,γ_k个,我是均匀分布在[0.0，2.0]中的随机变量。请注意λ_k个,我~0.0对应于基因敲除，而λ_k个,我2.0是合成速率的2倍。这种参数随机化对随机时间点（处于或接近平衡）的不同细胞表型群体的采样进行建模，如后面描述的B细胞实验的情况，其中由于温度、营养物质、，尽管这个模型是对真实生物网络的一个明显简化，但它形成了一个相当复杂的交互网络，捕获了一些转录调控元素，并且在这个模型上表现不佳的算法在更复杂的情况下不太可能表现良好。在这个模型中，相互作用被明确定义为一个基因对另一个基因的直接调节作用。因此，可以通过比较模型中推断的统计交互与直接交互来研究逆向工程算法的性能。我们特别注意到，据我们所知，这是首次尝试基于已发布的客观标准对网络逆向工程算法进行基准测试。

性能指标

由于遗传网络是稀疏的，潜在的假阳性(N个_FP公司)也就是说，确定两个没有直接调控联系的基因之间不可还原的统计交互作用，远远超过潜在的真阳性(N个_{TP（转移定价）}) [27]. 因此特异性，N个_TN公司/(N个_FP公司+N个_TN公司)通常用于ROC分析，这是不合适的，因为即使与值1的微小偏差也会导致大量假正数。因此，我们选择了两个密切相关的指标，精确度和召回率。召回，N个_{TP（转移定价）}/(N个_{TP（转移定价）}+N个_FN公司)，表示算法正确推断的真实交互的分数，而精度，N个_{TP（转移定价）}/(N个_{TP（转移定价）}+N个_FP公司)，测量所有推断的相互作用中真实相互作用的比例。注意，精度对应于预测交互作用的实验验证中的预期成功率。因此，将使用精确重新校准曲线（PRC）评估性能。ARACNE和RN的PRC是通过调整p值或MI阈值生成的。由于DPI消除了一些互动，即使在第页₀= 1. 为了达到100%召回，DPI公差，τ，可以调整，直到ARACNE的PRC退化为RN的PRC。对于BNs，可调参数是Dirichlet伪计数，我们再次观察到，最大召回率从未达到100%。

绩效评估

如图所示4ARACNE的精密度和召回率始终优于其他测试方法。也就是说，对于任何合理的准确度（即>40%），ARACNE的召回率明显高于其他方法，在显著的召回率水平下，其准确度达到~100%。对于较大的p值，ARACNE开始快速增加假阳性的数量，而真阳性的数量没有相应增加（ARACNE's PRC的右尾）。这可能是因为当接受非统计显著的MI值时，随机波动可能会任意改变MI等级，从而使DPI随机消除相互作用。我们注意到，ARACNE的PRC变化始于第页₀~ 10^-4，正是我们期望算法开始推断如此规模的网络的大量非统计重要交互的位置。这表明可以选择MI阈值的合理值，从而产生接近最佳的结果先验的使用基于潜在网络相互作用数量的Bonferroni修正p值。

通过分析MIs的分布，将其作为连接每个基因对的最短路径长度（连接性程度）的函数，可以更好地理解ARACNE的高性能。ARACNE依赖于MI的富集，以获得直接相互作用的基因，并随着距离的增加而迅速减少。图5演示了模拟数据集的这些属性。对于分离直接和间接相互作用基因的MI阈值，没有唯一的选择，而尝试使用单个阈值的方法，如RN，要么会恢复许多间接连接，要么会丢失大量直接连接。然而，由于互信息随着信号在网络上传输而迅速减少，DPI有效地消除了相应JPD未分解的间接交互。对于所有测试的合成微阵列大小和两种网络拓扑，与其他方法相比，ARACNE可以恢复更多的真实连接和更少的虚假连接（表1). 值得注意的是，在所有情况下，DPI的应用几乎消除了关联网络推断的所有间接候选交互，而真正的交互很少。我们注意到，由于ARACNE的性能会随着本地拓扑与树的显著偏离而降低，因此它在Erdös-Rényi上的性能略好于在无标度拓扑上的性能，而在无标尺拓扑中，小循环更为常见。重构无标度拓扑的另一个挑战来自于具有高度的大型集线器的存在，这些集线器与其单个邻居之间的MI很小（因此很难估计）。然而，即使在无标度拓扑上，ARACNE仍然表现得非常好，因为该网络中的信号去相关相当快，所以即使在存在相对紧的环路的情况下，树状结构的统计特性也能在局部保持（见定理3）。我们注意到，ARACNE与树重建方法有很大不同，因为无标度网络（使用1000个样本）的重建拓扑包含约30个大小小于4的回路（有关回路计数算法的描述，请参阅附录C）。

表1从门德斯网络生成的不同数量样品的回收率，在消除自循环和双向边缘后，平均包含约194个真实交互。

全尺寸桌子

总之，ARACNE似乎（a）实现了非常高的精度和大量的召回，即使只有很少的数据点（125），（b）允许最佳选择参数h（高斯核宽度）（图6)和我₀（统计阈值），（c）在参数选择方面非常稳定，（d）对包含许多回路的复杂拓扑进行稳健重建。

人B细胞

虽然大型基因表达数据集，例如从简单生物体的系统扰动中获得的数据集（例如[5])哺乳动物细胞不容易获得，我们建议通过使用一组给定细胞类型的显著自然发生和实验产生的表型变异，可以有效地实现等效的动态丰富度。为此，我们组装了一个表达谱数据集，由来自正常、肿瘤相关和实验操作人群的大约340个B淋巴细胞组成（有关详细描述，请参阅[28]).

使用ARACNE对该数据集进行反褶积，以生成由约129000个相互作用组成的B细胞特异性调控网络。由于c-MYC原癌基因是整个网络中最大的5%细胞中心之一，并且在文献中被广泛描述为转录因子，我们通过将我们的方法推断出的网络相互作用与之前通过生物化学方法识别出的相互作用进行比较，对整个网络质量进行了首次验证。这个生物信息学生成的网络在已知的c-MYC靶点中高度富集；在56个预测为第一邻居的基因中，有29个（51.8%）之前在文献中报道过，或者在我们的实验室使用染色质免疫沉淀作为c-MYC靶点进行了生化验证。这具有统计学意义(P（P）= 2.9 × 10^-23通过χ²test）关于随机选择的基因中预期11%的背景c-MYC靶点[29]. 此外，已知的c-MYC靶基因在第一个邻居中的富集程度显著高于第二个邻居（分别为51.8%和19.4%），这表明ARACNE能够有效地将直接调控相互作用与间接调控相互作用分离开来。与完整网络结构相关的生物学结果详细描述见[17].

讨论

ARACNE由统计力学驱动，基于信息论方法，在受控近似集下提供了可证明精确的网络重建。虽然我们已经证明，即使对于复杂的哺乳动物基因网络，这些近似也是合理的，但对于某些控制结构，它们可能会导致算法失败。首先，ARACNE将沿着最弱的相互作用打开所有三个基因环，从而为相互作用基因的三联体引入假阴性（尽管使用非零DPI阈值时可能会保留一些）。为了解决这种情况，正在研究对算法的改进。其次，通过截断公式(1)在成对相互作用中，ARACNE不会推断出不表示为成对交互作用势的统计相关性（例如任何基因对之间的MI为零的XOR布尔表）。通过展开方程式(1)为了包括三阶和更高阶势，我们的公式原则上也可以扩展到区分更高阶的相互作用[30]. 然而，我们注意到在实践中（即生物化学）很难生产只有在不引入低阶依赖项的情况下进行高阶交互[9]哈密顿量的截断不太可能在识别基因对之间的相互作用时产生严重的系统错误。事实上，门德斯网络包含更高阶的相互作用，但相应的成对相互作用可以有效地恢复。ARACNE的另一个限制是无法推断边缘方向性，尽管我们认为这是所有不使用时间数据的方法的一般限制。我们打算研究一种双层方法，其中首先推断无定向基因相互作用，然后通过回归算法或特定生化扰动评估边缘方向性。

由于mRNA丰度测量仅作为相互作用分子物种（即活化蛋白浓度）的代理，与ARACNE确定的不可还原统计依赖性相对应的物理相互作用类型并不总是明确的。例如，如果转录因子的活性主要由激活酶介导，而不是由其mRNA丰度水平的变化介导，我们希望ARACNE能够确定该酶与转录因子的靶基因之间的依赖性。此外，对于参与稳定复合物形成的蛋白质，可能会违反算法的假设。由于细胞产生稳定复合物（例如核糖体单元）中所涉及的蛋白质的化学计量平衡浓度在能量上是有效的，进化对这些蛋白质的转录控制进行了微调，以使其浓度达到平衡。因此，无论可能控制其表达的几个转录因子（TF）的浓度如何，最终蛋白质浓度之间的相关性通常高于每个蛋白质和每个单独TF之间的相关性。这违反了定理3的假设，并在涉及稳定复合物形成的蛋白质对之间产生了不可约的统计交互作用。因此，虽然我们注意到，如果分析高阶依赖性，这种情况将得到正确处理，但我们期望某些边缘与蛋白质相互作用相对应。

最后，我们以以下观察结束。由于ARACNE对于具有许多紧环的拓扑可能会失败，因此重要的是要了解分析的拓扑实际上是否是局部树状的，因此，重建是可信的。我们建议两种启发式方法。首先，环形拓扑在重建后继续具有更多的循环（结果未显示）。因此，去卷积网络中过多的环路应作为警告标志（附录C）；需要进行更多分析，以确定此统计数据的可接受范围。其次，与当前的分析一样，ARACNE所做的预测（或任何其他计算算法）应直接通过实验进行验证。

结论

ARACNE的目标是不恢复全部的基因网络中的转录相互作用一些高置信度的转录相互作用。在此范围内，ARACNE克服了一些限制，这些限制阻碍了先前方法在哺乳动物网络全基因组分析中的应用。它具有较低的计算复杂度，不需要表达式级别的离散化，并且不依赖于不切实际的网络模型或先验的假设。该算法可以应用于任意复杂的转录网络或任何其他交互网络，而不依赖于启发式搜索过程。因此，我们预计ARACNE非常适合哺乳动物基因调控网络，其特点是具有复杂的拓扑结构，无法从定义明确的补充数据中获益（例如酵母的综合蛋白质相互作用数据库），并且更难以通过实验进行操作，严重阻碍了基于时间序列的方法可以应用的数据的获取。目前还没有从微阵列表达谱推断出全基因组哺乳动物网络的其他例子。

ARACNE在重建一个旨在模拟转录相互作用的合成网络方面的高精度，以及对人类B细胞中已知转录因子c-MYC的bona-fide靶点的推断，表明ARACNEs有望在哺乳动物网络中识别低假阳性率的直接转录相互作用，这对所有逆向工程算法来说都是一个明显的挑战。需要进行更多研究，以准确描述与ARACNE确定的不可约统计相关性相对应的其他类型的交互作用。我们建议，ARACNE的预测可以与其他数据模式结合使用，如全基因组定位数据、DNA序列信息或靶向生物化学实验，以实现这一详细程度。我们计划使用模型生物平台以及模拟模型的扩展来研究这种可能性。然而，基于对模型生物的靶向扰动的研究表明，利用概念性的“基因-基因”网络来阐明细胞过程的功能机制是有希望的[31]以及确定药理化合物的分子靶点[32]. ARACNE可提供一个框架，以在哺乳动物环境中实现此类应用。

附录

附录A–定理证明

定理1

如果可以无误差地估计MI，那么ARACNE将准确地重建底层交互网络，前提是该网络是一棵树，并且只有成对交互。

定理证明1

首先，请注意，对于每对节点我和k个没有通过真正的直接交互连接，至少还有一个其他节点j个这将它们在网络树上分开。将DPI应用于(ijk公司)三联体导致(伊克)边缘。因此，只有真正的边才能生存。类似地，每个删除的边都不存在于真正的网络中(ijk公司)三胞胎。比如说，其中一个节点j个，可以将其他两个分开。在这种情况下，移除的边缘(伊克)显然不是在真正的树上。或者，可能没有分离节点，并且一个节点可以在三元组中的任何一对之间移动，而无需经过第三个节点。在这种情况下，三条边都不在真图中，DPI删除的任何边都是虚构的。因此，所有移除的边都是间接的，而所有剩余的边都属于事实。网络得到了精确重建。

定理2

Chow-Liu（CL）最大互信息树是ARACNE重构网络的一个子网络。

定理2的证明

我们注意到，在不损失一般性的情况下，我们可以假设Chow-Liu树和ARACNE构造跨越网络的所有节点。如果不是这样，即存在一些连接的簇（由零MI的边分隔），然后，为了这个定理的目的，我们可以用相同的边完成CL和ARACNE结构，MI为零，而不需要形成额外的环，直到它们成为跨越。现在假设定理是错误的，并且存在一条边(ij公司)属于（已完成的）CL树，但不属于ARACNE重建。由于CL构造是一棵树，因此此边将其分为两棵单独的树T型_我和T型_j个包含我“th和thej个'个节点。由于ARACNE已删除(ij公司)链接，存在一个节点k个，其中min(我_伊克,我_jk公司) >我_ij公司.在不失一般性的情况下，让k个加入T型_我。然后更换(ij公司)在Chow-Liu树的边缘(jk公司)边不会形成循环，并将保留树结构。这将增加CL重建的总MI我_jk公司-我_ij公司> 0. 因此，原始树不是最大MI树。我们得出了一个矛盾，它证明了这个定理。

定理3

让π_伊克是构成网络中节点之间最短路径的节点集我和k个然后，如果可以在没有错误的情况下估计MI，则ARACNE重建没有误报边缘的交互网络，前提是：（a）网络仅由成对交互组成，（b）对于每个j个 ∊ π_伊克,我_ij公司≥我_伊克此外，ARACNE不会产生任何假阴性，网络重建是准确的若（iff）（c）对于每个直接连接的线对(ij公司)以及任何其他节点k个，我们有我_ij公司≥最小值(我_jk公司,我_伊克).

定理证明3

为了证明不存在假阳性，我们注意到，对于每个候选边缘(伊克)这实际上不在网络中，至少有一个节点j个，因此j个 ∊ π_伊克.将DPI应用于(ijk公司)三胞胎会把(伊克)边缘。此外，我们注意到，如果满足（c），则DPI的任何应用都不会删除真正的边。但是，如果（c）不成立，则将删除真正的边。这就完成了证明。

附录B——图形模型和统计物理的关系

本文中使用的依赖性定义基于JPD中存在的一种潜在的相互作用基因，

P（P） ({克_{我}}) = \frac{1}{Z轴} 经验 [- \sum_{我} φ_{我} (克_{我}) - \sum_{我, j个} φ_{我 j个} (克_{我}, 克_{j个}) - \sum_{我, j个, k个} φ_{我 j个 k个} (克_{我}, 克_{j个}, 克_{k个}) - \dots] \equiv {e（电子）}^{- H（H） ({克_{我}})} (5)

类似于图形模型理论中使用的方法，特别是马尔可夫网络（MN）[10]. 然而，尽管有一些不同的表述（例如[33])MN的通常实施[10]使用条件依赖的概念构建。例如，在这种情况下，无法将通过三个成对相互作用完全耦合的三个基因群与通过三级依赖性耦合的相同基因以及这两种情况的组合区分开来。因此，许多作者使用一种约定，即如果高阶势φ…存在于方程式中1，则所有仅依赖于由φ……被纳入其中。相比之下[9]接下来，本文旨在区分交互顺序。因此，在我们的案例中，三基因成对循环与三向相互作用是不同的。事实上，已经开发了ARACNE的扩展来处理后者[30]而前者仍需要工作。

正如图形模型文献中所理解的那样，方程式的公式1类似于一些统计力学问题，特别是随机网络上的自旋玻璃[33,34]尤其是如果克_我是二进制的（表达式级别的离散化是处理欠采样的常用技术）。在这种情况下，基因是伊辛自旋，截断到一阶、二阶或三阶势是朝向平均场、贝思和菊池变分近似的步长[33,35–37]. 一个重要的区别是，在统计物理学中，人们搜索 $\tilde{P（P）}$ ({克_我})，真实JPD的变分近似，P（P）({克_我})，这将最小化 ${D类}_{K（K） L（左）} (\tilde{P（P）} ‖ P（P）) \equiv {〈日志 \tilde{P（P）} / P（P）〉}_{\tilde{P（P）}}$ 在给定的类中 $\tilde{P（P）}$ ，而[9]等于最小化D类_吉隆坡(P（P）|| $\tilde{P（P）}$ ). 这是因为统计物理解决了一个直接的问题——计算给定交互网络的各种自旋统计P（P）_L（左）未知，无法用于平均。另一方面，我们在这里解决的是反问题——在已知真实边际分布的情况下重建网络。

ARACNE，截断方程1在二阶势下，是直接问题的Bethe近似的模拟。就像这个近似和相关的信念传播算法[10,38]，ARACNE可能会因环形拓扑而失败。因此，对于局部树状网络，该算法仍能很好地工作，与统计物理中的相应讨论并行，这是很有吸引力的[38].

附录C–无向邻接矩阵中的计数循环

成对交互网络可以用邻接矩阵表示A类_ij公司，其中A类_ij公司=1,0表示存在或不存在相应的相互作用。为了测试违反“局部树状”假设对算法性能的影响，我们需要能够计算给定网络中的循环数（循环）。由于图中的循环总数不等于独立循环数，这一点变得更加复杂；这是将图形转换为树时需要删除的边数。我们只需要计算独立循环的数量。此外，在所有可能的独立循环的完整集合中，我们感兴趣的是确定具有最小循环的那一个（因为小循环最有可能违反局部树状假设）。我们建议使用以下算法来近似解决此任务。

1)
我们修剪邻接矩阵中有0个或1个邻居的节点A类（因为这样的节点不能是任何循环的一部分）。
2)
我们变换无向网络A类转化为定向B类。为此，我们确定每个A类_ij公司在原始网络中≠0，在新网络中有一个节点（边ij公司和吉由单独的节点表示）。如果原始网络A类_ij公司=A类_jk公司= 1,我≠k个，然后B类_{(ij公司),(jk公司)}=1，否则B类_{(ij公司),(肯尼亚)}= 0.
3)
我们计算矩阵的整数幂B类.如果Tr公司(B类^n个)>0，一个（或多个）大小的循环n个存在。对于最小的n个使用循环，我们识别其中一个（随机），记录形成循环的节点，并在中删除其中一个节点B类（即边缘A类).
4)
我们重复1-3次，直到找不到更多的循环。

工具书类

Eisen MB、Spellman PT、Brown PO、Botstein D:全基因组表达模式的聚类分析和显示。 美国国家科学院院刊1998,95(25):14863–14868. 10.1073/pnas.95.25.14863
第条公共医学中心中国科学院公共医学谷歌学者
马S-K：统计力学。新加坡：世界科学；1985
第章谷歌学者
van Someren EP、Wessels LF、Backer E、Reinders MJ：遗传网络建模。 药物基因组学2002,三(4):507–525. 10.1517/14622416.3.4.507
第条中国科学院公共医学谷歌学者
弗里德曼N：使用概率图形模型推断蜂窝网络。 科学类2004,303(5659):799–805. 10.1126/科学.1094068
第条中国科学院公共医学谷歌学者
Ideker T、Thorsson V、Ranish JA、Christmas R、Buhler J、Eng JK、Bumgarner R、Goodlett DR、Aebersold R、Hood L：系统扰动代谢网络的综合基因组和蛋白质组分析。 科学类2001,292(5518):929–934. 10.1126/科学292.5518.929
第条中国科学院公共医学谷歌学者
Butte AJ，Kohane IS公司：相互信息相关网络：使用成对熵测量的功能基因组聚类。 Pac-Symp生物计算机2000, 418–429.
谷歌学者
Wiggins C，Nemenman一：通过时间序列分析进行路径推断。 实验力学2003,43(3):361–370. 10.1177/00144851030433016
第条谷歌学者
乔·H：多元模型和相关性概念。佛罗里达州博卡拉顿：查普曼和霍尔；1997
第章谷歌学者
内曼一世：信息论、多元依赖和遗传网络推理。 技术代表NSF-KITP-04–54，KITP，UCSB2004.arXiv:q-bio/0406015 arXiv:q-bio/0406015
谷歌学者
珍珠J：智能系统中的概率推理：似是而非推理网络。加利福尼亚州旧金山：Morgan Kaufmann Publishers，Inc；1988
谷歌学者
珍妮斯·ET：信息论和统计力学。 物理版次1957,106:620–630. 10.1103/物理修订版106.620
第条谷歌学者
Beirlant J、Dudewicz E、Gyorfi L、van der Meulen E：非参数熵估计：综述。 国际数学统计科学杂志1997,6(1):17–39.
谷歌学者
强SP、Koberle R、de Ruyter van Stevenick R、Bialek W：神经棘波序列中的熵和信息。 物理Rev Lett1998,80(1):197–200. 10.1103/物理版本快报.80.197
第条中国科学院谷歌学者
Cover TM，Thomas JA：信息论要素。纽约：John Wiley&Sons；1991.
第章谷歌学者
Chow CK，Liu中国：用依赖树逼近离散概率分布。 IEEE Trans-Inf Thy公司1968,IT-14公司(3):462–467. 10.1109/TIT.1968.1054142
第条谷歌学者
Mendes P、Sha W、Ye K：用于分析算法客观比较的人工基因网络。 生物信息学2003,19（补充2）：II122-II129。10.1093/生物信息学/btg1069
第条公共医学谷歌学者
Basso K、Margolin AA、Stolovitzky G、Klein U、Dalla-Favera R、加利福尼亚州A：人类B细胞调节网络的逆向工程。 自然基因2005,37(4):382–390. 1038/ng1532年10月10日
第条中国科学院公共医学谷歌学者
赫克曼D：贝叶斯网络学习教程。 微软研究院1996
谷歌学者
Hartemink AJ、Gifford DK、Jaakkola TS、Young RA：使用图形模型和基因组表达数据对基因调控网络模型进行统计验证。 Pac-Symp生物计算机2001, 422–433.
谷歌学者
Yu J、Smith AV、Wang PP、Hartemink AJ、Jarvis ED：使用贝叶斯网络推理算法恢复分子遗传调控网络。 第三届系统生物学国际会议2002
谷歌学者
库珀GF，赫斯科维茨E：从数据中归纳概率网络的贝叶斯方法。 机器学习1992,9:309–347.
谷歌学者
炸鸡DM：学习贝叶斯网络是NP完全的。在从数据中学习：人工智能和统计.编辑：Fisher DaL H.纽约：Springer-Verlag；1996:121–130.
第章谷歌学者
弗里德曼·N，埃利丹·G：图书馆B 2.1。[http://www.cs.huji.ac.il/labs/compbio/LibB/]
鄂尔多斯P，仁义A：关于随机图。 Publ数学汇报1959,6:290–297.
谷歌学者
Barabasi AL、Albert R：随机网络中尺度的出现。 科学类1999,286(5439):509–512. 10.1126/科学286.5439.509
第条公共医学谷歌学者
纽曼MEJ：复杂网络的结构和功能。 SIAM审查2003,45(2):167–256. 10.1137/S003614450342480
第条谷歌学者
杨MK、特格纳J、柯林斯JJ：使用奇异值分解和稳健回归对基因网络进行反向工程。 《美国科学院院刊》2002,99(9):6163–6168. 10.1073/pnas.092576199
第条公共医学中心中国科学院公共医学谷歌学者
Klein U、Tu Y、Stolovitzky GA、Mattioli M、Cattoretti G、Husson H、Freedman A、Inghirami G、Cro L、Baldini L、，等.:B细胞慢性淋巴细胞白血病的基因表达谱揭示了与记忆性B细胞相关的同种表型。 实验医学杂志2001,194(11):1625–1638. 10.1084/jem.194.11.1625
第条公共医学中心中国科学院公共医学谷歌学者
Fernandez PC、Frank SR、Wang L、Schroeder M、Liu S、Greene J、Cocito A、Amati B：人类c-Myc蛋白的基因组靶点。 基因开发2003,17(9):1115–1129. 10.1101克/公顷.1067003
第条公共医学中心中国科学院公共医学谷歌学者
Wang K，Nemenman I，Banerjee N，Margolin AA，加利福尼亚州A：人类B淋巴细胞转录相互作用调节剂的全基因组发现。 第十届国际赔偿责任会议论文集。分子生物学。（RECOMB），威尼斯2006年4月，正在印刷中。
Tegner J、Yeung MK、Hasty J、Collins JJ：反向工程基因网络：将遗传扰动与动力学建模相结合。 《美国科学院院刊》2003,100(10):5944–5949. 10.1073/pnas.0933416100
第条公共医学中心中国科学院公共医学谷歌学者
Gardner TS、di Bernardo D、Lorenz D、Collins JJ：通过表达谱推断遗传网络并识别复合作用模式。 科学类2003,301(5629):102–105. 10.1126/科学1081900
第条中国科学院公共医学谷歌学者
耶迪迪亚J：超越平均场理论的独特旅程。在高级平均场方法：理论与实践编辑：Opper M，Saad D.Cambridge，MA：麻省理工学院出版社；2001
谷歌学者
Mezard M、Parizi G：重新访问Bethe格子旋转玻璃。 欧洲物理杂志B2001,20:217.2007年10月10日/PL00011099
第条中国科学院谷歌学者
贝丝·H：超晶格的统计理论。 罗伊律师事务所伦敦A1935,150:552.10.1098/rspa.1935.0122
第条中国科学院谷歌学者
菊池R:合作现象理论。 Phys修订版1951,81:988.10.1103/物理修订版81.988
第条谷歌学者
Opper M、Winther O：从朴素平均场理论到TAP方程。在高级平均场方法：理论与实践。编辑：Opper M，Saad D.马萨诸塞州剑桥：麻省理工学院出版社；2001
谷歌学者
Yedidia JS、Freeman WT、Weiss Y：广义信念传播。 神经信息处理系统（NIPS）的进展2001,13:689–695.
谷歌学者

下载参考资料

致谢

这项工作得到了NCI（1R01CA109755-01A1）和NIAID（1R01AI066116-01）的支持。AAM由NLM医学信息学研究训练计划（5 T15 LM007079-13）支持。

作者信息

作者和附属机构

哥伦比亚大学生物医学信息学系，美国纽约州纽约市10032
Adam A Margolin和Andrea Califano
哥伦比亚大学系统生物学联合中心，美国纽约州纽约市，10032
Adam A Margolin、Ilya Nemenman、Chris Wiggins和Andrea Califano
美国纽约州纽约市哥伦比亚大学癌症遗传学研究所，邮编：10032
卡蒂亚·巴索和里卡多·达拉·法维拉
美国纽约州纽约市哥伦比亚大学应用物理和应用数学系，邮编：10032
克里斯·维金斯
IBM T.J.Watson研究中心，美国纽约州约克敦高地，10598
古斯塔沃·斯托洛维斯基

作者

亚当·马戈林
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
伊利亚·尼门曼
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
卡蒂亚·巴索
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
克里斯·维金斯
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
古斯塔沃·斯托洛维斯基
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
里卡多·达拉·法维拉
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
安德烈亚·卡里瓦诺
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者

通讯作者

与的通信安德烈亚·卡里瓦诺.

其他信息

作者的贡献

AAM：进行研究，设计研究，参与算法设计，撰写手稿。IN：设计理论框架，参与算法设计，撰写手稿。KB:执行生化验证。CW：参与研究设计。GS：参与算法设计和验证。RDF：监督和设计生化验证。AC：设计算法，监督研究，撰写手稿。所有作者阅读并批准了最终手稿。

电子辅助材料

12859_2006_1290_MOESM1_ESM.eps公司

附加文件1：相互信息统计显著性的确定。对于不同的核宽度和样本大小，使用蒙特卡罗模拟将P值分配给MI阈值(M（M）)和10⁵基因对，以便产生高达第页= 10^-4（实线）。使用以下方法外推较小的p值 $第页 (我 \geq 我_{0} | \bar{我} = 0) \propto {e（电子）}^{- α M（M）我_{0}}$ （虚线）。（每股收益10 KB）

12859_2006_1290_MOESM2_ESM.pdf

附加文件2：预测错误作为DPI容差的函数。推断错误的数量，N个_FP公司+N个_FN公司，绘制为DPI公差的函数，τ，用于（a）Erdös-Rényi和（b）无标度拓扑。募集资金τ值为0.2会导致误报率适度增加，而值越大τ产生更大幅度的增长。因此，适度选择耐受性有助于阐明额外的相互作用，而不会引入过多的假阳性。统计显著性阈值为10时计算结果^-4以及1000个合成微阵列。（PDF 14 KB）

12859_2006_1290_MOESM3_ESM.eps

附加文件3:Erdös-Rényi拓扑不同最短路径长度的MI分布。图的图例中解释了红色和黑色箭头5。由于没有大型的学位中心，去相关比无标度网络慢，即使是第五个邻居的MI统计数据也可以从背景中区分出来。（每股收益61 KB）

权利和权限

本文由BioMed Central Ltd.授权发布。这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品，前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

马戈林，A.A.，尼曼，I.，巴索，K。等。ARACNE：在哺乳动物细胞环境中重建基因调控网络的算法。BMC生物信息学 7（补充1），S7（2006）。https://doi.org/10.1186/1471-2105-7-S1-S7

下载引文

出版:2006年3月20日
内政部:https://doi.org/10.1186/1471-2105-7-S1-S7