跳到主要内容

ARACNE:一种在哺乳动物细胞环境中重建基因调控网络的算法

摘要

背景

阐明基因调控网络对于理解正常细胞生理学和复杂病理表型至关重要。这种网络的全基因组“逆向工程”的现有计算方法仅在具有简单基因组的低等真核生物中获得成功。我们现在介绍阿拉伯国家石油公司这是一种使用微阵列表达谱的新算法,专门设计用于扩展到哺乳动物细胞中调控网络的复杂性,但其通用性足以解决更广泛的网络反褶积问题。该方法使用信息论方法来消除由共表达方法推断的大多数间接相互作用。

结果

我们证明,如果回路在网络拓扑中的影响可以忽略不计,ARACNE可以精确地(渐进地)重建网络,并且我们表明,该算法在实际中运行良好,即使存在大量回路和复杂拓扑。我们使用真实的合成数据集和来自人类B细胞的微阵列数据集来评估ARACNE重建转录调控网络的能力。在合成数据集上,ARACNE实现了非常低的错误率,并优于相关网络和贝叶斯网络等既定方法。应用于人类B细胞遗传网络的反褶积表明,ARACNE能够推断cMYC原癌基因的有效转录靶点。我们还研究了互信息错误估计对网络重建的影响,并表明基于互信息排序的算法对估计错误具有更强的弹性。

结论

ARACNE有望识别哺乳动物细胞网络中的直接转录相互作用,这一问题对现有的逆向工程算法提出了挑战。这种方法应该能够增强我们使用微阵列数据来阐明细胞过程的功能机制以及识别哺乳动物细胞网络中药理化合物的分子靶点的能力。

背景

细胞表型由共同调控基因的大型网络的动态活动决定。因此,剖析表型选择的机制需要阐明单个基因在其运作的网络环境中的功能。由于基因表达受蛋白质调节,蛋白质本身就是基因产物,因此基因mRNA丰度水平之间的统计关联虽然与活化蛋白浓度不成正比,但应为揭示基因调控机制提供线索。因此,高通量微阵列技术的出现,可以同时测量整个基因组的mRNA丰度水平,引发了许多研究,旨在利用这些数据构建概念性的“基因网络”模型,以简明地描述基因相互作用的调控影响。

基因表达谱的全基因组聚类[1]通过将对各种细胞条件表现出类似转录反应的基因组合在一起,为实现这一目标迈出了重要的第一步,因此可能参与类似的细胞过程。然而,将基因组织成共同调控的簇提供了细胞网络的一种非常粗略的表示。特别是,它无法将不可还原(即直接)的统计交互作用与那些由级联转录交互作用引起的统计交互效应分开,这些转录交互作用与许多非交互基因的表达相关。更一般地说,正如统计物理学所认识到的那样,长程序(即非直接相互作用变量之间的高相关性)很容易由短程相互作用产生[2]。因此相关性,或任何其他如果没有额外的假设,局部依赖性度量不能作为重建交互网络的唯一工具。

在过去的几年里,出现了许多从基因表达数据中逆向工程细胞网络(也称为去卷积)的复杂方法(综述于[3]). 他们的目标是以图形的形式生成细胞网络拓扑的高保真表示,其中基因被表示为顶点,并由表示直接调控相互作用的边连接。定义边缘的标准及其生物学解释仍然不精确,并且因应用而异。例如,图形建模[4]将边缘定义为最有可能解释数据的mRNA丰度水平之间的亲子关系,综合方法[5]使用独立的实验线索将边缘定义为显示物理交互证据的边缘,以及其他统计/信息理论方法[6]确定mRNA丰度水平之间统计关联最强的边缘。所有可用的方法都在不同程度上受到过拟合、高计算复杂性、对非现实网络模型的依赖或对仅适用于简单生物体的补充数据的严重依赖等问题的影响。这些局限性使得大多数方法的成功大规模应用只能局限于相对简单的生物体,如酵母酿酒酵母哺乳动物网络的全基因组反褶积尚待报道。

这里我们介绍一下阿拉伯国家石油公司(精确细胞网络重建算法),一种新的信息理论算法,用于从微阵列数据反向工程转录网络,克服了其中一些限制。ARACNE将边缘定义为基因表达谱之间不可减少的统计依赖性,不能解释为网络中其他统计依赖性的伪影。我们认为,这种不可还原的统计依赖性的存在很可能确定由与目标基因启动子区域结合的转录因子介导的直接调控相互作用,尽管也可能确定其他类型的相互作用(见讨论)。在本研究中,为了验证目的,我们将重点放在前一种交互类型上。我们证明,ARACNE与现有方法相比有优势,并且在使用真实希尔动力学建模的合成数据集中识别转录相互作用时,错误率极低。在生物学背景下,我们证明了该算法推断出哺乳动物基因网络中的bona-fide转录目标。我们还研究了互信息(MI)错误估计对网络重建的影响,并表明基于MI排名的算法对估计错误具有弹性。该算法的通用性足以处理生物、社会和工程领域中的各种其他网络重建问题。

理论背景

一些因素阻碍了全基因组哺乳动物网络的可靠重建。首先,对于高等真核生物来说,时间基因表达数据很难获得,而从不同个体获得的细胞群体通常捕获潜在生化动力学的随机稳定状态。这就排除了使用推断时间关联的方法,从而推断似是而非的因果关系(参见[7]). 只能研究稳态统计相关性,而这些相关性与潜在的物理相关性模型没有明显的联系。除此之外,在多元设置中没有公认的统计相关性定义[89]。在这项工作中,我们采用了[9]基于马尔可夫网络文献中的观点[10]。简单地说,我们写出了所有基因平稳表达的联合概率分布(JPD),P(P)({ }),= 1,...,N个,作为:

P(P) ( { } ) = 1 Z轴 经验 [ 负极 N个 φ ( ) 负极 j N个 φ j ( j ) 负极 j k个 N个 φ j k个 ( j k个 ) 负极 ... ] e(电子) 负极 H(H) ( { } ) ( 1 ) 数学类型@MTEF@5@5@+=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=wr0dc8meaabacacacacaacaGaaeqabacaqabababeGadaakeaaacqaqaacqbabababaaqaqaq daqadaqaamacmaabaGaem4zaC2aaSbaaSqaaabdMgaPbqabaakiaaawUhacaGL9baaaawIcacaGLPaaacqGH9aqpdaWcaaaiabigdaXaqaaaiabdQfaAbaacyGGLbqzcqGG4baEcqGGWbaCdaWadaqaaiabgkHiTmaaqaababacciGae8NXdy2aaSbaaSqaaabdMgaPbqabaGcdaqaaaiabdEgaNnaaBaaaleaacqWGPbqAaeqaaaGccaGLoaGaayzkaaGaeyOeI0YaaabCaeaacqWfgpGzdaWgaaWcbaGaemyAaKMaemOAaOgabeaakmaababababaabagaabaGaem4zaC2aasSbaaqaabMgaPb bqaabGccqaGGgaalcqWG NbWzdaWgaaWcbaGaemOAaOgabeaaaOGaayjkaiaawMcaaiabgkHiTmaaqahababaGae8NXdy2aaSbaaSq公司aaiabdMgaPjabdQgabdQjabdUgaRbqabaaaabaGaemyAaKMaeiilaWIaemOAaOMaeiila WIaem4AaSgabaGaemOta4eaniabggHiLdGcdaqadaqaaaiabdEgaNnaaBaaaaaacqWGPbqAaeqaaaOGaeiila-WIaem4 zaC2aaSbaaSbaaqaaabdQgaaQbqabaGccqGsaalcqWGNbWzdaWgaaWcbaGaem4AasSgabeaaaaaaaOGaaajkaiwMcaabagHiTiabc6caUiab6caUib6caui abc6caUaWcbaGaemyAaKMaeiilaWIaemOAaOgabaGaemOta4eaiabggHiLdaaleaacqWGPbqAaeacqWGobGta0GaeyyeIuoaaOGaay5waiaw2faaiabggMi6Iqadiab公司+vgaLnaaCaaaleqabaGaeyOeI0ccbiGae0hsaG0aaeWaaeaadaGadaqaaiab9DgaNnaaBaaamaaacqFPbqAaeqaaaWccaGL7bGaayzFaaaacaGLOAGaayzkaaaaaaOGaaCzcaiaaxMaadachaaiabigdaXaGaayjkaiaawMcaaaaa@8F9F@

哪里N个是基因的数量,Z轴是标准化因子,也称为配分函数φ…是电位,以及H(H)({ })是哈密顿量它定义了系统的统计信息。在这样一个模型中,我们断言一组变量在且仅当(若(iff))完全依赖于这些变量的单势是非零的。ARACNE的目标是准确地确定这些电位中哪些是非零的,并消除其他电位,即使它们相应的边际JPD可能无法分解。虽然算法没有直接使用这种表示法,但它有助于精确地形式化我们对交互的定义以及它将有助于阐明的不可约依赖类。

注意,等式(1)没有唯一地定义潜力,需要附加约束以避免歧义(见附录B)。合理的方法是指定φ…使用最大熵近似[911]至P(P)(1,..., N个 )与已知的保证金一致,因此约束n个-路缘定义了其相应的潜力。我们建议读者参考[9]了解详细信息。

相互作用结构的近似值

由于典型的微阵列样本量相对较小,推断出潜在的指数数n个-等式的双向相互作用(1)是不可行的,并且必须对依赖结构做出一组简化的假设。等式(1)提供了引入此类近似值的原则性和可控方法。最简单的模型是假设基因是独立的,即。,H(H)({ }) = ∑φ( ),这样一阶势可以从边际概率计算,P(P)( ),这是根据实验观察估计的。随着越来越多的数据可用,我们应该能够可靠地估计更高阶的保证金,并逐步合并相应的潜力,以便→ ∞ (其中样本集大小)恢复JPD的完整形式。事实上,>100通常足以估计基因组学问题中的双向边缘,而P(P)( j k个 )需要大约一个数量级的样本。因此,ARACNE的当前版本截断了等式(1)在两两互动层面, H(H) ( { } ) = φ ( ) + j φ j ( j ) 数学类型@MTEF@5@5@+=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=v r0dc8meaabacacacacaca GaaeqabababababeGadaakeaaacqaacqaqasdasd aqadaqaamaacmaabaGaem4zaC2aaSbaaSqaaabdMgaPbqabaaakiaawUhacaGL9baaaawIcacaGLPaaacqGH9aqpdaaeqabqaaGGaciab=z8aMnaaBaaalaaacqWGPbqAaeqaaaqaaiabdMgaPbqab0GaeyyeIuoakmaabababaGaem4zaC2aaSbaaSqaaabdMgaP bqaaaakiaaawIcacaGLPaaacqGHRaWkdaaeqabqaaiab=z8aMnaaBaaaleaacqWGPbqAcqWGQbGAaeqaaaOwaaeaacqWWNbWzdaWgaaWcbaGaemyAaKgabeaakiabcYcaSiabdEgaNnaaBaaleaacqWBGAaeqAAaGccaGLOAGaayzkaaaaaacqWGBqAcqGGSalcqWGQb GAaeqaniabgHiLdaaaa@541C@ 在这个近似值范围内φ ij公司 =0表示互不交互。这包括统计上独立的基因(即。,P(P)( j )≈P(P)( )P(P)( j ))以及不直接相互作用但因其通过其他基因(即。P(P)( j ) ≠P(P)( )P(P)( j ),但是φ ij公司 = 0). 我们注意到P(P)( j ) =P(P)( )P(P)( j )不是以下情况的充分条件φ ij公司 = 0. 我们将在下面对此进行讨论。

由于潜在成对相互作用的数量在N个对于所有依赖统计关联的网络重建算法来说,识别间接统计交互是一项艰巨的挑战。然而,在某些关于网络拓扑的生物现实假设下,ARACNE算法提供了一个框架,可以在计算上可行的时间内从有限数量的样本可靠地重建双向交互网络。

算法

在双向网络的假设下,所有的统计相关性都可以从两两边缘中推断出来,不需要更高阶的分析。虽然这并不意味着生物网络总是这样,但重要的是要了解这个假设是否允许用较少的误报推断真实交互的子集。因此,我们通过估计成对基因表达谱互信息来确定候选相互作用,( j ) ≡ ij公司 ,一种信息理论上的相关性度量,为零若(iff) P(P)( j ) =P(P)( )P(P)( j ). 然后,我们使用适当的阈值过滤MI,0,针对特定p值计算,第页0在两个独立基因的空假设中。此步骤基本上等同于关联网络方法[6]并受到同样的重大限制;也就是说,由一个或多个中介体(间接关系)分离的基因可能会高度共同调控,而不暗示不可还原的相互作用,从而导致大量假阳性。

因此,在第二步中,ARACNE删除了绝大多数间接候选交互(φ ij公司 =0)使用一个众所周知的信息论性质,即数据处理不等式(DPI,稍后详细讨论),该不等式以前从未应用于遗传网络的逆向工程。

相互信息

相互信息对于一对随机变量,x个,定义为(x个) =S公司(x个) +S公司() -S公司(x个),其中S公司(t吨)是任意变量的熵t吨。对于离散变量 S公司 ( t吨 ) = 负极 日志 第页 ( t吨 ) = 负极 第页 ( t吨 ) 日志 第页 ( t吨 ) 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaakaacqWGtbWudaqaaaiabdsha0bGaayjkaiaawMcaaiabg2da9iabgHiTmaaamaabaGagiiBaWMaei4Ba8Maei4zaCMaemiCaa3aaeWaaeaacqwWG0baDdaWgaaWcbaGaemyAaKgabeaaaaaaaOGaayjkaiawMcaaaGaayzkJiaawQYiaabg2da8iabg9iabhHiTmaaqabaBaGaemiCaa3baeWaaacq0baDDaWgaawcbaGaaGaagaaGaaaGaaqawWG0ba emyAaKgabeaaaaOGaayjkaiaawMcaaaWcbaGaemyAAKgabeqdcqGHris5aOGagiiBaWMaei4Ba8Maei4zaCMaemiCaa3aaeWaaeaacqWG0baDdaWgaaWcba GaemyAlaKgabeaaaoGaayjkaiawMcaaa@542D@ 哪里第页(t吨 ) =探针(t吨=t吨 )是变量的每个离散状态(值)的概率(在本工作中,对数是自然的)。对于连续变量,熵是无限的,但MI仍然定义良好,可以通过替换S公司(x个)使用微分熵平均对数概率密度,而不是对数-质量。与更熟悉的皮尔逊相关性一样,MI衡量两个变量之间的统计相关性程度。然而,虽然相关系数在重新参数化下不是不变的,甚至对于明显的因变量也可能为零,但MI是重新参数化不变的,并且是非零的若(iff)任何一种统计相关性都存在。

MI估计

我们使用计算效率高的高斯核估计器估计MI[12]。给定一组二维测量值, z(z) 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaacacuWG6bGEgaWcamaaBaaaleaacqWGPbqAaeqaaaaa@2FC4@ ≡ {x个 },= 1 ...,JPD近似为 (f) ( z(z) ) = 1 / 小时 负极 2 ( 小时 负极 1 | z(z) 负极 z(z) | ) 数学类型@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrp9MDH5MBPbIqV92AaeXtLxBI9gBaebbnrifHhDYfgasaacH8akY=wiFfYdH8Gipec8eeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=目录0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaakaacqWGMbGzdaqadaqaaiqbdQha6zaalaaaacaGLOAGaayzkaaGaeyypa0ZaasGbaacqaXaqmaeaacqWGnbqtaaWaaabeaacqWGObaAdaahaaWcbeqaaiabgkHiTiabikdaYaaaaacqWWPbqAaeqanibgHiLdGccqWGhbWrdaadaqaaaiabdIgaaOnaacabagaeyOeIa0IaeGymaedaaaaaaaaaaaaaqawaaaacuWG6bGEgaga WcaiabgkHiTiqbdQha6zaalaWaaSbaaSqaaabdMgaPbqabaaakiaawEa7caGLiWoaaawIcacaGLPaaaa@49B7@ ,其中(…)是二元标准正态密度。使用(f)(x个)和(f)()成为…的边缘(f)( z(z) 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaakaacuWG6bGEgaWcaaaa@2E3D@ ),MI是:

( { x个 } { } ) = 1 日志 (f) ( x个 ) (f) ( x个 ) (f) ( ) ( 2 ) 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGacaGaaeqabaqababeGadaakaacqWGjbqsdaqadaqaamaacmaabaGaemiEaG3aaSbaaSqaaabdMgaPbqaabaaakiaaawUhacaGL9baacqGGSaldaGadaqaaiabadMha5naaBaaalaacqWGbqAaeqaaaGccaGL7bGaayzFaaaacaGLOAGaayzkaaGaeyypa0ZaaaaaacqaXaqaaacaqaacqaaacqaqaqabdMga PbqaqaaaqaGGSbaBcqGGGVbWBcqGNbWzdaWca aqaaiabdAgaMnaabmabaGaemiEaG3aaSbaaSqaaibdMgaPbqabaGccqGgsalcqWG5bqEdaWgaaWcbaGaemyAaKgabeaaaaOGaayjkaiawMcaaaqaaaaabdAgaMpabaGaemiEAG3aasbaaSbaaqaaabdMgaP bqaaaaaaaaakaaawIcaaGLPaaacqWGMbgzdaqaaaiabdMha5naaBaaaaaacqWGPbqaAaqaaaGgloaaGglobaGaayzkaaaaaaaawcbaWcba GaemyaKgabqaqaacqaGris 5AOGaaCzcaiaaxMaadachaaibikdaYaGaayjkaiaaw-Mcaaaaa@5EEE@

由于MI是重参数化不变量,因此我们进行了copula变换(即等级顺序)[8]x个MI估计;因此,这些变换变量的范围介于0和1之间,它们的边际概率分布明显一致。这减少了微阵列数据预处理中所涉及的任意变换的影响,并且无需考虑位置相关的核宽度,小时,对于非均匀分布的数据可能更可取。

对于空间均匀的小时,高斯核MI估计量对于→ ∞, 只要小时() 0和[小时()]2→ ∞. 然而,对于有限,偏差很大程度上取决于小时()正确的选择并不普遍。幸运的是,ARACNE的性能并不直接取决于MI估计的准确性,而是关于MI等级估计的准确性。例如,确定MI是否具有统计显著性需要测试 ij公司 0,其中0是统计显著性阈值。同样,DPI(见下文)只需要对MI进行排名。

对MI等级进行可靠估计是一项容易的任务。来自离散变量MI估计的工作[13],我们预计,对于采样良好的边缘和采样不足的关节,偏差为bb(Ī小时)(其中条形表示真实MI)。这种偏差几乎抵消了类似MI值;MI估计的排序仅弱依赖于小时即使MI本身不确定,也保持稳定(图1). 因此,单个“集合最佳”值为小时可以使用,而不是为每个估计优化内核宽度(计算密集型操作)。该结果是通用的,应适用于任何基于MI等级的方法。然而,我们强调,由于这一结果在很大程度上是经验性的,因此在依赖此结论之前,应重新评估具有显著不同统计特性的数据集的MI等级对平滑强度的依赖性。

图1
图1

高斯核宽度变化时的MI和MI秩估计误差将估计二元正态密度互信息的平均绝对百分比误差与随机抽样对的相对互信息值排序的误差百分比进行比较,其中真实MI值较低的分布在较高值分布的70%至99%之间。MI估计误差(蓝色虚线)对估计器使用的高斯核宽度的选择非常敏感,并且在非最佳参数选择时迅速增长。然而,由于具有相近MI值的分布具有相似的偏差,MI对的排序误差(实线红线)对该参数的选择不太敏感。这些平均值是使用1000个具有随机均匀分布相关系数的双变量正态密度样本得出的ρ [0.1,0.9],这样 ¯ = 负极 1 2 日志 ( 1 负极 ρ 2 ) 数学类型@MTEF@5@5@+=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vir0dc8meaabaciGacaGaaeqabacaqababaqabaqabeGadaakaacuWGj bqsgaqeaiabg2da9iabgkHiTmaaliaabaGaeGymaedabaGaeGOmaidaaiGbcYgaSjabc公司+gaVjabcEgaNnaabmaabaGaeGymaeJaeyOeI0IaeqyWdi3aaWbaaSqabeaacqaiYaGmaaaakiawIcacaGLPaaaaaa@3C35@ 这导致MI值的分布与实际微阵列数据的分布非常相似。

相互信息的统计阈值

由于MI始终是非负的,因此,即使对于事实上相互独立的变量,随机样本的评估也会给出正值。因此,我们消除了所有不能排除相互独立基因无效假设的边缘。在这种程度上,我们在不同的微阵列图谱中随机改变基因的表达,类似于[6]评估这些明显独立的基因的MI并指定一个p值,第页,至MI阈值,0,通过经验估算以下估算的分数0。这是针对不同样本大小进行的和105基因对,以便可靠估计0(第页)生产量达到第页= 10-4。使用以下方法外推较小的p值 第页 ( 0 | ¯ = 0 ) e(电子) 负极 α 0 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=Vr0dc8meaabaqaciGacaGaaeqabaqabeGadaakaacqWGWbaCcqGGOaakcqWGjbqscqGHLjYScqWGjbqsdaWgaaWcbaGaeGimaadabaakiabcYha8jqbdMeajzaaraGaeyypa0JaeGimaaJaeiykaKIaeyyyyyhIuRaemyzaau2aaWbaaSqabeaacqGHsislcqaHXoqycqWGnbqtcqWGjbqsdaWgaaadbaGaeGimaadabaaaaaaaaaaaa@4275@ ,其中参数α根据数据进行拟合。这个公式是基于大偏差理论的直觉[14]对于离散数据和无偏估计 第页 ( 0 | ¯ = 0 ) e(电子) 负极 0 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaciGababeGadaakaacqWGWbaCcqGGOaakcqWGjbqscqGHLjYScqWGJbqsdaWgaaWcbaGaeGimaadabeaakiabCYha8jqbdMeajzaaraGaeyypa0JaeGimaaJaeiykaKIaeyyhIuRaemyzau2aaWbaaSqaqabeacqWGj@ .由于连续情况下的MI可以通过精细离散变量来估计,因此应保持类似的结果,并且α在固定条件下估计量可能存在偏差的原因小时这与数值实验非常一致(参见附加文件1:确定相互信息的统计显著性)。

数据处理不平等

DPI(图2) [14]说明如果基因13只通过第三个基因相互作用,2,(即,如果交互网络1↔ ... ↔2↔ ... ↔3并且之间不存在替代路径13),然后

图2
图2

数据处理不等式示例.(a) 123,以及4以线性链关系连接。尽管所有六个基因对可能都丰富了相互信息,但DPI将推断出最可能的信息流路径。例如,13将被淘汰,因为(12) >(13)和(23) >(13).24将被淘汰,因为(23) >(24)和(34) >(24).14将以两种方式消除:第一,因为(12) >(14)和(24) >(14),然后因为(13) >(14)和(34) >(14).(b)如果底层交互形成树(MI可以无误地测量),ARACNE将通过删除所有虚假候选交互(蓝色虚线)并保留所有真实交互(黑色实线)来准确重建网络。

(13)≤最小值[(12);(23)].     (3)

因此,三种MIs中的最少一种只能来自间接相互作用,根据DPI检查可以确定哪些基因对φ ij公司 =0,尽管P(P)( j ) ≠P(P)( )P(P)( j ). 相应地,ARACNE以网络图开始,其中每个网络图 ij公司 >0由边表示(ij公司). 然后,该算法检查所有三个MIs都大于的每个基因三联体0并删除值最小的边。对每个三元组进行分析时,不考虑其边缘是否已标记为通过之前对不同三元组的DPI应用移除。因此,由该算法重建的网络与检查三元组的顺序无关。

由于这种方法只关注成对相互作用网络的重建,一对相互独立的基因, ij公司 <0,将永远不会被边缘连接。因此,由对应的成对电位为零的高阶电位表示的相互作用将无法恢复(见讨论)。此外,即使对于二阶交互网络,也可以想象这样一种情况,即通过其他节点的间接交互正好抵消了直接交互的影响,从而导致φ ij公司 ≠0和P(P)( j ) ≈P(P)( )P(P)( j ). 阿拉伯国家石油公司不会确定这种情况。然而,我们认为这种精确的抵消在生物学上是不现实的,以下定理规定了ARACNE精确重建网络的条件。所有定理的证明见附录A。

定理1

如果可以无误差地估计MI,那么ARACNE将准确地重建底层交互网络,前提是该网络是一棵树,并且只有成对交互。

然而,与标准树重建方法不同(例如Chow和Liu[15]),ARACNE不仅限于树,还可以生成包含许多循环的复杂结构。事实上,由于以下两个定理,ARACNE可以被视为Chow-Liu算法的自然推广,它克服了后者的生物-非现实树假设。

定理2

Chow-Liu(CL)最大互信息树是ARACNE重构网络的一个子网络。

定理3

π 伊克 是网络中节点之间形成最短路径的节点集k个然后,如果MIs可以无误差地估计,ARACNE将重建一个没有假阳性边的交互网络,前提是:(a)该网络仅由成对交互组成,(b)对于每个交互j π 伊克 ij公司 伊克 此外,ARACNE不会产生任何假阴性,网络重建是准确的若(iff)(c) 对于每个直接连接的线对(ij公司)以及任何其他节点k个,我们有 ij公司 ≥最小值( jk公司 伊克 ).

树网络满足定理3的所有条件,而包含回路的拓扑可以满足也可以不满足。特别是,具有三个基因环的网络肯定违反了(c)[但仍可能满足(a)和(b)],并且每一个这样的环路将沿着最弱的边缘打开。对于树,有一个连接两个节点的唯一路径。类似地,对于满足(a)和(b)的网络,最短路径支配节点间的信息传输。我们称这些网络为局部树状换句话说,当且仅当通过网络图上的一个或多个中介体或分支不存在替代路径时,ARACNE才保留交互作用,这更好地解释了两个基因之间的信息交换。由于生物化学动力学本质上是随机的,在多个分离边上的统计相互作用通常较弱。因此,我们认为局部树假设在生物学上是现实的,我们期望ARACNE在实践中产生较低的假阳性率。

最后,为了最小化MI估计量方差的影响,τ,可以引入这样的DPI不等式形式 ij公司 伊克 (1 -τ)和MI的闭合值未被修剪。对于低值τ(<15%)在真阳性和假阳性之间实现了合理的权衡(参见附加文件2:预测误差是DPI容差的函数)。该阈值在质量上与MI估计值的方差相匹配,并随样本大小的增加而减小。使用这种非零容忍导致一些3基因环的持续存在。

算法复杂性

因为对于一个N个那里的基因最多N个选择3个基因三联体,ARACNE的复杂性是O(运行)(N个3+N个22),其中是样本数N个是基因的数量。第一项涉及DPI分析,第二项涉及互信息估计。这与必须探索指数搜索空间的优化方法相比是有利的(参见比较算法)。在实践中,DPI应用于三元组的一个小子集,其中所有三条边都通过了互信息阈值。因此,对于大型,计算密集型部分通常与第二项(计算相互信息)相关联,其规模为O(运行)(N个22). 因此,ARACNE可以有效地分析具有成千上万个基因的网络。

结果

我们研究了ARACNE在重构一类由[16]基因表达谱数据中的人类B淋巴细胞遗传网络。后者已在[17]这里只做简要介绍。将ARACNE的性能与相关网络(RN)和贝叶斯网络(BN)进行了比较。RN对于描述与引入DPI相关的改进非常重要,而BN已成为一些最广泛使用的逆向工程方法,并提供了理想的比较基准。

比较算法

A类贝叶斯网络是将JPD表示为有向非循环图(DAG),其顶点对应于随机变量{X(X)1,...,X(X) n个 },其边对应变量之间的父子依赖关系;参见[10]介绍和[18]获取更新的教程。我们根据[1920]。特别是,我们使用贝叶斯评分指标对图表进行评分[21]其中,我们在图上采用统一的先验,并在参数上使用Dirichlet先验,以帮助推断给定父母的儿童的欠采样条件分布。这种方法固有地惩罚更复杂的图形。学习最可能的网络需要探索整个图形空间以获得得分最高的模型,这是一个NP完全问题[22]。因此,启发式过程被用来搜索局部最优的图结构。这里的比较测试使用了随机重启的贪婪爬山算法(对模拟退火和其他结构搜索方法进行了测试和观察,以产生类似的结果)。这些结果是使用LibB软件包生成的[23],这是该方法的最佳实现之一。

相关性网络[6]计算微阵列数据集中所有基因对的互信息,并推断如果两个基因的MI高于某个阈值,则这两个基因在生物学上是相关的。该方法相当于ARACNE算法中的第一步(即无DPI);然而,我们使用了比原始实现更准确的MI估计程序,并进一步发展了分配统计显著性的方法。

合成网络

网络规范

我们使用Mendes等人提出的合成转录网络对这三种算法进行基准测试[16]作为逆向工程算法比较的平台。这些网络由100个基因和200个相互作用组成,或者在Erdös-Rényi(随机网络)中组织[24]或无标度[25]拓扑(图3). 在前者中,图的每个顶点都有可能连接到任何其他顶点;在后者中,连接数的分布,k个,与每个顶点关联时遵循幂律,第页(k个) ~k个-γ具有γ>0和大型交互中心存在。许多真实的生物网络似乎表现出这种结构[26].

图3
图3

Mendes提出的100个基因调控网络的拓扑蓝色/红色边缘对应激活/抑制。对于Erdös-Rényi拓扑(a)每个基因都有可能与其他基因连接,而无标度拓扑(b)其特点是具有许多连接的大型交互中心。

门德斯模型使用乘法希尔动力学来近似转录相互作用:

d日 x个 d日 t吨 = j = 1 N个 K(K) j n个 j K(K) j n个 j + j n个 j = 1 N个 A类 ( 1 + A类 A类 K(K) + A类 ) 负极 b x个 ( 4 ) 数学类型@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrp9MDH5MBPbIqV92AaeXtLxBI9gBaebbnrifHhDYfgasaacH8akY=wiFfYdH8Gipec8eeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=目录0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqababeGadaaaakaadaWcaaqaaiabadaKjabdIha4naaBaaaleaacqWGPbqAaeqaaaGcbaGaemizaqMaemiDaqhaaiabg2da9iabdggaHnaaBaaleaacqWWPbqaeqaaaOwaebCaeaadaWcaaqueaaiabadMeajjabdUealnaaaDaaaacqWGUbdaWgaadbaGaemOAaaqaaaaaaaaaqaaaqaqaacqAWcqbqaqbWsdaqaaa WcbaGaemOAaOgabaGaemOBa42aaSbaaWqaaibdQgaQbqabaaaaaOGaey4kaSIaemysaK0aa0baaSqaaabdQgaqabd6gaUnaaBaaamaaaacqWGQbGAaeqaaaaaaaaleaacqWGQb GAcqGH9aqpcqaIXaqmaeaacqWGobGtdaWgaaadbaGaemysaKeabaaa0Gaey4dIunakamarahabaWaaeaaaWaaaaqaqaXaqmcqGHRaWkda WcaaaaaaadgeabanaaDaaaacq WGSbaBaeaacqWGTbqBdaWgaaadbaGaemiBaWgabeaaaaakaacqWGbbqqcqWGlbWsdaqaaWcbaGaemi BaWgabaGaemyBa02aaSbaaWqaaabdYgaSbqabaaaaaaaOGaey4kaSIaemyqae0aa0baqaaaiabdYga Sbqaaibd2gaTnaaBaaaaacqWWSbaeqaaaaaaaawIcacaGLPaaacqGHsislcqWGIbGydaWgaaWcba GaemyAaKgabeaabdIha4naa BaaaleaacqWGPbqAaeqaaOGaeiilaWcaleaacqWGSbaBcqGH9aqpcqaIXaqmaeacqWGobGtdaWgaaadbaGaemyqaeabeaaaa0Gaey4dIunakiaaxMaacaWLjaWaaeWaaeaacqa0aaaawIcacaGLPaaaaaa@7D47@

哪里x个 -th基因,N个 N个 A类 分别是上游抑制剂和活化剂的数量,其浓度为 j A类 。所有其他参数在中指定[16].

我们获得每个基因的合成表达值x个 在每个微阵列中 k个 通过模拟其动力学直到系统松弛到稳定状态 x个 ˙ 0 数学类型@MTEF@5@5@+=feaafart1ev1aqatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaaajaaOcuWG4baEgaGaaOwaaSbaaSqaaabdMgaPbqabaGccqGHijYUcqaiWaamaaa@3314@ 在每次模拟之前,合成和降解反应的效率因设置而异 =λk个 ¯ 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabebeGadaaaakaacuWGHbqygaqeamaaBaaaleaacqWGPbqAaeqaaaaa@2F98@ b =γk个 b ¯ 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=在2F9A时,Vr0dc8米@ ,其中 ¯ 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabebeGadaaaakaacuWGHbqygaqeamaaBaaaleaacqWGPbqAaeqaaaaa@2F98@ b ¯ 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaacacuWGIbGygaqeamaaBaaaleaacqWGPbqAaeqaaaaa@2F9A@ 是参数的原始常数值,以及λk个γk个是均匀分布在[0.0,2.0]中的随机变量。请注意λk个~0.0对应于基因敲除,而λk个2.0是合成速率的2倍。该参数随机化模拟了在随机时间点(在或接近平衡点)对不同细胞表型群体的采样,正如后面描述的B细胞实验一样,由于温度、营养物质、,尽管这个模型是对真实生物网络的一个明显简化,但它形成了一个相当复杂的交互网络,捕获了一些转录调控元素,并且在这个模型上表现不佳的算法在更复杂的情况下不太可能表现良好。在这个模型中,相互作用被明确定义为一个基因对另一个基因的直接调节作用。因此,可以通过比较模型中推断的统计交互与直接交互来研究逆向工程算法的性能。我们特别注意到,据我们所知,这是首次尝试基于已发布的客观标准对网络逆向工程算法进行基准测试。

性能指标

由于遗传网络稀疏,潜在的误报(N个 FP公司 )也就是说,确定两个没有直接调控联系的基因之间不可还原的统计交互作用,远远超过潜在的真阳性(N个 TP(转移定价) ) [27]。因此特异性,N个 TN公司 /(N个 FP公司 +N个 TN公司 )通常用于ROC分析,这是不合适的,因为即使与值1的微小偏差也会导致大量假正数。因此,我们选择了两个密切相关的指标,精确度和召回率。召回,N个 TP(转移定价) /(N个 TP(转移定价) +N个 FN公司 ),表示算法正确推断的真实交互的分数,而精度,N个 TP(转移定价) /(N个 TP(转移定价) +N个 FP公司 ),测量所有推断的真实交互的分数。注意,精度对应于预测交互作用的实验验证中的预期成功率。因此,将使用精确重新校准曲线(PRC)评估性能。ARACNE和RN的PRC是通过调整p值或MI阈值生成的。由于DPI消除了一些互动,即使在第页0= 1. 为了达到100%召回,DPI公差,τ可以调整,直到ARACNE的PRC退化为RN。对于贝叶斯网络,可调参数是狄利克雷伪计数,并且,我们再次观察到最大召回率从未达到100%。

绩效评估

如图所示4ARACNE的精密度和召回率始终优于其他测试方法。也就是说,对于任何合理的准确度(即>40%),ARACNE的召回率明显高于其他方法,在显著的召回率水平下,其准确度达到~100%。对于较大的p值,ARACNE开始快速增加假阳性的数量,而真阳性的数量没有相应增加(ARACNE's PRC的右尾)。这可能是因为当接受非统计显著的MI值时,随机波动可能会任意改变MI等级,从而使DPI随机消除相互作用。我们注意到,ARACNE的PRC变化始于第页0约10-4,正是我们期望算法开始推断如此规模的网络的大量非统计重要交互的位置。这表明可以选择MI阈值的合理值,从而产生接近最佳的结果先验的使用基于潜在网络相互作用数量的Bonferroni修正p值。

图4
图4

门德斯网络生成的1000个样本的精确度与召回率.(a)Erdös-Rényi网络拓扑。(b)无标度拓扑。ARACNE的PRC始终优于其他算法,在保持高召回率的同时,精确度达到~100%。ARACNE和RN的PRC上对应的点第页0=10-4(4950个潜在交互作用的值yieding<0.5的预期误报)用箭头表示。

通过分析MIs的分布,将其作为连接每个基因对的最短路径长度(连接性程度)的函数,可以更好地理解ARACNE的高性能。ARACNE依赖于MI的富集,以获得直接相互作用的基因,并随着距离的增加而迅速减少。5演示了模拟数据集的这些属性。对于分离直接和间接相互作用基因的MI阈值,没有唯一的选择,而尝试使用单个阈值的方法,如RN,要么会恢复许多间接连接,要么会丢失大量直接连接。然而,由于互信息随着信号在网络上传输而迅速减少,DPI有效地消除了相应JPD未分解的间接交互。对于所有测试的合成微阵列大小和两种网络拓扑,与其他方法相比,ARACNE可以恢复更多的真实连接和更少的虚假连接(表1). 值得注意的是,在所有情况下,DPI的应用几乎消除了关联网络推断的所有间接候选交互,而真正的交互很少。我们注意到,由于ARACNE的性能会随着本地拓扑与树的显著偏离而降低,因此它在Erdös-Rényi上的性能略好于在无标度拓扑上的性能,而在无标尺拓扑中,小循环更为常见。重构无标度拓扑的另一个挑战来自于具有高度的大型集线器的存在,这些集线器与其单个邻居之间的MI很小(因此很难估计)。然而,即使在无标度拓扑上,ARACNE仍然表现得非常好,因为该网络中的信号去相关相当快,所以即使在存在相对紧的环路的情况下,树状结构的统计特性也能在局部保持(见定理3)。我们注意到,ARACNE与树重建方法有很大不同,因为无标度网络(使用1000个样本)的重建拓扑包含约30个大小小于4的回路(有关回路计数算法的描述,请参阅附录C)。

图5
图5

无标度拓扑中基因间不同长度最短路径的互信息分布在这里,我们绘制了一个经验概率的对数,即给定基因间分离的MI高于水平轴上标记的某个值(以nats为单位)。较高的MI值对于更接近的基因来说更可能发生。统计显著性阈值为10-4对于背景MI分布,对应于0=0.0175 nats,标记在图表上。如图所示,该阈值保留了大量的间接候选交互,并且没有能够区分间接交互和直接交互的阈值;消除大多数前者(红色箭头)的阈值也会消除大多数后者。这会严重降低RN的性能。(插图)具有3个或更多中间体的934个基因对MI分布的扩大对数视图,以及蒙特卡罗计算的背景分布。这些曲线几乎无法区分,表明背景分布可用于获得可靠的统计显著性阈值估计值,以筛选具有较高连接性的基因。类似的结果适用于Erdös-Rényi拓扑(参见附加文件3:Erdös-Rényi拓扑不同最短路径长度的MI分布)。

表1从门德斯网络生成的不同数量样品的回收率,在消除自循环和双向边缘后,平均包含约194个真实交互。

总之,ARACNE似乎(a)实现了非常高的精度和实质性的召回,即使对于很少的数据点(125),(b)允许参数h(高斯核宽度)的最佳选择(图6)和0(统计阈值),(c)在参数选择方面非常稳定,(d)对包含许多回路的复杂拓扑进行稳健重建。

图6
图6

高斯核宽度变化时的综合网络重构误差。推断错误的总数(N个 FP公司 +N个 FN公司 )在重建门德斯网络时,相对于估计器核宽度的选择而言,它是稳定的,从而验证了以下观察结果,即相对于该参数的变化,MI的排名比MI估计更稳定(图1). 为每个样本数选择核宽度,以最小化双变量高斯密度(用菱形表示)的平均绝对MI估计误差,从而对所有样本大小的网络进行最优或接近最优的重建。统计显著性阈值为10时计算结果-4对于无标度网络拓扑。

人B细胞

尽管大的基因表达数据集,例如源自对简单生物体的系统扰动的那些数据集(例如[5])哺乳动物细胞不容易获得,我们建议通过使用一组给定细胞类型的显著自然发生和实验产生的表型变异,可以有效地实现等效的动态丰富度。为此,我们组装了一个表达谱数据集,由来自正常、肿瘤相关和实验操作人群的大约340个B淋巴细胞组成(有关详细描述,请参阅[28]).

使用ARACNE对该数据集进行反褶积,以生成由约129000个相互作用组成的B细胞特异性调控网络。由于c-MYC原癌基因是整个网络中最大的5%细胞中心之一,并且在文献中被广泛描述为转录因子,我们通过将我们的方法推断出的网络相互作用与之前通过生物化学方法识别出的相互作用进行比较,对整个网络质量进行了首次验证。这个生物信息学生成的网络在已知的c-MYC靶点中高度富集;在56个预测为第一邻居的基因中,有29个(51.8%)之前在文献中报道过,或者在我们的实验室使用染色质免疫沉淀作为c-MYC靶点进行了生化验证。这具有统计学意义(P(P)= 2.9 × 10-23通过χ2test)关于随机选择的基因中预期11%的背景c-MYC靶点[29]。此外,已知的c-MYC靶基因在第一个邻居中的富集程度显著高于第二个邻居(分别为51.8%和19.4%),这表明ARACNE能够有效地将直接调控相互作用与间接调控相互作用分离开来。与完整网络结构相关的生物学结果在[17].

讨论

ARACNE由统计力学驱动,基于信息论方法,在受控近似集下提供了可证明精确的网络重建。虽然我们已经证明,即使对于复杂的哺乳动物基因网络,这些近似也是合理的,但对于某些控制结构,它们可能会导致算法失败。首先,ARACNE将沿着最弱的相互作用打开所有三个基因环,从而为相互作用基因的三联体引入假阴性(尽管使用非零DPI阈值时可能会保留一些)。为了解决这一问题,正在对算法进行改进。其次,通过截断公式(1)在成对相互作用中,ARACNE不会推断出不表示为成对交互作用势的统计相关性(例如任何基因对之间的MI为零的XOR布尔表)。通过展开方程式(1)为了包括三阶和高阶势,我们的公式原则上也可以扩展到区分高阶相互作用[30]。然而,我们注意到在实践中(即生物化学)很难生产只有在不引入低阶依赖项的情况下进行高阶交互[9]哈密顿量的截断不太可能在识别基因对之间的相互作用时产生严重的系统错误。事实上,门德斯网络包含更高阶的相互作用,但相应的成对相互作用可以有效地恢复。ARACNE的另一个限制是无法推断边缘方向性,尽管我们认为这是所有不使用时间数据的方法的一般限制。我们打算研究一种双层方法,其中首先推断无定向基因相互作用,然后通过回归算法或特定生化扰动评估边缘方向性。

由于mRNA丰度测量仅作为相互作用分子物种(即活化蛋白浓度)的代理,与ARACNE确定的不可还原统计依赖性相对应的物理相互作用类型并不总是明确的。例如,如果转录因子的活性主要由激活酶介导,而不是由其mRNA丰度水平的变化介导,我们希望ARACNE能够确定该酶与转录因子的靶基因之间的依赖性。此外,参与稳定复合物形成的蛋白质可能会违反算法的假设。由于细胞产生稳定复合物(例如核糖体单元)中所涉及的蛋白质的化学计量平衡浓度在能量上是有效的,进化对这些蛋白质的转录控制进行了微调,以使其浓度达到平衡。因此,无论可能控制其表达的几个转录因子(TF)的浓度如何,最终蛋白质浓度之间的相关性通常高于每个蛋白质和每个单独TF之间的相关性。这违反了定理3的假设,并在涉及稳定复合物形成的蛋白质对之间产生了不可约的统计交互作用。因此,虽然我们注意到,如果分析高阶依赖性,这种情况将得到正确处理,但我们期望某些边缘与蛋白质相互作用相对应。

最后,我们以以下观察结束。由于ARACNE对于具有许多紧环的拓扑可能会失败,因此重要的是要了解分析的拓扑实际上是否是局部树状的,因此,重建是可信的。我们建议两种启发式方法。首先,回路拓扑在重建后继续具有更多回路(结果未显示)。因此,去卷积网络中过多的环路应作为警告标志(附录C);需要进行更多分析,以确定此统计数据的可接受范围。其次,与目前的分析一样,ARACNE(或任何其他计算算法)的预测应该直接通过实验验证。

结论

ARACNE的目标不是恢复全部的基因网络中的转录相互作用一些高置信度的转录相互作用。在此范围内,ARACNE克服了一些限制,这些限制阻碍了先前方法在哺乳动物网络全基因组分析中的应用。它具有较低的计算复杂度,不需要表达式级别的离散化,并且不依赖于不切实际的网络模型或先验的假设。该算法可以应用于任意复杂的转录网络或任何其他交互网络,而不依赖于启发式搜索过程。因此,我们预计ARACNE非常适合哺乳动物基因调控网络,其特征是复杂的拓扑结构,不受益于定义明确的补充数据(如可用于酵母的全面蛋白质相互作用数据库),并且更难通过实验操作,严重阻碍了基于时间序列的方法可以应用的数据的获取。目前还没有从微阵列表达谱推断出全基因组哺乳动物网络的其他例子。

ARACNE在重建一个旨在模拟转录相互作用的合成网络方面的高精度,以及对人类B细胞中已知转录因子c-MYC的bona-fide靶点的推断,表明ARACNEs有望在哺乳动物网络中识别低假阳性率的直接转录相互作用,这对所有逆向工程算法来说都是一个明显的挑战。需要进行更多研究,以准确描述与ARACNE确定的不可约统计相关性相对应的其他类型的交互作用。我们建议,ARACNE的预测可以与其他数据模式结合使用,如全基因组定位数据、DNA序列信息或靶向生物化学实验,以实现这一详细程度。我们计划使用模型生物平台以及模拟模型的扩展来研究这种可能性。然而,基于对模型生物的靶向扰动的研究表明,利用概念性的“基因-基因”网络来阐明细胞过程的功能机制是有希望的[31]以及确定药理化合物的分子靶点[32]。ARACNE可提供一个框架,以在哺乳动物环境中实现此类应用。

附录

附录A–定理证明

定理1

如果可以无误差地估计MI,那么ARACNE将准确地重建底层交互网络,前提是该网络是一棵树,并且只有成对交互。

定理证明1

首先,请注意,对于每对节点k个没有通过真正的直接交互连接,至少还有一个其他节点j这将它们在网络树上分开。将DPI应用于(ijk公司)三联体导致(伊克)边缘。因此,只有真正的边才能生存。类似地,每个删除的边都不存在于真正的网络中(ijk公司)三胞胎。比如说,其中一个节点j,可能会将其他两个分开。在这种情况下,移除的边缘(伊克)显然不是在真正的树上。或者,可能没有分离节点,并且一个节点可以在三元组中的任何一对之间移动,而无需经过第三个节点。在这种情况下,三条边都不在真图中,DPI删除的任何边都是虚构的。因此,所有移除的边都是间接的,而所有剩余的边都属于事实。网络是精确重建的。

定理2

Chow-Liu(CL)最大互信息树是ARACNE重构网络的一个子网络。

定理证明2

我们注意到,在不损失一般性的情况下,我们可以假设Chow-Liu树和ARACNE构造跨越网络的所有节点。如果不是这样,即存在一些连接的簇(由零MI的边分隔),然后,为了这个定理的目的,我们可以用相同的边完成CL和ARACNE结构,MI为零,而不需要形成额外的环,直到它们成为跨越。现在假设定理是错误的,并且存在一条边(ij公司)属于(已完成的)CL树,但不属于ARACNE重建。由于CL构造是一棵树,因此此边将其分为两棵单独的树T型 T型 j 包含j'个节点。由于ARACNE已删除(ij公司)链接,存在一个节点k个,其中min( 伊克 jk公司 ) > ij公司 .在不失一般性的情况下,让k个加入T型 。然后更换(ij公司)在Chow-Liu树的边缘(jk公司)边不会形成循环,并将保留树结构。这将增加CL重建的总MI jk公司 - ij公司 > 0. 因此,原始树不是最大MI树。我们得出了一个矛盾,它证明了这个定理。

定理3

π 伊克 是构成网络中节点之间最短路径的节点集k个然后,如果MIs可以无误差地估计,ARACNE将重建一个没有假阳性边的交互网络,前提是:(a)该网络仅由成对交互组成,(b)对于每个交互j π 伊克 ij公司 伊克 此外,ARACNE不会产生任何假阴性,网络重建是准确的若(iff)(c) 对于每个直接连接的对(ij公司)以及任何其他节点k个,我们有 ij公司 ≥最小值( jk公司 伊克 ).

定理证明3

为了证明不存在假阳性,我们注意到,对于每个候选边(伊克)这实际上不在网络中,至少有一个节点j,因此j π 伊克 .将DPI应用于(ijk公司)三胞胎会把(伊克)边缘。此外,我们注意到,如果满足(c),则DPI的任何应用都不会删除真正的边。但是,如果(c)不成立,则将删除真正的边。这就完成了证明。

附录B–图形模型和统计物理的关系

本文中使用的依赖性的定义是基于JPD中耦合相互作用基因的潜力的存在,

P(P) ( { } ) = 1 Z轴 经验 [ 负极 φ ( ) 负极 j φ j ( j ) 负极 j k个 φ j k个 ( j k个 ) 负极 ] e(电子) 负极 H(H) ( { } ) ( 5 ) 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciciGacaGaaeqabaqababeGadaaaakaacqWGqbaudaqaadaqaamaacmaabaGaem4zaC2aaSbaaSqaaaiabdMgaPbqaaaakiaaawUhacaGL9baaaawIcacaGLPaaacqGH9aqpdaWcaaqaaiabigdaXaqaaaiAbdQfabaacyGGLbqzcqGGG4baEcqGGWbaCdaWadaqaaiabagkHiTmaaqabababababacciGae8NXdy2a2aabaababaasbaqaaiMgaSbaaBaaqaabaaqaaabdMga PbqababaGcdaqcqWGPbqAaeqaaaGccaGLOAGaayzkaaGaeyOeI0YaaabuaeaacqWFgpGzdaWgaaWcbaGaemyAaKMaemOAaOgabeaakmaaabmaabaGaem4zaC2aaSbaaSqaaabdMgaPbqabaGccqGGSalcqWGNbWzdaWaaWcbagaemOAaOkabeaaaOGaayjkaiaawMcaabgkHiTaWcbaGAemyAakmaeilaWIaemOAa OgabeqdcqGHris5aOwaabaMgaGbqaGqaWgfaGbgaaWcqaWcq cbaGaemyAaKMaemOAaOMaem4AaSgabeaakmaabmaabaGaem4zaC2aaSbaaSqaaiabMgaPbqabaGccqGGSalcqWGNbWzdaWgaaWcbaGaEmOAaOgabeaakiabcYcaSiabdEgaNnaaBaaaleaacqWGRbWAaeqaaaGccaGLoaGaayzkaaaaaaleaaaacqWGPbqAcqGGSaalcqWGRb WAaeqaniabgHiLdaaleaacqWWPbqAaqanibgHiLdGccq GHsislcqWIVlctaiaawUfacaGLDbaacqGHHjIUcqWGLbqzdaahaaWcbeqaaiabgkHiTiabdieaabmaabaWaaiWaaeaacqWGNbWzdaWgaaadbaGaemyAaKgabeaaaaaaaSGaay5Eaiaaw2haaGaayjkaiaawMcaaakiabYcaSiaaxMaacaWLjaWaaeWaaeaaacqaqnaiaawIcacaGLPaaaa@8C14@

类似于图形模型理论中使用的方法,特别是马尔可夫网络(MN)[10]。然而,尽管有一些不同的表述(例如[33])MN的通常实施[10]使用条件依赖的概念构建。例如,在这种情况下,无法将通过三个成对相互作用完全耦合的三个基因群与通过三级依赖性耦合的相同基因以及这两种情况的组合区分开来。因此,许多作者使用一种约定,即如果高阶势φ…出现在方程式中1,则所有仅依赖于由φ……被纳入其中。相比之下[9]接下来,本文旨在区分交互顺序。因此,在我们的案例中,三基因成对循环与三向相互作用是不同的。事实上,已经开发了ARACNE的扩展来处理后者[30]而前者仍需要工作。

正如图形模型文献中所理解的那样,方程式的公式1类似于一些统计力学问题,特别是随机网络上的自旋玻璃[3334]尤其是如果 是二进制的(表达式级别的离散化是处理欠采样的常用技术)。在这种情况下,基因是伊辛自旋,截断到一阶、二阶或三阶势是朝向平均场、贝思和菊池变分近似的步长[333537]。一个重要的区别是,在统计物理学中,人们搜索 P(P) ˜ 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabebeGadaaaakaacuWGqbaugaacaaaa@2DE6@ ({ }),真实JPD的变分近似,P(P)({ }),这将最小化 D类 K(K) L(左) ( P(P) ˜ P(P) ) 选择 日志 P(P) ˜ / P(P) P(P) ˜ 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaakaacqWGebardaWgaaWcbaGaem4saSKaemitaWeabeaakmaabamaabaGafmiuaaLbaGaadaqbbaqaaiabfaqbGaayzcSdaacaGLOAGaayzkaaGaeyyyIO7aaaWaaeaacyGGSbaBcqGGGVbWBcqGGNbWzdaWcgaaaiqbdcfzaaaaaabaGaemiaaaaaaaaaaGaayzkGaawaQYiamaaqabaBaajeaybaGafmuaLbaaGaaaSqabaaaaaaa@41B2@ 在给定的类中 P(P) ˜ 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=在2DE6时,Vr0dc8米@ ,而[9]等于最小化D类 吉隆坡 (P(P)|| P(P) ˜ 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabebeGadaaaakaacuWGqbaugaacaaaa@2DE6@ ). 这是因为统计物理解决了一个直接的问题——计算给定交互网络的各种自旋统计P(P)L(左)是未知的并且不能用于平均。另一方面,我们在这里解决的是反问题——在已知真实边际分布的情况下重建网络。

ARACNE,截断方程式1在二阶势下,是直接问题的Bethe近似的模拟。就像这个近似和相关的信念传播算法[1038],ARACNE可能会因环形拓扑而失败。因此,对于局部树状网络,该算法仍能很好地工作,与统计物理中的相应讨论并行,这是很有吸引力的[38].

附录C–无向邻接矩阵中的计数循环

成对交互网络可以用邻接矩阵表示A类 ij公司 ,其中A类 ij公司 =1,0表示存在或不存在相应的相互作用。为了测试违反“局部树状”假设对算法性能的影响,我们需要能够计算给定网络中的循环数。由于图中的循环总数不等于独立循环数,这一点变得复杂;这是将图形转换为树时需要删除的边数。我们只需要计算独立循环的数量。此外,在所有可能的独立循环的完整集合中,我们感兴趣的是识别具有最小循环的循环(因为小循环具有最高的可能性来违反局部树状假设)。我们建议使用以下算法来近似地解决此任务。

  1. 1)

    我们修剪邻接矩阵中有0个或1个邻居的节点A类(因为这样的节点不能是任何循环的一部分)。

  2. 2)

    我们变换无向网络A类变成定向的B。为此,我们确定每个A类 ij公司 在原始网络中≠0,在新网络中有一个节点(边ij公司由单独的节点表示)。如果原始网络A类 ij公司 =A类 jk公司 = 1,k个,然后B(ij公司),(jk公司)否则=1B(ij公司),(肯尼亚)= 0.

  3. 3)

    我们计算矩阵的整数幂B.如果Tr公司(Bn个)>0,一个或多个循环大小n个存在。对于最小的n个使用循环,我们识别其中一个(随机),记录形成循环的节点,并在中删除其中一个节点B(即边缘A类).

  4. 4)

    我们重复1-3次,直到找不到更多的循环。

工具书类

  1. Eisen MB、Spellman PT、Brown PO、Botstein D:全基因组表达模式的聚类分析和显示。 美国国家科学院程序1998,95(25):14863–14868. 10.1073/pnas.95.25.14863

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  2. 马S-K:统计力学。新加坡:世界科学;1985

    第章 谷歌学者 

  3. van Someren EP、Wessels LF、Backer E、Reinders MJ:遗传网络建模。 药物基因组学2002,3(4):507–525. 10.1517/14622416.3.4.507

    第条 中国科学院 公共医学 谷歌学者 

  4. 弗里德曼N:使用概率图形模型推断蜂窝网络。 科学类2004,303(5659):799–805. 10.1126/科学.1094068

    第条 中国科学院 公共医学 谷歌学者 

  5. Ideker T、Thorsson V、Ranish JA、Christmas R、Buhler J、Eng JK、Bumgarner R、Goodlett DR、Aebersold R、Hood L:系统扰动代谢网络的综合基因组和蛋白质组分析。 科学类2001年,292(5518):929–934. 10.1126/科学292.5518.929

    第条 中国科学院 公共医学 谷歌学者 

  6. Butte AJ,科哈内IS:相互信息相关网络:使用成对熵测量的功能基因组聚类。 Pac-Symp生物计算机2000, 418–429.

    谷歌学者 

  7. Wiggins C,Nemenman一:通过时间序列分析进行过程路径推断。 实验力学2003,43(3):361–370. 10.1177/00144851030433016

    第条 谷歌学者 

  8. 乔·H:多元模型和相关性概念。佛罗里达州博卡拉顿:查普曼和霍尔;1997

    第章 谷歌学者 

  9. 内曼一世:信息论、多元相关性和遗传网络推理。 技术代表NSF-KITP-04–54,KITP,UCSB2004.arXiv:q-bio/0406015 arXiv:q-bio/0406015

    谷歌学者 

  10. 珍珠J:智能系统中的概率推理:似是而非推理网络。加利福尼亚州旧金山:Morgan Kaufmann Publishers,Inc;1988

    谷歌学者 

  11. 珍妮斯·ET:信息论和统计力学。 物理版次1957,106:620–630. 10.1103/物理修订版106.620

    第条 谷歌学者 

  12. Beirlant J、Dudewicz E、Gyorfi L、van der Meulen E:非参数熵估计:综述。 国际数学统计科学杂志1997,6(1):17–39.

    谷歌学者 

  13. 强SP,Koberle R,de Ruyter van Stevenninck R,Bialek W:神经棘波序列中的熵和信息。 物理Rev Lett1998,80(1):197–200. 10.1103/物理版次80.197

    第条 中国科学院 谷歌学者 

  14. Cover TM,Thomas JA:信息理论的要素。纽约:John Wiley&Sons;1991

    第章 谷歌学者 

  15. Chow CK,Liu中国:用依赖树逼近离散概率分布。 IEEE传输信息1968,IT-14公司(3):462–467. 10.1109/TIT.1968.1054142

    第条 谷歌学者 

  16. Mendes P、Sha W、Ye K:用于分析算法的客观比较的人工基因网络。 生物信息学2003,19(补充2):II122-II129。10.1093/生物信息学/btg1069

    第条 公共医学 谷歌学者 

  17. Basso K、Margolin AA、Stolovitzky G、Klein U、Dalla-Favera R、加利福尼亚州A:人类B细胞调节网络的逆向工程。 自然基因2005,37(4):382–390. 1038/ng1532年10月10日

    第条 中国科学院 公共医学 谷歌学者 

  18. 赫克曼D:贝叶斯网络学习教程。 微软研究院1996

    谷歌学者 

  19. Hartemink AJ、Gifford DK、Jaakkola TS、Young RA:使用图形模型和基因组表达数据对基因调控网络模型进行统计验证。 Pac-Symp生物计算机2001, 422–433.

    谷歌学者 

  20. Yu J、Smith AV、Wang PP、Hartemink AJ、Jarvis ED:使用贝叶斯网络推理算法恢复分子遗传调控网络。 第三届系统生物学国际会议2002

    谷歌学者 

  21. 库珀GF,赫斯科维茨E:从数据中归纳概率网络的贝叶斯方法。 机器学习1992,9:309–347.

    谷歌学者 

  22. 小鸡DM:学习贝叶斯网络是NP完全的。从数据中学习:人工智能和统计.编辑:Fisher DaL H.纽约:Springer-Verlag;1996:121–130.

    第章 谷歌学者 

  23. 弗里德曼·N,埃利丹·G:图书馆B 2.1。[http://www.cs.huji.ac.il/labs/compbio/LibB/]

  24. Erdos P,仁义A:关于随机图。 出版数学Debrecen1959,6:290–297.

    谷歌学者 

  25. Barabasi AL、Albert R:随机网络中尺度的出现。 科学类1999年,286(5439):509–512. 10.1126/科学286.5439.509

    第条 公共医学 谷歌学者 

  26. 纽曼医学博士:复杂网络的结构和功能。 SIAM审查2003,45(2):167–256. 10.1137/S003614450342480

    第条 谷歌学者 

  27. 杨MK、特格纳J、柯林斯JJ:使用奇异值分解和稳健回归对基因网络进行反向工程。 《美国科学院院刊》2002,99(9):6163–6168. 10.1073/pnas.092576199

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  28. Klein U、Tu Y、Stolovitzky GA、Mattioli M、Cattoretti G、Husson H、Freedman A、Inghirami G、Cro L、Baldini L、,.:B细胞慢性淋巴细胞白血病的基因表达谱揭示了与记忆性B细胞相关的同种表型。 实验医学杂志2001年,194(11):1625–1638. 10.1084/jem.194.11.1625

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  29. Fernandez PC、Frank SR、Wang L、Schroeder M、Liu S、Greene J、Cocito A、Amati B:人类c-Myc蛋白的基因组靶点。 基因开发2003,17(9):1115–1129. 10.1101/gad.1067003

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  30. Wang K,Nemenman I,Banerjee N,Margolin AA,加利福尼亚州A:人类B淋巴细胞转录相互作用调节剂的全基因组发现。 第十届国际商会会议记录。分子生物学。(RECOMB),威尼斯2006年4月,正在印刷中。

  31. Tegner J、Yeung MK、Hasty J、Collins JJ:反向工程基因网络:将遗传扰动与动力学建模相结合。 《美国科学院院刊》2003,100(10):5944–5949. 10.1073/pnas.0933416100

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  32. Gardner TS、di Bernardo D、Lorenz D、Collins JJ:通过表达谱推断遗传网络并识别复合作用模式。 科学类2003,301(5629):102–105. 10.1126/科学108.1900

    第条 中国科学院 公共医学 谷歌学者 

  33. 耶迪迪亚J:超越平均场理论的独特旅程。高级平均场方法:理论与实践编辑:Opper M,Saad D.Cambridge,MA:麻省理工学院出版社;2001

    谷歌学者 

  34. Mezard M、Parizi G:重新访问Bethe格子旋转玻璃。 欧洲物理杂志B2001年,20:217.2007年10月10日/PL00011099

    第条 中国科学院 谷歌学者 

  35. 伯特利H:超晶格的统计理论。 罗伊律师事务所伦敦A1935,150:552.10.1098/rspa.1935.0122

    第条 中国科学院 谷歌学者 

  36. 菊池R:合作现象理论。 物理版次1951,81:988.10.1103/物理修订版81.988

    第条 谷歌学者 

  37. Opper M、Winther O:从朴素平均场理论到TAP方程。高级平均场方法:理论与实践编辑:Opper M,Saad D.Cambridge,MA:麻省理工学院出版社;2001

    谷歌学者 

  38. Yedidia JS、Freeman WT、Weiss Y:广义信念传播。 神经信息处理系统(NIPS)的进展2001年,13:689–695.

    谷歌学者 

下载参考资料

致谢

这项工作得到了NCI(1R01CA109755-01A1)和NIAID(1R01-AI066116-01)的支持。AAM得到了NLM医学信息学研究培训计划(5 T15 LM007079-13)的支持。

作者信息

作者和附属机构

作者

通讯作者

与的通信安德烈亚·卡里瓦诺.

其他信息

作者的贡献

AAM:进行研究,设计研究,参与算法设计,撰写手稿。IN:设计理论框架,参与算法设计,撰写手稿。KB:执行生化验证。CW:参与研究设计。GS:参与算法设计和验证。RDF:监督和设计生化验证。AC:设计算法,监督研究,撰写手稿。所有作者阅读并批准了最终手稿。

电子辅助材料

12859_2006_1290_MOESM1_ESM.eps公司

附加文件1:相互信息统计显著性的确定。对于不同的核宽度和样本大小,使用蒙特卡罗模拟将P值分配给MI阈值()和105基因对,以便产生可靠的估计第页= 10-4(实线)。使用以下方法外推较小的p值 第页 ( 0 | ¯ = 0 ) e(电子) 负极 α 0 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqababeGadaakaacqWGWbaCcqGGOaakcqWGjbqscqGHLjYScqWGJbqsdaWgaaWcbaGaeGimaadabeaakiabCYha8jqbdMeajzaaraGaeyypa0JaeGimaaJaeiykaKIaeyyhIuRaemyzau2aaWbaaSqabeacqGHsislcqaHXoqycqWGnbqtqcqWGj bqsda WgaaadbaWgaadbaGaeGiMaadabeaakaaa@4275@ (虚线)。(EPS 10 KB)

12859_2006_1290_MOESM2_ESM.pdf

附加文件2:预测错误作为DPI容差的函数。推断错误的数量,N个 FP公司 +N个 FN公司 ,绘制为DPI公差的函数,τ,用于(a)Erdös-Rényi和(b)无标度拓扑。提高τ值为0.2会导致误报率适度增加,而值越大τ产生更大幅度的增长。因此,适度选择耐受性有助于阐明额外的相互作用,而不会引入过多的假阳性。统计显著性阈值为10时计算结果-4以及1000个合成微阵列。(PDF 14 KB)

12859_2006_1290_MOESM3_ESM.eps

附加文件3:Erdös-Rényi拓扑不同最短路径长度的MI分布。红色和黑色箭头在图例中有说明5。由于没有大型的学位中心,去相关比无标度网络慢,即使是第五个邻居的MI统计数据也可以从背景中区分出来。(每股收益61 KB)

权利和权限

本文由BioMed Central Ltd.授权发布。这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

马戈林,A.A.,尼曼,I.,巴索,K。等。ARACNE:在哺乳动物细胞环境中重建基因调控网络的算法。BMC生物信息学 7(补充1),S7(2006)。https://doi.org/10.1186/1471-2105-7-S1-S7

下载引文

  • 出版:

  • DOI程序:https://doi.org/10.1186/1471-2105-7-S1-S7

关键词