摘要

总结:网络成分分析(NCA)是一种从基因表达数据和TF基因结合连接性网络推断转录因子(TF)活性和TF-基因调控控制强度的方法,由于数据分解中的可识别性限制,该方法可以分析与总样本大小相等的最大数量的调节器。因此,源信号成分的总数仅限于实验总数,而非生物调节剂的总数。然而,那些转录组数据点少于监管机构数量的网络值得关注。因此,有必要建立一个理论基础,以允许基于相对较少的数据点提取实际的源信号。另一方面,这种方法本身会增加导致多重解决方案的数值挑战。因此,需要解决这两个问题。

结果:我们改进了NCA用于转录因子活性(TFA)估计,这是基于大多数基因只受少数TF调节的观察结果。这个观察结果导致了一个新的可识别性准则的推导,该准则在数值迭代期间进行了测试,当TF的数量大于实验数量时,该准则允许我们分解数据。为了证明我们的方法适用于真实的微阵列数据并具有生物实用性,我们分析了酿酒酵母细胞周期微阵列数据(73个实验),使用从ChIP-ChIP结合数据导出的TF-基因连接网络(96个TF)。我们将NCA分析的结果与ChIP-ChIP回归方法的结果进行了比较,我们发现NCA和回归产生的TFA在质量上相似,但NCA TFA在统计检验中优于回归。我们还表明,NCA可以提取与已知细胞周期TF功能和细胞周期相相关的细微TFA信号。总的来说,我们在一个或多个实验中确定了31个TF具有统计周期性的TFA,其中75%是已知的细胞周期调节剂。此外,我们发现在两个或多个实验中周期性的12个TFA对应于众所周知的细胞周期调节器。我们还研究了TFA对连接网络选择的敏感性,我们使用不同的ChIP芯片构建了两个网络第页-价值截断。

可利用性:MATLAB的NCA工具箱位于作者网页

联系人: liaoj@sease.ucla.edu公司

1简介

1.1背景

转录因子(TF)单独或联合作用于靶启动子以控制基因表达。TF调节活性由高级细胞功能控制,如反映细胞生理和环境的信号通路,通常通过转录后调节,如磷酸化、寡聚化、配体结合或亚细胞易位。激活的TF通过与DNA或RNA聚合酶的相互作用控制转录起始。因此,原则上可以从它们控制的基因的转录水平推断TFA。在最简单的情况下,一个TF控制一个基因,这个TF的活性与它控制的基因成正比。然而,在现实中,TF-电机连接更为复杂,需要非平凡的数学来进行反褶积。

网络组件分析(NCA)(., 2003;Tran公司., 2005)是一种基于模型的分解方法,用于从转录组数据和转录因子(TF)-启动子连接性网络推导此类信息,即转录因子活性(TFA)和调控强度(CS)。连接性网是通过预处理ChIP-ChIP数据构建的,DamID甲基化分析或广泛的文献搜索(., 2002;van Steensel和Henikoff,2000年). 为了实现唯一的数学分解,需要满足三个可识别性标准(., 2003;Tran公司., 2005),这决定了此方法的适用性。特别是,其中一个标准要求数据点的数量大于TF的数量。在这项工作中,我们放宽了这一理论限制,允许基于有限的数据点进行分析。

推导TFA的其他方法包括REDUCE(以及等效的矩阵REDUCE)方法,该方法通过回归将基因调节的线性模型拟合到mRNA表达数据(布塞梅可., 2001;., 2004). 这些方法是“无簇”的,只需要输入启动子序列(或ChIP-ChIP结合数据)和mRNA表达数据。从这个集合中,REDUCE评估所有可能的候选基序,其中每个基序对应一个已知或未知(但共享序列)的调节因子。这些基序在基因之间是单独匹配的,作者选择最后一组调控基序作为相应基因表达方差减少最大的基序。这里,将归一化模体结合拷贝数作为TF对该基因的调节强度,并通过线性回归从基因表达数据中获得TFA谱。REDUCE的优点是它不受NCA的可识别性标准的限制,因为它的CS是固定的。然而,由于该方法使用结合位点的拷贝数作为调节强度的替代物,因此无法区分同一TF对不同基因的正调控和负调控,并且可能会损害TFA估计的准确性。

推断潜在监管信号的其他方法(非TFA就其本身而言)包括主成分分析(PCA)和独立成分分析(ICA)。这些方法通过一组被称为特征基因或表达模式的基础谱(载体)解释了基因表达谱的收集(改变., 2000). 在PCA中,特征基因是正交的。在ICA中,表达模式在统计上独立且非高斯(Lee和Batzoglou,2003年;利伯梅斯特,2002年). 在这种情况下,独立性是一个比不相关性更强的假设。顶部k个重要的基载体描述了大多数观察到的基因表达变异,并且已经证明它们对应于细胞周期中的主要生物现象(更改., 2000).

然而,ICA和PCA方法都未能纳入网络的生物结构,因此描述是基于统计特性的。为了提供生物学见解,可以通过稳健回归将这些基础向量与表达谱结合起来(., 2002)或通过伪逆投影结合位点数据(ChIP-ChIP)(Alter和Golub,2004年). 后者提供了选择细胞周期和复制起始因子中TF-基因结合活性的动态时间视图。

PCA和ICA方法被证明有助于绘制高度协调的转录反应,如细胞周期,这令人鼓舞,因为它表明数据分解可以发现相关生物过程的独立特征。然而,正交(或独立)基向量不一定对应于潜在的生物特征,实际上可能取决于旋转。我们认为,正是网络的拓扑(或结构)对确定TFA非常重要,因为TF可能共同调节基因表达。这一见解是NCA的动机,NCA是一种考虑网络拓扑的方法,用于从动态非线性模型计算组件TFA和控制强度(花王., 2005;花王., 2004;., 2003;Tran公司., 2005).

1.2网络组件分析

NCA使用组合幂律模型将基因表达公式化为每个调节TFA贡献的乘积,该模型可以被视为任何多维非线性动力学系统的对数近似(阿尔梅达和沃伊特,2003年;萨瓦乔,1976年;托雷斯和沃伊特,2002年;Voit和Almeida,2004年). 它捕获了一些非线性协同效应,但在数学上仍然易于处理,并且通常适用于大多数基因。

NCA中使用的模型包括mRNA的合成和降解,假设mRNA处于准静态状态:
(1)
注意,mRNA的准稳态并不意味着mRNA水平是恒定的。这仅仅意味着mRNA的变化速率远小于其合成速率或降解速率。在准静态下,合成速率与降解速率大致相同。
TFA本身由蛋白质之间的相互作用驱动(P(P)),代谢物(M(M)),以及其他内部和外部参数θ)。每次活动的变化可以在数学上表示为非线性函数:
(2)
这些功能未知,在模型中未明确考虑。然而,我们假设TFA变化的时间尺度比mRNA变化的时间尺度更长。因此,mRNA可以在10分钟内达到准稳态,而TFA在几个小时的时间尺度(细胞分裂时间)内“漂移”。
由于DNA微阵列通常以相对于参考状态的对数比率表示,我们推导出以下对数线性形式的方程式(1)稳态时:
(3)
该系统可以用标准矩阵形式表示为:
(4)
基因表达的对数比率表示为TFA对数比率的线性组合,TFA的对数比率由其控制强度加权[方程式(4)]. NCA是数据矩阵的分解电子(包含对数表达式比率)分为两个矩阵A类(包含控制优势)和P(P)(包含对数TFA比率)通过方程式(3),其中Γ是要最小化的残差。

NCA与PCA和ICA的不同之处在于,它通过TF和启动子(即A类矩阵)和已知的零TFA(即P(P)矩阵)。连接约束来自全基因组DNA结合分析或广泛的文献搜索。潜在TF与电动机相互作用的存在表明非零控制强度将被估计为A类。否则,中的相应元素A类被约束为零。

请注意A类P(P)两者都是未知的,这使得NCA分解的目标类似于PCA和ICA。然而,PCA和ICA的结果在TF和基因之间产生了完全连接。生物网络并不总是满足正交或独立假设以及由此产生的完全连通性。然而,如果没有额外的约束(正交或独立),矩阵分解问题的解决方案就不是唯一的。

数据矩阵电子可以是由不同菌株、不同条件的平行实验组成的复合物,除了时间序列外,相应的列P(P)表示该条件下或该应变下的TFA比率。因此,如果已知TFA比率在实验条件和参考条件(例如TF剔除)之间没有变化,则相应的P(P)元素也可以被约束为零。如果零模式A类P(P)满足一组数学标准,然后分解电子A类P(P),是唯一的(., 2003;Tran公司., 2005).

2个结果

2.1修订后的NCA第三条标准

为了确保矩阵分解问题的唯一解决方案,NCA要求满足三个标准(., 2003,Tran公司., 2005). 特别是,有一个标准要求P(P)矩阵必须具有全行秩。这意味着所分析的TFA数量必须小于或等于数据点的数量。该标准显著限制了可从微阵列数据中获得的TFA数量。为了缓解这个问题,我们注意到,大多数基因只受数量远小于所关注总TF的TF的调节。根据这一观察结果,第三条标准修改如下(见第5节的证明)。

给定数据矩阵电子,分解电子=AP公司+Γ,s.t。A类Z轴A类,P(P)Z轴P(P)对于给定的剩余Γ,如果每个约化矩阵都是标度因子唯一的(或本质上唯一的)P(P)(= 1, … , N个)具有全行排名,并且P(P)Z轴P(P)其他两个标准保持不变(见第5节)。

在这里电子是一个N个×M(M)基因表达数据矩阵N个基因和M(M)条件,A类由合适的零模式定义Z轴A类和是N个×,其中是TFA的数量(N个<)和P(P)×M(M),也由零模式定义Z轴P(P)(Tran公司., 2005).P(P)定义为由以下行组成的矩阵P(P)对应于行中的非零元素属于A类在逐个基因迭代的过程中检查这个新标准。修订后的标准意味着每个基因的数据点数量必须大于或等于调节该基因的TF数量。这提高了NCA的适用性,因为对于大多数生物体来说,调节基因的TF的最大数量可能小于5或6。例如,至少在酿酒酵母由大量TF调节的基因可能占据整个基因组的一小部分(., 2002).

根据修订后的第三个标准,在现有的实验中,调节每个基因的TF必须是线性独立的。这个数学条件不能先验地满足,但可以在数值过程中进行测试。通常,分析多个不同的实验条件可能会生成线性无关的TFA。在实践中,检查条件数而不是矩阵的秩,因为有噪声的数据可能具有全行秩,但条件数较高。因此,每个P(P)必须低于设置的阈值。必须在数值迭代过程中检查此条件编号,以最小化的Frobenius范数Γ, ‖ΓF类,受中特定的零约束A类P(P):
(5)
可以使用许多最小化技术,但我们使用了双线性QR分解(Tran公司., 2005)连续迭代A类P(P)从一组初始猜测到收敛。

2.2识别的概率方面

A类P(P)我们寻求本质上唯一的分解电子它们由可逆标度矩阵关联X(X)保持零模式A类P(P)因此,A类¯=A类X(X)P(P)¯=X(X)1P(P)表示所有等效解决方案。如果X(X)是对角的,它表示合法的缩放因子。如果X(X)不是对角线,然后是中的任何非对角线元素X(X)将重组不同TF之间的贡献并退化结果。

如果违反NCA标准,则可能存在非对角线X(X)这样的话A类¯仍在Z轴A类,但CS值退化。结果是无限次的分解电子进入之内A类P(P)超越了简单的缩放。这对于数据分解来说是有问题的,因为当X(X)不是对角线,解可以是A类和行P(P)这个问题在任何矩阵分解为两个未知矩阵时都很常见,在多元回归和因子分析方法中也表现为共线性,通常通过岭回归或正交性的要求来解决(安德森,1984年). 注意,解的简并性并不代表系统的随机行为。这是不适定模型的结果。

在贝叶斯框架中,可识别性问题可以使用概率方法进行处理。由于违反可识别性标准而导致的退化解原则上可以使用信息先验来区分(萨巴蒂和詹姆斯,2005年). 然而,在大多数常见情况下,无信息先验会导致参数后验分布中的“方差膨胀”,这违反了可识别性标准(盖尔曼,2004). 这一点从一个简单的例子中显而易见[方程式(6)].

考虑以下结构A类矩阵(基因×TF),描述五个TF对五个基因的调节。
(6)
图1a详细信息兼容X(X)保留了零模式(Z轴A类)第页,共页方程式(6).由于非对角线X(X)存在,一些列向量A类¯现在是以下各项的线性组合A、,我们无法确定A类P(P)这导致了不同系列的多个解决方案(图1b).
(a) 保留Za的非对角X对TFA的影响。(b) X为非对角时的TFA解。(c) 当X(星点)的非对角项均匀递增时,TFA2的每个点估计的密度。
图1

()非对角线效应X(X)那个保护区Z轴在TFA上。(b条)X为非对角时的TFA解。(c(c))TFA各点估计密度2当非对角项X(X)(asterix)均匀递增。

为了调查这个问题的重要性,图1c详细说明当我们增加一个非对角项时会发生什么X(X)在模拟数据中。结果是TFA每个点估计值的均匀分布2因此,在贝叶斯NCA等概率方法中(萨巴蒂和詹姆斯,2005年),方差膨胀将出现在A类P(P)当不满足NCA可识别性标准时。

2.3执行第三条标准

在迭代过程中,可能违反了修改后的第三个标准。在这种情况下,当每个基因的调节TF违反标准3时,我们建议正交化每个简化矩阵(子网络)。这使得每个共同调节的TFA相互独立,减少了条件数并满足第三个标准。然后使用新的TFA继续NCA迭代。

P(P)表示基因的简化TFA矩阵.对称正交化P(P)由以下方程表示:
(7)
这里是(P(P)第页P(P)第页)1/2通过的特征值分解P(P)第页P(P)第页T型取每个分量的平方根特征值.在这种形式下P(P)比另一个更受青睐。
为了速度和数值稳定性,算法无需矩阵求逆即可表示如下:
(8)
中的规范方程式(2)是除Frobenius范数之外的任何合适范数,[=]表示赋值。迭代上述方程直至收敛。收敛性和数学证明详见Hyvarinen(1999)和Hyvarinen以及Oja(2000)为了清楚起见,所证明的是在适当的迭代次数后,矩阵P(P)第页P(P)第页T型收敛到识别矩阵。然后我们返回重新计算矩阵A类直到双线性优化收敛。请注意,TFA不包括在P(P)第页在这里不受影响。对称正交化(SO)方法是矩阵理论中的基本数学发展,广泛用于ICA分解(Hyvarinen和Oja,2000年).

2.4美白转换

对于分析大型监管网络的算法来说,计算时间是一个重要因素。对于NCA,通过白化程序对微阵列数据进行预处理可以获得更快的收敛速度。这种方法在神经网络和数据预处理应用中很常见,其主要特点是压平噪声并放大信号。可以在变换后的特征空间中进行优化,并且可以像使用ICA方法一样通过逆过程获得原始空间中的解(Hyvarinen和Oja,2000年).

零位随机向量x个如果其元素不相关且单位方差,则为白色。任何输入数据矩阵都可以通过线性变换变为白色,该变换将实验输入向量去相关,并将其缩放为单位方差(Hyvarinen和Oja,2000年). 对于微阵列数据,白化变换可以通过方差-协方差矩阵的特征值分解计算电子.让Σ电子(M(M)×M(M))电子T型电子表示微阵列数据的方差-协方差矩阵电子.自Σ电子是正定和对称的,它总是可以表示为Σ电子=乌杜T型哪里单位是具有e的正交矩阵1, … , e(电子)n个的特征向量Σ电子,和的对角特征值Σ电子。然后是一种可能的美白转换电子是:
(9)
美白矩阵W公司(M(M)× M(M))是正对称和非奇异的,Ē是白化的微阵列数据。然后对新的白化矩阵进行NCA分解电子¯=A类¯·P(P)¯,使用A类¯受与相同的零模式约束A类.基体脱白P(P)¯(或转换回原始特征空间)很容易通过以下方式完成P(P)=P(P)¯W公司T型.去白后P(P)然后我们计算矩阵A类来自原始微阵列数据矩阵电子通过NCA分解。因此,当A类已计算。

3应用和结果

3.1网络组件分析面包酵母细胞周期

为了测试新算法的生物适用性,我们分析了面包酵母细胞周期数据(斯皮尔曼., 1998). 我们将分析局限于α因子、cdc15、淘析和cdc28实验(73个数据点)。我们通过选择TF–基因与那些与ChIP-ChIP结合的基因的相互作用,从ChIP-cchip结合数据生成连接网络第页-值<0.001(., 2002). 如果结合第页-值<0.001且断开连接(在A类矩阵,否则)。请注意,连接的存在并不表示其最终值。分解后,边缘可能会变为~0,或变为某些调节强度值。中非零连接的初始值A类可以随机设置。此过程将生成连接网络(N个1)涵盖约2200个基因的96个TF。其余17名TF因违反NCA条件2而被排除在外。请注意,如果我们使用先前的NCA标准,该网络的数据有限且无法识别(更多TF>实验)(., 2003;Tran公司., 2005). 然而,大多数基因受<7个TF的调节,因此我们可以应用我们的新标准和数值程序。我们使用白化和SO程序(如上所述)运行NCA,首先对连接网络中的非零CS值进行随机初始猜测。

3.2计算TFA的方法比较:NCA和REDUCE

为了将这些结果与REDUCE(例如矩阵REDUCE)进行比较,我们获得了布塞梅可. (2001). (2004)这些数据包括从113个TF分析中报告的37个TFA,涵盖约750个实验数据点的约6000个基因。作者确定,在113个转录因子中,只有37个ChIP-ChIP结合模式是一个或多个实验中基因表达的重要预测因子。当REDUCE单独分析每个微阵列实验时,我们可以提取细胞周期TFA数据点,而不会影响结果。常见的实验包括α因子阻滞、cdc15、淘析实验(斯皮尔曼., 1998). 此外,. (2004)分析了来自. (2000)这包括α因子治疗中的fkh1/fkh2双敲除,以及fkh1/fkh2的双敲除细胞周期实验。cdc15数据在time包含一个复制t吨=160,因此我们对这两个数据点进行了平均,以供进一步分析。

这个面包酵母细胞周期是周期性的,大约每60分钟分裂一次。一个有趣的问题是,哪些TF具有周期性TFA,因为这些TFA可能表示调控/协调的转录反应,并可能提供额外证据,证明TF实际上是细胞周期调节器。我们使用稳健估计器测试了每个细胞周期实验中TFA的周期性(阿赫德斯马基., 2005)调整了标准错误发现率(FDR)第页-值<0.05。我们在任何排他性实验(cdc28,fkh1/fkh2敲除)中都没有检测到周期性,然而,在常见实验中,我们确实检测到REDUCE和NCA的周期性TFA(表1). 在NCA的情况下,一些TFA在两个或多个实验中是周期性的。在REDUCE中,大多数TFA仅在一个细胞周期实验中具有统计学周期性。对于cdc15数据,我们采用了额外的Bonferrori第页-值修正(0.05/23),因为数据可能会因热冲击停止方法引起的周期性应力响应而产生噪音(张,1999).

表1

细胞周期中推导的周期性TFA

国家协调局减少
ACE2公司CIN5公司ACE2公司
美国存托凭证1**CRZ1号机组ABF1型
数字1**FZF1型ZAP1公司
FKH1型**GCN4号机组氟氯化氢
氟氯化氢**高铁1号线服务贸易总协定3
MBP1型**NDD1(NDD1)MBP1型
MCM1型**电话4MCM1型
MSS11型**REB1级NDD1(NDD1)
1号机房**RFX1(射频X1)1号核反应堆
STB1型**1号机房SOK2标准
SUM1(汇总1)**SMP1公司SWI4号机组
SWI4号机组**STB1型
YAP1公司**蒸汽发生器12
BAS1系统SWI5(瑞士)
CAD1(计算机辅助设计1)SWI6系列
国家协调局减少
ACE2公司辛5ACE2公司
美国存托凭证1**CRZ1号机组ABF1型
数字1**FZF1型ZAP1公司
FKH1型**GCN4号机组氟氯化氢
氟氯化氢**高铁1号线服务贸易总协定3
MBP1型**NDD1(NDD1)MBP1型
MCM1型**电话4MCM1型
MSS11型**REB1级NDD1(NDD1)
1号机房**RFX1(射频X1)1号核反应堆
STB1型**1号机房SOK2标准
SUM1(汇总1)**SMP1公司SWI4号机组
SWI4号机组**STB1型
YAP1公司**STE12型
BAS1系统SWI5(瑞士)
CAD1(计算机辅助设计1)开关6

双星号(**)表示在两个或多个实验中检测到的周期性。黑体字突出了文献中已知的细胞周期调节器。REDUCE数据报告自等。(2004).

表1

细胞周期中推导的周期性TFA

国家协调局减少
ACE2公司CIN5公司ACE2公司
美国存托凭证1**CRZ1号机组ABF1型
数字1**FZF1型ZAP1公司
FKH1型**GCN4号机组氟氯化氢
氟氯化氢**高铁1号线服务贸易总协定3
MBP1型**NDD1(NDD1)MBP1型
MCM1型**电话4MCM1型
MSS11型**REB1级NDD1(NDD1)
1号机房**RFX1(射频X1)1号核反应堆
STB1型**1号机房SOK2标准
SUM1(汇总1)**SMP1公司SWI4号机组
SWI4号机组**STB1型
YAP1公司**蒸汽发生器12
BAS1系统SWI5(瑞士)
CAD1(计算机辅助设计1)SWI6系列
国家协调局减少
ACE2公司辛5ACE2公司
美国存托凭证1**CRZ1号机组ABF1型
数字1**FZF1型ZAP1公司
FKH1型**GCN4号机组氟氯化氢
氟氯化氢**高铁1号线服务贸易总协定3
MBP1型**NDD1(NDD1)MBP1型
MCM1型**电话4MCM1型
MSS11型**REB1级NDD1(NDD1)
1号机房**RFX1(射频X1)1号核反应堆
STB1型**1号机房SOK2标准
SUM1(汇总1)**SMP1公司SWI4号机组
SWI4号机组**STB1型
YAP1公司**STE12型
BAS1系统SWI5(瑞士)
CAD1(计算机辅助设计1)开关6

双星号(**)表示在两个或多个实验中检测到的周期性。黑体字突出了文献中已知的细胞周期调节器。REDUCE数据报告自等。(2004).

图2显示了一些常见细胞周期TF的NCA和REDUCE计算的TFA的图。总的来说,结果表明减少TFA(图2a-f,虚线)比NCA TFA噪音更大(图2a-f实线),但在质量上彼此一致。例如,图2a表明NCA和REDUCE对众所周知的细胞周期调节器的结果相似ACE2公司两种方法都预测了在细胞分裂附近出现峰值的周期性相位,该峰值的特征是ACE2公司早期G的调节1特异性基因转录(斯皮尔曼., 1998).图2b显示的TFASWI4号机组在细胞周期内出现两个主要峰值,这两个峰值都对应于晚期G1转录活性(斯皮尔曼. 1998). 因此,与原始的周期性测量不同(斯皮尔曼., 1998)我们能够提取和检测与细胞周期相关的多个周期性峰值。

对酿酒酵母细胞周期数据中选定的NCA和REDUCE测定的TFA进行分析。(a)ACE2、(b)SWI4和(c)DIG1的α因子停跳时间过程;(d)SWI4、(e)DIG1和(f)STB1的Cdc15停止时间过程。所有数据均按单位标准进行缩放。黑色箭头表示Spellman等人(1998年)报告的细胞分裂。α因子由66±11 min时的2个分段组成(α因子);cdc15由3个循环组成,分别在60–90、120–150和270 min。
图2

对选定的NCA和REDUCE测定的TFA进行分析面包酵母细胞周期数据。α因子停药时间过程()ACE2、(b条)SWI4和(c(c))数字1;Cdc15逮捕时间过程(d日)SWI4(e(电子))DIG1和((f))STB1。所有数据均按单位标准进行缩放。黑色箭头表示细胞分裂,如斯皮尔曼等。(1998).α因子由66±11 min时的2个分段组成(α因子);cdc15由3个循环组成,分别在60–90、120–150和270 min。

剩余的REDUCE TFA(图1d–f)当相应的NCA TFA为时,不具有统计周期性。最可能的原因是,由于拟合固定的CS值,REDUCE引入了数值误差。值得关注的是数字1.图1c显示了大约在一个细胞周期内达到峰值的NCA TFA。该峰值与当前已知的数字1; 一种TF,在启动时对交配因子(α-因子)起调节细胞周期阻滞作用(门登霍尔和霍奇,1998年).

3.3错误连接的影响是什么?

假连通性包括不正确的边(假阳性)和未通过结合位点分析或实验方法检测到的真边(假阴性)。TFA对错误连接的敏感性面包酵母细胞周期已在之前进行过调查(., 2005). 作者通过随机删除和插入TF和基因之间的连接,改变了每个网络多达10%的连接。他们发现,大多数TFA,尤其是细胞周期调节器,都是健壮的,不受扰动的影响。

在这项工作中,我们使用两个由ChIP-ChIP数据构建的连接网络,使用不同的第页-价值截断。此处网络N个1从具有绑定的ChIP-ChIP数据中选择第页-值<0.001(如上所述),以及网络N个2与ChIP-ChIP绑定类似选择第页-值<0.01。我们消除了任何不满足NCA条件2的基因和TF。N个1我们在96个周期性TFA中发现31个(FDR第页-值<0.05),23是已知的细胞周期调节器(表1). N个2我们在112例(FDR)中发现29例周期性TFA第页-值<0.05),14种是已知的细胞周期调节因子。在这两个网络中,我们确定了九个著名的细胞周期调节器,并计算了它们在两个网络之间的相关系数N个1N个2(表2). 这些结果与之前NCA通过子网络分解对类似细胞周期数据获得的结果一致(., 2005)以及其他统计方法的结果,以确定细胞周期调节的TF,该TF是通过对与ChIP-ChIP TF结合或不结合的基因组之间差异表达的非参数测试计算得出的(., 2005). 因此,只要满足NCA标准,TFA计算对于连接网络选择是鲁棒的。

表2

N中NCA细胞周期TFA的相关性1和N2

变压器ρ(N个1,N个2)基因数量N个1基因数量N个2
ACE2公司0.9668110
氟氯化氢0.49106209
高铁1号线0.9852157
MBP1型0.9710597
MCM1型0.3887196
NDD1(NDD1)0.9793163
REB1级0.13139300
STB1型0.972081
SUM1(汇总1)0.2861119
变压器ρ(N个1,N个2)基因数量N个1基因数量N个2
ACE2公司0.9668110
氟氯化氢0.49106209
高铁1号线0.9852157
MBP1型0.9710597
MCM1型0.3887196
NDD1(NDD1)0.9793163
REB1级0.13139300
STB1型0.972081
SUM1(汇总1)0.2861119
表2

N中NCA细胞周期TFA的相关性1和N2

变压器ρ(N个1,N个2)基因数量N个1基因数量N个2
ACE2公司0.9668110
氟氯化氢0.49106209
高铁1号线0.9852157
MBP1型0.9710597
MCM1型0.3887196
NDD1(NDD1)0.9793163
REB1级0.13139300
STB1型0.972081
SUM1(汇总1)0.2861119
变压器ρ(N个1,N个2)基因数量N个1基因数量N个2
ACE2公司0.9668110
氟氯化氢0.49106209
高铁1号线0.9852157
MBP1型0.9710597
MCM1型0.3887196
NDD1(NDD1)0.9793163
REB1级0.13139300
STB1型0.972081
总和10.2861119

3.4 TFA的统计显著性

研究人员可能有兴趣识别一个或多个TFA相对于参考被显著扰动的实验。为了确定统计显著性,我们使用网络连接模式和基因洗牌(置乱)为每个实验数据点构建了一个零假设分布。分布是通过置换测试的多次迭代建立的(~100)。根据这个分布,我们计算出Z轴-每个实验数据点的原始TFA得分。结果是第页-每个数据点的值,该值确定计算的TFA是否与零假设不同。

4讨论

NCA是一种从基因表达数据和连接性网络推断TFA和CS的方法。然而,以前的数学要求将任何单个分析中推断的TFA总数限制在实验样本大小。在这项工作中,我们开发了一个新的可识别性标准,该标准放宽了这一要求,使得数据点的数量只需超过调节任何单个基因的TF的最大数量。由于大多数基因受少于五个TF的调控,NCA只需要五个转录组数据点,但可以分析的TF远远多于数据点的数量。

4.1 NCA与计算TFA的线性方法的比较

另一种类似于NCA的方法是REDUCE,它从基因表达数据和连接网络计算TFA。与REDUCE类似,NCA使用连接网络作为全球调控网络的模型。这些方法之间的显著差异在于,NCA将CS建模为基因表达数据的函数,而REDUCE将CS固定为结合亲和力(由ChIP-ChIP分析或启动子结合位点分析确定)。因此,与NCA不同,REDUCE不区分同一TF对不同基因的正调控和负调控,这可能会影响TFA估计的准确性。众所周知,结合强度与调节活性无关。因此,使用绑定数据作为固定CS可能会影响TFA估计。

另一方面,NCA也类似于PCA或ICA方法,因为它指定了保证唯一双线性数据分解的约束。这些约束来自连接网络。从二元网络的角度来看,PCA和ICA假设TF和基因完全连接。此外,主成分分析(PCA)和独立成分分析(ICA)要求每个基向量是去相关的或独立于其他基向量。因此,这些分解代表了对基因调控的统计解释。我们认为,直接整合连接网络而不是通过投影方法或回归方法,可以更详细地描述TF级别的生物现象,从而更准确地量化TFA和CS。

4.2可识别性的重要性

NCA可识别性违规会导致表示TFA线性组合的无限解。因此,这些退化结果无法从生物学角度进行解释。规避此问题的一种可能方法是使用贝叶斯方法,该方法对不同的解决方案使用不同的先验概率(萨巴蒂和詹姆斯,2005年). 在此框架中,基于给定的先验概率分布,区分由于不可识别性而产生的等价解。如果有信息丰富的先验分布,这种方法可能会很好地工作。然而,如果没有这些信息,违反可识别性标准会导致方差膨胀,并且区分等价解的能力会退化。如果网络的很大一部分违反了可识别性标准,这种情况尤其严重。因此,在分析之前检测问题是否存在非常重要。

总之,我们注意到确定双线性数据分解(如NCA)的可识别性很重要。在这方面,本文提供了一个新的标准,允许通过确定性和概率方法从较少的数据中确定实际的TFA。

5网络组件分析的标准证明3

 
D类定义1
所有N×L矩阵(定义为A类)如果一组给定的位置为零,则称其具有相同的零模式。这样的矩阵属于集合ZA类,定义为 
(10)
 零模式未指定的元素可以取正值、负值或零值。类似地,P(L×M)的零点模式定义为 
(11)
 
D类定义2
定义简化矩阵 G公司 rj公司 (j=1,…,L),用于下面的准则2中,我们将首先构建组合矩阵G公司j个((N×MN)×(L+1))来自A(N×L)和P(L×M)。G公司j个在数学上描述为 
12
 哪里M(M)cj公司表示矩阵any的列向量jM(M),(可以是A或P(P)T型)和Q(v(v))表示块对角矩阵,每个块都是向量(v)。例如,考虑一个矩阵P(P), 
(13)
 矩阵 (P(P)c(c)1T型)  
(14)
 简化矩阵G公司瑞吉现在定义为矩阵G公司j个在最左边的列中没有对应于非零元素的行。
 
T型神灵
给定矩阵电子(N×M),如果满足以下条件,则分解 E=AP+Γ,其中A(N×L)∈ZA类,P(L×M)∈Z第页在缩放非奇异对角矩阵中是唯一的X(X)(×).换句话说,对于相同的允许值Γ,的任何替代分解电子=AP公司¯+Γ哪里A类¯(N个×)Z轴A类,P(P)¯(×M(M))Z轴P(P)只有对角矩阵不同X(X)(×)
(15)
(16)
  • 标准1:A具有完整的列秩。

  • 标准2:每个简化矩阵G公司瑞吉(j个= 1, … , ),定义于Tran公司. (2005)并且在定义2中,具有L−1的秩。

  • 标准3:每行电子由行P(P)它们是线性无关的。

条件1和条件2与之前在Tran公司. (2005),条件3将在下一节中得到证明。

5.1第三个标准的证明:

假设我们发现A类,P(P),A类¯P(P)¯这样的话
(17)
我们想证明存在可逆矩阵X(X)(×),因此
(18)
(19)
在一定条件下,可逆矩阵必须是对角矩阵。A类¯具有完整列秩(标准1),我们可以写:
(20)
(21)
(22)
从上述等式中,我们得出以下结论:
(23)
可以写成
(24)
有两种情况满足上述方程。
i、。P(P)具有完整的行秩,这是以前在中使用的条件3. (2003);Tran公司., (2005)、和方程式(24)意味着A类A类¯X(X)=0,相当于
(25)
Tran公司. (2005)事实证明,如果所有G瑞吉(j个= 1, … , )源自A类P(P)满足条件2,X(X)必须是对角线的,以便等式A.20可以同时满足A类A类¯属于Z轴A类。否则,A类Z轴A类A类¯Z轴A类可以通过任何非奇异矩阵相互关联X(X).
ii、。P(P)级别为第页≤最小值(,M(M)),因此A类A类¯X(X)N个(P(P)T型),其中N个(P(P)T型)是的左边空白P(P)并由描述N个∈ ℝq个×具有q个=第页:
(26)
A类A类¯X(X)N个(P(P)T型),我们可以写:
(27)
哪里W公司∈ ℝq个是线性系数矩阵。如果X(X)是一个非奇异对角矩阵,那么
(28)
如果存在非零系数矩阵W公司这样的话西澳大利亚州Z轴A类,另一个解决方案系列A类¯无法直接扩展到第一个解决方案系列A类通过方程式(28)因此,我们需要找到N个,所以非零矩阵W公司不存在。
如果存在一个非平凡的W,那么西澳大利亚州Z轴A类,然后针对每行(基因)载体第页,共页A类,A类j个(1 ×),可以写为行向量的乘积属于W公司,W公司(1 ×q个)、和矩阵N个(q个×):
(29)
因为我们只知道零元素j个行向量中的sA类,公式A.24简化为
(30)
其中约化矩阵N个(q个×z(z))仅包含列j个对应于z(z)中的零元素A类然而,iff矩阵N个有等级q个,行向量W公司必须为零。

因此,必要的条件是z(z)q个.如果第页=M(M)=最小值(,M(M)),然后z(z)M(M),因此中非零元素的数量A类(即调节基因i的转录因子的数量),=z(z),必须小于M(M)(即实验次数)。

注意,左边的空矩阵N个∈ ℝq个×具有等级q个代表q个依赖行上的线性约束集P(P)和每列j个属于N个定义行的线性系数j个中包含其他行P(P)。这意味着如果行j个属于P(P)与所有其他行、列线性无关j个属于N个将为零。例如,如果P(P)(5×4)线性相关,左零矩阵N个
(31)
哪里n个表示的第1行和第2行的线性系数P(P)这样的话
(32)
因为简化矩阵N个是全行排名(=q个),然后每个行中的非零成员N个(对应于P的从属行)不能全部消除,这意味着P(P)在调节行中不会组合在一起属于电子(标准3)。对于上述示例,N个当第一列和第二列都被消除时,表示秩不足。这意味着对应的行A类在第一列和第二列中都有非零元素。因此,每一行属于电子必须由一行行的P(P)它们是线性独立的。

这项工作得到了国家科学基金会拨款CCF-0326605和UCLA-DOE基因组和蛋白质组学研究所的支持。S.J.G.的部分支持来自UCLA-IGERT生物信息学培训(NSF-IGERT 9987641)。L.M.T.得到了UCLA-IGERT生物信息学培训(NSF-IGERT 9987641)的支持。

利益冲突:未声明。

参考文献

阿赫德斯马基
M。
生物系统周期时间序列的稳健检测
BMC生物信息学
2005
,卷。 
6
第页。 
117
 
阿尔梅达
J.S.公司。
Voit公司
首席执行官。
生物网络S系统模型中基于神经网络的参数估计
基因组信息。Ser Workshop基因组信息。
2003
,卷。 
14
(第
114
-
123
)
更改
O。
用于全基因组表达数据处理和建模的奇异值分解
程序。美国国家科学院。科学。美国
2000
,卷。 
97
(第
10101
-
10106
)
更改
O。
格鲁布
G.H.公司。
利用伪逆投影对基因组尺度数据进行综合分析,预测DNA复制和RNA转录之间的新相关性
程序。美国国家科学院。科学。美国
2004
,卷。 
101
(第
16577
-
16582
)
安德森
总重量。
多元统计分析简介
1984
纽约
威利
布塞梅可
H.J.公司。
利用表达相关性检测调控元件
自然遗传学。
2001
,卷。 
27
(第
167
-
171
)
F、。
通过mRNA表达和转录因子结合数据的综合建模定义转录网络
BMC生物信息学
2004
,卷。 
5
第页。 
31
 
盖尔曼
A。
贝叶斯数据分析
2004
佛罗里达州博卡拉顿
查普曼和霍尔/CRC
海瓦宁
A。
独立分量分析的快速稳健定点算法
IEEE传输。神经网络。
1999
,卷。 
10
(第
626
-
634
)
海瓦宁
A。
奥哈
E.公司。
独立成分分析:算法和应用
神经网络。
2000
,卷。 
13
(第
411
-
430
)
花王
K.C.公司。
Tran公司
L.M.有限公司。
J·C。
糖异生基因在大肠杆菌转录组网络分析揭示
生物学杂志。化学
2005
,卷。 
280
(第
36079
-
36087
)
花王
K.C.公司。
Y.L.公司。
博斯科洛
R。
萨巴蒂
C、。
罗伊乔杜里
五、。
J·C。
基于转录组的多种转录调节器活性测定大肠杆菌使用网络组件分析
程序。美国国家科学院。科学。美国
2004
,卷。 
101
(第
641
-
646
)
S.I.公司。
巴特佐格鲁
美国。
独立成分分析在微阵列中的应用
基因组生物学。
2003
,卷。 
4
第页。 
76兰特
 
T。
转录调控网络酿酒酵母
科学类
2002
,卷。 
298
(第
799
-
804
)
J·C。
博斯科洛
R。
Y.L.公司。
Tran公司
L.M.有限公司。
萨巴蒂
C、。
罗周杜里
副总裁。
网络成分分析:生物系统调节信号的重建
程序。美国国家科学院。科学。美国
2003
,卷。 
100
(第
15522
-
15527
)
利贝迈斯特
西。
通过独立成分分析确定基因表达的线性模式
生物信息学
2002
,卷。 
18
(第
51
-
60
)
门登霍尔
医学博士。
霍奇
阿联酋。
酵母细胞周期中Cdc28依赖性蛋白激酶活性的调节酿酒酵母
微生物。分子生物学。版次。
1998
,卷。 
62
(第
1191
-
1243
)
萨巴蒂
C、。
詹姆斯
总经理。
转录调控网络的贝叶斯稀疏隐成分分析
生物信息学
2005
,卷。 
22
(第
739
-
746
)
萨瓦若
文学硕士。
生物化学系统分析:分子生物学中的功能与设计研究
1976
雷丁,马萨诸塞州
出版商
斯皮尔曼
P.T.公司。
酵母细胞周期调控基因的综合鉴定酿酒酵母通过微阵列杂交
分子生物学。单元格
1998
,卷。 
9
(第
3273
-
3297
)
托雷斯
N.V.(常压)。
Voit公司
首席执行官。
代谢工程中的通路分析与优化
2002
纽约
剑桥大学出版社
Tran公司
L.M.有限公司。
布吕尼尔森
M.P.(医学博士)。
花王
K.C.公司。
J.K.(英国)。
J·C。
gNCA:基于转录组确定转录因子活性的框架:可识别性和数值实现
Metab工程。
2005
,卷。 
7
(第
128
-
141
)
香港。
鉴定酵母细胞周期转录因子的统计方法
程序。美国国家科学院。科学。美国
2005
,卷。 
102
(第
13532
-
13537
)
范·斯蒂森尔
B。
海尼科夫
美国。
的标识体内利用链式dam甲基转移酶研究染色质蛋白的DNA靶点
自然生物技术。
2000
,卷。 
18
(第
424
-
428
)
Voit公司
首席执行官。
阿尔梅达
J。
从代谢谱中识别通路的解耦动力学系统
生物信息学
2004
,卷。 
20
(第
1970
-
1681
)
Y.L.公司。
利用转录因子活性推断酵母细胞周期调控因子及其相互作用
BMC基因组学
2005
,卷。 
6
第页。 
90
 
M.K.S.(M.K.S)。
基于奇异值分解和稳健回归的基因网络逆向工程
程序。美国国家科学院。科学。美国
2002
,卷。 
99
(第
6163
-
6168
)
M.Q.公司。
大规模基因表达数据分析:计算生物学家面临的新挑战
基因组研究。
1999
,卷。 
9
(第
681
-
688
)
G.公司。
两个酵母叉头基因调节细胞周期和假菌丝生长
自然
2000
,卷。 
406
(第
90
-
94
)

作者注释

作者希望知道,在他们看来,前两位作者应被视为联合第一作者。

副主编:Keith A Crandall