摘要

动机:图形或网络是描述信息的常用方式。特别是在生物学中,许多不同的生物过程都用图形表示,例如调节网络或代谢途径。这种经过多年生物医学研究收集的先验信息是对标准数字基因组数据(如微阵列基因表达数据)的有益补充。如何将已知生物网络或图表编码的信息纳入数值数据的分析中,提出了有趣的统计挑战。在本文中,我们为线性回归分析引入了一个网络约束正则化过程,以便将这些图中的信息合并到数值数据的分析中,其中网络表示为图及其相应的拉普拉斯矩阵。我们定义了一个网络约束惩罚函数,用于惩罚L(左)1-系数的范数,但鼓励网络上系数的平滑性。

结果:模拟研究表明,该方法在识别与疾病相关的基因和子网络方面非常有效,并且比不使用路径结构信息的常用程序具有更高的灵敏度。应用于一个胶质母细胞瘤微阵列基因表达数据集,确定了《京都基因和基因组百科全书》(KEGG)中与胶质母细胞癌生存相关的几个转录通路上的几个子网络,其中许多得到了已发表文献的支持。

结论:提出的网络约束正则化程序有效地利用了已知的通路结构,在一般回归框架中识别相关基因和可能与表型相关的子网络。随着更多生物网络被识别并记录在数据库中,该方法在识别与疾病和其他生物过程相关的子网络方面应该有更多的应用。

联系人: hongzhe@mail.med.upenn.edu

1简介

基因组研究的一个中心问题是确定与疾病和其他生物过程有关的基因和通路,并通过将高维基因组数据(如微阵列基因表达数据)与各种临床结果相联系,建立未来结果的预测模型。该问题通常可以用公式表示为预测问题n个有结果的观察1,2, …,n个第页预测因子x个ij公司,= 1, … ,n、 j= 1, …,第页结果可以是定量的,也可以是二元的,代表两种情况,如“患病”和“健康”。考虑通常的线性回归模型,其中响应由预测
(1)
其中,模型填充程序生成系数向量论坛为了解决基因组数据的高维性问题,已经开发了许多新的正则化方法来识别回归框架中与临床表型相关的基因,包括lasso(Tibshirani,1996)、SCAD(Fan和Li,2001)、弹性网(Zou和Hastie,2005)、融合套索(提比什拉尼等人。,2005)和LARS(Efron等人。,2005),以及各种扩展,如自适应套索(Zou,2006)和组套索(袁和林,2006). 在这些程序中,弹性网正则化和融合套索特别适用于基因组数据的分析,前者鼓励分组效应,后者通常导致有序协变量的系数分布平滑。

所有这些流行方法的一个局限性是,这些方法纯粹是从计算或算法点发展而来,没有利用任何先前的生物知识或信息。对于许多复杂的疾病,特别是癌症,许多生物学知识或途径信息可从多年的密集生物医学研究中获得。大量信息现在主要通过生物系统不同方面的数据库获得。这种数据库通常称为元数据,即关于数据的数据。一些著名的通路数据库包括KEGG、Reactome(网址:www.reactome.org)、BioCarta(网址:www.biocarta.com)和BioCyc(网址:www.biocyc.org). 特别感兴趣的是提供基因或基因产物之间的调节关系的基因调节途径。这些路径通常是相互连接的,形成一个网络,可以用图来表示,其中图的顶点是基因或基因产物,图的边缘表示基因之间的某种调控关系。这种先验信息是对来自实验的标准数值数据的有益补充。将这些图形中的信息纳入数值数据分析是一项非常重要的任务,正引起人们越来越多的兴趣。已经开发了几种统计方法来利用路径或网络信息,包括隐藏的Markov随机场方法,以利用网络结构来识别差异表达的基因(Wei和Li,2007,2008; 魏和潘,2008). 拉恩恩富勒等人。(2004)证明了通过整合通路拓扑信息可以提高检测相关通路的灵敏度。然而,这些方法都不是在回归分析框架内开发的。

在本文中,我们建议开发一种网络约束正则化程序,用于拟合线性回归模型和变量选择,其中回归模型中的预测因子是具有图形结构的基因组数据。这种程序的目的是识别与疾病或疾病结果相关的基因和子网络。为了实现自动变量选择和解释网络结构,我们定义了一个网络约束惩罚,它是套索惩罚和由图的拉普拉斯矩阵诱导的惩罚的组合。这样的程序可以选择网络中相关特征的子群,从而在网络上实现全局平滑。我们提出的程序,包括作为特例的弹性网络调节程序,在精神上与fused-lasso(Tibshirani等人。,2005). 它诱导了平滑的系数分布,这可以导致对与已知生物学背景下的反应相关的基因和子网络的更可解释的识别。然而,它不同于融合套索,因为我们的程序不要求相邻基因具有相同的系数,并且网络结构是使用图的拉普拉斯矩阵显式建模的。

文章的其余部分组织如下。我们首先定义了线性回归模型的网络约束正则化过程,并提出了一种有效的参数估计算法。然后我们给出了参数估计和仿真结果的分组性质和渐近定理。然后,我们将提出的方法应用于分析胶质母细胞瘤的微阵列基因表达数据集。最后,我们对结果进行了简要讨论。

2线性模型的网络约束正则化

假设数据集包含n个观察结果和第页预测因子,带响应向量=(1, … ,n个)T型和设计矩阵X(X)=(x个1|…|x个第页),其中x个j个=(x个1j个, … ,x个新泽西州)T型,j个= 1, … ,第页。我们还假设预测值是标准化的,响应是集中的,因此
考虑一个由加权图表示的网络G公司=(五、 东、西),其中V(V)是对应于第页预测因素,E类= {u个v(v)}是一组边,表示预测值u个v(v)在网络上链接,并且在u个v(v)W公司是边的权重,其中w个(u、 v(v))表示边缘的重量e(电子)=(u个v(v)). 在应用中,边权重可用于测量两个顶点之间边的不确定性。定义顶点的阶数v(v)作为d日v(v)= ∑u个v(v)w个(u、 v(v)). 我们说u个是孤立顶点,如果d日u个= 0. 跟随钟(1997),我们定义了归一化拉普拉斯矩阵L(左)对于G公司使用紫外线第个元素由定义
这个矩阵L(左)总是非负定的,其相应的特征值或谱集反映了图的许多性质(Chung,1997).
对于任何固定的非负λ1和λ2,我们定义了网络约束正则化准则
(2)
哪里论坛L(左)1-范数,其诱导稀疏解(Tibshirani,1996)和第二项βT型L(左)β在网络上诱导β的光滑解。注意L(左)是非负定的,可以写成L(左)=不锈钢T型,其中S公司第页×是矩阵,其中的行由顶点索引,列由G公司这样,每个列对应一条边e(电子)= {u、 v(v)}有一个条目论坛在对应于的行中u个,一个条目论坛在对应于的行中v(v)其他地方没有条目。基于简单代数,我们可以看到βT型L(左)β可以写成
其中∑u个v(v)表示所有无序对的总和{u、 v(v)}对于其中u个v(v)在网络上相邻。等式(2)然后可以重写为
(3)
我们定义了网络约束正则化估计论坛作为方程式的最小值(),即。
(4)
设α=λ2/(λ1+ λ2),然后论坛在方程式中(4)等价于优化问题的解
对一些人来说t吨。我们调用该函数
网络约束惩罚,其中第二项通过惩罚网络中相邻顶点之间系数的缩放差的加权平方和,在网络上施加参数β的光滑性。我们重新缩放β系数,以说明网络上顶点的不同程度,允许具有更多连接的基因(例如hub基因)具有更大的系数,以便这些基因表达的微小变化可以导致响应的较大变化。这种惩罚的生物学动机是,我们期望连接在网络上的基因具有相似的功能,因此平滑回归系数。请注意,我们不要求这些系数相同或具有相同的符号。如果重量w个(u、 v(v))表示顶点的概率u个v(v)是连通的,我们以概率对这两个顶点施加平滑w个(u、 v(v)). 这提供了一种解释网络不确定性的方法。

注意,当α=0时,网络约束惩罚减少到lasso,一个零处的奇异惩罚函数,对于所有α∈(0,1),它是严格凸的,因此保持了稀疏性和光滑性的良好性质。什么时候?L(左)=,网络约束惩罚成为邹和哈斯蒂的弹性网络惩罚(2005).图1显示了双变量参数β=(β)的四个惩罚函数的轮廓1, β2)其中,对于弹性网、融合套索和网络约束惩罚,α=0.3。与融合套索罚函数一样,网络约束罚函数的一个重要特征是它与x个-轴或-轴线;因此,不同符号的β参数会有不同的惩罚。

图1。

二元参数β=(β)的四个惩罚函数的轮廓1, β2). 左上角显示套索惩罚的轮廓。右上角显示了弹性网罚分的轮廓。左下角显示网络约束惩罚的轮廓,右下角显示融合套索惩罚的轮廓(α=0.3)。

2.1解决方案和算法

跟随Zou和Hastie(2005),我们开发了一个类似的高效计算程序来解决网络约束正则化问题。如以下引理所示,最小化方程()相当于解决了一个套索类型的优化问题,从而享受了套索的计算优势。

雷玛1。

 
给定数据集(y、 X)和两个固定标量(λ1, λ2),定义人工数据集(y、 X(X))由 
 其中L=U型ΓU型T型和S=U型Γ1/2.论坛论坛.那么网络约束标准可以写成
论坛是上述套索问题的解决方案,即,
然后是解决方案()成为
(5)

跟随Zou和Hastie(2005),为了纠正由于双重收缩导致的潜在偏差,我们调整了网络约束估计论坛乘以因子1+λ2引理1表明,通过创建一个增广数据集,可以将网络约束惩罚问题重新定义为等价的套索型问题,从而具有自动变量选择特性。注意,这个增强的数据集增加了n个至(n个+第页),这意味着此模型可能会选择所有第页变量,即使在n个第页类似于弹性网,该功能克服了套索最多只能选择的限制n个(当n个<第页)在它饱和之前的变量。在下一节中,我们将展示网络约束准则可以以类似于弹性网络的方式执行分组变量选择过程。

最后,如果只有训练样本可用,则可以使用10倍交叉验证(CV)来估计预测误差和比较模型。对于每个固定λ2,我们可以使用优化问题的套索解的步数(1)作为λ之外的第二个调谐参数2,由10倍CV选择。所选λ2CV误差最小。

3拟议程序的性质

我们给出了与所提出的网络约束正则化过程相关的几个性质,包括分组效应和当第页是固定的,并且n个→∞。

3.1分组效果

我们在本节中表明,网络约束正则化的估计可以为网络上相关或链接的预测因子带来理想的分组效果。以下引理是Zou和Hastie引理2的直接结果(2005)由于网络约束损失函数是一个凸函数,保证了网络约束惩罚回归在具有相同预测因子的情况下的分组效果。

LEMMA 2。

 

假设论坛由方程式确定(5),也假设x个=x个j个,然后论坛,对于任何λ2>0。

如果我们考虑两个基因在网络上仅相互链接的简单情况,以下定理提供了网络重新规则化过程估计值差异的上界。

定理1。

 
给定数据集(y、 X(X))和两个固定标量1, λ2),回应以人为中心和预测因素X(X)都是标准化的。论坛是方程式的解(4). 假设论坛,并且两个顶点u和v只在网络d上相互链接u个=d日v(v)=w个(u、 五).定义
然后
(6)
哪里论坛论坛是样本相关性.

这个定理的证明与Zou和Hastie的证明类似(2005)可以在Li和Li中找到(2007). 中的上限(6)定量描述了网络约束正则化的分组效应,它是弹性网络模型上界的一半。在路径中,对于两个相邻顶点j个令人满意的d日=d日j个=w个(i、 j个),如果x个x个j个高度相关,即ρ≐1,则特征系数路径之间的差异j个几乎为0。

3.2渐近性质

在本节中,我们在以下假设下导出了网络约束惩罚估计的渐近结果:第页是固定的,并且样本大小n个→ ∞. 结果和证明在精神上与基于融合套索(Tibshirani)的估计相似等人。,2005). 考虑以下线性回归模型,
其中ε是均值0和方差σ的误差项2。对于给定的身份证号码。观察,回想一下,网络约束惩罚最小二乘准则是
其中拉格朗日乘数论坛论坛是样本大小的函数n个我们有以下估计的渐近定理: 
T型海勒姆2
如果论坛对于l=1、2和
是非单数的,那么
哪里

这个定理的证明可以在Li和Li中找到(2007). 对于特殊情况,当第页=2和w个(i、 j个)=1,很容易检查估计值是否遵循二元正态分布。

4模拟研究

为了证明所提出的网络约束正则化程序的性能,我们首先模拟了以下简单的调节网络:假设我们有200个转录因子(TF),每个调节10个基因。由此产生的网络包括2200个基因和每个TF与其调控的10个基因之间的边缘。我们假设四种TF及其调控的基因与反应相关Y(Y)。对于第一个模型,我们假设数据是从以下模型模拟的:

  • =X(X)β+ɛ和
    哪里论坛.
  • 200个TF的表达水平遵循标准正常值,X(X)TF公司j个N个(0,1)

  • TF及其调控基因的表达水平以双变量正态分布,相关系数为0.7。这意味着调节TF的表达水平,即其调节的基因的表达水平遵循N个(0.7*X(X)TF公司j个,0.51).

对于第二个模型,表达式级别的模拟方式与模型1相同,只是我们假设
该模型假设受同一TF调节的基因对反应既有积极影响也有消极影响Y(Y).

第三个模型与模型1类似,只是我们替换了论坛β中的分母为10。第四个模型与模型2相似,模型2假设受同一TF调节的基因对反应既有积极影响也有消极影响Y(Y)。对于此模型,我们将论坛β中的分母为10。

对于这四个模型中的每一个,噪声方差被选择为论坛因此,模型1、2、3和4的信噪比分别为21.68、7.34、10.70和5.82。我们模拟了一个训练集和一个独立的测试集,两个集的样本大小均为100。对训练数据集进行10倍CV以选择调谐参数,然后使用所有训练数据集获得参数估计值。对于每个模型,我们重复了50次模拟。然后,我们在测试数据集上计算预测均方误差(PMSE)。此外,我们还计算了每种方法的敏感性和特异性。表1总结了这四种不同模型的仿真结果。对于所有四个模型,我们提出的网络约束程序给出的PMSE比套索回归或弹性网络回归小得多或可比较。网络约束程序也使识别相关基因的灵敏度大大提高。特异性有所降低,但与灵敏度的提高相比并没有太大的降低。

表1。

模拟研究的结果、敏感性、特异性和预测均方误差(PMSE)是基于50个模拟计算的,其中标准误差在括号中给出

敏感特异性PMSE公司
模型拉索Enet公司净值拉索Enet公司净值拉索Enet公司净值
10.4820.47110.9960.9960.90690.27746.9
(0.06)(0.06)(0.00)(0.002)(0.002)(0.04)(17.4)(14.7)(7.3)
20.3510.3320.7660.9930.9950.96690.186.681.3
(0.05)(0.003)(0.06)(0.002)(0.003)(0.007)(14.18)(13.6)(12.0)
0.5040.66810.9960.9930.90934.432.927.5
(0.11)(0.13)(0.00)(0.002)(0.002)(0.004)(6.67)(6.41)(4.37)
40.4550.4130.9400.9960.9970.94334.932.333.6
(0.11)(0.11)(0.03)(0.002)(0.002)(0.01)(6.06)(5.79)(5.28)
敏感特异性PMSE公司
模型拉索Enet公司净值拉索Enet公司净值拉索Enet公司净值
10.4820.47110.9960.9960.90690.27746.9
(0.06)(0.06)(0.00)(0.002)(0.002)(0.04)(17.4)(14.7)(7.3)
20.3510.3320.7660.9930.9950.96690.186.681.3
(0.05)(0.003)(0.06)(0.002)(0.003)(0.007)(14.18)(13.6)(12.0)
0.5040.66810.9960.9930.90934.432.927.5
(0.11)(0.13)(0.00)(0.002)(0.002)(0.004)(6.67)(6.41)(4.37)
40.4550.4130.9400.9960.9970.94334.932.333.6
(0.11)(0.11)(0.03)(0.002)(0.002)(0.01)(6.06)(5.79)(5.28)

Enet:Zou和Hastie的弹性网(2005); 网络:拟议的网络约束监管程序。

表1。

模拟研究的结果、敏感性、特异性和预测均方误差(PMSE)是基于50个模拟计算的,其中标准误差在括号中给出

敏感特异性PMSE公司
模型拉索Enet公司净值拉索Enet公司净值拉索Enet公司净值
10.4820.47110.9960.9960.90690.27746.9
(0.06)(0.06)(0.00)(0.002)(0.002)(0.04)(17.4)(14.7)(7.3)
20.3510.3320.7660.9930.9950.96690.186.681.3
(0.05)(0.003)(0.06)(0.002)(0.003)(0.007)(14.18)(13.6)(12.0)
0.5040.66810.9960.9930.90934.432.927.5
(0.11)(0.13)(0.00)(0.002)(0.002)(0.004)(6.67)(6.41)(4.37)
40.4550.4130.9400.9960.9970.94334.932.333.6
(0.11)(0.11)(0.03)(0.002)(0.002)(0.01)(6.06)(5.79)(5.28)
敏感特异性PMSE公司
模型拉索Enet公司净值拉索Enet公司净值拉索Enet公司净值
10.4820.47110.9960.9960.90690.27746.9
(0.06)(0.06)(0.00)(0.002)(0.002)(0.04)(17.4)(14.7)(7.3)
20.3510.3320.7660.9930.9950.96690.186.681.3
(0.05)(0.003)(0.06)(0.002)(0.003)(0.007)(14.18)(13.6)(12.0)
0.5040.66810.9960.9930.90934.432.927.5
(0.11)(0.13)(0.00)(0.002)(0.002)(0.004)(6.67)(6.41)(4.37)
40.4550.4130.9400.9960.9970.94334.932.333.6
(0.11)(0.11)(0.03)(0.002)(0.002)(0.01)(6.06)(5.79)(5.28)

Enet:Zou和Hastie的弹性网(2005); 网络:拟议的网络约束监管程序。

5微阵列基因表达数据集在胶质母细胞瘤分析中的应用

我们通过分析Horvath对成胶质细胞瘤基因表达的微阵列研究来证明所提出的方法等人。(2006). 胶质母细胞瘤是成年人最常见的原发性恶性脑瘤,也是所有癌症中致死率最高的肿瘤之一。尽管进行了手术、放疗和化疗,但该病患者自确诊之日起的中位生存期为15个月。来自两组独立临床肿瘤样本的全球基因表达数据n个=55和n个=65通过高密度Affymetrix阵列获得。基因表达数据集使用RMA方法进行标准化(Irizarry等人。,2003). 在第一组55名患者中,5名患者在最后一次随访时存活,4名患者在第二组中存活。在我们的分析中,我们使用第一组50名患者的死亡时间信息建立了预测模型,并使用第二组61名患者的死亡率信息测试了预测性能。我们在分析中使用死亡时间的对数作为响应变量。

为了对数据进行基于网络的分析,我们将基因表达数据与33条KEGG调控通路合并,并在Hu133A芯片上识别出1533个基因,这些基因可以在由33条通路组成的1668节点KEGG网络中找到。我们没有考虑Hu133A芯片上的所有基因,而是只分析了1533个基因,目的是确定33条通路的KEGG网络中的哪些基因和哪些子网络与脑癌生存时间相关。表2显示了三种不同程序在测试数据集中的预测误差以及这些程序在训练集中选择的基因数方面的结果。弹性网络和网络约束正则化程序的预测误差与套索相似,且略小。然而,与套索或弹性网相比,网络约束程序选择了更多的基因,其中大约一半的基因(44个基因)与KEGG通路相连。作为比较,套索确定了三对相连的基因(ITGB7~SYNJ2、PCK1~PTEN和FOXO1A~PRKCG),而弹性网仅确定了一对相连基因(PRKCG~ITGB7)。这些基因并没有提供多少与胶质母细胞瘤生存相关的通路/子网络信息。最后,通过网络约束程序识别的基因包括所有通过弹性网络和套索识别的基因。

表2。

胶质母细胞瘤数据集的分析结果,其中测试集的均方误差是根据61名胶质母细胞癌患者的独立集计算的

方法测试平均平方错误选择的基因数
套索1.1823
弹性网1.025
网络约束1.0695
方法测试平均平方错误选择的基因数量
套索1.1823
弹性网1.025
网络约束1.0695
表2。

胶质母细胞瘤数据集的分析结果,其中测试集的均方误差是根据61名胶质母细胞癌患者的独立集计算的

方法测试平均平方错误选择的基因数量
套索1.1823
弹性网1.025
网络约束1.0695
方法测试平均平方错误选择的基因数
套索1.1823
弹性网1.025
网络约束1.0695

我们的网络约束分析结果确实表明,一些途径可能与胶质母细胞瘤的死亡时间有关。图2显示了KEGG的已连接子网,这些子网由建议的网络约束过程标识。最大的子网络包括涉及MAPK信号通路的基因(例如基因PLCE1、PRKCG、MAP2K7、ZAK、KBKG、TRAF2和MAPK11)及其连接的通路,例如PI3K/Akt信号通路(例如基因GYS1)及其靶FOXO1A。特别令人感兴趣的是识别可能与胶质母细胞瘤死亡风险相关的FOXO1A。FOXO1A是一种重要的TF,参与调节哺乳动物细胞的一系列关键过程,包括增殖、分化、凋亡、代谢以及对氧化应激和DNA损伤的反应(Accili和Arden,2004). Mawrin报道了多形性胶质母细胞瘤中MAPK表达与预后的相关性等人。(2003)和Pelloski等人。(2006).

图2。

基于50名患者的样本,通过网络约束调节方法确定的可能与胶质母细胞瘤生存时间相关的子网络。

第二个子网络包括四个基因,PTEN、PRKG2、MAPK8IP2和ELK1。等人。(1997)描述一种在10号染色体(PTEN)蛋白上缺失的磷酸酶和张力蛋白同源物,该蛋白在包括乳腺癌、脑癌和前列腺癌在内的许多人类癌症中发生突变。该蛋白与肌动蛋白丝相互作用,是一种假定的蛋白酪氨酸磷酸酶,通过拮抗磷脂酰肌醇3-激酶(PI3K)/Akt信号传导,至少部分起到抑癌作用。乌特等人。(2007)提示PKC-β介导的胶质母细胞瘤增殖涉及MEK/丝裂原活化蛋白(MAP)激酶磷酸化、ERK活化以及随后的Elk-1活化。MAPK8IP2(丝裂原活化蛋白激酶8相互作用蛋白)与MAPK8IP 1/IB1/JIP-1密切相关,后者是一种参与c-Jun氨基末端激酶信号通路的支架蛋白。该蛋白在脑和胰腺细胞中表达,并被证明与MAPK8/JNK1和MAP2K7/MKK7激酶相互作用并调节其活性。因此,这种蛋白质被认为是大脑中蛋白激酶级联信号转导的调节器(Uht等人。,2007). 最后,编码cGMP依赖性蛋白激酶II的基因PRKG2通过在脑肿瘤中插入靶向。人脑胶质瘤细胞系中PRKG2的过度表达导致集落形成、细胞增殖和迁移(Uht等人。,2007).

在两个基因的小亚网络中,它们与胶质母细胞瘤的关系也已在一些对的文献中报道。佩雷戈等人。(2002)表明胶质母细胞瘤细胞系的侵袭行为与钙粘蛋白-钙粘蛋白粘附系统的组织改变有关,其中catenin(钙粘蛋白相关蛋白)、β1(CTNNB1)蛋白是主要成分。浸出等人。(1996)表明阻断CTLA-4的抑制作用可以允许并增强对肿瘤细胞的有效免疫反应。许多肿瘤免疫原性差的一个原因可能是它们不能提供充分激活T细胞所必需的CD28介导的协同刺激信号。最近发现,协同刺激分子B7家族的第二个反受体CTLA-4是T细胞激活的负调节器。此外,由20多种克劳丁(CLDN)蛋白组成的家族包括顶端紧密连接装置内的主要结构元素之一、维持管腔屏障的动态细胞连接、细胞旁转运和信号转导。正常紧密连接功能的丧失是人类癌症的标志。CLDN1可能支持脑等组织中的肿瘤抑制功能,在多形性胶质母细胞瘤(Swisshelma等人。,2005).

总之,这些结果表明,通过考虑KEGG途径,我们提出的方法可以识别与胶质母细胞瘤死亡时间潜在相关的子网络。其中一些子网络得到了先前发表的工作的充分支持。相比之下,套索或弹性网络识别的基因不能表明与胶质母细胞瘤死亡风险相关的任何可能途径的参与。

6讨论

我们为线性模型引入了一种网络约束正则化过程,以便将编码在已知遗传网络中的信息纳入其中。这种正则化程序也可以被视为惩罚最小二乘估计,其中惩罚被定义为L(左)1罚款和L(左)2网络上链接的变量之间系数的度标度差异惩罚。这种惩罚导致回归系数的网络结构既稀疏又平滑。我们提出的网络约束正则化程序在精神上与融合套索(Tibshirani等人。,2005)这两种方法都试图以某种方式平滑回归系数。然而,融合套索没有利用先前的遗传网络信息;相反,它首先对基因进行聚类,为融合过程提供基因序列。第二,而不是使用L(左)2-对于相邻基因系数的差异,融合套索使用L(左)1-差异的范数,这往往导致附近基因的回归系数相同。然而,当基因邻域由先验网络信息定义时,我们应该期望相应的系数相似但不相同。因此,对于我们在本文中考虑的设置,使用L(左)2-网络惩罚定义中的标度系数范数。值得注意的是,我们提出的网络约束正则化程序不要求网络上链接的基因的系数具有相同的值,甚至相同的符号。如我们的模拟(模型2和模型4)所示,即使相邻基因的系数不同,所提出的方法在灵敏度和预测误差方面仍然表现良好。

我们使用了归一化拉普拉斯算子L(左)图表的G公司在我们对平滑度惩罚的定义中。或者,可以使用组合拉普拉斯图G公司(钟,1997),由定义
在平滑度惩罚的定义中。很容易验证βT型β = ∑u个v(v)u个−βv(v))2w个(u、 v(v)). 这种惩罚也可能具有生物学意义,然而,它并不能解释网络上基因的可变程度。此外,矩阵并不总是非负定的,也不能总是像矩阵那样进行分解L(左)引理1中的矩阵。这一事实的结果是,正则化问题不能总是转换为有效的拉索型解和一些新的优化过程,例如坐标下降算法(Wu和Lange,2008)必须进行开发。比较这两种不同的平滑度惩罚定义的性能是很有意思的。

在本文中,我们使用KEGG通路分析了胶质母细胞瘤基因表达数据,旨在确定与癌症死亡时间相关的KEGG途径或子网络。然而,所提出的方法可以应用于任何其他的路径网络。一个重要的问题是决定在分析基因表达数据时应该使用哪种途径。这部分取决于要解决的科学问题。如果研究者只对某一特定途径感兴趣,那么所提出的方法可以应用于该特定途径。如果研究人员有兴趣全面探索他/她的数据和所有可用路径,则应使用大量路径集合,例如Pathway Commons收集的路径(http://www.pathwaycommons.org/pc/)或者使用一些现有的网络构建工具构建路径网络。还应该注意的是,我们提出的方法可以通过简单地向图中添加孤立的节点来包含微阵列上探测到的所有基因。

另一个相关问题是,我们对路径的了解不完整,可能会包括网络上的错误或错误指定的边缘。解决这个问题的一个可能方法是首先使用可用的数据检查路径结构的一致性。例如,如果两个相邻基因之间基因表达水平的相关性很小,我们可能希望从路径结构中删除边缘。或者,可以使用各种数据源构建一组新的路径,并将这些路径与路径数据库中的路径进行比较,以确定拟用方法中最合理的路径。未来重要的研究将是评估结果对网络结构错误的敏感性。请注意,我们提出的平滑度惩罚相当于在回归系数之前施加基于图形的Markov-random字段。对于识别差异表达基因的问题,最近的研究表明,结果对网络结构的错误指定不太敏感(Wei和Li,2007; 魏和李,2008; Wei和Pan,2008). 由于网络上的大多数基因预计与响应无关,因此系数为零,我们预计只有真正响应相关子网络的错误指定才会对结果产生重大影响。最后,我们给出了当第页是固定的,并且n个→ ∞. 未来有趣的研究将是推导估计的渐近性质,当第页=第页n个→ ∞ 作为n个→∞。

所提出的方法可以通过几种方式进行扩展。首先,这些方法可以类似地扩展到其他类型的响应变量,如二进制或生存响应。其次,许多遗传网络是由有向图给出的。通过使用有向图的拉普拉斯矩阵(Chung,1997)在我们对网络约束刑罚的定义中。

致谢

本研究得到了NIH拨款ES009911、CA127334和AG025532的支持。

利益冲突:未声明。

参考文献

Accili公司
D类
阿登
KC公司
处于细胞新陈代谢、分化和转化十字路口的FoxO
单元格
2004
,卷。 
117
(第
421
-
426
)
F类
谱图论,第92卷,共页CBMS地区会议系列。
1997
普罗维登斯
美国数学学会
埃夫隆
B类
最小角度回归
统计年刊
2004
,卷。 
32
(第
407
-
499
)
风扇
J型
R(右)
基于非冲突惩罚似然的变量选择及其oracle性质
美国统计协会
2001
,卷。 
96
(第
1348
-
1360
)
霍瓦思
S公司
胶质母细胞瘤致癌信号网络分析表明ASPM是一个新的分子靶点
程序。美国国家科学院。科学
2006
,卷。 
103
(第
17402
-
17407
)
爱尔兰语
无线电高度表
高密度寡核苷酸阵列探针水平数据的探索、归一化总结
生物统计学
2003
,卷。 
4
(第
249
-
264
)
卡内希萨
M(M)
转到
S公司
KEGG:京都基因和基因组百科全书
核酸研究
2002
,卷。 
28
(第
27
-
30
)
浸出
博士
CTLA-4阻断剂增强抗肿瘤免疫
科学类
1996
,卷。 
271
(第
1734
-
1736
)
C类
H(H)
用于基因组数据分析的网络约束正则化和变量选择
UPenn生物统计学工作文件
2007
 
J型
PTEN,一种在人脑中突变的蛋白酪氨酸磷酸酶基因,乳腺前列腺癌
科学类
1997
,卷。 
275
(第
1943
-
1946
)
梅林
C类
多形性胶质母细胞瘤MAPK表达与预后的相关性
国际J.Oncol
2003
,体积。 
33
(第
641
-
648
)
佩洛斯基
总工程师
,等人
活化丝裂原活化蛋白激酶和Akt通路与胶质母细胞瘤预后的关系
临床。癌症研究
2006
,卷。 
12
(第
3935
-
3941
)
佩雷戈
C类
胶质母细胞瘤细胞系的侵袭行为与钙粘蛋白-钙粘蛋白粘附系统的组织改变有关
细胞科学杂志
2002
,卷。 
115
(第
3331
-
3340
)
拉恩富勒
J型
,等人
从基因表达数据计算通路活性变化的统计意义
统计应用程序。遗传学。分子生物学
2004
,卷。 
  
第16条
Swisshelma公司
K(K)
克劳丁在肿瘤发生中的作用
高级药物递送。利润
2005
,卷。 
57
(第
919
-
928
)
提比什拉尼
RJ公司
通过套索回归收缩和选择
J.R.Stat.Soc.B公司
1996
,卷。 
58
(第
267
-
288
)
提比什拉尼
R(右)
通过融合套索实现轻盈流畅
J.R.统计社会服务。B类
2005
,卷。 
67
(第
91
-
108
)
乌特
马来西亚令吉
蛋白激酶C-eta亚型通过ERK/Elk-1途径诱导胶质母细胞瘤细胞株增殖
癌基因
2007
,卷。 
26
(第
2885
-
93
)
世界环境学会
P(P)
平移
W公司
通过空间相关混合模型将基因网络纳入基因组数据的统计测试
生物信息学
2008
,卷。 
24
(第
404
-
411
)
世界环境学会
Z轴
H(H)
基因组数据网络分析的马尔可夫随机场模型
生物信息学
2007
,卷。 
23
(第
1537
-
1544
)
世界环境学会
Z轴
H(H)
基于网络的时程基因表达数据分析的隐时空马尔可夫随机场模型
应用统计年鉴
2008
,卷。 
2
(第
408
-
429
)
TT公司
兰格
K(K)
套索惩罚回归的坐标下降算法
应用统计年鉴
2008
 
出版中
M(M)
Y(Y)
分组变量回归中的模型选择与估计
J.R.Stat.Soc.B公司
2006
,卷。 
68
(第
49
-
67
)
H(H)
自适应套索及其oracle性质
美国统计协会
2006
,体积。 
101
(第
1418
-
1429
)
H(H)
哈斯蒂
T型
通过弹性网进行正则化和变量选择
J.R.统计社会服务。B类
2005
,卷。 
67
(第
301
-
320
)

作者注释

副主编:Olga Troyanskaya