跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
J应用统计。2023; 50(2): 247–263.
2021年10月14日在线发布。 数字对象标识:10.1080/02664763.2021.1987400
预防性维修识别码:项目经理C9869998
PMID:36698544

一种新的用于组变量选择的组VIF回归及其在多变化点检测中的应用

摘要

在本文中,我们提出了一种新的群体方差膨胀因子(VIF)回归模型,用于处理数据遵循分组结构的大型数据集。与经典的惩罚方法不同,该方法可以在稀疏模型中执行组变量选择,这与经典的处罚方法有很大不同。我们进一步调整了与检测线性模型中多个变化点的两阶段过程相关联的建议方法。我们进行了大量的仿真研究,结果表明所提出的群变量选择和变点检测方法是稳定有效的。最后,我们提供了两个实际数据示例,包括一个体脂数据集和一个空气污染数据集,以说明我们的算法在组选择和变化点检测中的性能。

关键词:组变量选择、多变点检测、分段回归、VIF回归

1.简介

变量选择是统计建模中的一个重要且具有挑战性的问题,在过去的几十年中得到了广泛的研究。惩罚方法,如最小绝对收缩和选择算子(LASSO)[20],平滑剪裁绝对偏差(SCAD)[4],自适应套索[27],最小最大凹罚(MCP)[23],因处理此任务而受欢迎。这些方法主要侧重于选择单个变量。然而,一些数据集具有分组结构:例如,具有多层次分类变量的经济调查数据、基因表达微观阵列数据和来自不同金融部门的投资组合数据。例如,在体脂数据分析中,研究体脂百分比与其他12项身体测量值之间的关系很有意思,这些测量值可分为6类,参见[16]. 然而,这六组中的一些可能并不重要。因此,在数据分析中,分组选择是有用和必要的。近年来,文献中已经讨论了群体选择问题。袁和林[22]提出了套索群,它是套索的自然延伸。迈尔等。 [17]研究了logistic回归模型的群套索,提出了一种高维数据的有效算法。等。 [25]提出了一种通用的复合绝对惩罚,其中包含了群套索作为特例。等。 [10]提出了一种同时选择群体和群体内个体变量的桥接方法。综述了群选择的发展,以及群选择的理论和计算算法[9].

上述所有研究工作都集中在惩罚方法上。这些方法对于大型数据集可能效率不高,因为不仅潜在模型的数量变得过大,而且针对交叉验证标准进行优化的实现可能会变得计算成本高昂。受大数据VIF回归算法的启发[15],我们提出了一种前向分段过程,称为组VIF过程,以解决分组结构数据的组选择问题。前向分段过程是一种古老而贪婪的技术,但由于过去有限的计算资源,统计学家往往忽视了它。然而,正如中所评论的[21]前向分段由于其简单的迭代,计算成本低,因此从现代角度来看是有效的。

近年来,文献中使用变量选择方法来解决多个变点检测问题。变化点检测和估计的统计分析已经进行了很多探索,可以看到一种系统的方法[2]. Harchaoui和莱维·莱杜克[7,8]通过Lasso估计一维分段恒定信号中多个变化点的位置。等人。[11]提出了一种基于SCAD和MCP惩罚的非平稳时间序列模型多结构突变估计和变量选择的快速算法。等人。[12]进一步考虑了线性回归中估计多变化点的有效两阶段方法。等人。[1]、和张等人。[24]采用群拉索方法分别估计了时间序列模型中的结构突变和线性回归模型中的变化点。等人。[18]提出了一种通过VIF回归方法检测均值漂移模型中多个变化点的方法[15]. 受此启发,我们还将我们提出的组VIF过程应用于多变化点检测。我们的研究与[18]我们的变点检测方法应用于线性模型,而不仅仅是均值漂移模型。

我们在本文中有三个主要贡献。首先,我们提出了一种在多元线性回归中使用检验统计量的组VIF回归程序。其次,我们将所提出的组VIF方法应用于处理多线性模型中的多变化点检测。第三,我们提供了所提方法的理论依据。我们还提供了仿真研究和两个实例,其中分析了体脂数据集和空气污染数据集(PM10),以检验所提出的组VIF方法的性能及其在多变化点检测中的应用。

本文的其余部分组织如下。在节中2,我们引入组VIF回归进行组选择。在节中,我们在多元线性回归设置中为我们的方法提供了理论依据。在节中4,我们给出了仿真结果。在节中5,我们将我们的方法应用于两个实际示例。我们在第节中总结了本文6.章节的重要符号及其说明2在附录1中提供,所有理论结果的证明在附录2中给出。

在本文的其余部分中,我们使用了以下符号。()是一个指示函数。是单位矩阵。对于向量,表示其2规范。对于正方形矩阵A类,λ最大值(A类)λ最小值(A类)分别表示其最大和最小特征值。c(c)c(c)是整数,因此0c(c)c(c)<10c(c)中国c(c)<1.

2.VIF组回归

考虑以下多元线性回归J型组:

=j=1J型X(X)jβj+ϵ0,
(1)

哪里是一个n个×1矢量,X(X)j是一个n个×第页j设计矩阵,j=1J型第页j=第页(第页可以比n个,即。第页n个),βj是未知的第页j-与j第th组X(X)j,和随机错误向量ϵ0N个n个(0,σ02).在不失一般性的情况下,我们假设X(X)js均居中。自从一些βjs可以是零向量,我们将非零回归系数向量的指标集表示为G公司={j:βj0, j=1,,J型}{1,,J型}。我们假设jG公司第页jn个.让X(X)G公司成为n个×(jG公司第页j)由预测器跨越的矩阵{X(X)j,jG公司}。我们假设X(X)G公司X(X)G公司是可逆的。本文旨在选择与集合相对应的所有组预测因子G公司在模型中(1).

然后是林等人。[15],我们考虑以下逐步回归模型:

==1M(M)X(X)jβj+X(X)n个e(电子)w个βn个e(电子)w个+ϵ,ϵN个n个(0,σM(M)2),
(2)

哪里X(X)j,jG公司,=1,,M(M),是n个×第页已添加到模型中的组预测因子,X(X)n个e(电子)w个是新的n个×第页n个e(电子)w个组预测值,βj第页-与关联的维数未知参数向量第th组X(X)j。我们需要决定新的组预测值X(X)n个e(电子)w个是否应该添加,也就是说,我们需要测试βn个e(电子)w个=0.表示X(X)M(M)=(X(X)j1,,X(X)jM(M)),然后X(X)M(M)X(X)M(M)是可逆的,这是由关于X(X)G公司X(X)G公司.让H(H)M(M)=X(X)M(M)(X(X)M(M)X(X)M(M))1X(X)M(M),第页=(H(H)M(M))是投影的剩余向量X(X)M(M)根据分阶段算法,我们只需要对新的组预测因子进行回归X(X)n个e(电子)w个关于残差第页.动机[15],我们考虑以下阶段回归:

第页=X(X)n个e(电子)w个γn个e(电子)w个+ϵ~,ϵ~N个n个(0,σ~2).
(3)

βˆn个e(电子)w个是的最小二乘估计βn个e(电子)w个在模型中(2),以及γˆn个e(电子)w个是的最小二乘估计γn个e(电子)w个在模型中()带有X(X)n个e(电子)w个X(X)n个e(电子)w个可逆的。我们有以下建议。

提议2.1

在模型下(2)和(),我们有

γˆn个e(电子)w个=(X(X)n个e(电子)w个X(X)n个e(电子)w个)1Λ2βˆn个e(电子)w个,
(4)

哪里Λ2=X(X)n个e(电子)w个(H(H)M(M))X(X)n个e(电子)w个.

由(4),估计值γˆn个e(电子)w个只是一个线性变换βˆn个e(电子)w个因此,两种假设检验βn个e(电子)w个=0γn个e(电子)w个=0可用于确定新预测值是否X(X)n个e(电子)w个有助于线性模型。

提议2.2

在模型下(2)和(),我们有

βˆn个e(电子)w个=Λ2(X(X)n个e(电子)w个X(X)n个e(电子)w个)γˆn个e(电子)w个d日N个第页n个e(电子)w个(βn个e(电子)w个,σM(M)2Λ2).
(5)

我们的目的是检验无效假设

H(H)0:βn个e(电子)w个=0.

低于H(H)0和(5),我们有测试统计

=γˆn个e(电子)w个(X(X)n个e(电子)w个X(X)n个e(电子)w个)Λ2(X(X)n个e(电子)w个X(X)n个e(电子)w个)γˆn个e(电子)w个/σM(M)2d日χ第页n个e(电子)w个2.

请注意χ第页n个e(电子)w个2代表χ-平方分布第页n个e(电子)w个自由度。类似于[15],σM(M)2可以通过零假设下的均方误差(MSE)来估计H(H)0,可以防止过度拟合或产生选择偏差[5]. 从命题2.1中,我们知道

(X(X)n个e(电子)w个X(X)n个e(电子)w个)1Λ2=(X(X)n个e(电子)w个X(X)n个e(电子)w个)1X(X)n个e(电子)w个H(H)M(M)X(X)n个e(电子)w个.

因此,我们将建议的方法称为组VIF(gVIF)回归,而不是[15].

上述gVIF程序可总结如下:

  1. 获取第页=(H(H)M(M))σˆM(M)2=第页2/(n个M(M)),其中M(M)==1M(M)第页.
  2. 计算Λ2=X(X)n个e(电子)w个(H(H)M(M))X(X)n个e(电子)w个.
  3. 计算测试统计
    ˆ=γˆn个e(电子)w个(X(X)n个e(电子)w个X(X)n个e(电子)w个)Λ2(X(X)n个e(电子)w个X(X)n个e(电子)w个)γˆn个e(电子)w个/σˆM(M)2=(X(X)n个e(电子)w个第页)Λ2X(X)n个e(电子)w个第页/σˆM(M)2.
    (6)
  4. 如果ˆ>χ第页n个e(电子)w个2(α),然后是新的预测值X(X)n个e(电子)w个添加到模型中,其中χ第页n个e(电子)w个2(α)代表上部α分位数χ-平方分布第页n个e(电子)w个自由度。

鉴于[15],我们使用α-投资规则[6]. 阶段回归算法是一类特征选择方法,其中每个潜在特征只被顺序考虑一次,以添加到预测模型中[26]. 这个α-投资规则是一种自适应过程,它通过比较阈值来控制错误发现率(FDR)的界限α具有第页-测试统计值并动态调整,以便在搜索新特征时控制过拟合[6]. 表示所谓α财富依据w个。我们通常设置w个为0.05,这是I型误差的容差。然后在第th次测试,水平α如果发生拒绝,当前的财富w个赚取a支付 w个; 否则,它将减少α/(1α). Theα-投资规则自然会实现Bonferroni规则,因为在此过程中存在有界类型I错误。

我们的gVIF回归算法如下:

  1. 输入数据,X(X)1,X(X)2,(居中);设置初始值w个0=0.05,w个=0.05,第页=¯,σˆ=d日(),(f) = 0,C类ˆ=e(电子)t吨, = 1
  2. 设置α=w个/(1+(f)),获取测试统计信息ˆ由(6). 如果ˆ>χ第页2(α),然后C类ˆC类ˆ{},w个+1w个+w个,(f) = ,否则,w个+1w个α/(1α).
  3. 重复(b),直到考虑所有候选组预测因素。

3.应用于多变点检测

在本节中,我们使用gVIF回归来检测线性回归模型中的多个变化点。考虑以下模型:

t吨=x个t吨β0+k个=1b条δk个(c(c)k个<t吨n个)+ϵt吨,t吨=1,,n个,=x个t吨β0+ϵt吨,1t吨c(c)1,x个t吨β0+δ1+ϵt吨,c(c)1<t吨c(c)2,x个t吨β0+k个=1b条δk个+ϵt吨,c(c)b条<t吨n个,
(7)

哪里x个t吨是一个q个(假定为固定的)维度预测向量,β0是未知的q个-回归参数向量,δk个=(δk个1,,δk个q个)是未知变化位置处变化矢量的大小c(c)k个,b条是未知的更改点数量,c(c)k个(k个=1,,b条)是未知的转换点位置,1<c(c)1<<c(c)b条<n个、和ϵt吨是随机误差项。为了找到b条c(c)k个,我们采用我们提出的基于两阶段多变化点检测过程的gVIF方法来解决此问题。

3.1. 切割阶段

基于[11,12],我们剪切了样本序列{1,,n个}进入之内 + 1段,使每个段都有长度=n个/(+1)除了第一个有长度的n个。然后,我们将第一段表示为S公司1={1,,n个}第个(2+1)分段依据S公司={n个(+2)+1,,n个(+1)}.假设每个段中最多有一个变更点S公司 (=1,,+1).

表示S公司1=(1,,(n个)),S公司=(n个(+2)+1,,n个(+1))对于=2,,+1,=(S公司1,,S公司+1).相应地,写下X(X)S公司1=(x个1,,x个n个),X(X)S公司=(x个n个(+2)+1,,x个n个(+1))对于=2,,+1.表示X(X)0=(X(X)S公司1,,X(X)S公司+1).让X(X)=(0,,0,X(X)S公司+1,,X(X)S公司+1)是替换第一个{n个(+1)}×q个条目X(X)0以零表示,=1,,.然后建模(7)可以重写为

==0X(X)θη+ϵ,
(8)

哪里θ0=β0、和θ (=1,,)是零矢量,除非是人工分段S公司+1 (=1,,)包含更改点。η是满足以下条件的校正向量η==1D类θ,哪里D类是零矩阵,并且θ=0如果没有转换点S公司+1; 否则,D类=X(X)X(X)~c(c)k个 (k个=1,,b条)、和θ=δk个如果k个第个转换点c(c)k个位于S公司+1,也就是说,如果{n个(+1)}c(c)k个{n个()1},X(X)~c(c)k个是替换第一个c(c)k个×q个条目X(X)0以零表示,因此D类X(X)0第一次{n个(+1)}×q个和最后一个(n个c(c)k个)×q个条目为零。

然后,我们通过我们提出的gVIF方法搜索可能包含变化点的非零段。我们注意到(8)差异仅在于O(运行)()=o个(n个)在我们的条件下,因此是渐近相关的。因此,我们进行了以下修改。

假设M(M)群体预测因子X(X)1(),,X(X)M(M)()已根据第一个{n个(+1)}第行,共行,其中X(X)() (=1,,M(M))是第一个{n个(+1)}行,共行X(X)0用第一个{n个(+1)}行为零,每个更改点位于(+1)第h段和11<<M(M)<.让X(X)n个e(电子)w个(+1)成为第一个{n个()}第行,共行X(X)0与第一个{n个(+1)}行为零,我们的目的是检查X(X)n个e(电子)w个(+1)应通过以下模型添加为新的预测值

(+1)==0M(M)X(X)(+1)θ(+1)+X(X)n个e(电子)w个(+1)θn个e(电子)w个(+1)η(+1)+ϵ(+1),
(9)

哪里(+1),X(X)0(+1),η(+1),ϵ(+1)是第一个{n个()}行截断自,X(X)0,ηϵ分别是。

H(H)(+1)=X(X)(+1)[(X(X)(+1))X(X)(+1)]1(X(X)(+1)),Λ(+1)2=(X(X)n个e(电子)w个(+1))(H(H)(+1))X(X)n个e(电子)w个(+1),哪里X(X)(+1)=(X(X)0(+1),,X(X)M(M)(+1)),然后θn个e(电子)w个(+1)可以通过以下方式进行估算

θˆn个e(电子)w个(+1)=Λ(+1)2(X(X)n个e(电子)w个(+1))(H(H)(+1))(+1),

与一起(9),因此

θˆn个e(电子)w个(+1)=θn个e(电子)w个(+1)+Λ(+1)2(X(X)n个e(电子)w个(+1))(H(H)(+1))(η(+1)+ϵ(+1)).

我们的目的是测试无效假设:

H(H)0(+1):θn个e(电子)w个(+1)=0.
(10)

根据下面的定理3.1,让我们测试统计

ˆ=[(X(X)n个e(电子)w个(+1))第页(+1)]Λ(+1)2(X(X)n个e(电子)w个(+1))第页(+1)/σˆ(+1)2,
(11)

哪里第页(+1)=(H(H)(+1))(+1)、和

σˆ(+1)2=第页(+1)2n个()(M(M)+1)q个.

如果ˆ>χq个2(α),然后我们设置X(X)M(M)+1(+1)=X(X)n个e(电子)w个(+1)M(M)+1=+1,即在(+1)第段。否则,重复上述过程并更换通过 + 1

在继续之前,我们介绍以下技术条件。

  • (C1)
    回归参数位于紧凑空间中,真实值为内部点。
  • (C2)
    c(c)k个/n个τk个 (1k个b条),0<τk个1./2=o个(n个).
  • (C3)
    t吨=t吨1+1t吨2x个t吨x个t吨/(t吨2t吨1)W公司作为t吨2t吨1,其中W公司是正定矩阵。
  • (C4)
    ¦Βt吨独立且同分布(i.i.d.),均值为零且方差为σ2、和E类|ϵt吨|2+ν<对于一些常量ν>0.

根据条件(C2),我们有/n个0,则每个段中最多有一个转换点n个.

定理3.1

在模型下(7)和中的无效假设(10),当条件(C1)–(C4)成立时,我们有

Λ(+1)θˆn个e(电子)w个(+1)d日N个q个(0,σ2).

3.2. 搜索阶段

在人工段中定位变更点[n个(+1)+1,n个()],可以对该段上的单个转换点进行测试,该转换点与[12]建议只需在路段上进行测试[n个(+2)+1,n个()].此阶段可以通过使用R包来实现变点[13]. 选择应确保在任何段中不存在多个更改点。为了确保这一要求,我们建议选择2n个作为n个。有关选择的更多详细信息在第节中给出4.2.

3.3. GVIFMCP算法

我们将基于gVIF的检测多个变化点的算法表示为GVIFMCP,并将其表示如下:

  1. 输入数据,X(X)1,X(X)2,(居中),设置初始值=n个/1,w个 = 0.05时,w个=0.05,(f) = 0,C类ˆ=e(电子)t吨, = 1,j = 1
  2. 设置α=w个/(1+(f)),获取测试统计信息ˆ由(11). 如果ˆ>χq个2(α),测试变化点c(c)在里面[n个(+2)+1,n个()]搜索阶段。如果这两个测试都很重要,请获取c(c)ˆj,然后C类ˆC类ˆ{c(c)ˆj},(f) = ,w个+1w个+w个,j = j + 1,否则,w个+1w个α/(1α).
  3. 重复(b)直到+1w个0。我们获得C类ˆ.

4.模拟研究

4.1. 组VIF回归

在本小节中,将进行仿真研究,以证明所提出的gVIF回归的性能。考虑模型=X(X)β+ϵ,其中X(X)由多元正态分布生成N个第页(0,),第页是的尺寸β和随机误差ϵN个(0,σ2),=1,,1000.

(1) 示例1:真正的参数向量是β=(β1,β2,,β7)具有β1=1.5,β2=(0,,025),β=(2,,1,2,1,1),β4=(0,,040),β5=(1,0,1,0,1,0,1,0),β6=(0,,015),β7=(1,0,0,1,1.5)因此β第页=100.设置σ=1.

(2) 示例2:在这个示例中,我们增加了潜在组的数量。真正的参数向量是β=(β1,β2,,β15)具有β1==β5=(2,2,2),β6=·=β10=(2,1.5,0,,1),β11==β15=(0,,020)因此,第页 = 140.设置σ=1.5.

(3) 例3:在这个例子中,我们不仅考虑连续协变量,还考虑类别协变量。真正的参数向量是β=(β1,β2,,β30)具有β1==β5=(,,5),β6==β10=(1,0,1.5,2,0),β11==β30=(0,,020).因此,第页 = 450.当预测值属于区间时,我们将前25列预测值分为1、2、3或4(,0.5),(0.5,0),(0,0.5),(0.5,+)分别是。设置σ=1.5.

我们运行了1000次复制,并在表中总结了模拟结果1注意,术语“正确%”表示选择正确模型的百分比,“mFDR%”表示经验边际错误发现率(mFDR)的百分比,mFDR的估计值定义为

F类D类ˆ=E类(V(V))ˆE类(V(V))ˆ+E类(S公司)ˆ+η

哪里E类(V(V))ˆ是错误发现的平均数量,E类(S公司)ˆ是实际发现的平均数量,以及η=10选择如下[15]和[]. 我们以秒为单位报告平均运行时间。我们将gVIF方法与Bridge组(gBridge)、Lasso组(gLasso)、SCAD组(gSCAD)和MCP组(gMCP)进行了比较。对于gBridge,我们使用中推荐的BIC标准选择惩罚参数[10]. 对于gLasso、gSCAD和gMCP,我们使用十倍交叉验证来选择它们的惩罚参数。从表中可以观察到1gVIF在“正确%”或“mFDR%”方面的性能要比所有其他方法好得多。然而,在相同的设置下,gBridge在执行时间方面优于gVIF。因此,我们使用示例3进行了进一步的模拟研究,以比较gVIF和gBridge。我们将样本量从500到2000不等,并在表中报告其估计精度2从表中可以看出,当样本缩小时,gVIF比gBridge具有更好的预测准确性和稳定性。

表1。

五种不同方法的“正确%”、“mFDR%”和“时间”摘要。

方法 全球VIF网桥(BIC)gLASSO公司gSCAD公司gMCP公司
示例1(G公司 = 7)正确的%96.796.17.27680.90
 mFDR%(百万英尺/小时)0.23520.284913.312.93951.9127
 时间(s)0.19940.04340.51370.48680.4756
示例2(G公司 = 15)正确的%94.181.30.30071.881
 mFDR%(百万英尺/小时)0.29911.039118.01263.05851.6281
 时间(s)0.52690.06980.70550.65890.6413
示例3(G公司 = 30)正确%87.683.90.20068.474.9
 mFDR%(百万英尺/小时)0.64091.439036.13826.23533.4982
 时间(s)1.57510.39542.46682.53172.4982

表2。

示例3中基于gBridge和gVIF的“correct%”和“mFDR%”摘要。

样本量 n个 = 2000n个 = 1500n个 = 1000n个 = 800n个 = 500
全球VIF正确的%86.886.787.987.888.6
 mFDR%(百万英尺/小时)0.71980.70010.64090.68530.6162
网桥(BIC)正确的%9591.683.37852.1
 mFDR%(百万英尺/小时)0.44300.71981.50212.14794.9339

4.2. 多切换点检测

在我们的模拟研究的第二部分中,我们应用gVIF检测线性回归模型中的多个变化点。我们比较了我们的算法GVIFMCP(用于检测多个变化点的组VIF)和在[12]在下面的两个例子中。在第一个示例中,我们考虑以下线性模型:

t吨=x个t吨β0+ϵt吨,1t吨150,x个t吨β0+δ1+ϵt吨,150<t吨350,x个t吨β0+δ1+δ2+ϵt吨,350<t吨600,x个t吨β0+δ1+δ2+δ+ϵt吨,600<t吨1000,

哪里{x个t吨=(x个t吨,1,x个t吨,2,x个t吨,),t吨=1,2,,n个}q个=多维正态分布生成的维数预测因子N个(0,)。参数为β0=(1,1,1),δ1=(2,0,1),δ2=(1.5,2,0),δ=(2,1,1)、和随机错误ϵt吨N个(0,σ2),σ=0.2,0.4和0.8。1使用不同的值显示模拟数据的示例σ.

保存图片、插图等的外部文件。对象名称为CJAS_A_1987400_F001_OB.jpg

多变化点检测的模拟数据。蓝色虚线显示了设计的变更点位置σ=0.2,0.4 n个d日 0.8(来自顶部底部面板)。

选择在上述两阶段程序中非常重要,其实施总结如下:

  1. 选择适当的间隔,并将其划分为K(K)−1个相等长度的子间隔。定义k个=ϖk个n个,k个=1,2,,K(K),其中ϖk个从中获取网格值K(K)子区间的端点。通常,所选间隔应满足2k个q个确保在搜索阶段执行GVIFMCP程序。
  2. 对于每个k个,k个=1,2,,K(K),应用变点检测算法(GVIFMCP或FTSMCD)找到多个变点估计。计算B类C类k个(详细公式见(13)in[12])每个的值k个并选择k个哪里B类C类k个具有最小值,即。B类C类k个B类C类k个,k个=1,2,,K(K).=k个将用于切割阶段。

为了说明这个过程的实现,我们从上面的示例中生成一个示例并选择间隔[0.1, 1]然后,我们将间隔切成九个相等的子间隔,以便ϖk个从中获取值{0.1,0.2,,1}. The在1000个重复中选择了个σ=0.2显示在表中,其中GVIFMCP算法用于上述过程。从这张表中可以看出=10在1000次复制中频率最高。

表3。

选定的分布1000次模拟中的sσ=0.2n个 = 1000,其中使用GVIFMCP算法。

k个=ϖk个n个471013161923262932
频率1859760010000

然后,我们将GVIFMCP算法与表中的FTSMCD算法进行比较4,其中线段的长度在每个模拟中,根据上述程序选择。我们定义了一些事件来评估更改点检测的性能,这些事件是{|ˆ1150|5},{|ˆ2350|5}{|ˆ600|5}。在表中4,术语“cp.number”表示正确估计变更点实际数量的模拟次数。术语“cp”。“ALL”表示发生所有这些事件的模拟百分比。4显示GVIFMCP和FTSMCDs在估计变化点的位置方面都表现得很好,而FTSMCDs的性能略好于GVIFMCP,尤其是在“cp.number”和“cp。全部”。结果还表明σ对变点估计性能有一定影响。

表4。

基于三种不同噪声水平的1000次仿真,我们设计的线性模型的GVIFMCP和FTSMCD的仿真结果(σ=0.2,0.4和0.8)。

 GVIFMCP公司FTSMCD(适配)FTSMCD(SCAD)FTSMCD(MCP)
σ0.20.40.80.20.40.80.20.40.80.20.40.8
#{|ˆ1150|5}10009999901000998989100099999310001000993
#{|ˆ2350|5}1000100098510001000991100010009981000999997
#{|ˆ600|5}1000999995100010009981000100099710001000997
cp.编号995986964998996993992987977993990989
cp.ALL(%)99.498.593.599.599.197.199.298.697.499.39997.6

在第二个示例中,我们考虑在[12]模拟地面臭氧数据。表中报告了这两种方法的性能5。这里的事件是{|ˆ1200|10},{|ˆ2350|10},{|ˆ450|10},{|ˆ4550|10},{|ˆ5700|10}、和{|ˆ6850|10}.按表格5可以看出,GVIFMCP和FTSMCD在检测每个变更点位置方面都表现良好,而GVIFMCC在“cp.number”和“cp”方面优于FTSMCD。全部”。

表5。

设计的线性模型的GVIFCP和FTSMCD的仿真结果[12]基于1000个重复。

  FTSMCD公司FTSMCD公司FTSMCD公司
 GVIFMCP公司(适配)(SCAD)(最大持续功率)
#{|ˆ1200|10}997987764970
#{|ˆ2350|10}1000100010001000
#{|ˆ450|10}99510009981000
#{|ˆ4550|10}882967961952
#{|ˆ5700|10}998998971967
#{|ˆ6850|10}985999997977
cp.编号911237620640
cp.ALL(%)67.621.959.460.8

还应注意,表5,所有的方法都不如第一个示例中的性能好,这可能是因为第二个示例中有更多的变化点。

5.实例

在本节中,我们研究了两个真实的数据集,可以在网站上找到http://lib.stat.cmu.edu/datasets我们将把我们的gVIF和GVIFMCP算法应用于这两个实际示例,并报告它们的性能。

5.1. 体脂研究的分组选择

我们使用gVIF算法分析体脂数据集(bodyfat)。在这项研究中,我们通过估计个人的体脂百分比来评估其健康状况。一个人的体脂百分比可以通过测量身体密度来估计[19]. 我们的目的是研究体脂百分比与其他12项身体测量值之间的关系,这些测量值分别属于以下类别之一:(1)年龄(岁);(2) 体重指数(=w个e(电子)小时t吨(b条)×703(小时e(电子)小时t吨(n个))2); (3) 颈部周长(cm)、胸围(cm);(4) 腹部周长(cm)、臀围(cm);(5) 大腿周长(cm)、膝盖周长(cm)、脚踝周长(厘米);(6) 肱二头肌(伸展)周长(cm)、前臂周长(mm)、腕围(cm)[16]. 因此,协变量分为六组。该数据集对252名个人进行了测量。由于有一种情况下人体脂肪的百分比为零,因此我们在研究中删除了它。

从表6结果表明,gVIF或gMCP均未选择与腿部测量值相对应的第5组,而gBridge仅选择与腹部和手臂测量值相匹配的第4组和第6组。其他两种方法选择所有协变量组。由[19]身体脂肪的百分比可以通过身体密度来估计,而“Siri方程”也显示了身体密度与瘦组织和脂肪组织的比例之间的关系。这意味着肌肉、肌腱和韧带的组成与身体脂肪的百分比高度相关。因此,gVIF和gMCP都为我们在实际数据中提供了更合理的选择。

表6。

体脂数据的分组选择结果。对于每个条目,矢量通过不同的方法显示选定的组。

方法全球VIFg桥格拉索gSCAD公司gMCP公司
选择的组(1、2、3、4、6)(4, 6)(1, 2, 3, 4, 5, 6)(1, 2, 3, 4, 5, 6)(1, 2, 3, 4, 6)

5.2. 空气污染研究中的多变化点检测

本小节将应用GVIFMCP算法检测空气污染数据集(PM10)中的多个变化点。该数据集是挪威公共道路管理局(Norwegian Public Roads Administration)针对道路污染、交通量和气象变量之间的关系进行的一项研究得出的数据集中500个观测值的子样本。响应变量包括2001年10月至2003年8月在挪威奥斯陆Alnabru测量的PM10(颗粒)浓度对数的每小时观测值。预测因子为:(1)每小时汽车数量的对数;(2) 温度(离地2米,摄氏度);(3) 风速(米/秒);(4) 温差(地面以上2至25米之间,摄氏度);(5) 风向(0至360度);(6) 从2001年10月1日开始的一天中的小时数和日数。在我们的分析中,所有预测变量都进行了标准化。

我们采用了选择线段长度的程序第4.2节中给出的数据,并获得=4GVIFMCP的应用产生了估计的转换点位置95、283和359。为了评估我们的GVIFMCP算法的性能,我们将我们的结果与[14],这是检测多个更改点的常用方法,已在R包中实现变点[13]. PELT对数据的应用产生了变化点位置23、25、383、385、490和492。图中的虚线垂直线显示了通过GVIFMCP和PELT进行的变更点估算2.

保存图片、插图等的外部文件。对象名称为CJAS_A_1987400_F0002_OC.jpg

检测空气污染数据中的多个变化点。顶部和底部面板中的虚线显示通过应用GVIFMCP和PELT分别获得的估计的多个变更点。

我们使用三个中值指数来评估GVIFMCP和PELT的性能,并将其报告在表中7:(1)绝对预测误差的中位数{|Y(Y)Y(Y)ˆ|}(MAPE);(2) 加性相对预测误差的中位数{|Y(Y)Y(Y)ˆ|/Y(Y)+|Y(Y)Y(Y)ˆ|/Y(Y)ˆ}(MARPE);(3) 平方预测误差的中位数{(Y(Y)Y(Y)ˆ)2}(MSPE),其中Y(Y)ˆ是的拟合值Y(Y),=1,2,,n个.表7表明GVIFMCP的性能略优于PELT,因为GVIFMCC的MAPE、MARPE和MSPE均小于PELT的相应值。此外,表中预测误差的中值指数表明,模型拟合由估计的变化点划分的分段比不考虑任何变化点的分段具有更好的预测精度。

表7。

空气污染数据的模型拟合结果。

 MAPE公司大理石花纹MSPE公司
GVIFMCP公司0.15430.31520.2605
PELT公司0.15760.32000.2620
无更改点0.53370.33690.2849

6.结论

本文提出了一种用于处理具有分组结构特征的数据集的组VIF回归算法,并开发了一种基于gVIF的两阶段多变化点检测程序。我们为我们提出的方法提供了理论依据。通过仿真和实际数据,我们将gVIF与gBridge、gLasso、gSCAD和gMCP在组模型选择性能上进行了比较。仿真研究和实例表明,gVIF在估计精度方面比其他惩罚模型选择方法具有更好的性能。然而,就执行时间而言,gBridge优于gVIF。我们进一步比较了不同样本大小的gVIF和gBridge。我们发现,如果样本缩小,gVIF的预测比gBridge的预测更稳定。我们还通过数据示例比较了基于gVIF的两阶段多变点检测程序和GVIFMCP算法。数值结果表明,我们的方法在估计变化点数量及其位置方面与最后两阶段的多变化点检测具有相当的性能[12].

致谢

作者感谢副主编和三位匿名审稿人的宝贵意见和建议,这些意见和建议使本文得以改进。

附录1.重要注释

表A1。

章节中的注释2.

符号描述
N个d日(,) d日-多维正态分布
G公司 非零系数向量的索引集:{j:βj0,j=1,,J型}
X(X)G公司 由预测器跨越的矩阵{X(X)j,jG公司}
X(X)M(M) (X(X)j1,,X(X)jM(M)),其中M(M)={j1,,jM(M)}
Λ2 X(X)n个e(电子)w个(H(H)M(M))X(X)n个e(电子)w个,其中H(H)M(M)=X(X)M(M)(X(X)M(M)X(X)M(M))1X(X)M(M)

表A2。

章节中的新注释.

符号描述
X(X)0 (X(X)S公司1,,X(X)S公司+1)
X(X) (=1,,) (0,,0,X(X)S公司+1,,X(X)S公司+1)
X(X)() (=1,,M(M)) 第一个{n个(+1)}行,共行X(X)0用第一个{n个(+1)}行为零
X(X)n个e(电子)w个(+1) 第一个{n个()}行,共行X(X)0用第一个{n个(+1)}行为零
X(X)(+1) (X(X)0(+1),,X(X)M(M)(+1)),其中X(X)0(+1)是第一个{n个()}行截断自X(X)0
Λ(+1)2 (X(X)n个e(电子)w个(+1))(H(H)(+1))X(X)n个e(电子)w个(+1),其中H(H)(+1)=X(X)(+1)[(X(X)(+1))X(X)(+1)]1(X(X)(+1))

附录2.证明

证明

命题2.1的证明-

表示X(X)~=[X(X)M(M),X(X)n个e(电子)w个],其中X(X)M(M)=(X(X)j1,,X(X)jM(M)),然后

X(X)~X(X)~=X(X)M(M)X(X)M(M)X(X)M(M)X(X)n个e(电子)w个X(X)n个e(电子)w个X(X)M(M)X(X)n个e(电子)w个X(X)n个e(电子)w个,

(X(X)~X(X)~)1=A类11A类122X(X)n个e(电子)w个X(X)M(M)(X(X)M(M)X(X)M(M))1Λ2,

哪里A类11=(X(X)M(M)X(X)M(M))1+(X(X)M(M)X(X)M(M))1X(X)M(M)X(X)n个e(电子)w个2X(X)n个e(电子)w个X(X)M(M)(X(X)M(M)X(X)M(M))1,A类12=(X(X)M(M)X(X)M(M))1X(X)M(M)X(X)n个e(电子)w个Λ2,Λ2=X(X)n个e(电子)w个(H(H)M(M))X(X)n个e(电子)w个.

请注意βˆn个e(电子)w个是由最后一个第页n个e(电子)w个的元素(X(X)~X(X)~)1X(X)~,然后

βˆn个e(电子)w个=Λ2X(X)n个e(电子)w个H(H)M(M)+Λ2X(X)n个e(电子)w个=Λ2X(X)n个e(电子)w个(H(H)M(M))=Λ2(X(X)n个e(电子)w个X(X)n个e(电子)w个)(X(X)n个e(电子)w个X(X)n个e(电子)w个)1X(X)n个e(电子)w个第页=Λ2(X(X)n个e(电子)w个X(X)n个e(电子)w个)γˆn个e(电子)w个.

它完成了证明。

证明

命题2.2的证明-

根据命题1的证明,我们有

βˆn个e(电子)w个=Λ2X(X)n个e(电子)w个(H(H)M(M))=Λ2X(X)n个e(电子)w个(H(H)M(M))(=1M(M)X(X)jβj+X(X)n个e(电子)w个βn个e(电子)w个+¦Β)=Λ2X(X)n个e(电子)w个(H(H)M(M))(X(X)n个e(电子)w个βn个e(电子)w个+ϵ)=βn个e(电子)w个+Λ2X(X)n个e(电子)w个(H(H)M(M))ϵ.

请注意¦ΒN个n个(0,σM(M)2)H(H)M(M)是幂等对称矩阵。那么βˆn个e(电子)w个N个第页n个e(电子)w个(βn个e(电子)w个,σM(M)2Λ2)它完成了证明。

证明

定理证明3.1-

请注意(X(X)(+1))X(X)(+1)=(U型(+1))V(V)(+1)U型(+1),其中

U型(+1)=q个00q个q个0q个0q个q个((M(M)+1)q个,(M(M)+1)q个),V(V)(+1)=V(V)1(+1)000V(V)2(+1)00V(V)M(M)(+1)000V(V)M(M)+1(+1),

哪里V(V)1(+1)=j=1n个(1+1)x个jx个j,V(V)2(+1)=j=n个(1+1)+1n个(2+1)x个jx个j, …,V(V)M(M)(+1)=j=n个(M(M)1+1)+1n个(M(M)+1)x个jx个j,V(V)M(M)+1(+1)=j=n个(M(M)+1)+1n个()x个jx个j.从条件(C类2)(C类),转换点很好地分开(V(V)(+1))1正常O(运行)(1/n个),这是λ~((V(V)(+1))1)1/n个,这意味着λ最大值((V(V)(+1))1)=c(c)1n个1λ最小值((V(V)(+1))1)=c(c)2n个1对于正常数c(c)1c(c)2.那么我们就有了[(X(X)(+1))X(X)(+1)]1也是正常的O(运行)(1/n个).

请注意X(X)n个e(电子)w个(+1)是第一个(+1)行,共行X(X)0用第一个伊尔行为零,(X(X)n个e(电子)w个(+1))X(X)n个e(电子)w个(+1)=j=n个(+1)+1n个()x个jx个j正常,

(X(X)(+1))X(X)n个e(电子)w个(+1))最大值=O(运行)(),

哪里A类最大值=λ最大值(A类A类)。那么我们有

λ~(Λ(+1)2)=λ~((X(X)n个e(电子)w个(+1)){X(X)(+1)[(X(X)(+1))X(X)(+1)]1(X(X)(+1))}X(X)n个e(电子)w个(+1))=λ~((X(X)n个e(电子)w个(+1))X(X)n个e(电子)w个(+1))(1+o个(1)).

在零假设下,段中没有变化点[n个(+1)+1,n个()],然后是最后一个行,共行η(+1)是零和(X(X)n个e(电子)w个(+1))η(+1)=0此外,根据条件(C1)和(C3),我们有θ<、和

(X(X)(+1))η(+1)==1M(M)O(运行)λ最大值j=n个(+1)+1c(c)x个jx个j=O(运行)().
(A1)

根据条件(C2),/2=o个(n个),我们有

Λ(+1)1(X(X)n个e(电子)w个(+1)){X(X)(+1)[(X(X)(+1))X(X)(+1)]1(X(X)(+1))}η(+1)=Λ(+1)1(X(X)n个e(电子)w个(+1))X(X)(+1)[(X(X)(+1))X(X)(+1)]1(X(X)(+1))η(+1)=O(运行)(12)O(运行)()O(运行)(n个1)O(运行)()=O(运行)(n个1/2)=o个(1).

请注意θn个e(电子)w个(+1)=0,然后

Λ(+1)θˆn个e(电子)w个(+1)=Λ(+1)1(X(X)n个e(电子)w个(+1))(H(H)(+1))ϵ(+1)+o个(1).

通过Lindeberg–Feller中心极限定理和条件(C4),我们可以得到

Λ(+1)1(X(X)n个e(电子)w个(+1))(H(H)(+1))ϵ(+1)d日N个q个(0,σ2).

因此,我们有

Λ(+1)θˆn个e(电子)w个(+1)d日N个q个(0,σ2).

它完成了证明。

资金筹措表

这项工作得到了加拿大自然科学与工程研究委员会的支持[批准号RGPIN-2017-05720]。

披露声明

提交人没有报告任何潜在的利益冲突。

工具书类

1Chan N.H.、Yau C.Y.和Zhang R.M。,结构断裂时间序列的LASSO组,美国统计协会。 109(1993),第590-599页。[谷歌学者]
2Chen J.和Gupta A.K。,参数统计变化点分析:应用于遗传学、医学和金融第二版,Springer Science&Business Media,纽约,2011年。[谷歌学者]
三。Dupuis D.J.和Victoria-Feser M.P。,稳健VIF回归及其在大数据集变量选择中的应用,附录申请。斯达。 7(2013),第319-341页。[谷歌学者]
4范J.和李R。,基于非冲突惩罚似然的变量选择及其oracle性质,美国统计协会。 96(2001),第1348–1360页。[谷歌学者]
5Foster D.P.和Stine R.A。,数据挖掘中的变量选择:建立破产预测模型,美国统计协会。 99(2004),第303–313页。[谷歌学者]
6Foster D.P.和Stine R.A。,α-投资:预期错误发现的顺序控制程序,J.R.统计。Soc.B(统计方法) 70(2008),第429-444页。[谷歌学者]
7Harchaoui Z.和Lévy-Leduc C。,用套索捕捉变化点,Adv Neural Inf过程系统。第卷。20麻省理工学院出版社,马萨诸塞州剑桥,2008年。[谷歌学者]
8Harchaoui Z.和Lévy-Leduc C。,具有总变差惩罚的多变点估计,美国统计协会。 105(2010),第1480–1493页。[谷歌学者]
9黄J.、Breheny P.和Ma S。,高维模型中群体选择的选择性综述,统计科学。 27(2012),第481-499页。[PMC免费文章][公共医学][谷歌学者]
10黄J.、马S.、谢H.、张C.-H。,一种用于变量选择的群桥方法,生物特征 96(2009),第339-355页。[PMC免费文章][公共医学][谷歌学者]
11金斌、石旭、吴毅。,一种新的快速非平稳时间序列模型多结构突变估计和变量选择方法,统计计算。 23(2013),第221-231页。[谷歌学者]
12金碧、吴瑜、石霞。,线性模型中一致的两阶段多变点检测,可以。J.统计。 44(2016),第161-179页。[谷歌学者]
13Killick R.和Eckley I。,变更点:用于变更点分析的R包,J.统计软件。 58(2014),第1-19页。[谷歌学者]
14Killick R.、Fearnhead P.和Eckley I。,具有线性计算代价的变化点的最优检测,美国统计协会。 107(2012),第1590–1598页。[谷歌学者]
15Lin D.、Foster D.P.和Ungar L.H。,Vif回归:一种大数据的快速回归算法,美国统计协会。 106(2011),第232-247页。[谷歌学者]
16刘昕、林毅、王忠。,相对误差回归的组变量选择,J.统计计划。推断。 175(2016),第40-50页。[谷歌学者]
17Meier L.、van de Geer S.和Bühlmann P。,相对误差回归的组变量选择,J.R.统计社会服务。B(统计方法) 70(2008),第53-71页。[谷歌学者]
18史旭、王旭、魏德、吴勇。,基于vif回归的序列多变点检测方法,压缩机。斯达。 31(2016),第671-691页。[谷歌学者]
19Siri W.E.公司。,身体的总成分,高级生物学。医学物理。 4(1956年),第239-280页。[公共医学][谷歌学者]
20Tibshirani R。,通过套索回归收缩和选择,J.R.统计社会服务。B(方法学) 58(1996),第267-288页。[谷歌学者]
21Tibshirani R.J。,快速分段算法的通用框架,J.马赫。学习。物件。 16(2015),第2543–2588页。[谷歌学者]
22袁明、林毅。,分组变量回归中的模型选择与估计,J.R.统计社会服务。B(统计方法) 68(2006),第49-67页。[谷歌学者]
23张春华。,极小极大凹惩罚下的几乎无偏变量选择,Ann.统计。 38(2010),第894-942页。[谷歌学者]
24张斌、耿杰、赖磊。,线性回归模型中基于稀疏群套索的多变点估计,IEEE传输。信号处理。 63(2015),第2209-2224页。[谷歌学者]
25赵P.、罗查G.和于波。,用于分组和分层变量选择的复合绝对惩罚族,Ann.统计。 37(2009),第3468–3497页。[谷歌学者]
26周杰(Zhou J.)、福斯特·D.P.(Foster D.P.)、斯汀·R.A.(Stine R.A.)和安加·L.H(Ungar L.H),流式功能选择,J.马赫。学习。物件。 7(2006),第1861-1885页。[谷歌学者]
27邹华。,自适应套索及其oracle性质,美国统计协会。 101(2006),第1418-1429页。[谷歌学者]

文章来自应用统计学杂志由以下人员提供泰勒和弗朗西斯