总结

我们考虑了一个高维回归模型,该模型可能会因协变量阈值而发生变化,并发展了回归系数和阈值参数的lasso估计。我们的拉索估计量不仅选择协变量,而且在线性回归模型和阈值回归模型之间选择模型。在稀疏性假设下,我们导出了预测风险和1-回归系数的估计损失。由于lasso估计器同时选择变量,我们证明了可以在不预先证明阈值效应存在的情况下建立预言不等式。此外,我们还建立了一个条件,在这个条件下,未知阈值参数的估计误差可以由一个接近n个1即使回归变量的数量远大于样本量n个我们通过蒙特卡罗模拟和对实际数据的应用说明了我们提出的估计方法的有用性。

1.简介

自从蒂比什拉尼的开创性工作以来,套索及其相关方法在统计学中受到了迅速的关注(1996). 例如,请参见布尔曼和范德格尔(2011)还有范和吕(2010)和Tibshirani(2011)了解总体概况和最新发展。

本文提出了一种估计高维回归模型的方法,该模型具有因协变量阈值而可能发生变化的点,同时从一组潜在的协变量中选择相关的回归变量。特别是,我们建议1参数的惩罚最小二乘(lasso)估计量,包括未知阈值参数,并在稀疏性假设下分析其性质,当可能的协变量的数量可能远大于样本量时。

具体来说,让{(Y(Y),X(X),):=1,,n个}是独立观察的样本
Y(Y)=X(X)β0+X(X)δ01{<τ0}+U型,=1,,n个,
(1.1)
其中,对于每个,X(X)是一个M(M)×1确定性向量,是确定性标量,U型跟随N个(0,σ2)1{·}表示指示符函数。标量变量是阈值变量τ0是未知的阈值参数。是我们设置中的一个固定变量,表达式(1.1)包括一个回归模型,其变化点在未知时间(例如。=/n个). 在本文中,我们重点讨论了{(X(X),):=1,,n个}和独立正态误差{U型:=1,,n个}这种设置在文献中被广泛使用(例如Bickel. (2009)).

回归模型,如模型(1.1)通过将数据拆分为子样本,为应用研究人员提供了一个简单但有用的框架来建模非线性关系。实证例子包括具有多重均衡的跨国增长模型(Durlauf和Johnson,1995)种族隔离(卡。,2008)和金融传染(Pesaran和Pick,2007)等等。通常,阈值变量的选择在应用工作中动机很强(例如初始人均杜劳夫和约翰逊的产量(1995)和卡德一个街区的少数股权. (2008))但其他协变量的选择取决于应用研究人员的自由裁量权。

然而,协变量选择在识别阈值效应(即非零δ0)因为一个支持具有特定协变量集的阈值效应的统计模型可以被一个具有更广泛回归变量集的线性模型推翻。因此,将套索视为估计模型的工具似乎很自然(1.1).

我们考虑的统计问题是估计未知参数(β0,δ0,τ0)2M(M)+1什么时候M(M)远大于n个对于经典设置(当M(M)小于n个),模型估计(1.1)已经过很好的研究(例如Tong(1990)、Chan(1993)和汉森(2000))。此外,回归中测试阈值效应的一般方法(即测试H(H)0:δ0=0在模型中(1.1))可用于经典设置(例如Lee. (2011)).

虽然有很多关于套索类型方法的参考文献,也有同样多关于变化点、样本分割和阈值模型的参考文献。但似乎只有少数参考文献涉及这两个主题。吴(2008)提出了一种基于信息的标准,用于在具有可能变化点的线性模型中同时进行变化点分析和变量选择;然而,Wu提出的方法(2008)在稀疏的高维模型中是不可行的。在无协变量的变点模型中,Harchaoui和Lévy-Leduc(2008,2010)提出了一种估计白噪声中一维分段常数信号变化点位置的方法,该方法使用带惩罚的最小二乘准则1-类型惩罚。Zhang和Siegmund(2012)开发了贝叶斯信息准则类准则,用于确定多个独立正态观测序列平均值的变化数量,当变化点的数量随样本大小而增加时。库佩卡(2014)考虑了与我们类似的估计问题,但相应的分析仅限于潜在协变量数量较少的情况。

本文考虑回归系数的lasso估计以及阈值参数。由于更改点参数τ0不在模型中添加(1.1),在lasso估计中产生的优化问题是非凸的。我们通过比较网格上标准套索目标函数在以下可能值范围内的值来克服这个问题τ0.

Fan和Peng检验了套索的理论性质和高维数据的相关方法(2004)、丁腈橡胶. (2007)坎迪斯和陶(2007),黄. (2008年a,2008年b)、Kim. (2008)、比克尔. (2009)Meinshausen和Yu(2009)等等。大多数参考文献都考虑了二次目标函数和线性或非参数模型,其加性平均误差为0。最近有兴趣将此框架扩展到广义线性模型(例如van de Geer(2008)范和吕(2011))分位数回归模型(例如Belloni和Chernozhukov(2011年a)、布拉迪奇. (2011)和Wang. (2012))以及危害模型(例如Bradic. (2012)林和吕(2013))。我们通过考虑一个具有可能变化点的回归模型,然后导出预测风险和1-稀疏情况下回归系数的估计损失。

我们的理论结果基于Bickel. (2009). 由于lasso估计器同时选择变量,我们证明了oracle不等式与Bickel中获得的不等式类似. (2009)可以在不预先检验阈值效应存在的情况下建立。特别是,当没有阈值效应时(δ0=0),我们证明了基本上与Bickel中的预言不等式等价的预言不等式. (2009). 此外,当δ00,我们建立了未知阈值参数的估计误差可以由接近n个1当回归变量的数量远大于样本量时。为了实现这一点,我们发展了一些复杂的链式论证,并提供了充分的正则性条件,在这些条件下我们证明了oracle不等式。超一致性结果τ^众所周知,当协变量的数量很小时(例如,参见Chan(1993)Seijo和Sen(2011年a,2011年a))。据我们所知,我们的论文是第一篇证明了n个1-在具有变化点的稀疏高维回归模型的上下文中绑定。

本文的其余部分如下。在节中2我们提出了套索估计器,在第节中3我们用经济学中的一个实际数据示例简要说明了我们提出的估计方法。在节中4我们建立了lasso估计的预测一致性。在节中5我们根据预测损失和1-估计损失(α0,τ0)同时为两种可能的阈值效应提供了低水平的充分条件。在节中6我们给出了一些模拟研究的结果,以及7得出结论。在线附录由六部分组成:附录A为我们的主要假设之一提供了充分的条件,附录B对可识别性进行了一些额外的讨论τ0,附录C,D类E类包含所有证据,以及附录F提供了其他数值结果。

1.1. 符号

我们收集了本文中使用的符号。对于{(Y(Y),X(X),):=1,,n个}跟随模型(1.1),让X(X)(τ)表示2M(M)×1矢量,以便X(X)(τ)=(X(X),X(X)1{<τ})然后让X(X)(τ)表示n个×2M(M)矩阵,其第行是X(X)(τ)。对于L(左)-量纲向量,让||第页表示第页-的规范、和|J型()|表示的基数J型(),其中J型()={j{1,,L(左)}:j0}。此外,让M(M)()表示非零元素的数量,即。M(M)()=Σj=1L(左)1{j0}=|J型()|.让J型用表示向量L(左)坐标与J型补码上的零坐标J型c(c)属于J型。对于任何n个-量纲向量W公司=(W公司1,,W公司n个),将经验规范定义为W公司n个:=(n个1.5第页t吨Σ=1n个.7第页t吨W公司2)1/2.让上标'(j)'表示j向量的第个元素或j矩阵的第几列取决于上下文。最后,定义(f)(α,τ)(x个,q个):=x个β+x个δ1{q个<τ},(f)0(x个,q个):=x个β0+x个δ01{q个<τ0}(f)^(x个,q个):=x个β^+x个δ^1{q个<τ^}然后,我们将预测风险定义为
(f)^(f)0n个:=[1n个=1n个{(f)^(X(X),)(f)0(X(X),)}2]1/2.

2.拉索估计

α0=(β0,δ0)然后,使用上面定义的符号,我们可以重写模型(1.1)作为
Y(Y)=X(X)(τ0)α0+U型,=1,,n个.
(2.1)
(Y(Y)1,,Y(Y)n个).对于任何固定τT型,其中T型[t吨0,t吨1]是的参数空间τ0,考虑剩余平方和
S公司n个(α,τ)=n个1=1n个(Y(Y)X(X)βX(X)δ1{<τ})2=X(X)(τ)αn个2,
哪里α=(β,δ).
我们定义如下2M(M)×2M(M)对角线矩阵:
D类(τ):=诊断{X(X)(j)(τ)n个,j=1,,2M(M)}.
对于每个固定τT型,定义套索解α^(τ)通过
α^(τ):=参数最小值αA类2M(M){S公司n个(α,τ)+λ|D类(τ)α|1},
(2.2)
哪里λ是一个调整参数,取决于n个A类是的参数空间α0.
值得注意的是,标度归一化因子D类(τ)取决于τ因为不同的值τ生成不同的词典X(X)(τ). 要更清楚地看到这一点,请定义
X(X)(j)(X(X)1(j),,X(X)n个(j)),X(X)(j)(τ)(X(X)1(j)1{1<τ},,X(X)n个(j)1{n个<τ}).
(2.3)
然后,对于每个τT型以及每个j= 1,…,M(M),我们有X(X)(j)(τ)n个=X(X)(j)n个X(X)(M(M)+j)(τ)n个=X(X)(j)(τ)n个。使用此符号,我们重写1-惩罚为
λ|D类(τ)α|1=λj=12M(M)X(X)(j)(τ)n个|α(j)|=λj=1M(M).8第页t吨{X(X)(j)n个|α(j)|+X(X)(j)(τ)n个|α(M(M)+j)|}.
因此,对于每个固定的τT型,α^(τ)是使用数据相关的加权套索1-充分平衡协变量的惩罚。
我们现在估计τ0通过
τ^:=参数最小值τT型[S公司n个{α^(τ),τ}+λ|D类(τ).8第页t吨α^(τ)|1].
(2.4)
事实上,对于任何有限的n个,τ^由区间给出,我们简单地定义区间的最大值作为我们的估计量。如果我们使用1{>τ},那么约定就是作为估计量的区间的最小值。然后是α0定义为α^:=α^(τ^)事实上,我们建议的估计值(α,τ)可以被视为一步最小化
(α^,τ^):=参数最小值αA类2M(M),τT型S公司n个(α,τ)+λ|D类(τ)α|1.
(2.5)
值得注意的是,我们惩罚β0δ0在表达式中(2.5),其中δ0是两种状态之间回归系数的变化。型号(1.1)可以写为
Y(Y)=X(X)β0+U型,如果τ0,X(X)β1+U型,如果<τ0,
(2.6)
哪里β1β0+δ0.鉴于模型(2.6)或者,有人可能会受到惩罚β0β1而不是β0δ0。我们选择了惩罚δ0自从案件发生以来δ0=0对应于线性模型。如果δ^=0那么这种情况就相当于选择了线性模型。

3.实证说明

在本节中,我们将所提出的套索方法应用于经济学中的增长回归模型。新古典增长模型预测,从长远来看,经济增长率趋于一致。通过观察长期增长率和给定其他协变量的初始国内生产总值(GDP)之间的负关系,对该理论进行了实证检验(参见Barro和Sala-i-Martin(1995)和杜劳夫. (2005)用于文献综述)。尽管实证结果证实了增长率与初始GDP之间的负相关,但也有一些批评认为,结果在很大程度上取决于协变量的选择。最近,贝洛尼和切尔诺朱科夫(2011年b)表明套索估计有助于选择线性的增长回归模型和lasso估计结果再次证实了长期增长率与初始GDP之间的负相关关系。

我们考虑具有可能阈值的增长回归模型。杜劳夫和约翰逊(1995)提供了多稳态存在的理论背景,并用两个可能的阈值变量估计了模型。他们通过向模型中添加其他可用的协变量来检查稳健性,但它仍然受到以下方面的批评特别的变量选择。在这种情况下,我们提出的套索方法可能是一种很好的替代方法。此外,正如我们稍后将显示的那样,即使模型中没有阈值效应,我们的方法也能很好地工作。因此,人们可能会期望我们的方法能带来更稳健的结果。

我们考虑的回归模型具有以下形式
=β0+β1lgdp60型+X(X)β2+1{<τ}(δ0+δ1lgdp60型+X(X)δ2)+ε,
(3.1)
哪里是国家的年GDP增长率1960年至1985年,lgdp60型是1960年的log-GDP是一个可能的阈值变量,我们使用最初的GDP或继Durlauf和Johnson之后的1960年成人识字率(1995). 最后,X(X)是与教育、市场效率、政治稳定、市场开放度和人口特征相关的额外协变量的向量。此外,X(X)包含lgdp60之间的交叉乘积项和教育变量。1给出了使用的所有协变量的列表以及每个变量的描述。我们包括尽可能多的协变量,这可能会减轻潜在的遗漏变量偏差。数据集主要来自Barro和Lee(1994)额外的成人识字率来自Durlauf and Johnson(1995). 由于缺少观测值,当是初始GDP(n个=80和M(M)=46),当是识字率(n个=70和M(M)= 47). 值得注意的是,阈值模型中的协变量数量大于观察值数量(2M(M)>n个在我们的符号中)。因此,我们不能采用标准最小二乘法来估计阈值回归模型。
表1。

变量列表

变量名称描述
因变量
1960年至1985年期间的年GDP增长率
阈值变量
gdp60实际GDP人均1960年(1985年价格)
爱尔兰1960年成人识字率
协变量
lgdp60型日志-GDP人均1960年(1985年价格)
爱尔兰1960年成人识字率(仅包括=lr)
最小二乘法k1960-1985年的年化对数(投资/产出);日志代理(物理
储蓄率)
长距离无线电流行音乐1960年至1985年的对数(人口增长率)
吡咯601960年男性人口的对数(平均小学教育年限)
吡咯601960年女性人口的对数(平均小学教育年限)
符号601960年男性人口的log(平均中学教育年限)
赛尔夫601960年女性人口的平均中学教育年限
氢601960年男性人口的平均高等教育年限
60马力1960年女性人口的对数(平均高等教育年限)
标称601960年男性人口中没有上学的比例
60号1960年女性人口中没有上学的比例
prim60型1960年男性人口接受小学教育的百分比
60年前1960年女性人口接受小学教育的百分比
价格601960年男性完成小学教育的百分比
价格601960年女性完成小学教育的百分比
60秒1960年男性人口接受中学教育的百分比
60秒1960年女性人口接受中学教育的百分比
秒601960年男性完成中学教育的百分比
60秒1960年女性完成中学教育的百分比
利菲1960年至1985年的平均对数(0岁时的预期寿命)
lfert公司1960年至1985年平均生育率
教育/gdp1960年至1985年间,政府教育支出占GDP的平均值
gcon/gdp1960年至1985年期间,每GDP国防和教育的政府消费支出净额平均值
撤销1960年至1984年每年的转数
政变1960-1984年间每年的转数和政变次数
监狱1960年至1984年间至少参加过一次对外战争的国家的假人
战时1960年至1985年间,部分时间卷入了外部战争
磅/加仑log(1960年至1985年间平均1+黑市溢价)
总数贸易术语冲击
lgdp60ד导出”两个协变量的乘积(lgdp60和教育变量从pyrm60到seccf60的相互作用);总共16个变量
变量名称描述
因变量
1960年至1985年期间的年GDP增长率
阈值变量
gdp60实际GDP人均1960年(1985年价格)
爱尔兰1960年成人识字率
协变量
lgdp60型日志-GDP人均1960年(1985年价格)
爱尔兰1960年成人识字率(仅包括=lr)
最小二乘法k1960年至1985年的年化对数(投资/产出);日志代理(物理
储蓄率)
长距离无线电流行音乐1960年至1985年的对数(人口增长率)
吡咯601960年男性人口的log(平均小学教育年限)
pyrf60型1960年女性人口的对数(平均小学教育年限)
符号601960年男性人口的平均中学教育年限
赛尔夫601960年女性人口的平均中学教育年限
氢601960年男性人口的平均高等教育年限
60马力1960年女性人口的log(平均高等教育年限)
标称601960年男性人口中没有上学的比例
60号1960年女性人口中没有上学的比例
prim60型1960年男性人口接受小学教育的百分比
60年前1960年女性人口接受小学教育的百分比
价格601960年男性完成小学教育的百分比
价格601960年女性完成小学教育的百分比
60秒1960年男性人口接受中学教育的百分比
60秒1960年女性人口接受中学教育的百分比
秒601960年男性完成中学教育的百分比
60秒1960年女性完成中学教育的百分比
利菲log(0岁时的预期寿命)1960年至1985年的平均值
勒弗特1960年至1985年平均生育率
教育/gdp1960年至1985年间,政府教育支出占GDP的平均值
gcon/gdp1960年至1985年期间,政府消费支出扣除国防和教育的人均国内生产总值
撤销1960年至1984年每年的转数
政变1960年至1984年期间每年的转数和政变次数
监狱1960年至1984年间至少参加过一次对外战争的国家的假人
战时1960年至1985年间,部分时间卷入了外部战争
磅/加仑对数(1960年至1985年期间平均的1+黑市溢价)
总数贸易术语冲击
lgdp60ד导出”两个协变量的乘积(lgdp60和教育变量从pyrm60到seccf60的相互作用);总共16个变量
表1。

变量列表

变量名称描述
因变量
1960年至1985年期间的年GDP增长率
阈值变量
gdp60实际GDP人均1960年(1985年价格)
爱尔兰1960年成人识字率
协变量
lgdp60型日志-GDP人均1960年(1985年价格)
爱尔兰1960年成人识字率(仅包括=lr)
最小二乘法k1960年至1985年的年化对数(投资/产出);日志代理(物理
储蓄率)
长距离无线电流行音乐1960年至1985年的对数(人口增长率)
吡咯601960年男性人口的对数(平均小学教育年限)
吡咯601960年女性人口的对数(平均小学教育年限)
符号601960年男性人口的平均中学教育年限
syrf60型1960年女性人口的log(平均中学教育年限)
氢601960年男性人口的平均高等教育年限
60马力1960年女性人口的对数(平均高等教育年限)
标称601960年男性人口中没有上学的比例
60号1960年女性人口中没有上学的比例
原始601960年男性人口接受小学教育的百分比
60年前1960年女性人口接受小学教育的百分比
价格601960年男性完成小学教育的百分比
价格601960年女性完成小学教育的百分比
60秒1960年男性人口接受中学教育的百分比
60秒1960年女性人口接受中学教育的百分比
秒601960年男性完成中学教育的百分比
60秒1960年女性完成中学教育的百分比
利菲log(0岁时的预期寿命)1960年至1985年的平均值
勒弗特1960年至1985年平均生育率
教育/gdp1960年至1985年间,政府教育支出占GDP的平均值
gcon/gdp1960年至1985年期间,每GDP国防和教育的政府消费支出净额平均值
撤销1960年至1984年每年的转数
政变1960年至1984年期间每年的转数和政变次数
衣柜1960年至1984年间至少参加过一次外部战争的国家的假人
战时1960年至1985年间,部分时间卷入了外部战争
磅/加仑log(1960年至1985年间平均1+黑市溢价)
总数贸易术语冲击
lgdp60ד导出”两个协变量的乘积(lgdp60和教育变量从pyrm60到seccf60的相互作用);总共16个变量
变量名称描述
因变量
1960-1985年期间的年化GDP增长率
阈值变量
gdp60实际GDP人均1960年(1985年价格)
爱尔兰1960年成人识字率
协变量
lgdp60型日志-GDP人均1960年(1985年价格)
爱尔兰1960年成人识字率(仅包括=lr)
最小二乘法k1960年至1985年的年化对数(投资/产出);日志代理(物理
储蓄率)
长距离无线电流行音乐1960年至1985年的对数(人口增长率)
吡咯601960年男性人口的对数(平均小学教育年限)
吡咯601960年女性人口的对数(平均小学教育年限)
符号601960年男性人口的平均中学教育年限
赛尔夫601960年女性人口的平均中学教育年限
氢601960年男性人口的平均高等教育年限
60马力1960年女性人口的对数(平均高等教育年限)
标称601960年未受教育的男性人口比例
60号1960年女性人口中没有上学的比例
prim60型1960年男性人口接受小学教育的百分比
60年前1960年女性人口接受小学教育的百分比
价格601960年男性完成小学教育的百分比
价格601960年女性完成小学教育的百分比
60秒1960年男性人口接受中学教育的百分比
60秒1960年女性人口接受中学教育的百分比
秒601960年男性完成中学教育的百分比
60秒1960年女性完成中学教育的百分比
利菲log(0岁时的预期寿命)1960年至1985年的平均值
勒弗特1960年至1985年平均生育率
教育/gdp1960年至1985年间,政府教育支出占GDP的平均值
gcon/gdp1960年至1985年期间,每GDP国防和教育的政府消费支出净额平均值
撤销1960年至1984年每年的转数
政变1960年至1984年期间每年的转数和政变次数
监狱1960年至1984年间至少参加过一次对外战争的国家的假人
战时1960年至1985年间,部分时间卷入了外部战争
磅/加仑log(1960年至1985年间平均1+黑市溢价)
总数贸易期限冲击
lgdp60ד教育”两个协变量的乘积(lgdp60和教育变量从pyrm60到seccf60的相互作用);总共16个变量

2总结模型选择和估算结果是初始GDP。在线附录F(请参见表4),我们报告了额外的经验结果就是识字率。为了比较不同的模型规格,我们还估计了一个线性模型,即所有δ模型中的是0(3.1),通过标准拉索估计。在每种情况下,正则化参数λ由“leave-one-out”交叉验证方法选择。对于范围T型对于阈值参数,我们考虑每个阈值变量的10%和90%样本分位数之间的区间。

表2。

模型选择和估算结果=gdp60

变量线性模型的值阈值模型的值, τ^=2898
β^δ^
常量−0.0923−0.0811
lgdp60型−0.0153−0.0120
最小二乘法k0.00330.0038
长距离无线电流行音乐0.0018
吡咯600.0027
符号600.0157
氢600.01220.0130
60马力−0.0389−0.0807
标称602.64×105
prim60型−0.0004−0.0001
价格600.0006−1.73 × 1040.35×104
价格60−0.0006
60秒0.0005
秒600.00100.0014
利菲0.06970.0523
勒弗特−0.0136−0.0047
教育/gdp−0.0189
gcon/gdp−0.0671−0.0542
撤销−0.0588
政变0.0433
监狱−0.0043−0.0022
战时−0.0019−0.0143−0.0023
磅/加仑−0.0185−0.0174−0.0015
总数0.09710.0974
lgdp60×pyrf603.81×106
lgdp60×syrm600.0002
lgdp60×hyrm600.0050
lgdp60×hyrf60−0.0003
lgdp60×标称608.26×106
lgdp60×prim606.02×107
lgdp60×prif603.47×1068.11×106
lgdp60×pricf608.46×106
lgdp60×秒60−0.0001
lgdp60×seccf60−0.00022.87×106
λ0.00040.0034
M(M)(α^)2826
协变量数量4692
观察次数8080
变量线性模型的值阈值模型的值, τ^=2898
β^δ^
常量−0.0923−0.0811
lgdp60型−0.0153−0.0120
最小二乘法k0.00330.0038
长距离无线电流行音乐0.0018
吡咯600.0027
符号600.0157
氢600.01220.0130
60马力−0.0389−0.0807
标称602.64 × 105
prim60型−0.0004−0.0001
价格600.0006−1.73 × 1040.35×104
价格60−0.0006
60秒0.0005
秒600.00100.0014
利菲0.06970.0523
勒弗特−0.0136−0.0047
教育/gdp−0.0189
gcon/gdp−0.0671−0.0542
撤销−0.0588
政变0.0433
监狱−0.0043−0.0022
战时−0.0019−0.0143−0.0023
磅/加仑−0.0185−0.0174−0.0015
总数0.09710.0974
lgdp60×pyrf603.81×106
lgdp60×syrm600.0002
lgdp60×hyrm600.0050
lgdp60×hyrf60−0.0003
lgdp60×标称608.26×106
lgdp60×prim606.02×107
lgdp60×prif603.47×1068.11×106
lgdp60×pricf608.46×106
lgdp60×秒60−0.0001
lgdp60×seccf60−0.00022.87×106
λ0.00040.0034
M(M)(α^)2826
协变量数量4692
观察次数8080

正则化参数λ由“leave-one-out”交叉验证方法选择。M(M)(α^)表示lasso估计器选择的协变量数量,破折号表示未选择回归变量。回想一下β^是系数,当γ^还有那个δ^是系数值的变化,当<γ^.

表2。

模型选择和估算结果=gdp60

变量线性模型的值阈值模型的值, τ^=2898
β^δ^
常量−0.0923−0.0811
lgdp60型−0.0153−0.0120
最小二乘法k0.00330.0038
长距离无线电流行音乐0.0018
pyrf60型0.0027
符号600.0157
氢600.01220.0130
60马力−0.0389−0.0807
标称602.64 × 105
prim60型−0.0004−0.0001
价格600.0006−1.73 × 1040.35×104
价格60−0.0006
60秒0.0005
秒600.00100.0014
利菲0.06970.0523
勒弗特−0.0136−0.0047
教育/gdp−0.0189
gcon/gdp−0.0671−0.0542
撤销−0.0588
政变0.0433
监狱−0.0043−0.0022
战时−0.0019−0.0143−0.0023
磅/加仑−0.0185−0.0174−0.0015
总数0.09710.0974
lgdp60×pyrf603.81×106
lgdp60×syrm600.0002
lgdp60×hyrm600.0050
lgdp60×hyrf60−0.0003
lgdp60×标称608.26×106
lgdp60×prim606.02×107
lgdp60×prif603.47×1068.11×106
lgdp60×pricf608.46×106
lgdp60×秒60−0.0001
lgdp60×seccf60−0.00022.87×106
λ0.00040.0034
M(M)(α^)2826
协变量数量4692
观察次数8080
变量线性模型的值阈值模型的值, τ^=2898
β^δ^
常量−0.0923−0.0811
lgdp60型−0.0153−0.0120
最小二乘法k0.00330.0038
液化天然气流行音乐0.0018
吡咯600.0027
符号600.0157
氢600.01220.0130
60马力−0.0389−0.0807
标称602.64 × 105
prim60型−0.0004−0.0001
价格600.0006−1.73 × 1040.35×104
价格60−0.0006
60秒0.0005
秒600.00100.0014
利菲0.06970.0523
勒弗特−0.0136−0.0047
教育/gdp−0.0189
gcon/gdp−0.0671−0.0542
撤销−0.0588
政变0.0433
衣柜−0.0043−0.0022
战时−0.0019−0.0143−0.0023
磅/加仑−0.0185−0.0174−0.0015
总数0.09710.0974
lgdp60×pyrf603.81×106
lgdp60×syrm600.0002
lgdp60×hyrm600.0050
lgdp60×hyrf60−0.0003
lgdp60×标称608.26×106
lgdp60×prim606.02×107
lgdp60×prif603.47×1068.11×106
lgdp60×pricf608.46×106
lgdp60×秒60−0.0001
lgdp60×seccf60−0.00022.87×106
λ0.00040.0034
M(M)(α^)2826
协变量数量4692
观察次数8080

正则化参数λ由“leave-one-out”交叉验证方法选择。M(M)(α^)表示lasso估计器选择的协变量数量,破折号表示未选择回归变量。回想一下β^是系数,当γ^还有那个δ^是系数值的变化,当<γ^.

主要实证结果如下。首先,lgdp60的边际效应,由给出
lgdp60型=β1+教育β~2+1{<γ}(δ1+教育δ~2),
教育在哪里是教育变量的向量β~2δ~2是的子向量β2δ2对应教育,对于所有观察到的导出值,估计为负值这证实了新古典增长模型的理论。其次,lgdp60和各种教育变量之间的一些非零交互项系数表明,在两个阈值模型规范中都存在阈值效应。这一结果表明,增长趋同率可能因初始国内生产总值或1960年成人识字率的不同水平而不同。具体来说,在这两个阈值模型中,我们都有δ1=0,但有些δ2s不是0。因此,在其他协变量上,根据阈值,存在不同的技术扩散效应。例如,发展中国家(较低)通过更容易、更快地吸收先进技术,高等教育水平将更快地融合。最后,与线性规范相比,阈值模型规范的套索选择了一个更加简约的模型,尽管前者使潜在协变量的数量增加了一倍。

4.套索估计量的预测一致性

在本节中,我们考虑lasso估计器的预测一致性。我们做出以下假设。

假设1
  • 对于参数空间A类对于α0,任何α(α1,,α2M(M))A类2M(M),包括α0,满足最大j=1,,2M(M)|αj|C类1对于一些常量C类1>0此外,τ0T型[t吨0,t吨1]满足最小值=1,,n个<t吨0<t吨1<最大=1,,n个.

  • 有通用常数C类2>0C类3>0这样的话X(X)(j)(τ)n个C类2在中一致jτT型、和X(X)(j)(t吨0)n个C类3在中一致j,其中j= 1,…,2M(M).

  • 没有j这样的话=j.

假设1(a)规定了参数向量每个分量的有界性。假设1(a)的第一部分意味着|α|12C类1M(M)对于任何αA类,似乎很弱,因为稀疏性假设意味着|α0|1远小于C类1M(M)此外,在关于变化点和阈值模型的文献中,通常假设参数空间是紧凑的。例如,参见Seijo和Sen(2011年a,2011年b).

表达式中的拉索估计量(2.5)可以在不知道C类1,但是T型[t吨0,t吨1]必须指定。实际上,研究人员倾向于选择阈值变量观测值范围的一些严格子集。假设1(b)规定每个协变量在τ.鉴于以下假设最小值=1,,n个<t吨0,假设这一点并不严格X(X)(j)(t吨0)n个有界远离零。

假设1(c)规定s.这是一个方便的假设,因此我们可以随时转换通用=/n个不失通用性。对于随机设计情况,如果是连续分布的。

定义
第页n个:=最小值1jM(M)X(X)(j)(t吨0)n个2X(X)(j)n个2,
哪里X(X)(j)X(X)(j)(τ)在表达式中定义(2.3). 假设1(b)意味着第页n个有界远离零。特别是,我们有1第页n个C类3/C类2>0.
回想一下
(f)^(f)0n个:=1n个=1n个{(f)^(X(X),)(f)0(X(X),)}21/2,
(4.1)
哪里(f)^(x个,q个):=x个β^+x个δ^1{q个<τ^}(f)0(x个,q个):=x个β0+x个δ01{q个<τ0}在本文中建立理论结果(尤其是第节中的预言不等式5),让(α^,τ^)是由表达式定义的lasso估计量(2.5)带有
λ=A类σ日志(3M(M))n个第页n个1/2
(4.2)
对于常量A类>2√2/μ,其中μ∈(0,1)是一个固定常数。我们现在给出本文的第一个理论结果。

定理1
(套索的稠度)。假设1成立。μ是一个常数,以便0<μ<1,并让(α^,τ^)是由表达式定义的lasso估计量(2.5)带有λ由方程式给出(4.2). 那么,至少以概率1(3M(M))1A类2μ2/8,我们有
(f)^(f)0n个K(K)1λM(M)(α0)1/2,
哪里K(K)12C类1C类2(3+μ)1/2>0.

定理1中预测风险的非渐近上界可以很容易地转化为渐近收敛。定理1暗示了套索的一致性,前提是n个→∞,M(M)→∞ λM(M)(α0)0回忆一下M(M)(α0)表示模型的稀疏性(2.1). 根据方程式(4.2),条件λM(M)(α0)0要求M(M)(α0)=o个[{n个第页n个/日志(3M(M))}1/2]。这意味着M(M)(α0)可以增加n个.

备注1

注意,预测误差随着A类μ增加;然而,如果A类μ增加。因此,在预测误差和正确恢复的概率之间存在权衡。

5.Oracle不等式

在本节中,我们根据预测损失和1-未知参数的估计损失。首先,我们做出以下假设。

假设2
(统一限制特征值(URE)(,c(c)0,S公司)). 对于某个整数这样1⩽⩽2M(M),一个正数c(c)0还有一些套餐S公司,以下条件成立:
κ(,c(c)0,S公司):=最小值τS公司最小值J型0{1,,2M(M)},|J型0|最小值γ0,|γJ型0c(c)|1c(c)0|γJ型0|1|X(X)(τ)γ|2n个|γJ型0|2>0.

如果τ0假设2只是对Bickel有限特征值假设的重述. (2009)带有S公司={τ0}.比克尔. (2009)为限制特征值条件提供了充分条件。此外,范德格尔和布尔曼(2009)显示了限制特征值条件与设计矩阵上其他条件之间的关系,以及Raskutti. (2010)证明了一类相关高斯设计矩阵的限制特征值条件具有较高的概率。

如果τ0未知,因为在我们的设置中,似乎有必要假设限制特征值条件一致τ。我们根据是否δ0=0或者没有。一方面,如果δ0=0以便τ0是不可识别的,那么我们需要假设URE条件在整个参数空间上一致成立,T型另一方面,如果δ00以便τ0是可识别的,则只需将URE条件统一地应用于τ0在在线附录A中,我们为假设2提供了两种充分条件。一种是基于对Bickel假设2的修改. (2009)另一种类型与范德吉尔和伯尔曼的精神相同(2009),第10.1节。利用第二类结果,我们在模拟设计的上下文中验证了URE条件的原始充分条件。请参阅联机附录A了解详细信息。

URE条件有助于我们改进定理1中的结果。回想一下,在定理1中,预测风险受以下因素的限制{λM(M)(α0)}1/2这个界限太大了,无法给出一个预言不等式。我们将在下面说明,我们可以为预测风险以及1-由于URE条件,估计损失。

所提出的套索方法的优点是不需要知道或预先测试δ0=0或者没有。值得注意的是,我们不必知道模型中是否存在阈值来建立预测风险和1-估计损失α0尽管我们将理论结果分为以下两种情况。这意味着我们可以进行预测和估计α0准确地说,不知道阈值效应的存在,也不进行预先测试。

5.1. 案例一:无阈值

我们首先考虑的是δ0=0换句话说,我们通过套索方法估计阈值模型,但真正的模型只是一个线性模型Y(Y)=X(X)β0+U型这是应用中需要考虑的一个重要案例,因为人们可能不仅不能确定协变量的选择,也不能确定模型中是否存在阈值。

ϕ最大表示上确界τT型)的最大特征值X(X)(τ)X(X)(τ)/n个然后,根据定义X(X)(τ)X(X)(τ)/n个一致限定在τT型通过ϕ最大以下定理给出了第一种情况下的oracle不等式。

定理2
假设δ0=0假设1和2成立κ=κ{,(1+μ)/(1μ),T型}用于0<μ<1,以及M(M)(α0)M(M).让(α^,τ^)是由表达式定义的lasso估计量(2.5)带有λ由表达式给出(4.2). 那么,至少以概率1(3M(M))1A类2μ2/8,我们有
(f)^(f)0n个K(K)2σκ日志(3M(M))n个第页n个1/2,|α^α0|1K(K)2σκ2日志(3M(M))n个第页n个1/2,M(M)(α^)K(K)2ϕ最大κ2
对于某个通用常数K(K)2>0.

为了理解上述不等式的有用性,有必要将定理2中的不等式与Bickel定理7.2中的不等式进行比较. (2009). 后者对应于以下情况δ0=0已知先验的λ=2A类σ.3第页t吨日志(M(M)/n个)1/2在我们的记法中。如果我们比较定理2和Bickel的定理7.2. (2009),我们可以看到模型中的lasso估计(2.5)定性地给出了与线性模型中的lasso估计量相同的oracle不等式,尽管我们的模型在这方面参数过高δτ已添加到β作为要估计的参数。

还有,比克尔. (2009),没有要求α0非零分量的最小值α0离零有界。换句话说,没有必要假设信号的最小强度。此外,α0即使是τ0根本无法识别。最后,注意常量的值K(K)2在定理2的证明中给出,定理2也可以很容易地转化为渐近oracle结果,因为κ第页n个分别受URE条件和假设1的限制。

5.2. 案例二:固定阈值

本小节探讨了阈值效应得到很好识别且不连续的情况。我们从以下附加假设开始,以反映这一点。

假设3
(回归稀疏性和不连续性下的可识别性)。对于给定的M(M)(α0),以及任何ητ这样的话|ττ0|>η最小值|τ0|α{α:M(M)(α)},有一个常数c(c)>0,这样
(f)(α,τ)(f)0n个2>c(c)η.

假设3意味着,除其他外M(M)(α0),以及任何α{α:M(M)(α)}τ这样的话(α,τ)(α0,τ0),
(f)(α,τ)(f)0n个0.
(5.1)
这种情况可以被视为τ0.如果τ0已知,则稀疏性下可识别性的一个充分条件是URE(,c(c)0,{τ0})保留一些c(c)01因此,结果的要点(5.1)是没有等价于(f)0当样本被拆分时ττ0.事实上,假设3不仅仅是τ0因为它规定了偏差率(f)作为τ远离τ0,这又决定了τ^。我们在网上对假设3进行了进一步讨论附录B.

备注2

限制η最小值|τ0|在假设3中是必要的,因为我们考虑了两者的固定设计X(X)在本节中,我们隐含地假设样本量n个足够大,以至于最小值j|j|非常小,这意味着限制η最小值j|j|永远不要约束下面的任何不平等。对于随机设计情况,如果是连续分布的。

假设4
(设计的流畅性)。对于任何η>0,有一个常数C类<∞,这样
支持j支持|ττ0|<η1n个=1n个|X(X)(j)|2|1(<τ0)1(<τ)|C类η.

假设4是在经典设置中假设的,带有固定数量的随机回归变量,以排除如下情况点质量为τ0E类(X(X)|=τ0)是无限的。在我们的设置中,假设4相当于阈值变量分布的某些平滑度假设的确定性版本.何时(X(X),)是随机向量,在标准假设下满足连续分布E类(|X(X)(j)|2|=τ)连续且有界于τ0对于每个j.

为了简化符号,在下面的定理中,我们假设在不损失通用性的情况下=/n个.然后T型=[t吨0,t吨1](0,1)此外,让η0=最大[n个1,K(K)1{λM(M)(α0)}]哪里K(K)1是定理1中的相同常数。

假设5
(定义明确的二阶矩)。对于任何η这样的话1/n个ηη0,小时n个2(η)有界,其中
小时n个2(η):=12n个η=最小值{1,[n个(τ0η)]}最大{[n个(τ0+η)],n个}(X(X)δ0)2
和[·]表示任何实数的整数部分。

假设5假设小时n个2(η)对于任何η这样的话1/n个ηη0.假设5相当于固定设计二阶矩的一些弱正则性条件。假设3意味着δ00还有那个小时n个2(η)有界远离零。因此,假设3和5意味着小时n个2(η)有界且远离零。

为了证明下面的定理,有必要做一个额外的技术假设(见在线附录E). 我们选择在这里不显示假设6,因为我们认为这只是一个充分条件,不会增加我们对主要结果的理解。然而,我们想指出的是,假设6可以适用于所有足够大的情况n个,前提是λ|δ0|10,作为n个0.见在线备注4附录E了解详细信息。

现在我们给出这一部分的主要结果。

定理3
假设假设1和2与S公司={|ττ0|η0},κ=κ{,(2+μ)/(1μ),S公司}用于0<μ<1,以及M(M)(α0)M(M)此外,假设3、4和5成立并允许n个足够大,即在线中的假设6附录E持有。(α^,τ^)是由表达式定义的lasso估计量(2.5)带有λ由表达式给出(4.2). 那么,至少以概率1(3M(M))1A类2μ2/8C类4(3M(M))C类5/第页n个对于一些正常数C类4C类5,我们有
(f)^(f)0n个K(K)3σκ日志(3M(M))n个第页n个1/2,|α^α0|1K(K)3σκ2日志(3M(M))n个第页n个1/2,|τ^τ0|K(K)3σ2κ2日志(3M(M))n个第页n个,M(M)(α^)K(K)3ϕ最大κ2
对于某个通用常数K(K)3>0.

定理3给出了与定理2中预测风险相同的不等式(直到常数)以及1-估计损失α0。重要的是要注意|τ^τ0|以恒定时间为界日志(3M(M))/(n个第页n个),而|α^α0|1以常数为界{日志(3M(M))/(n个第页n个)}1/2这可以被视为τ^τ0如本节末尾所述10.1,因为两者κ第页n个分别受URE条件和假设1的限制,定理3立即暗示渐近速率结果。常数的值C类4,C类5K(K)3在定理3的证明中给出。

本节的主要贡献是我们扩展了著名的超一致性结果τ^什么时候M(M)<n个(例如,请参见Chan(1993)Seijo和Sen(2011年a,2011年b))高维设置(M(M)n个). 在这两种情况下,我们实现阈值参数的超一致性的主要原因是,最小二乘目标函数在真实阈值参数值附近表现为局部线性,而不是像在规则估计问题中那样表现为局部二次。一个有趣的剩余研究问题是调查是否可能获得τ^在较弱的条件下,可能没有限制的特征值条件。

6.蒙特卡罗实验

在本节中,我们进行了一些仿真研究,并检查了所提出的套索估计器的特性。基线模型是模型(1.1),其中X(X)是一个M(M)-维向量生成自N个(0,),是由(0,1)区间上的均匀分布和误差项生成的标量U型生成自N个(0,0.52)。阈值参数设置为τ0=0.3,0.4,0.5根据仿真设计,系数设置为β0=(1,0,1,0,,0)、和δ0=c(c)(0,1,1,0,,0)哪里c(c)=0或c(c)= 1. 请注意,当c(c)= 0. 观察次数设置为n个= 200. 最后X(X)在每个设计中都设置为M(M)=50100200400,则回归变量总数分别为100、200、400和800。范围τT型=[0.15,0.85].

我们可以使用Efron的标准最小二乘回归算法估计参数. (2004)没有太多修改。给定正则化参数值λ,我们估计每个网格点的模型τ跨越71个等距点T型。可以使用标准线性套索执行此过程。接下来,我们插入估计参数α^(τ):=(β^(τ),δ^(τ))对于每个τ进入目标函数并选择τ^按表达式(4.2). 最后,α^估计依据为α^(τ^).正则化参数λ由表达式选择(4.2)其中σ=0.5被认为是已知的。对于常量A类,我们使用四个不同的值:A类= 2.8,3.2,3.6,4.0.

3和图12总结这些仿真结果。为了比较lasso估计器的性能,我们还报告了仅在以下情况下可用的最小二乘估计(“最小二乘”)的估计结果M(M)=50和两种oracle模型(oracle 1和oracle 2)。Oracle 1假设具有非零系数的回归变量已知。除此之外,oracle2还假设真正的阈值参数τ0已知。因此,当c(c)≠0,oracle 1估计(β(1),β(3),δ(2),δ(3))τ使用最小二乘估计,而oracle 2仅进行估计(β(1),β(3),δ(2),δ(3)).何时c(c)=0,仅oracle 1和oracle 2估算(β(1),β(3))。所有结果均基于每个样本的400次复制。

表3。

模拟结果与M(M)= 50

阈值参数估算方法λ的常数预测误差E类[M(M)(α^)]E类|α^α0|1E类|τ^τ0|1
平均值中值的标准偏差
跳跃刻度:c=1
τ0=0.5最小二乘法0.2850.2760.0741007.0660.008
拉索A类= 2.80.0410.0300.03512.940.4660.010
A类= 3.20.0480.0330.04910.140.4380.013
A类= 3.60.0670.0370.0868.440.4570.024
A类= 4.00.0950.0500.1207.340.5080.040
甲骨文10.0130.0060.01940.1640.004
Oracle 20.0050.0040.00440.1630
τ0=0.4最小二乘法0.3170.3040.0951007.0110.008
拉索A类=2.80.0520.0340.06313.150.5090.016
A类=3.20.0630.0370.08310.420.4890.023
A类= 3.60.0900.0450.1218.700.5350.042
A类= 4.00.1330.0610.1627.680.6340.078
甲骨文10.0140.0060.02240.1630.004
Oracle 2(Oracle 2)0.0050.0040.00440.1630
τ0=0.3最小二乘法2.5590.51116.29210012.1720.012
拉索A类= 2.80.0620.0350.09113.450.6020.030
A类= 3.20.0890.0410.12510.850.6330.056
A类= 3.60.1270.0540.1599.330.7430.099
A类= 4.00.1850.0820.1858.430.9190.168
甲骨文10.0120.0060.01740.1770.004
Oracle 20.0050.0040.00440.1760
跳跃刻度:c=0
最小二乘法6.3320.46041.30110020.936
拉索A类=2.80.0130.0110.0079.300.266
A类= 3.20.0140.0120.0086.710.227
A类= 3.60.0150.0140.0094.950.211
A类= 4.00.0170.0160.0103.760.204
Oracle 1和0.0020.0020.00320.054
甲骨文2
阈值参数估算方法λ的常数预测误差E类[M(M)(α^)]E类|α^α0|1E类|τ^τ0|1
平均值中值的标准偏差
跳跃刻度:c=1
τ0=0.5最小二乘法0.2850.2760.0741007.0660.008
拉索A类= 2.80.0410.0300.03512.940.4660.010
A类= 3.20.0480.0330.04910.140.4380.013
A类= 3.60.0670.0370.0868.440.4570.024
A类= 4.00.0950.0500.1207.340.5080.040
甲骨文10.0130.0060.01940.1640.004
Oracle 20.0050.0040.00440.1630
τ0=0.4最小二乘法0.3170.3040.0951007.0110.008
拉索A类= 2.80.0520.0340.06313.150.5090.016
A类= 3.20.0630.0370.08310.420.4890.023
A类= 3.60.0900.0450.1218.700.5350.042
A类=4.00.1330.0610.1627.680.6340.078
甲骨文10.0140.0060.02240.1630.004
Oracle 20.0050.0040.00440.1630
τ0=0.3最小二乘法2.5590.51116.29210012.1720.012
拉索A类= 2.80.0620.0350.09113.450.6020.030
A类= 3.20.0890.0410.12510.850.6330.056
A类= 3.60.1270.0540.1599.330.7430.099
A类= 4.00.1850.0820.1858.430.9190.168
甲骨文10.0120.0060.01740.1770.004
Oracle 20.0050.0040.00440.1760
跳跃刻度:c=0
最小二乘法6.3320.46041.30110020.936
拉索A类= 2.80.0130.0110.0079.300.266
A类= 3.20.0140.0120.0086.710.227
A类=3.60.0150.0140.0094.950.211
A类= 4.00.0170.0160.0103.760.204
Oracle 1和0.0020.0020.00320.054
甲骨文2

M(M)表示的列大小X(X)τ表示阈值参数。当稀疏性已知时,以及当稀疏性和τ0分别为已知。所有模拟都是基于一个样本的400次复制和200次观测。

不适用。

表3。

模拟结果与M(M)= 50

阈值参数估算方法λ的常数预测误差E类[M(M)(α^)]E类|α^α0|1E类|τ^τ0|1
平均值中值的标准偏差
跳跃刻度:c=1
τ0=0.5最小二乘法0.2850.2760.0741007.0660.008
拉索A类= 2.80.0410.0300.03512.940.4660.010
A类= 3.20.0480.0330.04910.140.4380.013
A类= 3.60.0670.0370.0868.440.4570.024
A类= 4.00.0950.0500.1207.340.5080.040
甲骨文10.0130.0060.01940.1640.004
Oracle 20.0050.0040.00440.1630
τ0=0.4最小二乘法0.3170.3040.0951007.0110.008
拉索A类= 2.80.0520.0340.06313.150.5090.016
A类= 3.20.0630.0370.08310.420.4890.023
A类= 3.60.0900.0450.1218.700.5350.042
A类= 4.00.1330.0610.1627.680.6340.078
甲骨文10.0140.0060.02240.1630.004
Oracle 20.0050.0040.00440.1630
τ0=0.3最小二乘法2.5590.51116.29210012.1720.012
拉索A类= 2.80.0620.0350.09113.450.6020.030
A类= 3.20.0890.0410.12510.850.6330.056
A类= 3.60.1270.0540.1599.330.7430.099
A类= 4.00.1850.0820.1858.430.9190.168
甲骨文10.0120.0060.01740.1770.004
Oracle 20.0050.0040.00440.1760
跳跃刻度:c=0
最小二乘法6.3320.46041.30110020.936
拉索A类= 2.80.0130.0110.0079.300.266
A类=3.20.0140.0120.0086.710.227
A类= 3.60.0150.0140.0094.950.211
A类= 4.00.0170.0160.0103.760.204
Oracle 1和0.0020.0020.00320.054
甲骨文2
阈值参数估算方法λ的常数预测误差E类[M(M)(α^)]E类|α^α0|1E类|τ^τ0|1
平均值中值的标准偏差
跳跃比例:c=1
τ0=0.5最小二乘法0.2850.2760.0741007.0660.008
拉索A类= 2.80.0410.0300.03512.940.4660.010
A类= 3.20.0480.0330.04910.140.4380.013
A类= 3.60.0670.0370.0868.440.4570.024
A类= 4.00.0950.0500.1207.340.5080.040
甲骨文10.0130.0060.01940.1640.004
Oracle 20.0050.0040.00440.1630
τ0=0.4最小二乘法0.3170.3040.0951007.0110.008
拉索A类= 2.80.0520.0340.06313.150.5090.016
A类= 3.20.0630.0370.08310.420.4890.023
A类= 3.60.0900.0450.1218.700.5350.042
A类= 4.00.1330.0610.1627.680.6340.078
甲骨文10.0140.0060.02240.1630.004
Oracle 2(Oracle 2)0.0050.0040.00440.1630
τ0=0.3最小二乘法2.5590.51116.29210012.1720.012
拉索A类= 2.80.0620.0350.09113.450.6020.030
A类=3.20.0890.0410.12510.850.6330.056
A类= 3.60.1270.0540.1599.330.7430.099
A类= 4.00.1850.0820.1858.430.9190.168
甲骨文10.0120.0060.01740.1770.004
Oracle 20.0050.0040.00440.1760
跳跃刻度:c=0
最小二乘法6.3320.46041.30110020.936
拉索A类= 2.80.0130.0110.0079.300.266
A类= 3.20.0140.0120.0086.710.227
A类= 3.60.0150.0140.0094.950.211
A类= 4.00.0170.0160.0103.760.204
Oracle 1和0.0020.0020.00320.054
甲骨文2

M(M)表示的列大小X(X)τ表示阈值参数。当稀疏性已知时,以及当稀疏性和τ0分别为已知。所有模拟都是基于400个重复的样本和200个观察结果。

不适用。

图1。

平均预测误差和平均值M(M)(α^)(♦,τ= 0.3; □,τ= 0.4; ◯,τ= 0.5; △,c(c)=0):(a)M(M)= 100; (b)M(M)= 200; (c)M(M)= 400

图2。

平均值1-的错误ατ(♦,τ= 0.3; □,τ= 0.4; ◯,τ= 0.5; △,c(c)=0):(a)M(M)=100;(b)M(M)= 200; (c)M(M)= 400

每个样本的均方预测误差PE的数值计算如下。对于每个样品,我们有估计β^,δ^τ^。根据这些估计,我们生成了新的数据{Y(Y)j,X(X)j,j}400个观测值,并将预测误差计算为
体育课^=1400j=1400{(f)0(x个j,q个j)(f)^(x个j,q个j)}2.
(6.1)
通过400次重复计算预测误差的平均值、中位数和标准差,{体育课^}=1400。我们还报告了M(M)(α^)1-的错误ατ.表3报告的仿真结果M(M)= 50. 用于模拟设计M(M)>50,最小二乘估计量不可用,我们仅总结了图12.

什么时候?M(M)=50,在所有设计中,就平均和中值预测误差而言,所提出的lasso估计器的性能优于最小二乘估计器M(M)(α^)1-的错误α当没有阈值效应,即。c(c)= 0. 该结果证实了lasso估计器对是否存在阈值效应的鲁棒性。然而,在估计τ0什么时候c(c)=1,尽管此处的差异远小于预测误差和1-的错误α.

来自图12,当M(M)= 100,200,400. 正如前面章节中发展的理论所预测的那样,预测误差和1-的错误ατ缓慢增加为M(M)增加。图表还表明,除了A类= 4.0.

在线附录F,我们报告了额外的模拟结果,同时允许协变量之间的相关性。具体来说M(M)-量纲向量X(X)由多元正态分布生成N个(0,∑)分布(Σ),j=ρ|j|,其中(Σ),j表示(i、 j个)的元素M(M)×M(M)协方差矩阵∑和ρ= 0.3. 所有其他随机变量同上。我们得到了与之前情况非常相似的结果:套索优于最小二乘估计量,预测误差、M(M)(α^)1-错误增长非常缓慢M(M)增加。详情请参阅在线附录F,它还报告了有关选择真实参数的频率的令人满意的模拟结果ρ=0和ρ= 0.3.

总之,仿真结果证实了先前的理论结果,并表明所提出的lasso估计对于高维阈值回归模型是有用的。

7.结论

我们考虑了一个高维回归模型,该模型由于协变量阈值而具有可能的变化点,并开发了套索方法。我们推导了非渐近预言不等式,并通过仿真和实际数据应用说明了我们提出的估计方法的有用性。

我们通过提供一些未来研究领域来总结本文。首先,扩展其他惩罚估计(例如Zou的自适应套索(2006)范和李的绝对偏差罚分(2001))并查看我们是否能够提高估算方法的性能。其次,对多个变化点的扩展也是一个重要的研究课题。在这个方向上已经取得了一些进展,特别是在计算成本和确定变化点数量等关键问题上(例如,参见Harchaoui和Lévy-Leduc(2010)和弗里克. (2014))。然而,它们局限于一个单一的回归变量案例,而对大量回归变量的扩展将非常有趣。最后,研究所提出估计器的极小极大下界及其预测风险(如Raskutti)也是一个有趣的研究课题. (2011,2012)在高维线性回归设置中。

致谢

我们感谢Marine Carrasco、Yuan Liao、Ya’acov Ritov、两位裁判和各地研讨会参与者的宝贵意见。这项工作得到了韩国政府资助的韩国国家研究基金会(NRF-2012S1A5A8023573)、首尔国立大学经济研究所、欧洲研究理事会(ERC-2009-StG-240910-ROMETA)以及加拿大社会科学和人文研究理事会的支持。共享分级学术研究计算网络的设施使这项工作成为可能(网址:www.sharcnet.ca)以及加拿大计算机/微积分。

工具书类

巴罗
,
.和
,
J型
. (
1994
)
139个国家小组的数据集
.报告剑桥国家经济研究局。(可从http://admin.nber.org/pub/barro.lee/

巴罗
,
.和
萨拉·伊·马丁
,
X(X)
. (
1995
)
经济增长
.
纽约
:
麦格劳-希尔
.

贝略尼
,
答:。
切尔诺茹科夫
,
五、。
(
2011年a
)
1-高维稀疏模型中的惩罚分位数回归
.
安。统计师。
,
39
,
82
130
.

贝略尼
,
A类
.和
切尔诺茹科夫
,
V(V)
. (
2011年b
)高维稀疏计量经济学模型:导论。
反问题与高维估计
(编辑
第页。
 
阿尔基尔
,
E.公司。
 
戈蒂埃
G.公司。
 
斯托尔兹
),第页。
121
156
.
柏林
:
施普林格
.

比克尔
,
P.J.公司。
,
里托夫
,
年。
齐巴科夫
,
答:B。
(
2009
)
Lasso和Dantzig选择器的同时分析
.
安。统计师。
,
37
,
1705
1732
.

布拉迪奇
,
J。
,
风扇
,
J。
,
J。
(
2012
)
具有NP维的Cox比例风险模型的正则化
.
安。统计师。
,
39
,
3092
3120
.

布拉迪奇
,
J。
,
风扇
,
J。
,
西。
(
2011
)
用于超高维变量选择的惩罚复合拟似然
.
J.R.统计。Soc.B公司
,
73
,
325
349
.

布尔曼
,
P(P)
.和
范德格尔
,
S公司
. (
2011
)
高维数据统计:方法、理论与应用
.
纽约
:
施普林格
.

布内亚
,
F、。
,
齐巴科夫
,
答:。
韦坎普
,
M。
(
2007
)
拉索的稀疏预言不等式
.
电子。J.统计。
,
1
,
169
194
.

坎迪斯
,
E.公司。
,
T。
(
2007
)
Dantzig选择器:当第页远大于n个
.
Ann.Statist公司。
,
35
,
2313
2351
.

卡片
,
D。
,
马斯
,
答:。
罗斯坦
,
J。
(
2008
)
倾翻和离析动力学
.
Q.J.经济。
,
123
,
177
218
.

,
英国标准。
(
1993
)
门限自回归模型最小二乘估计的相合性和极限分布
.
安。统计师。
,
21
,
520
533
.

丘佩尔卡
,
G.公司。
(
2014
)
变点模型中套索方法的模型选择
.
统计师。巴普。
,
55
,
349
374
.

杜劳夫
,
序号。
约翰逊
,
私人助理。
(
1995
)
多元制度和跨国增长行为
.
J.应用。经济计量学。
,
10
,
365
384
.

杜劳夫
,
美国。
,
约翰逊
,
P(P)
.和
,
J型
. (
2005
)增长计量经济学。
经济增长手册
第卷(编辑P.Aghion和S.N.Durlauf),pp。
555
677
阿姆斯特丹:爱思唯尔

埃夫隆
,
B。
,
哈斯蒂
,
T。
,
约翰斯通
,
一、。
提比什拉尼
,
R。
(
2004
)
最小角度回归
.
安。统计师。
,
32
,
407
499
.

风扇
,
J。
,
R。
(
2001
)
基于非冲突惩罚似然的变量选择及其oracle性质
.
《美国统计杂志》。助理。
,
96
,
13
48
.

风扇
,
J。
,
J。
(
2010
)
高维特征空间中变量选择的选择性综述
.
统计师。罪。
,
20
,
101
148
.

风扇
,
J。
,
J。
(
2011
)
具有np维的非凹陷惩罚似然
.
IEEE传输。通知。西奥。
,
57
,
5467
5484
.

风扇
,
J。
,
H。
(
2004
)
参数个数发散的非凹陷惩罚似然
.
安。统计师。
,
32
,
928
961
.

弗里克
,
英国。
,
蒙克
,
答:。
西林
,
H。
(
2014
)
多尺度变化点推断(讨论)
.
J.R.统计。Soc.B公司
,
76
,
495
580
.

范德格尔
,
美国。
(
2008
)
高维广义线性模型与套索
.
安。统计师。
,
36
,
614
645
.

范德吉尔
,
美国。
伯尔曼
,
第页。
(
2009
)
关于证明拉索预言结果的条件
.
电子。J.统计。
,
3
,
1360
1392
.

汉森
,
英国工程师协会。
(
2000
)
样本分割和阈值估计
.
计量经济学
,
68
,
575
603
.

哈查乌伊
,
Z轴
.和
莱维-莱克
,
C类
. (
2008
)用拉索捕捉变化点。
神经信息处理系统的研究进展
,卷。
剑桥
:
麻省理工学院出版社
.

哈查乌伊
,
Z.公司。
莱维·莱杜克
,
C、。
(
2010
)
具有总变差惩罚的多变点估计
.
《美国统计杂志》。助理。
,
105
,
1480
1493
.

,
J。
,
霍洛维茨
,
J·L·。
妈妈
,
医学硕士。
(
2008年a
)
稀疏高维回归模型中桥估计的渐近性质
.
安。统计师。
,
36
,
587
613
.

,
J。
,
妈妈
,
S.G.公司。
,
中心-中心。
(
2008年b
).
稀疏高维回归模型的自适应套索
.
统计师。罪。
,
18
,
1603
1618
.

,
年。
,
,
H。
,
高-低。
(
2008
)
在高维度上平滑剪裁绝对偏差
.
《美国统计杂志》。助理。
,
103
,
1665
1673
.

,
美国。
,
Seo公司
,
M。
小腿
,
年。
(
2011
)
回归模型中阈值效应的测试
.
《美国统计杂志》。助理。
,
106
,
220
231
.

,
西。
,
J。
(
2013
)
高维稀疏加性风险回归
.
《美国统计杂志》。助理。
,
108
,
247
264
.

明绍森
,
N。
,
B。
(
2009
)
高维数据稀疏表示的Lasso型恢复
.
安。统计师。
,
37
,
246
270
.

佩萨兰
,
M.H.先生。
拾取
,
答:。
(
2007
)
传染病分析中的计量经济学问题
.
《经济学杂志》。发电机。控制
,
31
,
1245
1277
.

拉斯库蒂
,
G.公司。
,
温赖特
,
医学博士。
,
B。
(
2010
)
相关高斯设计的受限特征值性质
.
J.马赫。学习。物件。
,
11
,
2241
2259
.

拉斯库蒂
,
G.公司。
,
温赖特
,
医学博士。
,
B。
(
2011
)
球上高维线性回归的最小最大估计率
.
IEEE传输。通知。西奥。
,
57
,
6976
6994
.

拉斯库蒂
,
G.公司。
,
温赖特
,
米J。
,
B。
(
2012
)
基于凸规划的核类上稀疏可加模型的极小极大最优速率
.
J.马赫。学习。物件。
,
13
,
389
427
.

塞约
,
E.公司。
,
B。
(
2011年a
)
随机设计回归中的变点与自举
.
安。统计师。
,
39
,
1580
1607
.

塞约
,
E.公司。
,
B。
(
2011年b
)
最小argmax泛函的连续映射定理
.
电子。J.统计。
,
5
,
421
439
.

提比什拉尼
,
R。
(
1996
)
通过套索回归收缩和选择
.
J.R.统计。Soc.B公司
,
58
,
267
288
.

提比什拉尼
,
R。
(
2011
)
通过套索进行回归收缩和选择:回顾(附评论)
.
J.R.统计。Soc.B公司
,
73
,
273
282
.

用钳子钳起
,
H(H)
. (
1990
)
非线性时间序列:一种动态系统方法
.
纽约
:
牛津大学出版社
.

,
L。
,
,
年。
,
R。
(
2012
)
分位数回归分析超高维异质性
.
《美国统计杂志》。助理。
,
107
,
214
222
.

,
年。
(
2008
)
回归问题中的同时变点分析和变量选择
.
J.多媒体。分析。
,
99
,
2154
2171
.

,
N.R.(不适用)。
西格蒙德
,
D.O.公司。
(
2012
)
高维多序列变点问题的模型选择
.
统计师。罪。
,
22
,
1507
1538
.

,
H。
(
2006
)
自适应套索及其oracle性质
.
《美国统计杂志》。助理。
,
101
,
1418
1429
.

这是一篇根据知识共享归因非商业性许可证,允许在任何媒体上使用、分发和复制原始作品,前提是原始作品被正确引用,且未用于商业目的。