The Lasso for High Dimensional Regression with a Possible Change Point

Lee, Sokbae; Seo, Myung Hwan; Shin, Youngki

doi:10.1111/rssb.12108

总结

我们考虑了一个高维回归模型，该模型可能会因协变量阈值而发生变化，并发展了回归系数和阈值参数的lasso估计。我们的拉索估计量不仅选择协变量，而且在线性回归模型和阈值回归模型之间选择模型。在稀疏性假设下，我们导出了预测风险和 $我_{1}$ -回归系数的估计损失。由于lasso估计器同时选择变量，我们证明了可以在不预先证明阈值效应存在的情况下建立预言不等式。此外，我们还建立了一个条件，在这个条件下，未知阈值参数的估计误差可以由一个接近 ${n个}^{- 1}$ 即使回归变量的数量远大于样本量n个我们通过蒙特卡罗模拟和对实际数据的应用说明了我们提出的估计方法的有用性。

拉索,Oracle不等式,样品分割,稀疏度,阈值模型

1.简介

自从蒂比什拉尼的开创性工作以来，套索及其相关方法在统计学中受到了迅速的关注(1996). 例如，请参见布尔曼和范德格尔(2011)还有范和吕(2010)和Tibshirani(2011)了解总体概况和最新发展。

本文提出了一种估计高维回归模型的方法，该模型具有因协变量阈值而可能发生变化的点，同时从一组潜在的协变量中选择相关的回归变量。特别是，我们建议 $我_{1}$ 参数的惩罚最小二乘（lasso）估计量，包括未知阈值参数，并在稀疏性假设下分析其性质，当可能的协变量的数量可能远大于样本量时。

具体来说，让

{({Y（Y）}_{我}, {X（X）}_{我}, 问_{我}) : 我 = 1, \dots, n个}

是独立观察的样本

{Y（Y）}_{我} = {X（X）}_{我}^{'} β_{0} + {X（X）}_{我}^{'} δ_{0} 1 {问_{我} < τ_{0}} + {U型}_{我}, 我 = 1, \dots, n个,

(1.1)

其中，对于每个我,

{X（X）}_{我}

是一个M（M）×1确定性向量，

问_{我}

是确定性标量，

{U型}_{我}

跟随

N个 (0, σ^{2})

和1{·}表示指示符函数。标量变量

问_{我}

是阈值变量

τ_{0}

是未知的阈值参数。自

问_{我}

是我们设置中的一个固定变量，表达式(1.1)包括一个回归模型，其变化点在未知时间（例如。

问_{我} = 我 / n个

⁠). 在本文中，我们重点讨论了

{({X（X）}_{我}, 问_{我}) : 我 = 1, \dots, n个}

和独立正态误差

{{U型}_{我} : 我 = 1, \dots, n个}

⁠这种设置在文献中被广泛使用（例如Bickel等. (2009)).

回归模型，如模型(1.1)通过将数据拆分为子样本，为应用研究人员提供了一个简单但有用的框架来建模非线性关系。实证例子包括具有多重均衡的跨国增长模型（Durlauf和Johnson，1995)种族隔离（卡等。，2008)和金融传染（Pesaran和Pick，2007)等等。通常，阈值变量的选择在应用工作中动机很强（例如初始人均杜劳夫和约翰逊的产量(1995)和卡德一个街区的少数股权等. (2008))但其他协变量的选择取决于应用研究人员的自由裁量权。

然而，协变量选择在识别阈值效应（即非零 $δ_{0}$ ⁠)因为一个支持具有特定协变量集的阈值效应的统计模型可以被一个具有更广泛回归变量集的线性模型推翻。因此，将套索视为估计模型的工具似乎很自然(1.1).

我们考虑的统计问题是估计未知参数 $(β_{0}, δ_{0}, τ_{0}) \in 对^{2 M（M） + 1}$ 什么时候M（M）远大于n个对于经典设置（当M（M）小于n个)，模型估计(1.1)已经过很好的研究（例如Tong(1990)、Chan(1993)和汉森(2000))。此外，回归中测试阈值效应的一般方法（即测试 ${H（H）}_{0} : δ_{0} = 0$ 在模型中(1.1))可用于经典设置（例如Lee等. (2011)).

虽然有很多关于套索类型方法的参考文献，也有同样多关于变化点、样本分割和阈值模型的参考文献。但似乎只有少数参考文献涉及这两个主题。吴(2008)提出了一种基于信息的标准，用于在具有可能变化点的线性模型中同时进行变化点分析和变量选择；然而，Wu提出的方法(2008)在稀疏的高维模型中是不可行的。在无协变量的变点模型中，Harchaoui和Lévy-Leduc(2008,2010)提出了一种估计白噪声中一维分段常数信号变化点位置的方法，该方法使用带惩罚的最小二乘准则 $我_{1}$ -类型惩罚。Zhang和Siegmund(2012)开发了贝叶斯信息准则类准则，用于确定多个独立正态观测序列平均值的变化数量，当变化点的数量随样本大小而增加时。库佩卡(2014)考虑了与我们类似的估计问题，但相应的分析仅限于潜在协变量数量较少的情况。

本文考虑回归系数的lasso估计以及阈值参数。由于更改点参数 $τ_{0}$ 不在模型中添加(1.1)，在lasso估计中产生的优化问题是非凸的。我们通过比较网格上标准套索目标函数在以下可能值范围内的值来克服这个问题 $τ_{0}$ ⁠.

Fan和Peng检验了套索的理论性质和高维数据的相关方法(2004)、丁腈橡胶等. (2007)坎迪斯和陶(2007)，黄等. (2008年a,2008年b)、Kim等. (2008)、比克尔等. (2009)Meinshausen和Yu(2009)等等。大多数参考文献都考虑了二次目标函数和线性或非参数模型，其加性平均误差为0。最近有兴趣将此框架扩展到广义线性模型（例如van de Geer(2008)范和吕(2011))分位数回归模型（例如Belloni和Chernozhukov(2011年a)、布拉迪奇等. (2011)和Wang等. (2012))以及危害模型（例如Bradic等. (2012)林和吕(2013))。我们通过考虑一个具有可能变化点的回归模型，然后导出预测风险和 $我_{1}$ -稀疏情况下回归系数的估计损失。

我们的理论结果基于Bickel等. (2009). 由于lasso估计器同时选择变量，我们证明了oracle不等式与Bickel中获得的不等式类似等. (2009)可以在不预先检验阈值效应存在的情况下建立。特别是，当没有阈值效应时(⁠ $δ_{0} = 0$ ⁠)，我们证明了基本上与Bickel中的预言不等式等价的预言不等式等. (2009). 此外，当 $δ_{0} \neq 0$ ⁠，我们建立了未知阈值参数的估计误差可以由接近 ${n个}^{- 1}$ 当回归变量的数量远大于样本量时。为了实现这一点，我们发展了一些复杂的链式论证，并提供了充分的正则性条件，在这些条件下我们证明了oracle不等式。超一致性结果 $\hat{τ}$ 众所周知，当协变量的数量很小时（例如，参见Chan(1993)Seijo和Sen(2011年a,2011年a))。据我们所知，我们的论文是第一篇证明了 ${n个}^{- 1}$ -在具有变化点的稀疏高维回归模型的上下文中绑定。

本文的其余部分如下。在节中2我们提出了套索估计器，在第节中3我们用经济学中的一个实际数据示例简要说明了我们提出的估计方法。在节中4我们建立了lasso估计的预测一致性。在节中5我们根据预测损失和 $我_{1}$ -估计损失 $(α_{0}, τ_{0})$ ⁠同时为两种可能的阈值效应提供了低水平的充分条件。在节中6我们给出了一些模拟研究的结果，以及7得出结论。在线附录由六部分组成：附录A为我们的主要假设之一提供了充分的条件，附录B对可识别性进行了一些额外的讨论 $τ_{0}$ ⁠,附录C,D类和E类包含所有证据，以及附录F提供了其他数值结果。

1.1. 符号

我们收集了本文中使用的符号。对于

{({Y（Y）}_{我}, {X（X）}_{我}, 问_{我}) : 我 = 1, \dots, n个}

跟随模型(1.1)，让

{X（X）}_{我} (τ)

表示2M（M）×1矢量，以便

{X（X）}_{我} (τ) = {({X（X）}_{我}^{'}, {X（X）}_{我}^{'} 1 {问_{我} < τ})}^{'}

然后让X（X）(τ)表示n个×2M（M）矩阵，其我第行是

{X（X）}_{我} {(τ)}^{'}

⁠。对于L（左）-量纲向量一，让

{| 一 |}_{第页}

表示

我_{第页}

-的规范一、和|J型(一)|表示的基数J型(一)，其中

J型 (一) = {j \in {1, \dots, L（左）} : 一_{j} \neq 0}

⁠。此外，让

M（M） (一)

表示非零元素的数量一，即。

M（M） (一) = Σ_{j = 1}^{L（左）} 1 {一_{j} \neq 0} = | J型 (一) |

⁠.让

一_{J型}

用表示向量

对^{L（左）}

坐标与一在J型补码上的零坐标

{J型}^{c（c）}

属于J型。对于任何n个-量纲向量

W公司 = {({W公司}_{1}, \dots, {W公司}_{n个})}^{'}

⁠，将经验规范定义为

{‖ W公司 ‖}_{n个} : = {({n个}^{- 1} . 5 第页 t吨 Σ_{我 = 1}^{n个} . 7 第页 t吨 {W公司}_{我}^{2})}^{1 / 2}

⁠.让上标'(j)'表示j向量的第个元素或j矩阵的第几列取决于上下文。最后，定义

{（f）}_{(α, τ)} (x个, q个) : = {x个}^{'} β + {x个}^{'} δ 1 {q个 < τ}

⁠,

{（f）}_{0} (x个, q个) : = {x个}^{'} β_{0} + {x个}^{'} δ_{0} 1 {q个 < τ_{0}}

和

\hat{（f）} (x个, q个) : = {x个}^{'} \hat{β} + {x个}^{'} \hat{δ} 1 {q个 < \hat{τ}}

⁠然后，我们将预测风险定义为

‖ \hat{（f）} - {（f）}_{0} ‖_{n个} : = [\frac{1}{n个} \sum_{我 = 1}^{n个} {\hat{（f）} ({X（X）}_{我}, 问_{我}) - {（f）}_{0} ({X（X）}_{我}, 问_{我})}^{2}]^{1 / 2} .

2.拉索估计

让

α_{0} = {(β_{0}^{'}, δ_{0}^{'})}^{'}

⁠然后，使用上面定义的符号，我们可以重写模型(1.1)作为

{Y（Y）}_{我} = {X（X）}_{我} {(τ_{0})}^{'} α_{0} + {U型}_{我}, 我 = 1, \dots, n个 .

(2.1)

让

年 \equiv {({Y（Y）}_{1}, \dots, {Y（Y）}_{n个})}^{'}

⁠.对于任何固定

τ \in T型

⁠，其中

T型 \equiv [{t吨}_{0}, {t吨}_{1}]

是的参数空间

τ_{0}

⁠，考虑剩余平方和

\begin{matrix} {S公司}_{n个} (α, τ) & = {n个}^{- 1} \sum_{我 = 1}^{n个} {({Y（Y）}_{我} - {X（X）}_{我}^{'} β - {X（X）}_{我}^{'} δ 1 {问_{我} < τ})}^{2} \\ = {‖ 年 - X（X） (τ) α ‖}_{n个}^{2}, \end{matrix}

哪里

α = {(β^{'}, δ^{'})}^{'}

⁠.

我们定义如下2M（M）×2M（M）对角线矩阵：

D类 (τ) : = 诊断 {‖ {X（X）}^{(j)} (τ) ‖_{n个}, j = 1, \dots, 2 M（M）} .

对于每个固定

τ \in T型

⁠，定义套索解

\hat{α} (τ)

通过

\hat{α} (τ) : = \underset{α \in A类 \subset 对^{2 M（M）}}{参数 最小值} {{S公司}_{n个} (α, τ) + {λ | D类 (τ) α |}_{1}},

(2.2)

哪里λ是一个调整参数，取决于n个和

A类

是的参数空间

α_{0}

⁠.

值得注意的是，标度归一化因子D类(τ)取决于τ因为不同的值τ生成不同的词典X（X）(τ). 要更清楚地看到这一点，请定义

\begin{matrix} {X（X）}^{(j)} \equiv {({X（X）}_{1}^{(j)}, \dots, {X（X）}_{n个}^{(j)})}^{'}, \\ {X（X）}^{(j)} (τ) \equiv {({X（X）}_{1}^{(j)} 1 {问_{1} < τ}, \dots, {X（X）}_{n个}^{(j)} 1 {问_{n个} < τ})}^{'} . \end{matrix}

(2.3)

然后，对于每个

τ \in T型

以及每个j= 1,…,M（M），我们有

‖ {X（X）}^{(j)} {(τ) ‖}_{n个} = {‖ {X（X）}^{(j)} ‖}_{n个}

和

‖ {X（X）}^{(M（M） + j)} {(τ) ‖}_{n个} = {‖ {X（X）}^{(j)} (τ) ‖}_{n个}

⁠。使用此符号，我们重写

我_{1}

-惩罚为

\begin{matrix} {λ | D类 (τ) α |}_{1} & = λ \sum_{j = 1}^{2 M（M）} ‖ {X（X）}^{(j)} {(τ) ‖}_{n个} | α^{(j)} | \\ = λ \sum_{j = 1}^{M（M）} . 8 第页 t吨 {‖ {X（X）}^{(j)} ‖_{n个} | α^{(j)} | + ‖ {X（X）}^{(j)} {(τ) ‖}_{n个} | α^{(M（M） + j)} |} . \end{matrix}

因此，对于每个固定的

τ \in T型

⁠,

\hat{α} (τ)

是使用数据相关的加权套索

我_{1}

-充分平衡协变量的惩罚。

我们现在估计

τ_{0}

通过

\hat{τ} : = \underset{τ \in T型 \subset 对}{参数 最小值} [{S公司}_{n个} {\hat{α} (τ), τ} + λ | D类 (τ) . 8 第页 t吨 \hat{α} (τ) |_{1}] .

(2.4)

事实上，对于任何有限的n个,

\hat{τ}

由区间给出，我们简单地定义区间的最大值作为我们的估计量。如果我们使用

1 {问_{我} > τ},

那么约定就是作为估计量的区间的最小值。然后是

α_{0}

定义为

\hat{α} : = \hat{α} (\hat{τ})

⁠事实上，我们建议的估计值(α,τ)可以被视为一步最小化

(\hat{α}, \hat{τ}) : = \underset{α \in A类 \subset 对^{2 M（M）}, τ \in T型 \subset 对}{参数 最小值} \{{S公司}_{n个} (α, τ) + λ {| D类 (τ) α |}_{1}\} .

(2.5)

值得注意的是，我们惩罚

β_{0}

和

δ_{0}

在表达式中(2.5)，其中

δ_{0}

是两种状态之间回归系数的变化。型号(1.1)可以写为

{Y（Y）}_{我} = \{\begin{matrix} {X（X）}_{我}^{'} β_{0} + {U型}_{我}, 如果 问_{我} ⩾ τ_{0}, \\ {X（X）}_{我}^{'} β_{1} + {U型}_{我}, 如果 问_{我} < τ_{0}, \end{matrix}

(2.6)

哪里

β_{1} \equiv β_{0} + δ_{0}

⁠.鉴于模型(2.6)或者，有人可能会受到惩罚

β_{0}

和

β_{1}

而不是

β_{0}

和

δ_{0}

⁠。我们选择了惩罚

δ_{0}

自从案件发生以来

δ_{0} = 0

对应于线性模型。如果

\hat{δ} = 0

⁠那么这种情况就相当于选择了线性模型。

3.实证说明

在本节中，我们将所提出的套索方法应用于经济学中的增长回归模型。新古典增长模型预测，从长远来看，经济增长率趋于一致。通过观察长期增长率和给定其他协变量的初始国内生产总值（GDP）之间的负关系，对该理论进行了实证检验（参见Barro和Sala-i-Martin(1995)和杜劳夫等. (2005)用于文献综述）。尽管实证结果证实了增长率与初始GDP之间的负相关，但也有一些批评认为，结果在很大程度上取决于协变量的选择。最近，贝洛尼和切尔诺朱科夫(2011年b)表明套索估计有助于选择线性的增长回归模型和lasso估计结果再次证实了长期增长率与初始GDP之间的负相关关系。

我们考虑具有可能阈值的增长回归模型。杜劳夫和约翰逊(1995)提供了多稳态存在的理论背景，并用两个可能的阈值变量估计了模型。他们通过向模型中添加其他可用的协变量来检查稳健性，但它仍然受到以下方面的批评特别的变量选择。在这种情况下，我们提出的套索方法可能是一种很好的替代方法。此外，正如我们稍后将显示的那样，即使模型中没有阈值效应，我们的方法也能很好地工作。因此，人们可能会期望我们的方法能带来更稳健的结果。

我们考虑的回归模型具有以下形式

克_{我} = β_{0} + β_{1} {lgdp60型}_{我} + {X（X）}_{我}^{'} β_{2} + 1 {问_{我} < τ} (δ_{0} + δ_{1} {lgdp60型}_{我} + {X（X）}_{我}^{'} δ_{2}) + ε_{我},

(3.1)

哪里

克_{我}

是国家的年GDP增长率我1960年至1985年，

{lgdp60型}_{我}

是1960年的log-GDP

问_{我}

是一个可能的阈值变量，我们使用最初的GDP或继Durlauf和Johnson之后的1960年成人识字率(1995). 最后，

{X（X）}_{我}

是与教育、市场效率、政治稳定、市场开放度和人口特征相关的额外协变量的向量。此外，

{X（X）}_{我}

包含lgdp60之间的交叉乘积项

_{我}

和教育变量。表1给出了使用的所有协变量的列表以及每个变量的描述。我们包括尽可能多的协变量，这可能会减轻潜在的遗漏变量偏差。数据集主要来自Barro和Lee(1994)额外的成人识字率来自Durlauf and Johnson(1995). 由于缺少观测值，当

问_{我}

是初始GDP(n个=80和M（M）=46），当

问_{我}

是识字率(n个=70和M（M）= 47). 值得注意的是，阈值模型中的协变量数量大于观察值数量（2M（M）>n个在我们的符号中）。因此，我们不能采用标准最小二乘法来估计阈值回归模型。

表1。

变量列表

变量名称	描述
因变量
克	1960年至1985年期间的年GDP增长率
阈值变量
gdp60	实际GDP人均1960年（1985年价格）
爱尔兰	1960年成人识字率
协变量
lgdp60型	日志-GDP人均1960年（1985年价格）
爱尔兰	1960年成人识字率（仅包括问=lr）
最小二乘法 $_{k}$	1960-1985年的年化对数（投资/产出）；日志代理（物理
	储蓄率）
长距离无线电 $_{流行音乐}$	1960年至1985年的对数（人口增长率）
吡咯60	1960年男性人口的对数（平均小学教育年限）
吡咯60	1960年女性人口的对数（平均小学教育年限）
符号60	1960年男性人口的log（平均中学教育年限）
赛尔夫60	1960年女性人口的平均中学教育年限
氢60	1960年男性人口的平均高等教育年限
60马力	1960年女性人口的对数（平均高等教育年限）
标称60	1960年男性人口中没有上学的比例
60号	1960年女性人口中没有上学的比例
prim60型	1960年男性人口接受小学教育的百分比
60年前	1960年女性人口接受小学教育的百分比
价格60	1960年男性完成小学教育的百分比
价格60	1960年女性完成小学教育的百分比
60秒	1960年男性人口接受中学教育的百分比
60秒	1960年女性人口接受中学教育的百分比
秒60	1960年男性完成中学教育的百分比
60秒	1960年女性完成中学教育的百分比
利菲	1960年至1985年的平均对数（0岁时的预期寿命）
lfert公司	1960年至1985年平均生育率
教育/gdp	1960年至1985年间，政府教育支出占GDP的平均值
gcon/gdp	1960年至1985年期间，每GDP国防和教育的政府消费支出净额平均值
撤销	1960年至1984年每年的转数
政变	1960-1984年间每年的转数和政变次数
监狱	1960年至1984年间至少参加过一次对外战争的国家的假人
战时	1960年至1985年间，部分时间卷入了外部战争
磅/加仑	log（1960年至1985年间平均1+黑市溢价）
总数	贸易术语冲击
lgdp60×“导出”	两个协变量的乘积（lgdp60和教育变量从pyrm60到seccf60的相互作用）；总共16个变量

变量名称	描述
因变量
克	1960年至1985年期间的年GDP增长率
阈值变量
gdp60	实际GDP人均1960年（1985年价格）
爱尔兰	1960年成人识字率
协变量
lgdp60型	日志-GDP人均1960年（1985年价格）
爱尔兰	1960年成人识字率（仅包括问=lr）
最小二乘法 $_{k}$	1960年至1985年的年化对数（投资/产出）；日志代理（物理
	储蓄率）
长距离无线电 $_{流行音乐}$	1960年至1985年的对数（人口增长率）
吡咯60	1960年男性人口的log（平均小学教育年限）
pyrf60型	1960年女性人口的对数（平均小学教育年限）
符号60	1960年男性人口的平均中学教育年限
赛尔夫60	1960年女性人口的平均中学教育年限
氢60	1960年男性人口的平均高等教育年限
60马力	1960年女性人口的log（平均高等教育年限）
标称60	1960年男性人口中没有上学的比例
60号	1960年女性人口中没有上学的比例
prim60型	1960年男性人口接受小学教育的百分比
60年前	1960年女性人口接受小学教育的百分比
价格60	1960年男性完成小学教育的百分比
价格60	1960年女性完成小学教育的百分比
60秒	1960年男性人口接受中学教育的百分比
60秒	1960年女性人口接受中学教育的百分比
秒60	1960年男性完成中学教育的百分比
60秒	1960年女性完成中学教育的百分比
利菲	log（0岁时的预期寿命）1960年至1985年的平均值
勒弗特	1960年至1985年平均生育率
教育/gdp	1960年至1985年间，政府教育支出占GDP的平均值
gcon/gdp	1960年至1985年期间，政府消费支出扣除国防和教育的人均国内生产总值
撤销	1960年至1984年每年的转数
政变	1960年至1984年期间每年的转数和政变次数
监狱	1960年至1984年间至少参加过一次对外战争的国家的假人
战时	1960年至1985年间，部分时间卷入了外部战争
磅/加仑	对数（1960年至1985年期间平均的1+黑市溢价）
总数	贸易术语冲击
lgdp60×“导出”	两个协变量的乘积（lgdp60和教育变量从pyrm60到seccf60的相互作用）；总共16个变量

新标签中打开

表1。

变量列表

变量名称	描述
因变量
克	1960年至1985年期间的年GDP增长率
阈值变量
gdp60	实际GDP人均1960年（1985年价格）
爱尔兰	1960年成人识字率
协变量
lgdp60型	日志-GDP人均1960年（1985年价格）
爱尔兰	1960年成人识字率（仅包括问=lr）
最小二乘法 $_{k}$	1960年至1985年的年化对数（投资/产出）；日志代理（物理
	储蓄率）
长距离无线电 $_{流行音乐}$	1960年至1985年的对数（人口增长率）
吡咯60	1960年男性人口的对数（平均小学教育年限）
吡咯60	1960年女性人口的对数（平均小学教育年限）
符号60	1960年男性人口的平均中学教育年限
syrf60型	1960年女性人口的log（平均中学教育年限）
氢60	1960年男性人口的平均高等教育年限
60马力	1960年女性人口的对数（平均高等教育年限）
标称60	1960年男性人口中没有上学的比例
60号	1960年女性人口中没有上学的比例
原始60	1960年男性人口接受小学教育的百分比
60年前	1960年女性人口接受小学教育的百分比
价格60	1960年男性完成小学教育的百分比
价格60	1960年女性完成小学教育的百分比
60秒	1960年男性人口接受中学教育的百分比
60秒	1960年女性人口接受中学教育的百分比
秒60	1960年男性完成中学教育的百分比
60秒	1960年女性完成中学教育的百分比
利菲	log（0岁时的预期寿命）1960年至1985年的平均值
勒弗特	1960年至1985年平均生育率
教育/gdp	1960年至1985年间，政府教育支出占GDP的平均值
gcon/gdp	1960年至1985年期间，每GDP国防和教育的政府消费支出净额平均值
撤销	1960年至1984年每年的转数
政变	1960年至1984年期间每年的转数和政变次数
衣柜	1960年至1984年间至少参加过一次外部战争的国家的假人
战时	1960年至1985年间，部分时间卷入了外部战争
磅/加仑	log（1960年至1985年间平均1+黑市溢价）
总数	贸易术语冲击
lgdp60×“导出”	两个协变量的乘积（lgdp60和教育变量从pyrm60到seccf60的相互作用）；总共16个变量

变量名称	描述
因变量
克	1960-1985年期间的年化GDP增长率
阈值变量
gdp60	实际GDP人均1960年（1985年价格）
爱尔兰	1960年成人识字率
协变量
lgdp60型	日志-GDP人均1960年（1985年价格）
爱尔兰	1960年成人识字率（仅包括问=lr）
最小二乘法 $_{k}$	1960年至1985年的年化对数（投资/产出）；日志代理（物理
	储蓄率）
长距离无线电 $_{流行音乐}$	1960年至1985年的对数（人口增长率）
吡咯60	1960年男性人口的对数（平均小学教育年限）
吡咯60	1960年女性人口的对数（平均小学教育年限）
符号60	1960年男性人口的平均中学教育年限
赛尔夫60	1960年女性人口的平均中学教育年限
氢60	1960年男性人口的平均高等教育年限
60马力	1960年女性人口的对数（平均高等教育年限）
标称60	1960年未受教育的男性人口比例
60号	1960年女性人口中没有上学的比例
prim60型	1960年男性人口接受小学教育的百分比
60年前	1960年女性人口接受小学教育的百分比
价格60	1960年男性完成小学教育的百分比
价格60	1960年女性完成小学教育的百分比
60秒	1960年男性人口接受中学教育的百分比
60秒	1960年女性人口接受中学教育的百分比
秒60	1960年男性完成中学教育的百分比
60秒	1960年女性完成中学教育的百分比
利菲	log（0岁时的预期寿命）1960年至1985年的平均值
勒弗特	1960年至1985年平均生育率
教育/gdp	1960年至1985年间，政府教育支出占GDP的平均值
gcon/gdp	1960年至1985年期间，每GDP国防和教育的政府消费支出净额平均值
撤销	1960年至1984年每年的转数
政变	1960年至1984年期间每年的转数和政变次数
监狱	1960年至1984年间至少参加过一次对外战争的国家的假人
战时	1960年至1985年间，部分时间卷入了外部战争
磅/加仑	log（1960年至1985年间平均1+黑市溢价）
总数	贸易期限冲击
lgdp60×“教育”	两个协变量的乘积（lgdp60和教育变量从pyrm60到seccf60的相互作用）；总共16个变量

新标签中打开

表2总结模型选择和估算结果 $问_{我}$ 是初始GDP。在线附录F（请参见表4)，我们报告了额外的经验结果 $问_{我}$ 就是识字率。为了比较不同的模型规格，我们还估计了一个线性模型，即所有δ模型中的是0(3.1)，通过标准拉索估计。在每种情况下，正则化参数λ由“leave-one-out”交叉验证方法选择。对于范围 $T型$ 对于阈值参数，我们考虑每个阈值变量的10%和90%样本分位数之间的区间。

表2。

模型选择和估算结果问=gdp60†

变量	线性模型的值	阈值模型的值， $\hat{τ} = 2898$
变量	线性模型的值	$\hat{β}$	$\hat{δ}$
常量	−0.0923	−0.0811	—
lgdp60型	−0.0153	−0.0120	—
最小二乘法 $_{k}$	0.0033	0.0038	—
长距离无线电 $_{流行音乐}$	0.0018	—	—
吡咯60	0.0027	—	—
符号60	0.0157	—	—
氢60	0.0122	0.0130	—
60马力	−0.0389	—	−0.0807
标称60	—	—	2.64×10 $^{- 5}$
prim60型	−0.0004	−0.0001	—
价格60	0.0006	−1.73 × 10 $^{- 4}$	$- 0.35 \times 10^{- 4}$
价格60	−0.0006	—	—
60秒	0.0005	—	—
秒60	0.0010	—	0.0014
利菲	0.0697	0.0523	—
勒弗特	−0.0136	−0.0047	—
教育/gdp	−0.0189	—	—
gcon/gdp	−0.0671	−0.0542	—
撤销	−0.0588	—	—
政变	0.0433	—	—
监狱	−0.0043	—	−0.0022
战时	−0.0019	−0.0143	−0.0023
磅/加仑	−0.0185	−0.0174	−0.0015
总数	0.0971	—	0.0974
lgdp60×pyrf60	—	$- 3.81 \times 10^{- 6}$	—
lgdp60×syrm60	—	—	0.0002
lgdp60×hyrm60	—	—	0.0050
lgdp60×hyrf60	—	−0.0003	—
lgdp60×标称60	—	—	$8.26 \times 10^{- 6}$
lgdp60×prim60	$- 6.02 \times 10^{- 7}$	—	—
lgdp60×prif60	$- 3.47 \times 10^{- 6}$	—	$- 8.11 \times 10^{- 6}$
lgdp60×pricf60	$- 8.46 \times 10^{- 6}$	—	—
lgdp60×秒60	−0.0001	—	—
lgdp60×seccf60	−0.0002	$- 2.87 \times 10^{- 6}$	—
λ	0.0004	0.0034
$M（M） (\hat{α})$	28	26
协变量数量	46	92
观察次数	80	80

变量	线性模型的值	阈值模型的值， $\hat{τ} = 2898$
变量	线性模型的值	$\hat{β}$	$\hat{δ}$
常量	−0.0923	−0.0811	—
lgdp60型	−0.0153	−0.0120	—
最小二乘法 $_{k}$	0.0033	0.0038	—
长距离无线电 $_{流行音乐}$	0.0018	—	—
吡咯60	0.0027	—	—
符号60	0.0157	—	—
氢60	0.0122	0.0130	—
60马力	−0.0389	—	−0.0807
标称60	—	—	2.64 × 10 $^{- 5}$
prim60型	−0.0004	−0.0001	—
价格60	0.0006	−1.73 × 10 $^{- 4}$	$- 0.35 \times 10^{- 4}$
价格60	−0.0006	—	—
60秒	0.0005	—	—
秒60	0.0010	—	0.0014
利菲	0.0697	0.0523	—
勒弗特	−0.0136	−0.0047	—
教育/gdp	−0.0189	—	—
gcon/gdp	−0.0671	−0.0542	—
撤销	−0.0588	—	—
政变	0.0433	—	—
监狱	−0.0043	—	−0.0022
战时	−0.0019	−0.0143	−0.0023
磅/加仑	−0.0185	−0.0174	−0.0015
总数	0.0971	—	0.0974
lgdp60×pyrf60	—	$- 3.81 \times 10^{- 6}$	—
lgdp60×syrm60	—	—	0.0002
lgdp60×hyrm60	—	—	0.0050
lgdp60×hyrf60	—	−0.0003	—
lgdp60×标称60	—	—	$8.26 \times 10^{- 6}$
lgdp60×prim60	$- 6.02 \times 10^{- 7}$	—	—
lgdp60×prif60	$- 3.47 \times 10^{- 6}$	—	$- 8.11 \times 10^{- 6}$
lgdp60×pricf60	$- 8.46 \times 10^{- 6}$	—	—
lgdp60×秒60	−0.0001	—	—
lgdp60×seccf60	−0.0002	$- 2.87 \times 10^{- 6}$	—
λ	0.0004	0.0034
$M（M） (\hat{α})$	28	26
协变量数量	46	92
观察次数	80	80

†

正则化参数λ由“leave-one-out”交叉验证方法选择。 $M（M） (\hat{α})$ 表示lasso估计器选择的协变量数量，破折号表示未选择回归变量。回想一下 $\hat{β}$ 是系数，当 $问 ⩾ \hat{γ}$ 还有那个 $\hat{δ}$ 是系数值的变化，当 $问 < \hat{γ}$ ⁠.

新标签中打开

表2。

模型选择和估算结果问=gdp60†

变量	线性模型的值	阈值模型的值， $\hat{τ} = 2898$
变量	线性模型的值	$\hat{β}$	$\hat{δ}$
常量	−0.0923	−0.0811	—
lgdp60型	−0.0153	−0.0120	—
最小二乘法 $_{k}$	0.0033	0.0038	—
长距离无线电 $_{流行音乐}$	0.0018	—	—
pyrf60型	0.0027	—	—
符号60	0.0157	—	—
氢60	0.0122	0.0130	—
60马力	−0.0389	—	−0.0807
标称60	—	—	2.64 × 10 $^{- 5}$
prim60型	−0.0004	−0.0001	—
价格60	0.0006	−1.73 × 10 $^{- 4}$	$- 0.35 \times 10^{- 4}$
价格60	−0.0006	—	—
60秒	0.0005	—	—
秒60	0.0010	—	0.0014
利菲	0.0697	0.0523	—
勒弗特	−0.0136	−0.0047	—
教育/gdp	−0.0189	—	—
gcon/gdp	−0.0671	−0.0542	—
撤销	−0.0588	—	—
政变	0.0433	—	—
监狱	−0.0043	—	−0.0022
战时	−0.0019	−0.0143	−0.0023
磅/加仑	−0.0185	−0.0174	−0.0015
总数	0.0971	—	0.0974
lgdp60×pyrf60	—	$- 3.81 \times 10^{- 6}$	—
lgdp60×syrm60	—	—	0.0002
lgdp60×hyrm60	—	—	0.0050
lgdp60×hyrf60	—	−0.0003	—
lgdp60×标称60	—	—	$8.26 \times 10^{- 6}$
lgdp60×prim60	$- 6.02 \times 10^{- 7}$	—	—
lgdp60×prif60	$- 3.47 \times 10^{- 6}$	—	$- 8.11 \times 10^{- 6}$
lgdp60×pricf60	$- 8.46 \times 10^{- 6}$	—	—
lgdp60×秒60	−0.0001	—	—
lgdp60×seccf60	−0.0002	$- 2.87 \times 10^{- 6}$	—
λ	0.0004	0.0034
$M（M） (\hat{α})$	28	26
协变量数量	46	92
观察次数	80	80

变量	线性模型的值	阈值模型的值， $\hat{τ} = 2898$
变量	线性模型的值	$\hat{β}$	$\hat{δ}$
常量	−0.0923	−0.0811	—
lgdp60型	−0.0153	−0.0120	—
最小二乘法 $_{k}$	0.0033	0.0038	—
液化天然气 $_{流行音乐}$	0.0018	—	—
吡咯60	0.0027	—	—
符号60	0.0157	—	—
氢60	0.0122	0.0130	—
60马力	−0.0389	—	−0.0807
标称60	—	—	2.64 × 10 $^{- 5}$
prim60型	−0.0004	−0.0001	—
价格60	0.0006	−1.73 × 10 $^{- 4}$	$- 0.35 \times 10^{- 4}$
价格60	−0.0006	—	—
60秒	0.0005	—	—
秒60	0.0010	—	0.0014
利菲	0.0697	0.0523	—
勒弗特	−0.0136	−0.0047	—
教育/gdp	−0.0189	—	—
gcon/gdp	−0.0671	−0.0542	—
撤销	−0.0588	—	—
政变	0.0433	—	—
衣柜	−0.0043	—	−0.0022
战时	−0.0019	−0.0143	−0.0023
磅/加仑	−0.0185	−0.0174	−0.0015
总数	0.0971	—	0.0974
lgdp60×pyrf60	—	$- 3.81 \times 10^{- 6}$	—
lgdp60×syrm60	—	—	0.0002
lgdp60×hyrm60	—	—	0.0050
lgdp60×hyrf60	—	−0.0003	—
lgdp60×标称60	—	—	$8.26 \times 10^{- 6}$
lgdp60×prim60	$- 6.02 \times 10^{- 7}$	—	—
lgdp60×prif60	$- 3.47 \times 10^{- 6}$	—	$- 8.11 \times 10^{- 6}$
lgdp60×pricf60	$- 8.46 \times 10^{- 6}$	—	—
lgdp60×秒60	−0.0001	—	—
lgdp60×seccf60	−0.0002	$- 2.87 \times 10^{- 6}$	—
λ	0.0004	0.0034
$M（M） (\hat{α})$	28	26
协变量数量	46	92
观察次数	80	80

†

正则化参数λ由“leave-one-out”交叉验证方法选择。 $M（M） (\hat{α})$ 表示lasso估计器选择的协变量数量，破折号表示未选择回归变量。回想一下 $\hat{β}$ 是系数，当 $问 ⩾ \hat{γ}$ 还有那个 $\hat{δ}$ 是系数值的变化，当 $问 < \hat{γ}$ ⁠.

新标签中打开

主要实证结果如下。首先，lgdp60的边际效应

_{我}

⁠，由给出

\frac{\partial 克_{我}}{\partial {lgdp60型}_{我}} = β_{1} + {教育}_{我}^{'} {\tilde{β}}_{2} + 1 {问_{我} < γ} (δ_{1} + {教育}_{我}^{'} {\tilde{δ}}_{2}),

教育在哪里

_{我}

是教育变量的向量

{\tilde{β}}_{2}

和

{\tilde{δ}}_{2}

是的子向量

β_{2}

和

δ_{2}

对应教育

_{我}

⁠，对于所有观察到的导出值，估计为负值

_{我}

⁠这证实了新古典增长模型的理论。其次，lgdp60和各种教育变量之间的一些非零交互项系数表明，在两个阈值模型规范中都存在阈值效应。这一结果表明，增长趋同率可能因初始国内生产总值或1960年成人识字率的不同水平而不同。具体来说，在这两个阈值模型中，我们都有

δ_{1} = 0

⁠，但有些

δ_{2}

s不是0。因此，在其他协变量上，根据阈值，存在不同的技术扩散效应。例如，发展中国家（较低问)通过更容易、更快地吸收先进技术，高等教育水平将更快地融合。最后，与线性规范相比，阈值模型规范的套索选择了一个更加简约的模型，尽管前者使潜在协变量的数量增加了一倍。

4.套索估计量的预测一致性

在本节中，我们考虑lasso估计器的预测一致性。我们做出以下假设。

假设1
对于参数空间 $A类$ 对于 $α_{0}$ ⁠，任何 $α \equiv (α_{1}, \dots, α_{2 M（M）}) \in A类 \subset 对^{2 M（M）}$ ⁠，包括 $α_{0}$ ⁠，满足 ${最大}_{j = 1, \dots, 2 M（M）} | α_{j} | ⩽ {C类}_{1}$ 对于一些常量 ${C类}_{1} > 0$ ⁠此外， $τ_{0} \in T型 \equiv [{t吨}_{0}, {t吨}_{1}]$ 满足 ${最小值}_{我 = 1, \dots, n个} 问_{我} < {t吨}_{0} < {t吨}_{1} < {最大}_{我 = 1, \dots, n个} 问_{我}$ ⁠.
有通用常数 ${C类}_{2} > 0$ 和 ${C类}_{3} > 0$ 这样的话 $‖ {X（X）}^{(j)} {(τ) ‖}_{n个} ⩽ {C类}_{2}$ 在中一致j和 $τ \in T型$ ⁠、和 $‖ {X（X）}^{(j)} ({t吨}_{0}) ‖_{n个} ⩾ {C类}_{3}$ 在中一致j，其中j= 1,…,2M（M）.
没有我≠j这样的话 $问_{我} = 问_{j} .$

假设1（a）规定了参数向量每个分量的有界性。假设1（a）的第一部分意味着 ${| α |}_{1} ⩽ 2 {C类}_{1} M（M）$ 对于任何 $α \in A类$ ⁠，似乎很弱，因为稀疏性假设意味着 $| α_{0} |_{1}$ 远小于 ${C类}_{1} M（M）$ ⁠此外，在关于变化点和阈值模型的文献中，通常假设参数空间是紧凑的。例如，参见Seijo和Sen(2011年a,2011年b).

表达式中的拉索估计量(2.5)可以在不知道 ${C类}_{1}$ ⁠，但是 $T型 \equiv [{t吨}_{0}, {t吨}_{1}]$ 必须指定。实际上，研究人员倾向于选择阈值变量观测值范围的一些严格子集。假设1（b）规定每个协变量在τ.鉴于以下假设 ${最小值}_{我 = 1, \dots, n个} 问_{我} < {t吨}_{0}$ ⁠，假设这一点并不严格 $‖ {X（X）}^{(j)} ({t吨}_{0}) ‖_{n个}$ 有界远离零。

假设1（c）规定 $问_{我}$ s.这是一个方便的假设，因此我们可以随时转换通用 $问_{我}$ 到 $问_{我} = 我 / n个$ 不失通用性。对于随机设计情况，如果 $问_{我}$ 是连续分布的。

定义

{第页}_{n个} : = \underset{1 ⩽ j ⩽ M（M）}{最小值} \frac{‖ {X（X）}^{(j)} ({t吨}_{0}) ‖_{n个}^{2}}{‖ {X（X）}^{(j)} ‖_{n个}^{2}},

哪里

{X（X）}^{(j)}

和

{X（X）}^{(j)} (τ)

在表达式中定义(2.3). 假设1（b）意味着

{第页}_{n个}

有界远离零。特别是，我们有

1 ⩾ {第页}_{n个} ⩾ {C类}_{3} / {C类}_{2} > 0

⁠.

回想一下

‖ \hat{（f）} - {（f）}_{0} ‖_{n个} : = {[\frac{1}{n个} \sum_{我 = 1}^{n个} {\hat{（f）} ({X（X）}_{我}, 问_{我}) - {（f）}_{0} ({X（X）}_{我}, 问_{我})}^{2}]}^{1 / 2},

(4.1)

哪里

\hat{（f）} (x个, q个) : = {x个}^{'} \hat{β} + {x个}^{'} \hat{δ} 1 {q个 < \hat{τ}}

和

{（f）}_{0} (x个, q个) : = {x个}^{'} β_{0} + {x个}^{'} δ_{0} 1 {q个 < τ_{0}}

⁠在本文中建立理论结果（尤其是第节中的预言不等式5)，让

(\hat{α}, \hat{τ})

是由表达式定义的lasso估计量(2.5)带有

λ = A类 σ {\{\frac{日志 (3 M（M）)}{n个 {第页}_{n个}}\}}^{1 / 2}

(4.2)

对于常量A类>2√2/μ，其中μ∈（0,1）是一个固定常数。我们现在给出本文的第一个理论结果。

定理1
（套索的稠度）。假设1成立。让μ是一个常数，以便0<μ<1，并让 $(\hat{α}, \hat{τ})$ 是由表达式定义的lasso估计量(2.5)带有λ由方程式给出(4.2). 那么，至少以概率 $1 - {(3 M（M）)}^{1 - {A类}^{2} μ^{2} / 8}$ ⁠，我们有
$‖ \hat{（f）} - {（f）}_{0} ‖_{n个} ⩽ {K（K）}_{1} {\{λ M（M） (α_{0})\}}^{1 / 2},$
哪里 ${K（K）}_{1} \equiv {\{2 {C类}_{1} {C类}_{2} (3 + μ)\}}^{1 / 2} > 0$ ⁠.

定理1中预测风险的非渐近上界可以很容易地转化为渐近收敛。定理1暗示了套索的一致性，前提是n个→∞，M（M）→∞ 和 $λ M（M） (α_{0}) \to 0$ ⁠回忆一下 $M（M） (α_{0})$ 表示模型的稀疏性(2.1). 根据方程式(4.2)，条件 $λ M（M） (α_{0}) \to 0$ 要求 $M（M） (α_{0}) = o个 [{n个 {第页}_{n个} / 日志 (3 M（M）)}^{1 / 2}]$ ⁠。这意味着 $M（M） (α_{0})$ 可以增加n个.

备注1
注意，预测误差随着A类或μ增加；然而，如果A类或μ增加。因此，在预测误差和正确恢复的概率之间存在权衡。

5.Oracle不等式

在本节中，我们根据预测损失和 $我_{1}$ -未知参数的估计损失。首先，我们做出以下假设。

假设2
（统一限制特征值（URE） $(秒, {c（c）}_{0}, S公司)$ ⁠). 对于某个整数秒这样1⩽秒⩽2M（M），一个正数 ${c（c）}_{0}$ 还有一些套餐 $S公司 \subset 对$ ⁠，以下条件成立：
$κ (秒, {c（c）}_{0}, S公司) : = \underset{τ \in S公司}{最小值} \underset{\underset{| {J型}_{0} | ⩽ 秒}{{J型}_{0} \subseteq {1, \dots, 2 M（M）},}}{最小值} \underset{\underset{| γ_{{J型}_{0}^{c（c）}} |_{1} ⩽ {c（c）}_{0} {| γ_{{J型}_{0}} |}_{1}}{γ \neq 0,}}{最小值} \frac{{| X（X） (τ) γ |}_{2}}{\sqrt n个 | γ_{{J型}_{0}} |_{2}} > 0 .$

如果 $τ_{0}$ 假设2只是对Bickel有限特征值假设的重述等. (2009)带有 $S公司 = {τ_{0}}$ ⁠.比克尔等. (2009)为限制特征值条件提供了充分条件。此外，范德格尔和布尔曼(2009)显示了限制特征值条件与设计矩阵上其他条件之间的关系，以及Raskutti等. (2010)证明了一类相关高斯设计矩阵的限制特征值条件具有较高的概率。

如果 $τ_{0}$ 未知，因为在我们的设置中，似乎有必要假设限制特征值条件一致τ。我们根据是否 $δ_{0} = 0$ 或者没有。一方面，如果 $δ_{0} = 0$ 以便 $τ_{0}$ 是不可识别的，那么我们需要假设URE条件在整个参数空间上一致成立， $T型$ ⁠另一方面，如果 $δ_{0} \neq 0$ 以便 $τ_{0}$ 是可识别的，则只需将URE条件统一地应用于 $τ_{0}$ ⁠在在线附录A中，我们为假设2提供了两种充分条件。一种是基于对Bickel假设2的修改等. (2009)另一种类型与范德吉尔和伯尔曼的精神相同(2009)，第10.1节。利用第二类结果，我们在模拟设计的上下文中验证了URE条件的原始充分条件。请参阅联机附录A了解详细信息。

URE条件有助于我们改进定理1中的结果。回想一下，在定理1中，预测风险受以下因素的限制 ${λ M（M） (α_{0})}^{1 / 2}$ ⁠这个界限太大了，无法给出一个预言不等式。我们将在下面说明，我们可以为预测风险以及 $我_{1}$ -由于URE条件，估计损失。

所提出的套索方法的优点是不需要知道或预先测试 $δ_{0} = 0$ 或者没有。值得注意的是，我们不必知道模型中是否存在阈值来建立预测风险和 $我_{1}$ -估计损失 $α_{0}$ ⁠尽管我们将理论结果分为以下两种情况。这意味着我们可以进行预测和估计 $α_{0}$ 准确地说，不知道阈值效应的存在，也不进行预先测试。

5.1. 案例一：无阈值

我们首先考虑的是 $δ_{0} = 0$ ⁠换句话说，我们通过套索方法估计阈值模型，但真正的模型只是一个线性模型 ${Y（Y）}_{我} = {X（X）}_{我}^{'} β_{0} + {U型}_{我}$ ⁠这是应用中需要考虑的一个重要案例，因为人们可能不仅不能确定协变量的选择，也不能确定模型中是否存在阈值。

让 $ϕ_{最大}$ 表示上确界 $τ \in T型$ ⁠)的最大特征值 $X（X） {(τ)}^{'} X（X） (τ) / n个$ ⁠然后，根据定义 $X（X） {(τ)}^{'} X（X） (τ) / n个$ 一致限定在 $τ \in T型$ 通过 $ϕ_{最大}$ ⁠以下定理给出了第一种情况下的oracle不等式。

定理2
假设 $δ_{0} = 0$ ⁠假设1和2成立 $κ = κ {秒, (1 + μ) / (1 - μ), T型}$ 用于0<μ<1，以及 $M（M） (α_{0}) ⩽ 秒 ⩽ M（M）$ ⁠.让 $(\hat{α}, \hat{τ})$ 是由表达式定义的lasso估计量(2.5)带有λ由表达式给出(4.2). 那么，至少以概率 $1 - {(3 M（M）)}^{1 - {A类}^{2} μ^{2} / 8},$ 我们有
$\begin{matrix} ‖ \hat{（f）} - {（f）}_{0} ‖_{n个} ⩽ {K（K）}_{2} \frac{σ}{κ} {\{\frac{日志 (3 M（M）)}{n个 {第页}_{n个}} 秒\}}^{1 / 2}, \\ | \hat{α} - α_{0} |_{1} ⩽ {K（K）}_{2} \frac{σ}{κ^{2}} {\{\frac{日志 (3 M（M）)}{n个 {第页}_{n个}}\}}^{1 / 2} 秒, \\ M（M） (\hat{α}) ⩽ {K（K）}_{2} \frac{ϕ_{最大}}{κ^{2}} 秒 \end{matrix}$
对于某个通用常数 ${K（K）}_{2} > 0$ ⁠.

为了理解上述不等式的有用性，有必要将定理2中的不等式与Bickel定理7.2中的不等式进行比较等. (2009). 后者对应于以下情况 $δ_{0} = 0$ 已知先验的和 $λ = 2 A类 σ . 3 第页 t吨日志 {(M（M） / n个)}^{1 / 2}$ 在我们的记法中。如果我们比较定理2和Bickel的定理7.2等. (2009)，我们可以看到模型中的lasso估计(2.5)定性地给出了与线性模型中的lasso估计量相同的oracle不等式，尽管我们的模型在这方面参数过高δ和τ已添加到β作为要估计的参数。

还有，比克尔等. (2009)，没有要求 $α_{0}$ 非零分量的最小值 $α_{0}$ 离零有界。换句话说，没有必要假设信号的最小强度。此外， $α_{0}$ 即使是 $τ_{0}$ 根本无法识别。最后，注意常量的值 ${K（K）}_{2}$ 在定理2的证明中给出，定理2也可以很容易地转化为渐近oracle结果，因为κ和 ${第页}_{n个}$ 分别受URE条件和假设1的限制。

5.2. 案例二：固定阈值

本小节探讨了阈值效应得到很好识别且不连续的情况。我们从以下附加假设开始，以反映这一点。

假设3
（回归稀疏性和不连续性下的可识别性）。对于给定的 $秒 ⩾ M（M） (α_{0}),$ 以及任何η和τ这样的话 $| τ - τ_{0} | > η ⩾ {最小值}_{我} | 问_{我} - τ_{0} |$ 和 $α \in {α : M（M） (α) ⩽ 秒}$ ⁠，有一个常数c（c）>0，这样
$‖ {（f）}_{(α, τ)} - {（f）}_{0} ‖_{n个}^{2} > c（c） η .$

假设3意味着，除其他外

秒 ⩾ M（M） (α_{0}),

以及任何

α \in {α : M（M） (α) ⩽ 秒}

和τ这样的话

(α, τ) \neq (α_{0}, τ_{0})

⁠,

‖ {（f）}_{(α, τ)} - {（f）}_{0} ‖_{n个} \neq 0 .

(5.1)

这种情况可以被视为

τ_{0}

⁠.如果

τ_{0}

已知，则稀疏性下可识别性的一个充分条件是URE

(秒, {c（c）}_{0}, {τ_{0}})

保留一些

{c（c）}_{0} ⩾ 1

⁠因此，结果的要点(5.1)是没有等价于

{（f）}_{0}

当样本被拆分时

τ \neq τ_{0} .

事实上，假设3不仅仅是

τ_{0}

因为它规定了偏差率（f）作为τ远离

τ_{0},

这又决定了

\hat{τ}

⁠。我们在网上对假设3进行了进一步讨论附录B.

备注2
限制 $η ⩾ {最小值}_{我} | 问_{我} - τ_{0} |$ 在假设3中是必要的，因为我们考虑了两者的固定设计 ${X（X）}_{我}$ 和 $问_{我}$ ⁠在本节中，我们隐含地假设样本量n个足够大，以至于 ${最小值}_{我 \neq j} | 问_{我} - 问_{j} |$ 非常小，这意味着限制 $η ⩾ {最小值}_{我 \neq j} | 问_{我} - 问_{j} |$ 永远不要约束下面的任何不平等。对于随机设计情况，如果 $问_{我}$ 是连续分布的。

假设4
（设计的流畅性）。对于任何η>0，有一个常数C类<∞，这样
$\underset{j}{支持} \underset{| τ - τ_{0} | < η}{支持} \frac{1}{n个} \sum_{我 = 1}^{n个} | {X（X）}_{我}^{(j)} |^{2} | 1 (问_{我} < τ_{0}) - 1 (问_{我} < τ) | ⩽ C类 η .$

假设4是在经典设置中假设的，带有固定数量的随机回归变量，以排除如下情况 $问_{我}$ 点质量为 $τ_{0}$ 或 $E类 ({X（X）}_{我} | 问_{我} = τ_{0})$ 是无限的。在我们的设置中，假设4相当于阈值变量分布的某些平滑度假设的确定性版本 $问_{我}$ ⁠.何时 $({X（X）}_{我}, 问_{我})$ 是随机向量，在标准假设下满足 $问_{我}$ 连续分布 $E类 (| {X（X）}_{我}^{(j)} |^{2} | 问_{我} = τ)$ 连续且有界于 $τ_{0}$ 对于每个j.

为了简化符号，在下面的定理中，我们假设在不损失通用性的情况下 $问_{我} = 我 / n个$ ⁠.然后 $T型 = [{t吨}_{0}, {t吨}_{1}] \subset (0, 1)$ ⁠此外，让 $η_{0} = 最大 [{n个}^{- 1}, {K（K）}_{1} \sqrt {λ M（M） (α_{0})}]$ 哪里 ${K（K）}_{1}$ 是定理1中的相同常数。

假设5
（定义明确的二阶矩）。对于任何η这样的话 $1 / n个 ⩽ η ⩽ η_{0}$ ⁠, ${小时}_{n个}^{2} (η)$ 有界，其中
${小时}_{n个}^{2} (η) : = \frac{1}{2 n个 η} \sum_{我 = 最小值 {1, [n个 (τ_{0} - η)]}}^{最大 {[n个 (τ_{0} + η)], n个}} {({X（X）}_{我}^{'} δ_{0})}^{2}$
和[·]表示任何实数的整数部分。

假设5假设 ${小时}_{n个}^{2} (η)$ 对于任何η这样的话 $1 / n个 ⩽ η ⩽ η_{0}$ ⁠.假设5相当于固定设计二阶矩的一些弱正则性条件。假设3意味着 $δ_{0} \neq 0$ 还有那个 ${小时}_{n个}^{2} (η)$ 有界远离零。因此，假设3和5意味着 ${小时}_{n个}^{2} (η)$ 有界且远离零。

为了证明下面的定理，有必要做一个额外的技术假设（见在线附录E). 我们选择在这里不显示假设6，因为我们认为这只是一个充分条件，不会增加我们对主要结果的理解。然而，我们想指出的是，假设6可以适用于所有足够大的情况n个，前提是 $秒 λ | δ_{0} |_{1} \to 0$ ⁠，作为n个→0.见在线备注4附录E了解详细信息。

现在我们给出这一部分的主要结果。

定理3
假设假设1和2与 $S公司 = {| τ - τ_{0} | ⩽ η_{0}}$ ⁠, $κ = κ {秒, (2 + μ) / (1 - μ), S公司}$ 用于0<μ<1，以及 $M（M） (α_{0}) ⩽ 秒 ⩽ M（M）$ ⁠此外，假设3、4和5成立并允许n个足够大，即在线中的假设6附录E持有。让 $(\hat{α}, \hat{τ})$ 是由表达式定义的lasso估计量(2.5)带有λ由表达式给出(4.2). 那么，至少以概率 $1 - {(3 M（M）)}^{1 - {A类}^{2} μ^{2} / 8} - {C类}_{4} {(3 M（M）)}^{- {C类}_{5} / {第页}_{n个}}$ 对于一些正常数 ${C类}_{4}$ 和 ${C类}_{5}$ ⁠，我们有
$\begin{matrix} ‖ \hat{（f）} - {（f）}_{0} ‖_{n个} ⩽ {K（K）}_{3} \frac{σ}{κ} {\{\frac{日志 (3 M（M）)}{n个 {第页}_{n个}} 秒\}}^{1 / 2}, \\ | \hat{α} - α_{0} |_{1} ⩽ {K（K）}_{3} \frac{σ}{κ^{2}} {\{\frac{日志 (3 M（M）)}{n个 {第页}_{n个}}\}}^{1 / 2} 秒, \\ | \hat{τ} - τ_{0} | ⩽ {K（K）}_{3} \frac{σ^{2}}{κ^{2}} \frac{日志 (3 M（M）)}{n个 {第页}_{n个}} 秒, \\ M（M） (\hat{α}) ⩽ {K（K）}_{3} \frac{ϕ_{最大}}{κ^{2}} 秒 \end{matrix}$
对于某个通用常数 ${K（K）}_{3} > 0$ ⁠.

定理3给出了与定理2中预测风险相同的不等式（直到常数）以及 $我_{1}$ -估计损失 $α_{0}$ ⁠。重要的是要注意 $| \hat{τ} - τ_{0} |$ 以恒定时间为界 $秒日志 (3 M（M）) / (n个 {第页}_{n个})$ ⁠，而 $| \hat{α} - α_{0} |_{1}$ 以常数为界 $秒 {日志 (3 M（M）) / (n个 {第页}_{n个})}^{1 / 2}$ ⁠这可以被视为 $\hat{τ}$ 到 $τ_{0}$ ⁠如本节末尾所述10.1，因为两者κ和 ${第页}_{n个}$ 分别受URE条件和假设1的限制，定理3立即暗示渐近速率结果。常数的值 ${C类}_{4}$ ⁠, ${C类}_{5}$ 和 ${K（K）}_{3}$ 在定理3的证明中给出。

本节的主要贡献是我们扩展了著名的超一致性结果 $\hat{τ}$ 什么时候M（M）<n个（例如，请参见Chan(1993)Seijo和Sen(2011年a,2011年b))高维设置(M（M）≫n个). 在这两种情况下，我们实现阈值参数的超一致性的主要原因是，最小二乘目标函数在真实阈值参数值附近表现为局部线性，而不是像在规则估计问题中那样表现为局部二次。一个有趣的剩余研究问题是调查是否可能获得 $\hat{τ}$ 在较弱的条件下，可能没有限制的特征值条件。

6.蒙特卡罗实验

在本节中，我们进行了一些仿真研究，并检查了所提出的套索估计器的特性。基线模型是模型(1.1)，其中 ${X（X）}_{我}$ 是一个M（M）-维向量生成自N个(0,我), $问_{我}$ 是由（0,1）区间上的均匀分布和误差项生成的标量 ${U型}_{我}$ 生成自 $N个 (0, 0 . 5^{2})$ ⁠。阈值参数设置为 $τ_{0} = 0.3, 0.4, 0.5$ 根据仿真设计，系数设置为 $β_{0} = (1, 0, 1, 0, \dots, 0)$ ⁠、和 $δ_{0} = c（c） (0, - 1, 1, 0, \dots, 0)$ 哪里c（c）=0或c（c）= 1. 请注意，当c（c）= 0. 观察次数设置为n个= 200. 最后 ${X（X）}_{我}$ 在每个设计中都设置为M（M）=50100200400，则回归变量总数分别为100、200、400和800。范围τ是 $T型 = [0.15, 0.85]$ ⁠.

我们可以使用Efron的标准最小二乘回归算法估计参数等. (2004)没有太多修改。给定正则化参数值λ，我们估计每个网格点的模型τ跨越71个等距点 $T型$ ⁠。可以使用标准线性套索执行此过程。接下来，我们插入估计参数 $\hat{α} (τ) : = {(\hat{β} {(τ)}^{'}, \hat{δ} {(τ)}^{'})}^{'}$ 对于每个τ进入目标函数并选择 $\hat{τ}$ 按表达式(4.2). 最后， $\hat{α}$ 估计依据为 $\hat{α} (\hat{τ})$ ⁠.正则化参数λ由表达式选择(4.2)其中σ=0.5被认为是已知的。对于常量A类，我们使用四个不同的值：A类= 2.8,3.2,3.6,4.0.

表3和图1和2总结这些仿真结果。为了比较lasso估计器的性能，我们还报告了仅在以下情况下可用的最小二乘估计（“最小二乘”）的估计结果M（M）=50和两种oracle模型（oracle 1和oracle 2）。Oracle 1假设具有非零系数的回归变量已知。除此之外，oracle2还假设真正的阈值参数 $τ_{0}$ 已知。因此，当c（c）≠0，oracle 1估计 $(β^{(1)}, β^{(3)}, δ^{(2)}, δ^{(3)})$ 和τ使用最小二乘估计，而oracle 2仅进行估计 $(β^{(1)}, β^{(3)}, δ^{(2)}, δ^{(3)})$ ⁠.何时c（c）=0，仅oracle 1和oracle 2估算 $(β^{(1)}, β^{(3)})$ ⁠。所有结果均基于每个样本的400次复制。

表3。

模拟结果与M（M）= 50†

阈值参数	估算方法	λ的常数	预测误差			$E类 [M（M） (\hat{α})]$	$E类 \| \hat{α} - α_{0} \|_{1}$	$E类 \| \hat{τ} - τ_{0} \|_{1}$
阈值参数	估算方法	λ的常数	平均值	中值的	标准偏差	$E类 [M（M） (\hat{α})]$	$E类 \| \hat{α} - α_{0} \|_{1}$	$E类 \| \hat{τ} - τ_{0} \|_{1}$
跳跃刻度：c=1
$τ_{0} = 0.5$	最小二乘法	无	0.285	0.276	0.074	100	7.066	0.008
	拉索	A类= 2.8	0.041	0.030	0.035	12.94	0.466	0.010
		A类= 3.2	0.048	0.033	0.049	10.14	0.438	0.013
		A类= 3.6	0.067	0.037	0.086	8.44	0.457	0.024
		A类= 4.0	0.095	0.050	0.120	7.34	0.508	0.040
	甲骨文1	无	0.013	0.006	0.019	4	0.164	0.004
	Oracle 2	无	0.005	0.004	0.004	4	0.163	0
$τ_{0} = 0.4$	最小二乘法	无	0.317	0.304	0.095	100	7.011	0.008
	拉索	A类=2.8	0.052	0.034	0.063	13.15	0.509	0.016
		A类=3.2	0.063	0.037	0.083	10.42	0.489	0.023
		A类= 3.6	0.090	0.045	0.121	8.70	0.535	0.042
		A类= 4.0	0.133	0.061	0.162	7.68	0.634	0.078
	甲骨文1	无	0.014	0.006	0.022	4	0.163	0.004
	Oracle 2（Oracle 2）	无	0.005	0.004	0.004	4	0.163	0
$τ_{0} = 0.3$	最小二乘法	无	2.559	0.511	16.292	100	12.172	0.012
	拉索	A类= 2.8	0.062	0.035	0.091	13.45	0.602	0.030
		A类= 3.2	0.089	0.041	0.125	10.85	0.633	0.056
		A类= 3.6	0.127	0.054	0.159	9.33	0.743	0.099
		A类= 4.0	0.185	0.082	0.185	8.43	0.919	0.168
	甲骨文1	无	0.012	0.006	0.017	4	0.177	0.004
	Oracle 2	无	0.005	0.004	0.004	4	0.176	0
跳跃刻度：c=0
—‡	最小二乘法	无	6.332	0.460	41.301	100	20.936	—‡
	拉索	A类=2.8	0.013	0.011	0.007	9.30	0.266
		A类= 3.2	0.014	0.012	0.008	6.71	0.227
		A类= 3.6	0.015	0.014	0.009	4.95	0.211
		A类= 4.0	0.017	0.016	0.010	3.76	0.204
	Oracle 1和	无	0.002	0.002	0.003	2	0.054
		甲骨文2

阈值参数	估算方法	λ的常数	预测误差			$E类 [M（M） (\hat{α})]$	$E类 \| \hat{α} - α_{0} \|_{1}$	$E类 \| \hat{τ} - τ_{0} \|_{1}$
阈值参数	估算方法	λ的常数	平均值	中值的	标准偏差	$E类 [M（M） (\hat{α})]$	$E类 \| \hat{α} - α_{0} \|_{1}$	$E类 \| \hat{τ} - τ_{0} \|_{1}$
跳跃刻度：c=1
$τ_{0} = 0.5$	最小二乘法	无	0.285	0.276	0.074	100	7.066	0.008
	拉索	A类= 2.8	0.041	0.030	0.035	12.94	0.466	0.010
		A类= 3.2	0.048	0.033	0.049	10.14	0.438	0.013
		A类= 3.6	0.067	0.037	0.086	8.44	0.457	0.024
		A类= 4.0	0.095	0.050	0.120	7.34	0.508	0.040
	甲骨文1	无	0.013	0.006	0.019	4	0.164	0.004
	Oracle 2	无	0.005	0.004	0.004	4	0.163	0
$τ_{0} = 0.4$	最小二乘法	无	0.317	0.304	0.095	100	7.011	0.008
	拉索	A类= 2.8	0.052	0.034	0.063	13.15	0.509	0.016
		A类= 3.2	0.063	0.037	0.083	10.42	0.489	0.023
		A类= 3.6	0.090	0.045	0.121	8.70	0.535	0.042
		A类=4.0	0.133	0.061	0.162	7.68	0.634	0.078
	甲骨文1	无	0.014	0.006	0.022	4	0.163	0.004
	Oracle 2	无	0.005	0.004	0.004	4	0.163	0
$τ_{0} = 0.3$	最小二乘法	无	2.559	0.511	16.292	100	12.172	0.012
	拉索	A类= 2.8	0.062	0.035	0.091	13.45	0.602	0.030
		A类= 3.2	0.089	0.041	0.125	10.85	0.633	0.056
		A类= 3.6	0.127	0.054	0.159	9.33	0.743	0.099
		A类= 4.0	0.185	0.082	0.185	8.43	0.919	0.168
	甲骨文1	无	0.012	0.006	0.017	4	0.177	0.004
	Oracle 2	无	0.005	0.004	0.004	4	0.176	0
跳跃刻度：c=0
—‡	最小二乘法	无	6.332	0.460	41.301	100	20.936	—‡
	拉索	A类= 2.8	0.013	0.011	0.007	9.30	0.266
		A类= 3.2	0.014	0.012	0.008	6.71	0.227
		A类=3.6	0.015	0.014	0.009	4.95	0.211
		A类= 4.0	0.017	0.016	0.010	3.76	0.204
	Oracle 1和	无	0.002	0.002	0.003	2	0.054
		甲骨文2

†

M（M）表示的列大小 ${X（X）}_{我}$ 和τ表示阈值参数。当稀疏性已知时，以及当稀疏性和 $τ_{0}$ 分别为已知。所有模拟都是基于一个样本的400次复制和200次观测。

‡

不适用。

新标签中打开

表3。

模拟结果与M（M）= 50†

阈值参数	估算方法	λ的常数	预测误差			$E类 [M（M） (\hat{α})]$	$E类 \| \hat{α} - α_{0} \|_{1}$	$E类 \| \hat{τ} - τ_{0} \|_{1}$
阈值参数	估算方法	λ的常数	平均值	中值的	标准偏差	$E类 [M（M） (\hat{α})]$	$E类 \| \hat{α} - α_{0} \|_{1}$	$E类 \| \hat{τ} - τ_{0} \|_{1}$
跳跃刻度：c=1
$τ_{0} = 0.5$	最小二乘法	无	0.285	0.276	0.074	100	7.066	0.008
	拉索	A类= 2.8	0.041	0.030	0.035	12.94	0.466	0.010
		A类= 3.2	0.048	0.033	0.049	10.14	0.438	0.013
		A类= 3.6	0.067	0.037	0.086	8.44	0.457	0.024
		A类= 4.0	0.095	0.050	0.120	7.34	0.508	0.040
	甲骨文1	无	0.013	0.006	0.019	4	0.164	0.004
	Oracle 2	无	0.005	0.004	0.004	4	0.163	0
$τ_{0} = 0.4$	最小二乘法	无	0.317	0.304	0.095	100	7.011	0.008
	拉索	A类= 2.8	0.052	0.034	0.063	13.15	0.509	0.016
		A类= 3.2	0.063	0.037	0.083	10.42	0.489	0.023
		A类= 3.6	0.090	0.045	0.121	8.70	0.535	0.042
		A类= 4.0	0.133	0.061	0.162	7.68	0.634	0.078
	甲骨文1	无	0.014	0.006	0.022	4	0.163	0.004
	Oracle 2	无	0.005	0.004	0.004	4	0.163	0
$τ_{0} = 0.3$	最小二乘法	无	2.559	0.511	16.292	100	12.172	0.012
	拉索	A类= 2.8	0.062	0.035	0.091	13.45	0.602	0.030
		A类= 3.2	0.089	0.041	0.125	10.85	0.633	0.056
		A类= 3.6	0.127	0.054	0.159	9.33	0.743	0.099
		A类= 4.0	0.185	0.082	0.185	8.43	0.919	0.168
	甲骨文1	无	0.012	0.006	0.017	4	0.177	0.004
	Oracle 2	无	0.005	0.004	0.004	4	0.176	0
跳跃刻度：c=0
—‡	最小二乘法	无	6.332	0.460	41.301	100	20.936	—‡
	拉索	A类= 2.8	0.013	0.011	0.007	9.30	0.266
		A类=3.2	0.014	0.012	0.008	6.71	0.227
		A类= 3.6	0.015	0.014	0.009	4.95	0.211
		A类= 4.0	0.017	0.016	0.010	3.76	0.204
	Oracle 1和	无	0.002	0.002	0.003	2	0.054
		甲骨文2

阈值参数	估算方法	λ的常数	预测误差			$E类 [M（M） (\hat{α})]$	$E类 \| \hat{α} - α_{0} \|_{1}$	$E类 \| \hat{τ} - τ_{0} \|_{1}$
阈值参数	估算方法	λ的常数	平均值	中值的	标准偏差	$E类 [M（M） (\hat{α})]$	$E类 \| \hat{α} - α_{0} \|_{1}$	$E类 \| \hat{τ} - τ_{0} \|_{1}$
跳跃比例：c=1
$τ_{0} = 0.5$	最小二乘法	无	0.285	0.276	0.074	100	7.066	0.008
	拉索	A类= 2.8	0.041	0.030	0.035	12.94	0.466	0.010
		A类= 3.2	0.048	0.033	0.049	10.14	0.438	0.013
		A类= 3.6	0.067	0.037	0.086	8.44	0.457	0.024
		A类= 4.0	0.095	0.050	0.120	7.34	0.508	0.040
	甲骨文1	无	0.013	0.006	0.019	4	0.164	0.004
	Oracle 2	无	0.005	0.004	0.004	4	0.163	0
$τ_{0} = 0.4$	最小二乘法	无	0.317	0.304	0.095	100	7.011	0.008
	拉索	A类= 2.8	0.052	0.034	0.063	13.15	0.509	0.016
		A类= 3.2	0.063	0.037	0.083	10.42	0.489	0.023
		A类= 3.6	0.090	0.045	0.121	8.70	0.535	0.042
		A类= 4.0	0.133	0.061	0.162	7.68	0.634	0.078
	甲骨文1	无	0.014	0.006	0.022	4	0.163	0.004
	Oracle 2（Oracle 2）	无	0.005	0.004	0.004	4	0.163	0
$τ_{0} = 0.3$	最小二乘法	无	2.559	0.511	16.292	100	12.172	0.012
	拉索	A类= 2.8	0.062	0.035	0.091	13.45	0.602	0.030
		A类=3.2	0.089	0.041	0.125	10.85	0.633	0.056
		A类= 3.6	0.127	0.054	0.159	9.33	0.743	0.099
		A类= 4.0	0.185	0.082	0.185	8.43	0.919	0.168
	甲骨文1	无	0.012	0.006	0.017	4	0.177	0.004
	Oracle 2	无	0.005	0.004	0.004	4	0.176	0
跳跃刻度：c=0
—‡	最小二乘法	无	6.332	0.460	41.301	100	20.936	—‡
	拉索	A类= 2.8	0.013	0.011	0.007	9.30	0.266
		A类= 3.2	0.014	0.012	0.008	6.71	0.227
		A类= 3.6	0.015	0.014	0.009	4.95	0.211
		A类= 4.0	0.017	0.016	0.010	3.76	0.204
	Oracle 1和	无	0.002	0.002	0.003	2	0.054
		甲骨文2

†

M（M）表示的列大小 ${X（X）}_{我}$ 和τ表示阈值参数。当稀疏性已知时，以及当稀疏性和 $τ_{0}$ 分别为已知。所有模拟都是基于400个重复的样本和200个观察结果。

‡

不适用。

新标签中打开

图1。

平均预测误差和平均M（α^）(♦, τ = 0.3; □, τ=0.4；◯, τ = 0.5; △, c=0）：（a）M=100；（b） M=200；（c） M=400

新标签中打开下载幻灯片

平均预测误差和平均值 $M（M） (\hat{α})$ (♦,τ= 0.3; □,τ= 0.4; ◯,τ= 0.5; △,c（c）=0）：（a）M（M）= 100; （b）M（M）= 200; （c）M（M）= 400

图2。

α和τ的平均l1-误差(♦, τ = 0.3; □, τ = 0.4; ◯, τ = 0.5; △, c=0）：（a）M=100；（b） M=200；（c） M=400

新标签中打开下载幻灯片

平均值 $我_{1}$ -的错误α和τ(♦,τ= 0.3; □,τ= 0.4; ◯,τ= 0.5; △,c（c）=0）：（a）M（M）=100；（b）M（M）= 200; （c）M（M）= 400

每个样本的均方预测误差PE的数值计算如下。对于每个样品秒，我们有估计

{\hat{β}}_{秒}

⁠,

{\hat{δ}}_{秒}

和

{\hat{τ}}_{秒}

⁠。根据这些估计，我们生成了新的数据

{{Y（Y）}_{j}, {X（X）}_{j}, 问_{j}}

400个观测值，并将预测误差计算为

{\hat{体育课}}_{秒} = \frac{1}{400} \sum_{j = 1}^{400} {{（f）}_{0} ({x个}_{j}, {q个}_{j}) - \hat{（f）} ({x个}_{j}, {q个}_{j})}^{2} .

(6.1)

通过400次重复计算预测误差的平均值、中位数和标准差，

{{\hat{体育课}}_{秒}}_{秒 = 1}^{400}

⁠。我们还报告了

M（M） (\hat{α})

和

我_{1}

-的错误α和τ.表3报告的仿真结果M（M）= 50. 用于模拟设计M（M）>50，最小二乘估计量不可用，我们仅总结了图1和2.

什么时候？M（M）=50，在所有设计中，就平均和中值预测误差而言，所提出的lasso估计器的性能优于最小二乘估计器 $M（M） (\hat{α})$ 和 $我_{1}$ -的错误α当没有阈值效应，即。c（c）= 0. 该结果证实了lasso估计器对是否存在阈值效应的鲁棒性。然而，在估计 $τ_{0}$ 什么时候c（c）=1，尽管此处的差异远小于预测误差和 $我_{1}$ -的错误α.

来自图1和2，当M（M）= 100,200,400. 正如前面章节中发展的理论所预测的那样，预测误差和 $我_{1}$ -的错误α和τ缓慢增加为M（M）增加。图表还表明，除了A类= 4.0.

在线附录F，我们报告了额外的模拟结果，同时允许协变量之间的相关性。具体来说M（M）-量纲向量 ${X（X）}_{我}$ 由多元正态分布生成N个（0，∑）分布 ${(Σ)}_{我, j} = ρ^{| 我 - j |}$ ⁠，其中 ${(Σ)}_{我, j}$ 表示(i、 j个)的元素M（M）×M（M）协方差矩阵∑和ρ= 0.3. 所有其他随机变量同上。我们得到了与之前情况非常相似的结果：套索优于最小二乘估计量，预测误差、 $M（M） (\hat{α})$ 和 $我_{1}$ -错误增长非常缓慢M（M）增加。详情请参阅在线附录F，它还报告了有关选择真实参数的频率的令人满意的模拟结果ρ=0和ρ= 0.3.

总之，仿真结果证实了先前的理论结果，并表明所提出的lasso估计对于高维阈值回归模型是有用的。

7.结论

我们考虑了一个高维回归模型，该模型由于协变量阈值而具有可能的变化点，并开发了套索方法。我们推导了非渐近预言不等式，并通过仿真和实际数据应用说明了我们提出的估计方法的有用性。

我们通过提供一些未来研究领域来总结本文。首先，扩展其他惩罚估计（例如Zou的自适应套索(2006)范和李的绝对偏差罚分(2001))并查看我们是否能够提高估算方法的性能。其次，对多个变化点的扩展也是一个重要的研究课题。在这个方向上已经取得了一些进展，特别是在计算成本和确定变化点数量等关键问题上（例如，参见Harchaoui和Lévy-Leduc(2010)和弗里克等. (2014))。然而，它们局限于一个单一的回归变量案例，而对大量回归变量的扩展将非常有趣。最后，研究所提出估计器的极小极大下界及其预测风险（如Raskutti）也是一个有趣的研究课题等. (2011,2012)在高维线性回归设置中。

致谢

我们感谢Marine Carrasco、Yuan Liao、Ya’acov Ritov、两位裁判和各地研讨会参与者的宝贵意见。这项工作得到了韩国政府资助的韩国国家研究基金会（NRF-2012S1A5A8023573）、首尔国立大学经济研究所、欧洲研究理事会（ERC-2009-StG-240910-ROMETA）以及加拿大社会科学和人文研究理事会的支持。共享分级学术研究计算网络的设施使这项工作成为可能(网址：www.sharcnet.ca)以及加拿大计算机/微积分。

工具书类

巴罗

,

对

.和

李

,

J型

. (

1994

)

139个国家小组的数据集

.报告剑桥国家经济研究局。（可从http://admin.nber.org/pub/barro.lee/

巴罗

,

对

.和

萨拉·伊·马丁

,

X（X）

. (

1995

)

经济增长

.

纽约

:

麦格劳-希尔

.

贝略尼

,

答：。

和

切尔诺茹科夫

,

五、。

(

2011年a

)

我₁-高维稀疏模型中的惩罚分位数回归

.

安。统计师。

,

39

,

82

–

130

.

谷歌学者

OpenURL占位符文本

书目数据库

贝略尼

,

A类

.和

切尔诺茹科夫

,

V（V）

. (

2011年b

)高维稀疏计量经济学模型：导论。在

反问题与高维估计

（编辑

第页。

阿尔基尔

,

E.公司。

戈蒂埃

和

G.公司。

斯托尔兹

)，第页。

121

–

156

.

柏林

:

施普林格

.

比克尔

,

P.J.公司。

,

里托夫

,

年。

和

齐巴科夫

,

答：B。

(

2009

)

Lasso和Dantzig选择器的同时分析

.

安。统计师。

,

37

,

1705

–

1732

.

布拉迪奇

,

J。

,

风扇

,

J。

和

江

,

J。

(

2012

)

具有NP维的Cox比例风险模型的正则化

.

安。统计师。

,

39

,

3092

–

3120

.

谷歌学者

OpenURL占位符文本

书目数据库

布拉迪奇

,

J。

,

风扇

,

J。

和

王

,

西。

(

2011

)

用于超高维变量选择的惩罚复合拟似然

.

J.R.统计。Soc.B公司

,

73

,

325

–

349

.

布尔曼

,

P（P）

.和

范德格尔

,

S公司

. (

2011

)

高维数据统计：方法、理论与应用

.

纽约

:

施普林格

.

布内亚

,

F、。

,

齐巴科夫

,

答：。

和

韦坎普

,

M。

(

2007

)

拉索的稀疏预言不等式

.

电子。J.统计。

,

1

,

169

–

194

.

坎迪斯

,

E.公司。

和

道

,

T。

(

2007

)

Dantzig选择器：当第页远大于n个

.

Ann.Statist公司。

,

35

,

2313

–

2351

.

谷歌学者

OpenURL占位符文本

书目数据库

卡片

,

D。

,

马斯

,

答：。

和

罗斯坦

,

J。

(

2008

)

倾翻和离析动力学

.

Q.J.经济。

,

123

,

177

–

218

.

陈

,

英国标准。

(

1993

)

门限自回归模型最小二乘估计的相合性和极限分布

.

安。统计师。

,

21

,

520

–

533

.

丘佩尔卡

,

G.公司。

(

2014

)

变点模型中套索方法的模型选择

.

统计师。巴普。

,

55

,

349

–

374

.

杜劳夫

,

序号。

和

约翰逊

,

私人助理。

(

1995

)

多元制度和跨国增长行为

.

J.应用。经济计量学。

,

10

,

365

–

384

.

杜劳夫

,

美国。

,

约翰逊

,

P（P）

.和

庙

,

J型

. (

2005

)增长计量经济学。在

经济增长手册

第卷（编辑P.Aghion和S.N.Durlauf），pp。

555

–

677

阿姆斯特丹：爱思唯尔

埃夫隆

,

B。

,

哈斯蒂

,

T。

,

约翰斯通

,

一、。

和

提比什拉尼

,

R。

(

2004

)

最小角度回归

.

安。统计师。

,

32

,

407

–

499

.

风扇

,

J。

和

锂

,

R。

(

2001

)

基于非冲突惩罚似然的变量选择及其oracle性质

.

《美国统计杂志》。助理。

,

96

,

13

–

48

.

谷歌学者

OpenURL占位符文本

书目数据库

风扇

,

J。

和

吕

,

J。

(

2010

)

高维特征空间中变量选择的选择性综述

.

统计师。罪。

,

20

,

101

–

148

.

谷歌学者

OpenURL占位符文本

书目数据库

风扇

,

J。

和

吕

,

J。

(

2011

)

具有np维的非凹陷惩罚似然

.

IEEE传输。通知。西奥。

,

57

,

5467

–

5484

.

风扇

,

J。

和

彭

,

H。

(

2004

)

参数个数发散的非凹陷惩罚似然

.

安。统计师。

,

32

,

928

–

961

.

谷歌学者

OpenURL占位符文本

书目数据库

弗里克

,

英国。

,

蒙克

,

答：。

和

西林

,

H。

(

2014

)

多尺度变化点推断（讨论）

.

J.R.统计。Soc.B公司

,

76

,

495

–

580

.

范德格尔

,

美国。

(

2008

)

高维广义线性模型与套索

.

安。统计师。

,

36

,

614

–

645

.

范德吉尔

,

美国。

和

伯尔曼

,

第页。

(

2009

)

关于证明拉索预言结果的条件

.

电子。J.统计。

,

3

,

1360

–

1392

.

汉森

,

英国工程师协会。

(

2000

)

样本分割和阈值估计

.

计量经济学

,

68

,

575

–

603

.

哈查乌伊

,

Z轴

.和

莱维-莱克

,

C类

. (

2008

)用拉索捕捉变化点。在

神经信息处理系统的研究进展

，卷。

剑桥

:

麻省理工学院出版社

.

哈查乌伊

,

Z.公司。

和

莱维·莱杜克

,

C、。

(

2010

)

具有总变差惩罚的多变点估计

.

《美国统计杂志》。助理。

,

105

,

1480

–

1493

.

黄

,

J。

,

霍洛维茨

,

J·L·。

和

妈妈

,

医学硕士。

(

2008年a

)

稀疏高维回归模型中桥估计的渐近性质

.

安。统计师。

,

36

,

587

–

613

.

谷歌学者

OpenURL占位符文本

书目数据库

黄

,

J。

,

妈妈

,

S.G.公司。

和

张

,

中心-中心。

(

2008年b

).

稀疏高维回归模型的自适应套索

.

统计师。罪。

,

18

,

1603

–

1618

.

谷歌学者

OpenURL占位符文本

书目数据库

金

,

年。

,

崔

,

H。

和

哦

,

高-低。

(

2008

)

在高维度上平滑剪裁绝对偏差

.

《美国统计杂志》。助理。

,

103

,

1665

–

1673

.

李

,

美国。

,

Seo公司

,

M。

和

小腿

,

年。

(

2011

)

回归模型中阈值效应的测试

.

《美国统计杂志》。助理。

,

106

,

220

–

231

.

林

,

西。

和

吕

,

J。

(

2013

)

高维稀疏加性风险回归

.

《美国统计杂志》。助理。

,

108

,

247

–

264

.

明绍森

,

N。

和

余

,

B。

(

2009

)

高维数据稀疏表示的Lasso型恢复

.

安。统计师。

,

37

,

246

–

270

.

佩萨兰

,

M.H.先生。

和

拾取

,

答：。

(

2007

)

传染病分析中的计量经济学问题

.

《经济学杂志》。发电机。控制

,

31

,

1245

–

1277

.

拉斯库蒂

,

G.公司。

,

温赖特

,

医学博士。

和

余

,

B。

(

2010

)

相关高斯设计的受限特征值性质

.

J.马赫。学习。物件。

,

11

,

2241

–

2259

.

谷歌学者

OpenURL占位符文本

书目数据库

拉斯库蒂

,

G.公司。

,

温赖特

,

医学博士。

和

余

,

B。

(

2011

)

球上高维线性回归的最小最大估计率

.

IEEE传输。通知。西奥。

,

57

,

6976

–

6994

.

拉斯库蒂

,

G.公司。

,

温赖特

,

米J。

和

余

,

B。

(

2012

)

基于凸规划的核类上稀疏可加模型的极小极大最优速率

.

J.马赫。学习。物件。

,

13

,

389

–

427

.

谷歌学者

OpenURL占位符文本

书目数据库

塞约

,

E.公司。

和

森

,

B。

(

2011年a

)

随机设计回归中的变点与自举

.

安。统计师。

,

39

,

1580

–

1607

.

谷歌学者

OpenURL占位符文本

书目数据库

塞约

,

E.公司。

和

森

,

B。

(

2011年b

)

最小argmax泛函的连续映射定理

.

电子。J.统计。

,

5

,

421

–

439

.

提比什拉尼

,

R。

(

1996

)

通过套索回归收缩和选择

.

J.R.统计。Soc.B公司

,

58

,

267

–

288

.

谷歌学者

OpenURL占位符文本

书目数据库

提比什拉尼

,

R。

(

2011

)

通过套索进行回归收缩和选择：回顾（附评论）

.

J.R.统计。Soc.B公司

,

73

,

273

–

282

.

用钳子钳起

,

H（H）

. (

1990

)

非线性时间序列：一种动态系统方法

.

纽约

:

牛津大学出版社

.

王

,

L。

,

吴

,

年。

和

锂

,

R。

(

2012

)

分位数回归分析超高维异质性

.

《美国统计杂志》。助理。

,

107

,

214

–

222

.

吴

,

年。

(

2008

)

回归问题中的同时变点分析和变量选择

.

J.多媒体。分析。

,

99

,

2154

–

2171

.

张

,

N.R.（不适用）。

和

西格蒙德

,

D.O.公司。

(

2012

)

高维多序列变点问题的模型选择

.

统计师。罪。

,

22

,

1507

–

1538

.

谷歌学者

OpenURL占位符文本

书目数据库

邹

,

H。

(

2006

)

自适应套索及其oracle性质

.

《美国统计杂志》。助理。

,

101

,

1418

–

1429

.

这是一篇根据知识共享归因非商业性许可证，允许在任何媒体上使用、分发和复制原始作品，前提是原始作品被正确引用，且未用于商业目的。

下载所有幻灯片

月份：	总浏览次数：
2023年2月	7
2023年3月	33
2023年4月	21
2023年5月	28
2023年6月	20
2023年7月	61
2023年8月	72
2023年9月	50
2023年10月	48
2023年11月	51
2023年12月	66
2024年1月	66
2024年2月	41
2024年3月	48
2024年4月	41
2024年5月	22

文章内容

具有可能变化点的高维回归的套索

总结

1.简介

1.1. 符号

2.拉索估计

3.实证说明

4.套索估计量的预测一致性

5.Oracle不等式

5.1. 案例一：无阈值

5.2. 案例二：固定阈值

6.蒙特卡罗实验

7.结论

致谢

工具书类

补充数据

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新的

阅读次数最多

被引用次数最多

文章内容

具有可能变化点的高维回归的套索

总结

1.简介

1.1. 符号

2.拉索估计

3.实证说明

4.套索估计量的预测一致性

5.Oracle不等式

5.1. 案例一：无阈值

5.2. 案例二：固定阈值

6.蒙特卡罗实验

7.结论

致谢

工具书类

补充数据

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新的

阅读次数最多

被引用次数最多

此功能仅对订阅服务器可用