总结
我们考虑了一个高维回归模型,该模型可能会因协变量阈值而发生变化,并发展了回归系数和阈值参数的lasso估计。我们的拉索估计量不仅选择协变量,而且在线性回归模型和阈值回归模型之间选择模型。在稀疏性假设下,我们导出了预测风险和-回归系数的估计损失。由于lasso估计器同时选择变量,我们证明了可以在不预先证明阈值效应存在的情况下建立预言不等式。此外,我们还建立了一个条件,在这个条件下,未知阈值参数的估计误差可以由一个接近即使回归变量的数量远大于样本量n个我们通过蒙特卡罗模拟和对实际数据的应用说明了我们提出的估计方法的有用性。
1.简介
自从蒂比什拉尼的开创性工作以来,套索及其相关方法在统计学中受到了迅速的关注(1996). 例如,请参见布尔曼和范德格尔(2011)还有范和吕(2010)和Tibshirani(2011)了解总体概况和最新发展。
本文提出了一种估计高维回归模型的方法,该模型具有因协变量阈值而可能发生变化的点,同时从一组潜在的协变量中选择相关的回归变量。特别是,我们建议参数的惩罚最小二乘(lasso)估计量,包括未知阈值参数,并在稀疏性假设下分析其性质,当可能的协变量的数量可能远大于样本量时。
具体来说,让是独立观察的样本(1.1)
其中,对于每个我,是一个M(M)×1确定性向量,是确定性标量,跟随和1{·}表示指示符函数。标量变量是阈值变量是未知的阈值参数。自是我们设置中的一个固定变量,表达式(1.1)包括一个回归模型,其变化点在未知时间(例如。). 在本文中,我们重点讨论了和独立正态误差这种设置在文献中被广泛使用(例如Bickel等. (2009)). 回归模型,如模型(1.1)通过将数据拆分为子样本,为应用研究人员提供了一个简单但有用的框架来建模非线性关系。实证例子包括具有多重均衡的跨国增长模型(Durlauf和Johnson,1995)种族隔离(卡等。,2008)和金融传染(Pesaran和Pick,2007)等等。通常,阈值变量的选择在应用工作中动机很强(例如初始人均杜劳夫和约翰逊的产量(1995)和卡德一个街区的少数股权等. (2008))但其他协变量的选择取决于应用研究人员的自由裁量权。
然而,协变量选择在识别阈值效应(即非零)因为一个支持具有特定协变量集的阈值效应的统计模型可以被一个具有更广泛回归变量集的线性模型推翻。因此,将套索视为估计模型的工具似乎很自然(1.1).
我们考虑的统计问题是估计未知参数什么时候M(M)远大于n个对于经典设置(当M(M)小于n个),模型估计(1.1)已经过很好的研究(例如Tong(1990)、Chan(1993)和汉森(2000))。此外,回归中测试阈值效应的一般方法(即测试在模型中(1.1))可用于经典设置(例如Lee等. (2011)).
虽然有很多关于套索类型方法的参考文献,也有同样多关于变化点、样本分割和阈值模型的参考文献。但似乎只有少数参考文献涉及这两个主题。吴(2008)提出了一种基于信息的标准,用于在具有可能变化点的线性模型中同时进行变化点分析和变量选择;然而,Wu提出的方法(2008)在稀疏的高维模型中是不可行的。在无协变量的变点模型中,Harchaoui和Lévy-Leduc(2008,2010)提出了一种估计白噪声中一维分段常数信号变化点位置的方法,该方法使用带惩罚的最小二乘准则-类型惩罚。Zhang和Siegmund(2012)开发了贝叶斯信息准则类准则,用于确定多个独立正态观测序列平均值的变化数量,当变化点的数量随样本大小而增加时。库佩卡(2014)考虑了与我们类似的估计问题,但相应的分析仅限于潜在协变量数量较少的情况。
本文考虑回归系数的lasso估计以及阈值参数。由于更改点参数不在模型中添加(1.1),在lasso估计中产生的优化问题是非凸的。我们通过比较网格上标准套索目标函数在以下可能值范围内的值来克服这个问题.
Fan和Peng检验了套索的理论性质和高维数据的相关方法(2004)、丁腈橡胶等. (2007)坎迪斯和陶(2007),黄等. (2008年a,2008年b)、Kim等. (2008)、比克尔等. (2009)Meinshausen和Yu(2009)等等。大多数参考文献都考虑了二次目标函数和线性或非参数模型,其加性平均误差为0。最近有兴趣将此框架扩展到广义线性模型(例如van de Geer(2008)范和吕(2011))分位数回归模型(例如Belloni和Chernozhukov(2011年a)、布拉迪奇等. (2011)和Wang等. (2012))以及危害模型(例如Bradic等. (2012)林和吕(2013))。我们通过考虑一个具有可能变化点的回归模型,然后导出预测风险和-稀疏情况下回归系数的估计损失。
我们的理论结果基于Bickel等. (2009). 由于lasso估计器同时选择变量,我们证明了oracle不等式与Bickel中获得的不等式类似等. (2009)可以在不预先检验阈值效应存在的情况下建立。特别是,当没有阈值效应时(),我们证明了基本上与Bickel中的预言不等式等价的预言不等式等. (2009). 此外,当,我们建立了未知阈值参数的估计误差可以由接近当回归变量的数量远大于样本量时。为了实现这一点,我们发展了一些复杂的链式论证,并提供了充分的正则性条件,在这些条件下我们证明了oracle不等式。超一致性结果众所周知,当协变量的数量很小时(例如,参见Chan(1993)Seijo和Sen(2011年a,2011年a))。据我们所知,我们的论文是第一篇证明了-在具有变化点的稀疏高维回归模型的上下文中绑定。
本文的其余部分如下。在节中2我们提出了套索估计器,在第节中3我们用经济学中的一个实际数据示例简要说明了我们提出的估计方法。在节中4我们建立了lasso估计的预测一致性。在节中5我们根据预测损失和-估计损失同时为两种可能的阈值效应提供了低水平的充分条件。在节中6我们给出了一些模拟研究的结果,以及7得出结论。在线附录由六部分组成:附录A为我们的主要假设之一提供了充分的条件,附录B对可识别性进行了一些额外的讨论,附录C,D类和E类包含所有证据,以及附录F提供了其他数值结果。
1.1. 符号
我们收集了本文中使用的符号。对于跟随模型(1.1),让表示2M(M)×1矢量,以便然后让X(X)(τ)表示n个×2M(M)矩阵,其我第行是。对于L(左)-量纲向量一,让表示-的规范一、和|J型(一)|表示的基数J型(一),其中。此外,让表示非零元素的数量一,即。.让用表示向量坐标与一在J型补码上的零坐标属于J型。对于任何n个-量纲向量,将经验规范定义为.让上标'(j)'表示j向量的第个元素或j矩阵的第几列取决于上下文。最后,定义,和然后,我们将预测风险定义为 2.拉索估计
让然后,使用上面定义的符号,我们可以重写模型(1.1)作为(2.1)
让.对于任何固定,其中是的参数空间,考虑剩余平方和哪里. 我们定义如下2M(M)×2M(M)对角线矩阵:对于每个固定,定义套索解通过(2.2)
哪里λ是一个调整参数,取决于n个和是的参数空间. 值得注意的是,标度归一化因子D类(τ)取决于τ因为不同的值τ生成不同的词典X(X)(τ). 要更清楚地看到这一点,请定义(2.3)
然后,对于每个以及每个j= 1,…,M(M),我们有和。使用此符号,我们重写-惩罚为因此,对于每个固定的,是使用数据相关的加权套索-充分平衡协变量的惩罚。 我们现在估计通过(2.4)
事实上,对于任何有限的n个,由区间给出,我们简单地定义区间的最大值作为我们的估计量。如果我们使用那么约定就是作为估计量的区间的最小值。然后是定义为事实上,我们建议的估计值(α,τ)可以被视为一步最小化(2.5)
值得注意的是,我们惩罚和在表达式中(2.5),其中是两种状态之间回归系数的变化。型号(1.1)可以写为(2.6)
哪里.鉴于模型(2.6)或者,有人可能会受到惩罚和而不是和。我们选择了惩罚自从案件发生以来对应于线性模型。如果那么这种情况就相当于选择了线性模型。 3.实证说明
在本节中,我们将所提出的套索方法应用于经济学中的增长回归模型。新古典增长模型预测,从长远来看,经济增长率趋于一致。通过观察长期增长率和给定其他协变量的初始国内生产总值(GDP)之间的负关系,对该理论进行了实证检验(参见Barro和Sala-i-Martin(1995)和杜劳夫等. (2005)用于文献综述)。尽管实证结果证实了增长率与初始GDP之间的负相关,但也有一些批评认为,结果在很大程度上取决于协变量的选择。最近,贝洛尼和切尔诺朱科夫(2011年b)表明套索估计有助于选择线性的增长回归模型和lasso估计结果再次证实了长期增长率与初始GDP之间的负相关关系。
我们考虑具有可能阈值的增长回归模型。杜劳夫和约翰逊(1995)提供了多稳态存在的理论背景,并用两个可能的阈值变量估计了模型。他们通过向模型中添加其他可用的协变量来检查稳健性,但它仍然受到以下方面的批评特别的变量选择。在这种情况下,我们提出的套索方法可能是一种很好的替代方法。此外,正如我们稍后将显示的那样,即使模型中没有阈值效应,我们的方法也能很好地工作。因此,人们可能会期望我们的方法能带来更稳健的结果。
我们考虑的回归模型具有以下形式(3.1)
哪里是国家的年GDP增长率我1960年至1985年,是1960年的log-GDP是一个可能的阈值变量,我们使用最初的GDP或继Durlauf和Johnson之后的1960年成人识字率(1995). 最后,是与教育、市场效率、政治稳定、市场开放度和人口特征相关的额外协变量的向量。此外,包含lgdp60之间的交叉乘积项和教育变量。表1给出了使用的所有协变量的列表以及每个变量的描述。我们包括尽可能多的协变量,这可能会减轻潜在的遗漏变量偏差。数据集主要来自Barro和Lee(1994)额外的成人识字率来自Durlauf and Johnson(1995). 由于缺少观测值,当是初始GDP(n个=80和M(M)=46),当是识字率(n个=70和M(M)= 47). 值得注意的是,阈值模型中的协变量数量大于观察值数量(2M(M)>n个在我们的符号中)。因此,我们不能采用标准最小二乘法来估计阈值回归模型。
变量名称. | 描述. |
---|
因变量 | |
克 | 1960年至1985年期间的年GDP增长率 |
阈值变量 | |
gdp60 | 实际GDP人均1960年(1985年价格) |
爱尔兰 | 1960年成人识字率 |
协变量 | |
lgdp60型 | 日志-GDP人均1960年(1985年价格) |
爱尔兰 | 1960年成人识字率(仅包括问=lr) |
最小二乘法 | 1960-1985年的年化对数(投资/产出);日志代理(物理 |
| 储蓄率) |
长距离无线电 | 1960年至1985年的对数(人口增长率) |
吡咯60 | 1960年男性人口的对数(平均小学教育年限) |
吡咯60 | 1960年女性人口的对数(平均小学教育年限) |
符号60 | 1960年男性人口的log(平均中学教育年限) |
赛尔夫60 | 1960年女性人口的平均中学教育年限 |
氢60 | 1960年男性人口的平均高等教育年限 |
60马力 | 1960年女性人口的对数(平均高等教育年限) |
标称60 | 1960年男性人口中没有上学的比例 |
60号 | 1960年女性人口中没有上学的比例 |
prim60型 | 1960年男性人口接受小学教育的百分比 |
60年前 | 1960年女性人口接受小学教育的百分比 |
价格60 | 1960年男性完成小学教育的百分比 |
价格60 | 1960年女性完成小学教育的百分比 |
60秒 | 1960年男性人口接受中学教育的百分比 |
60秒 | 1960年女性人口接受中学教育的百分比 |
秒60 | 1960年男性完成中学教育的百分比 |
60秒 | 1960年女性完成中学教育的百分比 |
利菲 | 1960年至1985年的平均对数(0岁时的预期寿命) |
lfert公司 | 1960年至1985年平均生育率 |
教育/gdp | 1960年至1985年间,政府教育支出占GDP的平均值 |
gcon/gdp | 1960年至1985年期间,每GDP国防和教育的政府消费支出净额平均值 |
撤销 | 1960年至1984年每年的转数 |
政变 | 1960-1984年间每年的转数和政变次数 |
监狱 | 1960年至1984年间至少参加过一次对外战争的国家的假人 |
战时 | 1960年至1985年间,部分时间卷入了外部战争 |
磅/加仑 | log(1960年至1985年间平均1+黑市溢价) |
总数 | 贸易术语冲击 |
lgdp60ד导出” | 两个协变量的乘积(lgdp60和教育变量从pyrm60到seccf60的相互作用);总共16个变量 |
变量名称. | 描述. |
---|
因变量 | |
克 | 1960年至1985年期间的年GDP增长率 |
阈值变量 | |
gdp60 | 实际GDP人均1960年(1985年价格) |
爱尔兰 | 1960年成人识字率 |
协变量 | |
lgdp60型 | 日志-GDP人均1960年(1985年价格) |
爱尔兰 | 1960年成人识字率(仅包括问=lr) |
最小二乘法 | 1960年至1985年的年化对数(投资/产出);日志代理(物理 |
| 储蓄率) |
长距离无线电 | 1960年至1985年的对数(人口增长率) |
吡咯60 | 1960年男性人口的log(平均小学教育年限) |
pyrf60型 | 1960年女性人口的对数(平均小学教育年限) |
符号60 | 1960年男性人口的平均中学教育年限 |
赛尔夫60 | 1960年女性人口的平均中学教育年限 |
氢60 | 1960年男性人口的平均高等教育年限 |
60马力 | 1960年女性人口的log(平均高等教育年限) |
标称60 | 1960年男性人口中没有上学的比例 |
60号 | 1960年女性人口中没有上学的比例 |
prim60型 | 1960年男性人口接受小学教育的百分比 |
60年前 | 1960年女性人口接受小学教育的百分比 |
价格60 | 1960年男性完成小学教育的百分比 |
价格60 | 1960年女性完成小学教育的百分比 |
60秒 | 1960年男性人口接受中学教育的百分比 |
60秒 | 1960年女性人口接受中学教育的百分比 |
秒60 | 1960年男性完成中学教育的百分比 |
60秒 | 1960年女性完成中学教育的百分比 |
利菲 | log(0岁时的预期寿命)1960年至1985年的平均值 |
勒弗特 | 1960年至1985年平均生育率 |
教育/gdp | 1960年至1985年间,政府教育支出占GDP的平均值 |
gcon/gdp | 1960年至1985年期间,政府消费支出扣除国防和教育的人均国内生产总值 |
撤销 | 1960年至1984年每年的转数 |
政变 | 1960年至1984年期间每年的转数和政变次数 |
监狱 | 1960年至1984年间至少参加过一次对外战争的国家的假人 |
战时 | 1960年至1985年间,部分时间卷入了外部战争 |
磅/加仑 | 对数(1960年至1985年期间平均的1+黑市溢价) |
总数 | 贸易术语冲击 |
lgdp60ד导出” | 两个协变量的乘积(lgdp60和教育变量从pyrm60到seccf60的相互作用);总共16个变量 |
变量名称. | 描述. |
---|
因变量 | |
克 | 1960年至1985年期间的年GDP增长率 |
阈值变量 | |
gdp60 | 实际GDP人均1960年(1985年价格) |
爱尔兰 | 1960年成人识字率 |
协变量 | |
lgdp60型 | 日志-GDP人均1960年(1985年价格) |
爱尔兰 | 1960年成人识字率(仅包括问=lr) |
最小二乘法 | 1960年至1985年的年化对数(投资/产出);日志代理(物理 |
| 储蓄率) |
长距离无线电 | 1960年至1985年的对数(人口增长率) |
吡咯60 | 1960年男性人口的对数(平均小学教育年限) |
吡咯60 | 1960年女性人口的对数(平均小学教育年限) |
符号60 | 1960年男性人口的平均中学教育年限 |
syrf60型 | 1960年女性人口的log(平均中学教育年限) |
氢60 | 1960年男性人口的平均高等教育年限 |
60马力 | 1960年女性人口的对数(平均高等教育年限) |
标称60 | 1960年男性人口中没有上学的比例 |
60号 | 1960年女性人口中没有上学的比例 |
原始60 | 1960年男性人口接受小学教育的百分比 |
60年前 | 1960年女性人口接受小学教育的百分比 |
价格60 | 1960年男性完成小学教育的百分比 |
价格60 | 1960年女性完成小学教育的百分比 |
60秒 | 1960年男性人口接受中学教育的百分比 |
60秒 | 1960年女性人口接受中学教育的百分比 |
秒60 | 1960年男性完成中学教育的百分比 |
60秒 | 1960年女性完成中学教育的百分比 |
利菲 | log(0岁时的预期寿命)1960年至1985年的平均值 |
勒弗特 | 1960年至1985年平均生育率 |
教育/gdp | 1960年至1985年间,政府教育支出占GDP的平均值 |
gcon/gdp | 1960年至1985年期间,每GDP国防和教育的政府消费支出净额平均值 |
撤销 | 1960年至1984年每年的转数 |
政变 | 1960年至1984年期间每年的转数和政变次数 |
衣柜 | 1960年至1984年间至少参加过一次外部战争的国家的假人 |
战时 | 1960年至1985年间,部分时间卷入了外部战争 |
磅/加仑 | log(1960年至1985年间平均1+黑市溢价) |
总数 | 贸易术语冲击 |
lgdp60ד导出” | 两个协变量的乘积(lgdp60和教育变量从pyrm60到seccf60的相互作用);总共16个变量 |
变量名称. | 描述. |
---|
因变量 | |
克 | 1960-1985年期间的年化GDP增长率 |
阈值变量 | |
gdp60 | 实际GDP人均1960年(1985年价格) |
爱尔兰 | 1960年成人识字率 |
协变量 | |
lgdp60型 | 日志-GDP人均1960年(1985年价格) |
爱尔兰 | 1960年成人识字率(仅包括问=lr) |
最小二乘法 | 1960年至1985年的年化对数(投资/产出);日志代理(物理 |
| 储蓄率) |
长距离无线电 | 1960年至1985年的对数(人口增长率) |
吡咯60 | 1960年男性人口的对数(平均小学教育年限) |
吡咯60 | 1960年女性人口的对数(平均小学教育年限) |
符号60 | 1960年男性人口的平均中学教育年限 |
赛尔夫60 | 1960年女性人口的平均中学教育年限 |
氢60 | 1960年男性人口的平均高等教育年限 |
60马力 | 1960年女性人口的对数(平均高等教育年限) |
标称60 | 1960年未受教育的男性人口比例 |
60号 | 1960年女性人口中没有上学的比例 |
prim60型 | 1960年男性人口接受小学教育的百分比 |
60年前 | 1960年女性人口接受小学教育的百分比 |
价格60 | 1960年男性完成小学教育的百分比 |
价格60 | 1960年女性完成小学教育的百分比 |
60秒 | 1960年男性人口接受中学教育的百分比 |
60秒 | 1960年女性人口接受中学教育的百分比 |
秒60 | 1960年男性完成中学教育的百分比 |
60秒 | 1960年女性完成中学教育的百分比 |
利菲 | log(0岁时的预期寿命)1960年至1985年的平均值 |
勒弗特 | 1960年至1985年平均生育率 |
教育/gdp | 1960年至1985年间,政府教育支出占GDP的平均值 |
gcon/gdp | 1960年至1985年期间,每GDP国防和教育的政府消费支出净额平均值 |
撤销 | 1960年至1984年每年的转数 |
政变 | 1960年至1984年期间每年的转数和政变次数 |
监狱 | 1960年至1984年间至少参加过一次对外战争的国家的假人 |
战时 | 1960年至1985年间,部分时间卷入了外部战争 |
磅/加仑 | log(1960年至1985年间平均1+黑市溢价) |
总数 | 贸易期限冲击 |
lgdp60ד教育” | 两个协变量的乘积(lgdp60和教育变量从pyrm60到seccf60的相互作用);总共16个变量 |
表2总结模型选择和估算结果是初始GDP。在线附录F(请参见表4),我们报告了额外的经验结果就是识字率。为了比较不同的模型规格,我们还估计了一个线性模型,即所有δ模型中的是0(3.1),通过标准拉索估计。在每种情况下,正则化参数λ由“leave-one-out”交叉验证方法选择。对于范围对于阈值参数,我们考虑每个阈值变量的10%和90%样本分位数之间的区间。
变量. | 线性模型的值. | 阈值模型的值, . |
---|
. | . |
---|
常量 | −0.0923 | −0.0811 | — |
lgdp60型 | −0.0153 | −0.0120 | — |
最小二乘法 | 0.0033 | 0.0038 | — |
长距离无线电 | 0.0018 | — | — |
吡咯60 | 0.0027 | — | — |
符号60 | 0.0157 | — | — |
氢60 | 0.0122 | 0.0130 | — |
60马力 | −0.0389 | — | −0.0807 |
标称60 | — | — | 2.64×10 |
prim60型 | −0.0004 | −0.0001 | — |
价格60 | 0.0006 | −1.73 × 10 | |
价格60 | −0.0006 | — | — |
60秒 | 0.0005 | — | — |
秒60 | 0.0010 | — | 0.0014 |
利菲 | 0.0697 | 0.0523 | — |
勒弗特 | −0.0136 | −0.0047 | — |
教育/gdp | −0.0189 | — | — |
gcon/gdp | −0.0671 | −0.0542 | — |
撤销 | −0.0588 | — | — |
政变 | 0.0433 | — | — |
监狱 | −0.0043 | — | −0.0022 |
战时 | −0.0019 | −0.0143 | −0.0023 |
磅/加仑 | −0.0185 | −0.0174 | −0.0015 |
总数 | 0.0971 | — | 0.0974 |
lgdp60×pyrf60 | — | | — |
lgdp60×syrm60 | — | — | 0.0002 |
lgdp60×hyrm60 | — | — | 0.0050 |
lgdp60×hyrf60 | — | −0.0003 | — |
lgdp60×标称60 | — | — | |
lgdp60×prim60 | | — | — |
lgdp60×prif60 | | — | |
lgdp60×pricf60 | | — | — |
lgdp60×秒60 | −0.0001 | — | — |
lgdp60×seccf60 | −0.0002 | | — |
λ | 0.0004 | 0.0034 | |
| 28 | 26 | |
协变量数量 | 46 | 92 | |
观察次数 | 80 | 80 | |
变量. | 线性模型的值. | 阈值模型的值, . |
---|
. | . |
---|
常量 | −0.0923 | −0.0811 | — |
lgdp60型 | −0.0153 | −0.0120 | — |
最小二乘法 | 0.0033 | 0.0038 | — |
长距离无线电 | 0.0018 | — | — |
吡咯60 | 0.0027 | — | — |
符号60 | 0.0157 | — | — |
氢60 | 0.0122 | 0.0130 | — |
60马力 | −0.0389 | — | −0.0807 |
标称60 | — | — | 2.64 × 10 |
prim60型 | −0.0004 | −0.0001 | — |
价格60 | 0.0006 | −1.73 × 10 | |
价格60 | −0.0006 | — | — |
60秒 | 0.0005 | — | — |
秒60 | 0.0010 | — | 0.0014 |
利菲 | 0.0697 | 0.0523 | — |
勒弗特 | −0.0136 | −0.0047 | — |
教育/gdp | −0.0189 | — | — |
gcon/gdp | −0.0671 | −0.0542 | — |
撤销 | −0.0588 | — | — |
政变 | 0.0433 | — | — |
监狱 | −0.0043 | — | −0.0022 |
战时 | −0.0019 | −0.0143 | −0.0023 |
磅/加仑 | −0.0185 | −0.0174 | −0.0015 |
总数 | 0.0971 | — | 0.0974 |
lgdp60×pyrf60 | — | | — |
lgdp60×syrm60 | — | — | 0.0002 |
lgdp60×hyrm60 | — | — | 0.0050 |
lgdp60×hyrf60 | — | −0.0003 | — |
lgdp60×标称60 | — | — | |
lgdp60×prim60 | | — | — |
lgdp60×prif60 | | — | |
lgdp60×pricf60 | | — | — |
lgdp60×秒60 | −0.0001 | — | — |
lgdp60×seccf60 | −0.0002 | | — |
λ | 0.0004 | 0.0034 | |
| 28 | 26 | |
协变量数量 | 46 | 92 | |
观察次数 | 80 | 80 | |
变量. | 线性模型的值. | 阈值模型的值, . |
---|
. | . |
---|
常量 | −0.0923 | −0.0811 | — |
lgdp60型 | −0.0153 | −0.0120 | — |
最小二乘法 | 0.0033 | 0.0038 | — |
长距离无线电 | 0.0018 | — | — |
pyrf60型 | 0.0027 | — | — |
符号60 | 0.0157 | — | — |
氢60 | 0.0122 | 0.0130 | — |
60马力 | −0.0389 | — | −0.0807 |
标称60 | — | — | 2.64 × 10 |
prim60型 | −0.0004 | −0.0001 | — |
价格60 | 0.0006 | −1.73 × 10 | |
价格60 | −0.0006 | — | — |
60秒 | 0.0005 | — | — |
秒60 | 0.0010 | — | 0.0014 |
利菲 | 0.0697 | 0.0523 | — |
勒弗特 | −0.0136 | −0.0047 | — |
教育/gdp | −0.0189 | — | — |
gcon/gdp | −0.0671 | −0.0542 | — |
撤销 | −0.0588 | — | — |
政变 | 0.0433 | — | — |
监狱 | −0.0043 | — | −0.0022 |
战时 | −0.0019 | −0.0143 | −0.0023 |
磅/加仑 | −0.0185 | −0.0174 | −0.0015 |
总数 | 0.0971 | — | 0.0974 |
lgdp60×pyrf60 | — | | — |
lgdp60×syrm60 | — | — | 0.0002 |
lgdp60×hyrm60 | — | — | 0.0050 |
lgdp60×hyrf60 | — | −0.0003 | — |
lgdp60×标称60 | — | — | |
lgdp60×prim60 | | — | — |
lgdp60×prif60 | | — | |
lgdp60×pricf60 | | — | — |
lgdp60×秒60 | −0.0001 | — | — |
lgdp60×seccf60 | −0.0002 | | — |
λ | 0.0004 | 0.0034 | |
| 28 | 26 | |
协变量数量 | 46 | 92 | |
观察次数 | 80 | 80 | |
变量. | 线性模型的值. | 阈值模型的值, . |
---|
. | . |
---|
常量 | −0.0923 | −0.0811 | — |
lgdp60型 | −0.0153 | −0.0120 | — |
最小二乘法 | 0.0033 | 0.0038 | — |
液化天然气 | 0.0018 | — | — |
吡咯60 | 0.0027 | — | — |
符号60 | 0.0157 | — | — |
氢60 | 0.0122 | 0.0130 | — |
60马力 | −0.0389 | — | −0.0807 |
标称60 | — | — | 2.64 × 10 |
prim60型 | −0.0004 | −0.0001 | — |
价格60 | 0.0006 | −1.73 × 10 | |
价格60 | −0.0006 | — | — |
60秒 | 0.0005 | — | — |
秒60 | 0.0010 | — | 0.0014 |
利菲 | 0.0697 | 0.0523 | — |
勒弗特 | −0.0136 | −0.0047 | — |
教育/gdp | −0.0189 | — | — |
gcon/gdp | −0.0671 | −0.0542 | — |
撤销 | −0.0588 | — | — |
政变 | 0.0433 | — | — |
衣柜 | −0.0043 | — | −0.0022 |
战时 | −0.0019 | −0.0143 | −0.0023 |
磅/加仑 | −0.0185 | −0.0174 | −0.0015 |
总数 | 0.0971 | — | 0.0974 |
lgdp60×pyrf60 | — | | — |
lgdp60×syrm60 | — | — | 0.0002 |
lgdp60×hyrm60 | — | — | 0.0050 |
lgdp60×hyrf60 | — | −0.0003 | — |
lgdp60×标称60 | — | — | |
lgdp60×prim60 | | — | — |
lgdp60×prif60 | | — | |
lgdp60×pricf60 | | — | — |
lgdp60×秒60 | −0.0001 | — | — |
lgdp60×seccf60 | −0.0002 | | — |
λ | 0.0004 | 0.0034 | |
| 28 | 26 | |
协变量数量 | 46 | 92 | |
观察次数 | 80 | 80 | |
主要实证结果如下。首先,lgdp60的边际效应,由给出教育在哪里是教育变量的向量和是的子向量和对应教育,对于所有观察到的导出值,估计为负值这证实了新古典增长模型的理论。其次,lgdp60和各种教育变量之间的一些非零交互项系数表明,在两个阈值模型规范中都存在阈值效应。这一结果表明,增长趋同率可能因初始国内生产总值或1960年成人识字率的不同水平而不同。具体来说,在这两个阈值模型中,我们都有,但有些s不是0。因此,在其他协变量上,根据阈值,存在不同的技术扩散效应。例如,发展中国家(较低问)通过更容易、更快地吸收先进技术,高等教育水平将更快地融合。最后,与线性规范相比,阈值模型规范的套索选择了一个更加简约的模型,尽管前者使潜在协变量的数量增加了一倍。 4.套索估计量的预测一致性
在本节中,我们考虑lasso估计器的预测一致性。我们做出以下假设。
假设1
对于参数空间对于,任何,包括,满足对于一些常量此外,满足.
有通用常数和这样的话在中一致j和、和在中一致j,其中j= 1,…,2M(M).
没有我≠j这样的话
假设1(a)规定了参数向量每个分量的有界性。假设1(a)的第一部分意味着对于任何,似乎很弱,因为稀疏性假设意味着远小于此外,在关于变化点和阈值模型的文献中,通常假设参数空间是紧凑的。例如,参见Seijo和Sen(2011年a,2011年b).
表达式中的拉索估计量(2.5)可以在不知道,但是必须指定。实际上,研究人员倾向于选择阈值变量观测值范围的一些严格子集。假设1(b)规定每个协变量在τ.鉴于以下假设,假设这一点并不严格有界远离零。
假设1(c)规定s.这是一个方便的假设,因此我们可以随时转换通用到不失通用性。对于随机设计情况,如果是连续分布的。
定义哪里和在表达式中定义(2.3). 假设1(b)意味着有界远离零。特别是,我们有. 回想一下(4.1)
哪里和在本文中建立理论结果(尤其是第节中的预言不等式5),让是由表达式定义的lasso估计量(2.5)带有(4.2)
对于常量A类>2√2/μ,其中μ∈(0,1)是一个固定常数。我们现在给出本文的第一个理论结果。 定理1
(套索的稠度)。假设1成立。让μ是一个常数,以便0<μ<1,并让是由表达式定义的lasso估计量(2.5)带有λ由方程式给出(4.2). 那么,至少以概率,我们有哪里.
定理1中预测风险的非渐近上界可以很容易地转化为渐近收敛。定理1暗示了套索的一致性,前提是n个→∞,M(M)→∞ 和回忆一下表示模型的稀疏性(2.1). 根据方程式(4.2),条件要求。这意味着可以增加n个.
备注1
注意,预测误差随着A类或μ增加;然而,如果A类或μ增加。因此,在预测误差和正确恢复的概率之间存在权衡。
5.Oracle不等式
在本节中,我们根据预测损失和-未知参数的估计损失。首先,我们做出以下假设。
假设2
(统一限制特征值(URE)). 对于某个整数秒这样1⩽秒⩽2M(M),一个正数还有一些套餐,以下条件成立:
如果假设2只是对Bickel有限特征值假设的重述等. (2009)带有.比克尔等. (2009)为限制特征值条件提供了充分条件。此外,范德格尔和布尔曼(2009)显示了限制特征值条件与设计矩阵上其他条件之间的关系,以及Raskutti等. (2010)证明了一类相关高斯设计矩阵的限制特征值条件具有较高的概率。
如果未知,因为在我们的设置中,似乎有必要假设限制特征值条件一致τ。我们根据是否或者没有。一方面,如果以便是不可识别的,那么我们需要假设URE条件在整个参数空间上一致成立,另一方面,如果以便是可识别的,则只需将URE条件统一地应用于在在线附录A中,我们为假设2提供了两种充分条件。一种是基于对Bickel假设2的修改等. (2009)另一种类型与范德吉尔和伯尔曼的精神相同(2009),第10.1节。利用第二类结果,我们在模拟设计的上下文中验证了URE条件的原始充分条件。请参阅联机附录A了解详细信息。
URE条件有助于我们改进定理1中的结果。回想一下,在定理1中,预测风险受以下因素的限制这个界限太大了,无法给出一个预言不等式。我们将在下面说明,我们可以为预测风险以及-由于URE条件,估计损失。
所提出的套索方法的优点是不需要知道或预先测试或者没有。值得注意的是,我们不必知道模型中是否存在阈值来建立预测风险和-估计损失尽管我们将理论结果分为以下两种情况。这意味着我们可以进行预测和估计准确地说,不知道阈值效应的存在,也不进行预先测试。
5.1. 案例一:无阈值
我们首先考虑的是换句话说,我们通过套索方法估计阈值模型,但真正的模型只是一个线性模型这是应用中需要考虑的一个重要案例,因为人们可能不仅不能确定协变量的选择,也不能确定模型中是否存在阈值。
让表示上确界)的最大特征值然后,根据定义一致限定在通过以下定理给出了第一种情况下的oracle不等式。
定理2
假设假设1和2成立用于0<μ<1,以及.让是由表达式定义的lasso估计量(2.5)带有λ由表达式给出(4.2). 那么,至少以概率我们有对于某个通用常数.
为了理解上述不等式的有用性,有必要将定理2中的不等式与Bickel定理7.2中的不等式进行比较等. (2009). 后者对应于以下情况已知先验的和在我们的记法中。如果我们比较定理2和Bickel的定理7.2等. (2009),我们可以看到模型中的lasso估计(2.5)定性地给出了与线性模型中的lasso估计量相同的oracle不等式,尽管我们的模型在这方面参数过高δ和τ已添加到β作为要估计的参数。
还有,比克尔等. (2009),没有要求非零分量的最小值离零有界。换句话说,没有必要假设信号的最小强度。此外,即使是根本无法识别。最后,注意常量的值在定理2的证明中给出,定理2也可以很容易地转化为渐近oracle结果,因为κ和分别受URE条件和假设1的限制。
5.2. 案例二:固定阈值
本小节探讨了阈值效应得到很好识别且不连续的情况。我们从以下附加假设开始,以反映这一点。
假设3
(回归稀疏性和不连续性下的可识别性)。对于给定的以及任何η和τ这样的话和,有一个常数c(c)>0,这样
假设3意味着,除其他外以及任何和τ这样的话,(5.1)
这种情况可以被视为.如果已知,则稀疏性下可识别性的一个充分条件是URE保留一些因此,结果的要点(5.1)是没有等价于当样本被拆分时事实上,假设3不仅仅是因为它规定了偏差率(f)作为τ远离这又决定了。我们在网上对假设3进行了进一步讨论附录B. 备注2
限制在假设3中是必要的,因为我们考虑了两者的固定设计和在本节中,我们隐含地假设样本量n个足够大,以至于非常小,这意味着限制永远不要约束下面的任何不平等。对于随机设计情况,如果是连续分布的。
假设4
(设计的流畅性)。对于任何η>0,有一个常数C类<∞,这样
假设4是在经典设置中假设的,带有固定数量的随机回归变量,以排除如下情况点质量为或是无限的。在我们的设置中,假设4相当于阈值变量分布的某些平滑度假设的确定性版本.何时是随机向量,在标准假设下满足连续分布连续且有界于对于每个j.
为了简化符号,在下面的定理中,我们假设在不损失通用性的情况下.然后此外,让哪里是定理1中的相同常数。
假设5
(定义明确的二阶矩)。对于任何η这样的话,有界,其中和[·]表示任何实数的整数部分。
假设5假设对于任何η这样的话.假设5相当于固定设计二阶矩的一些弱正则性条件。假设3意味着还有那个有界远离零。因此,假设3和5意味着有界且远离零。
为了证明下面的定理,有必要做一个额外的技术假设(见在线附录E). 我们选择在这里不显示假设6,因为我们认为这只是一个充分条件,不会增加我们对主要结果的理解。然而,我们想指出的是,假设6可以适用于所有足够大的情况n个,前提是,作为n个→0.见在线备注4附录E了解详细信息。
现在我们给出这一部分的主要结果。
定理3
假设假设1和2与,用于0<μ<1,以及此外,假设3、4和5成立并允许n个足够大,即在线中的假设6附录E持有。让是由表达式定义的lasso估计量(2.5)带有λ由表达式给出(4.2). 那么,至少以概率对于一些正常数和,我们有对于某个通用常数.
定理3给出了与定理2中预测风险相同的不等式(直到常数)以及-估计损失。重要的是要注意以恒定时间为界,而以常数为界这可以被视为到如本节末尾所述10.1,因为两者κ和分别受URE条件和假设1的限制,定理3立即暗示渐近速率结果。常数的值,和在定理3的证明中给出。
本节的主要贡献是我们扩展了著名的超一致性结果什么时候M(M)<n个(例如,请参见Chan(1993)Seijo和Sen(2011年a,2011年b))高维设置(M(M)≫n个). 在这两种情况下,我们实现阈值参数的超一致性的主要原因是,最小二乘目标函数在真实阈值参数值附近表现为局部线性,而不是像在规则估计问题中那样表现为局部二次。一个有趣的剩余研究问题是调查是否可能获得在较弱的条件下,可能没有限制的特征值条件。
6.蒙特卡罗实验
在本节中,我们进行了一些仿真研究,并检查了所提出的套索估计器的特性。基线模型是模型(1.1),其中是一个M(M)-维向量生成自N个(0,我),是由(0,1)区间上的均匀分布和误差项生成的标量生成自。阈值参数设置为根据仿真设计,系数设置为、和哪里c(c)=0或c(c)= 1. 请注意,当c(c)= 0. 观察次数设置为n个= 200. 最后在每个设计中都设置为M(M)=50100200400,则回归变量总数分别为100、200、400和800。范围τ是.
我们可以使用Efron的标准最小二乘回归算法估计参数等. (2004)没有太多修改。给定正则化参数值λ,我们估计每个网格点的模型τ跨越71个等距点。可以使用标准线性套索执行此过程。接下来,我们插入估计参数对于每个τ进入目标函数并选择按表达式(4.2). 最后,估计依据为.正则化参数λ由表达式选择(4.2)其中σ=0.5被认为是已知的。对于常量A类,我们使用四个不同的值:A类= 2.8,3.2,3.6,4.0.
表3和图1和2总结这些仿真结果。为了比较lasso估计器的性能,我们还报告了仅在以下情况下可用的最小二乘估计(“最小二乘”)的估计结果M(M)=50和两种oracle模型(oracle 1和oracle 2)。Oracle 1假设具有非零系数的回归变量已知。除此之外,oracle2还假设真正的阈值参数已知。因此,当c(c)≠0,oracle 1估计和τ使用最小二乘估计,而oracle 2仅进行估计.何时c(c)=0,仅oracle 1和oracle 2估算。所有结果均基于每个样本的400次复制。
阈值参数. | 估算方法. | λ的常数. | 预测误差. | . | . | . |
---|
平均值. | 中值的. | 标准偏差. |
---|
跳跃刻度:c=1 |
| 最小二乘法 | 无 | 0.285 | 0.276 | 0.074 | 100 | 7.066 | 0.008 |
拉索 | A类= 2.8 | 0.041 | 0.030 | 0.035 | 12.94 | 0.466 | 0.010 |
A类= 3.2 | 0.048 | 0.033 | 0.049 | 10.14 | 0.438 | 0.013 |
A类= 3.6 | 0.067 | 0.037 | 0.086 | 8.44 | 0.457 | 0.024 |
A类= 4.0 | 0.095 | 0.050 | 0.120 | 7.34 | 0.508 | 0.040 |
甲骨文1 | 无 | 0.013 | 0.006 | 0.019 | 4 | 0.164 | 0.004 |
Oracle 2 | 无 | 0.005 | 0.004 | 0.004 | 4 | 0.163 | 0 |
| 最小二乘法 | 无 | 0.317 | 0.304 | 0.095 | 100 | 7.011 | 0.008 |
拉索 | A类=2.8 | 0.052 | 0.034 | 0.063 | 13.15 | 0.509 | 0.016 |
A类=3.2 | 0.063 | 0.037 | 0.083 | 10.42 | 0.489 | 0.023 |
A类= 3.6 | 0.090 | 0.045 | 0.121 | 8.70 | 0.535 | 0.042 |
A类= 4.0 | 0.133 | 0.061 | 0.162 | 7.68 | 0.634 | 0.078 |
甲骨文1 | 无 | 0.014 | 0.006 | 0.022 | 4 | 0.163 | 0.004 |
Oracle 2(Oracle 2) | 无 | 0.005 | 0.004 | 0.004 | 4 | 0.163 | 0 |
| 最小二乘法 | 无 | 2.559 | 0.511 | 16.292 | 100 | 12.172 | 0.012 |
拉索 | A类= 2.8 | 0.062 | 0.035 | 0.091 | 13.45 | 0.602 | 0.030 |
A类= 3.2 | 0.089 | 0.041 | 0.125 | 10.85 | 0.633 | 0.056 |
A类= 3.6 | 0.127 | 0.054 | 0.159 | 9.33 | 0.743 | 0.099 |
A类= 4.0 | 0.185 | 0.082 | 0.185 | 8.43 | 0.919 | 0.168 |
甲骨文1 | 无 | 0.012 | 0.006 | 0.017 | 4 | 0.177 | 0.004 |
Oracle 2 | 无 | 0.005 | 0.004 | 0.004 | 4 | 0.176 | 0 |
跳跃刻度:c=0 |
—‡ | 最小二乘法 | 无 | 6.332 | 0.460 | 41.301 | 100 | 20.936 | —‡ |
拉索 | A类=2.8 | 0.013 | 0.011 | 0.007 | 9.30 | 0.266 | |
A类= 3.2 | 0.014 | 0.012 | 0.008 | 6.71 | 0.227 | |
A类= 3.6 | 0.015 | 0.014 | 0.009 | 4.95 | 0.211 | |
A类= 4.0 | 0.017 | 0.016 | 0.010 | 3.76 | 0.204 | |
Oracle 1和 | 无 | 0.002 | 0.002 | 0.003 | 2 | 0.054 | |
| 甲骨文2 | | | | | | |
阈值参数. | 估算方法. | λ的常数. | 预测误差. | . | . | . |
---|
平均值. | 中值的. | 标准偏差. |
---|
跳跃刻度:c=1 |
| 最小二乘法 | 无 | 0.285 | 0.276 | 0.074 | 100 | 7.066 | 0.008 |
拉索 | A类= 2.8 | 0.041 | 0.030 | 0.035 | 12.94 | 0.466 | 0.010 |
A类= 3.2 | 0.048 | 0.033 | 0.049 | 10.14 | 0.438 | 0.013 |
A类= 3.6 | 0.067 | 0.037 | 0.086 | 8.44 | 0.457 | 0.024 |
A类= 4.0 | 0.095 | 0.050 | 0.120 | 7.34 | 0.508 | 0.040 |
甲骨文1 | 无 | 0.013 | 0.006 | 0.019 | 4 | 0.164 | 0.004 |
Oracle 2 | 无 | 0.005 | 0.004 | 0.004 | 4 | 0.163 | 0 |
| 最小二乘法 | 无 | 0.317 | 0.304 | 0.095 | 100 | 7.011 | 0.008 |
拉索 | A类= 2.8 | 0.052 | 0.034 | 0.063 | 13.15 | 0.509 | 0.016 |
A类= 3.2 | 0.063 | 0.037 | 0.083 | 10.42 | 0.489 | 0.023 |
A类= 3.6 | 0.090 | 0.045 | 0.121 | 8.70 | 0.535 | 0.042 |
A类=4.0 | 0.133 | 0.061 | 0.162 | 7.68 | 0.634 | 0.078 |
甲骨文1 | 无 | 0.014 | 0.006 | 0.022 | 4 | 0.163 | 0.004 |
Oracle 2 | 无 | 0.005 | 0.004 | 0.004 | 4 | 0.163 | 0 |
| 最小二乘法 | 无 | 2.559 | 0.511 | 16.292 | 100 | 12.172 | 0.012 |
拉索 | A类= 2.8 | 0.062 | 0.035 | 0.091 | 13.45 | 0.602 | 0.030 |
A类= 3.2 | 0.089 | 0.041 | 0.125 | 10.85 | 0.633 | 0.056 |
A类= 3.6 | 0.127 | 0.054 | 0.159 | 9.33 | 0.743 | 0.099 |
A类= 4.0 | 0.185 | 0.082 | 0.185 | 8.43 | 0.919 | 0.168 |
甲骨文1 | 无 | 0.012 | 0.006 | 0.017 | 4 | 0.177 | 0.004 |
Oracle 2 | 无 | 0.005 | 0.004 | 0.004 | 4 | 0.176 | 0 |
跳跃刻度:c=0 |
—‡ | 最小二乘法 | 无 | 6.332 | 0.460 | 41.301 | 100 | 20.936 | —‡ |
拉索 | A类= 2.8 | 0.013 | 0.011 | 0.007 | 9.30 | 0.266 | |
A类= 3.2 | 0.014 | 0.012 | 0.008 | 6.71 | 0.227 | |
A类=3.6 | 0.015 | 0.014 | 0.009 | 4.95 | 0.211 | |
A类= 4.0 | 0.017 | 0.016 | 0.010 | 3.76 | 0.204 | |
Oracle 1和 | 无 | 0.002 | 0.002 | 0.003 | 2 | 0.054 | |
| 甲骨文2 | | | | | | |
阈值参数. | 估算方法. | λ的常数. | 预测误差. | . | . | . |
---|
平均值. | 中值的. | 标准偏差. |
---|
跳跃刻度:c=1 |
| 最小二乘法 | 无 | 0.285 | 0.276 | 0.074 | 100 | 7.066 | 0.008 |
拉索 | A类= 2.8 | 0.041 | 0.030 | 0.035 | 12.94 | 0.466 | 0.010 |
A类= 3.2 | 0.048 | 0.033 | 0.049 | 10.14 | 0.438 | 0.013 |
A类= 3.6 | 0.067 | 0.037 | 0.086 | 8.44 | 0.457 | 0.024 |
A类= 4.0 | 0.095 | 0.050 | 0.120 | 7.34 | 0.508 | 0.040 |
甲骨文1 | 无 | 0.013 | 0.006 | 0.019 | 4 | 0.164 | 0.004 |
Oracle 2 | 无 | 0.005 | 0.004 | 0.004 | 4 | 0.163 | 0 |
| 最小二乘法 | 无 | 0.317 | 0.304 | 0.095 | 100 | 7.011 | 0.008 |
拉索 | A类= 2.8 | 0.052 | 0.034 | 0.063 | 13.15 | 0.509 | 0.016 |
A类= 3.2 | 0.063 | 0.037 | 0.083 | 10.42 | 0.489 | 0.023 |
A类= 3.6 | 0.090 | 0.045 | 0.121 | 8.70 | 0.535 | 0.042 |
A类= 4.0 | 0.133 | 0.061 | 0.162 | 7.68 | 0.634 | 0.078 |
甲骨文1 | 无 | 0.014 | 0.006 | 0.022 | 4 | 0.163 | 0.004 |
Oracle 2 | 无 | 0.005 | 0.004 | 0.004 | 4 | 0.163 | 0 |
| 最小二乘法 | 无 | 2.559 | 0.511 | 16.292 | 100 | 12.172 | 0.012 |
拉索 | A类= 2.8 | 0.062 | 0.035 | 0.091 | 13.45 | 0.602 | 0.030 |
A类= 3.2 | 0.089 | 0.041 | 0.125 | 10.85 | 0.633 | 0.056 |
A类= 3.6 | 0.127 | 0.054 | 0.159 | 9.33 | 0.743 | 0.099 |
A类= 4.0 | 0.185 | 0.082 | 0.185 | 8.43 | 0.919 | 0.168 |
甲骨文1 | 无 | 0.012 | 0.006 | 0.017 | 4 | 0.177 | 0.004 |
Oracle 2 | 无 | 0.005 | 0.004 | 0.004 | 4 | 0.176 | 0 |
跳跃刻度:c=0 |
—‡ | 最小二乘法 | 无 | 6.332 | 0.460 | 41.301 | 100 | 20.936 | —‡ |
拉索 | A类= 2.8 | 0.013 | 0.011 | 0.007 | 9.30 | 0.266 | |
A类=3.2 | 0.014 | 0.012 | 0.008 | 6.71 | 0.227 | |
A类= 3.6 | 0.015 | 0.014 | 0.009 | 4.95 | 0.211 | |
A类= 4.0 | 0.017 | 0.016 | 0.010 | 3.76 | 0.204 | |
Oracle 1和 | 无 | 0.002 | 0.002 | 0.003 | 2 | 0.054 | |
| 甲骨文2 | | | | | | |
阈值参数. | 估算方法. | λ的常数. | 预测误差. | . | . | . |
---|
平均值. | 中值的. | 标准偏差. |
---|
跳跃比例:c=1 |
| 最小二乘法 | 无 | 0.285 | 0.276 | 0.074 | 100 | 7.066 | 0.008 |
拉索 | A类= 2.8 | 0.041 | 0.030 | 0.035 | 12.94 | 0.466 | 0.010 |
A类= 3.2 | 0.048 | 0.033 | 0.049 | 10.14 | 0.438 | 0.013 |
A类= 3.6 | 0.067 | 0.037 | 0.086 | 8.44 | 0.457 | 0.024 |
A类= 4.0 | 0.095 | 0.050 | 0.120 | 7.34 | 0.508 | 0.040 |
甲骨文1 | 无 | 0.013 | 0.006 | 0.019 | 4 | 0.164 | 0.004 |
Oracle 2 | 无 | 0.005 | 0.004 | 0.004 | 4 | 0.163 | 0 |
| 最小二乘法 | 无 | 0.317 | 0.304 | 0.095 | 100 | 7.011 | 0.008 |
拉索 | A类= 2.8 | 0.052 | 0.034 | 0.063 | 13.15 | 0.509 | 0.016 |
A类= 3.2 | 0.063 | 0.037 | 0.083 | 10.42 | 0.489 | 0.023 |
A类= 3.6 | 0.090 | 0.045 | 0.121 | 8.70 | 0.535 | 0.042 |
A类= 4.0 | 0.133 | 0.061 | 0.162 | 7.68 | 0.634 | 0.078 |
甲骨文1 | 无 | 0.014 | 0.006 | 0.022 | 4 | 0.163 | 0.004 |
Oracle 2(Oracle 2) | 无 | 0.005 | 0.004 | 0.004 | 4 | 0.163 | 0 |
| 最小二乘法 | 无 | 2.559 | 0.511 | 16.292 | 100 | 12.172 | 0.012 |
拉索 | A类= 2.8 | 0.062 | 0.035 | 0.091 | 13.45 | 0.602 | 0.030 |
A类=3.2 | 0.089 | 0.041 | 0.125 | 10.85 | 0.633 | 0.056 |
A类= 3.6 | 0.127 | 0.054 | 0.159 | 9.33 | 0.743 | 0.099 |
A类= 4.0 | 0.185 | 0.082 | 0.185 | 8.43 | 0.919 | 0.168 |
甲骨文1 | 无 | 0.012 | 0.006 | 0.017 | 4 | 0.177 | 0.004 |
Oracle 2 | 无 | 0.005 | 0.004 | 0.004 | 4 | 0.176 | 0 |
跳跃刻度:c=0 |
—‡ | 最小二乘法 | 无 | 6.332 | 0.460 | 41.301 | 100 | 20.936 | —‡ |
拉索 | A类= 2.8 | 0.013 | 0.011 | 0.007 | 9.30 | 0.266 | |
A类= 3.2 | 0.014 | 0.012 | 0.008 | 6.71 | 0.227 | |
A类= 3.6 | 0.015 | 0.014 | 0.009 | 4.95 | 0.211 | |
A类= 4.0 | 0.017 | 0.016 | 0.010 | 3.76 | 0.204 | |
Oracle 1和 | 无 | 0.002 | 0.002 | 0.003 | 2 | 0.054 | |
| 甲骨文2 | | | | | | |
图1。
平均预测误差和平均值(♦,τ= 0.3; □,τ= 0.4; ◯,τ= 0.5; △,c(c)=0):(a)M(M)= 100; (b)M(M)= 200; (c)M(M)= 400
图2。
平均值-的错误α和τ(♦,τ= 0.3; □,τ= 0.4; ◯,τ= 0.5; △,c(c)=0):(a)M(M)=100;(b)M(M)= 200; (c)M(M)= 400
每个样本的均方预测误差PE的数值计算如下。对于每个样品秒,我们有估计,和。根据这些估计,我们生成了新的数据400个观测值,并将预测误差计算为(6.1)
通过400次重复计算预测误差的平均值、中位数和标准差,。我们还报告了和-的错误α和τ.表3报告的仿真结果M(M)= 50. 用于模拟设计M(M)>50,最小二乘估计量不可用,我们仅总结了图1和2. 什么时候?M(M)=50,在所有设计中,就平均和中值预测误差而言,所提出的lasso估计器的性能优于最小二乘估计器和-的错误α当没有阈值效应,即。c(c)= 0. 该结果证实了lasso估计器对是否存在阈值效应的鲁棒性。然而,在估计什么时候c(c)=1,尽管此处的差异远小于预测误差和-的错误α.
来自图1和2,当M(M)= 100,200,400. 正如前面章节中发展的理论所预测的那样,预测误差和-的错误α和τ缓慢增加为M(M)增加。图表还表明,除了A类= 4.0.
在线附录F,我们报告了额外的模拟结果,同时允许协变量之间的相关性。具体来说M(M)-量纲向量由多元正态分布生成N个(0,∑)分布,其中表示(i、 j个)的元素M(M)×M(M)协方差矩阵∑和ρ= 0.3. 所有其他随机变量同上。我们得到了与之前情况非常相似的结果:套索优于最小二乘估计量,预测误差、和-错误增长非常缓慢M(M)增加。详情请参阅在线附录F,它还报告了有关选择真实参数的频率的令人满意的模拟结果ρ=0和ρ= 0.3.
总之,仿真结果证实了先前的理论结果,并表明所提出的lasso估计对于高维阈值回归模型是有用的。
7.结论
我们考虑了一个高维回归模型,该模型由于协变量阈值而具有可能的变化点,并开发了套索方法。我们推导了非渐近预言不等式,并通过仿真和实际数据应用说明了我们提出的估计方法的有用性。
我们通过提供一些未来研究领域来总结本文。首先,扩展其他惩罚估计(例如Zou的自适应套索(2006)范和李的绝对偏差罚分(2001))并查看我们是否能够提高估算方法的性能。其次,对多个变化点的扩展也是一个重要的研究课题。在这个方向上已经取得了一些进展,特别是在计算成本和确定变化点数量等关键问题上(例如,参见Harchaoui和Lévy-Leduc(2010)和弗里克等. (2014))。然而,它们局限于一个单一的回归变量案例,而对大量回归变量的扩展将非常有趣。最后,研究所提出估计器的极小极大下界及其预测风险(如Raskutti)也是一个有趣的研究课题等. (2011,2012)在高维线性回归设置中。
致谢
我们感谢Marine Carrasco、Yuan Liao、Ya’acov Ritov、两位裁判和各地研讨会参与者的宝贵意见。这项工作得到了韩国政府资助的韩国国家研究基金会(NRF-2012S1A5A8023573)、首尔国立大学经济研究所、欧洲研究理事会(ERC-2009-StG-240910-ROMETA)以及加拿大社会科学和人文研究理事会的支持。共享分级学术研究计算网络的设施使这项工作成为可能(网址:www.sharcnet.ca)以及加拿大计算机/微积分。
工具书类
©2015英国皇家统计学会作者期刊:B系列(社会统计),由John Wiley&Sons有限公司代表英国皇家统计学会出版。
这是一篇根据知识共享归因非商业性许可证,允许在任何媒体上使用、分发和复制原始作品,前提是原始作品被正确引用,且未用于商业目的。