×

关于(稀疏)群拉索回归中分类变量的编码和标准化的注释。 (英语) Zbl 1437.62276号

摘要:分类回归变量通常通过引入一组指标变量,并施加线性约束来处理,以确保在存在截距的情况下,或等效地,使用各种编码方案之一进行识别。如中所建议[M.袁Y.Lin先生,J.R.Stat.Soc.,序列号。B、 统计方法。68,第1期,49–67页(2006年;Zbl 1141.62030号)]拉索组是一种自然且计算方便的方法,用于在具有类别协变量的环境中进行变量选择。正如所指出的N.西蒙R.蒂比拉尼【Stat.Sin.22,No.3,983–1001(2012;Zbl 1257.62080号)],通过对每个对应于一组变量的列子矩阵进行逐块正交归一化的“标准化”可以显著提高性能。在本文中,我们详细研究了分类预测因子的特殊情况下的标准化方面。主要结果是不需要正交归一化;设计矩阵的列向缩放,然后系数的重新缩放和居中显示出完全相同的效果。在相互作用的情况下可以实现类似的减少。此外,还考虑了对所谓稀疏组Lasso的扩展,这进一步促进了组内稀疏性。通过仿真和案例研究说明了适当标准化的重要性。

MSC公司:

2007年6月62日 岭回归;收缩估计器(拉索)
62G08号 非参数回归和分位数回归
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 奇奎特,J。;Grandvalet,Y。;Rigaill,G.,《类别正则化:Tutz和Gerthiss的一篇文章讨论,统计模型》。,16, 228-237 (2016)
[2] Deutsch,F.,交替正交投影法,(近似理论,样条函数和应用(1992),Springer),105-121·Zbl 0751.41031号
[3] Golub,G。;Loan,C.V.,《矩阵计算》(1996),约翰霍普金斯大学出版社·Zbl 0865.65009号
[4] 黄,J。;张,T.,群体稀疏的好处,Ann.Statist。,38, 1978-2004 (2010) ·Zbl 1202.62052号
[5] 林,M。;Hastie,T.,《通过分层群-群正则化学习交互》,J.Compute。图表。统计学。,24, 627-654 (2015)
[6] Lounici,K。;庞蒂尔,M。;Tsybakov,A。;van de Geer,S.,群稀疏下的Oracle不等式和最优推理,Ann.Statist。,39, 2164-2204 (2011) ·Zbl 1306.62156号
[7] Meier,L。;van de Geer,S。;Bühlmann,P.,logistic回归的组套索,J.R.Stat.Soc.Ser。B统计方法。,70, 53-71 (2008) ·Zbl 1400.62276号
[8] 内加班,S。;拉维库马尔,P。;温赖特,M。;Yu,B.,具有可分解正则化子的\(M\)-估计量的高维分析的统一框架,Statist。科学。,27, 538-557 (2012) ·Zbl 1331.62350号
[9] Open Data LMU,美国,慕尼黑租金数据(2003年)
[10] 西蒙,N。;弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,《稀疏群套索》,J.Compute。图表。统计学。,22, 231-245 (2012)
[11] 西蒙,N。;Tibshirani,R.,《标准化和集团套索惩罚》,统计师。Sinica,22983-1001(2012)·Zbl 1257.62080号
[12] Tutz,G.,《分类数据回归》(2012),剑桥大学出版社
[13] 袁,M。;Lin,Y.,《分组变量回归中的模型选择和估计》,J.R.Stat.Soc.Ser。B统计方法。,68, 49-67 (2006) ·Zbl 1141.62030号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。