×

惩罚回归结合了(L_{1})范数和基于相关性的惩罚。 (英语) 兹比尔1305.62241

摘要:我们考虑了具有协变量和观测值的线性回归模型中的特征选择问题。我们提出了一种新的方法来同时选择变量并有利于分组效应,其中强相关的预测因素往往会同时出现在模型内或模型外。该方法基于惩罚最小二乘法,惩罚函数结合了(L_{1})和基于相关性的惩罚(CP)范数。我们称之为L1CP方法。与拉索惩罚一样,L1CP将一些系数缩小到零,此外,CP项明确地将惩罚强度与预测因子之间的相关性联系起来。在小尺寸和高尺寸环境中进行了详细的模拟研究。它说明了我们的方法与几种备选方案相比的优势。最后,我们将该方法应用于两个实际数据集:美国犯罪数据和GC-Retention PAC数据。就预测准确性和估计误差而言,我们的实证研究表明,L1CP比Elastic-Net更适合于(p\leq n)(变量数量小于或等于样本大小)的情况。如果(p\ggn),我们的方法仍然具有竞争力,并且允许选择超过(n)个变量。

MSC公司:

62J05型 线性回归;混合模型
62J07型 岭回归;收缩估计器(拉索)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Bondell,H.D.和Reich,B.J.(2008)。OSCAR预测因子的同步回归收缩、变量选择和聚类。生物统计学64,115–123·Zbl 1146.62051号 ·doi:10.1111/j.1541-0420.2007.00843.x
[2] Chen,S.、Donoho,D.和Saunders,M.(1998)。通过基追踪进行原子分解。SIAM J.科学。计算。,20,编号1,33–61·Zbl 0919.94002号 ·doi:10.1137/S1064827596304010
[3] Daye,Z.J.和Jeng,X.J.(2009)。通过加权融合对相关变量进行收缩和模型选择。计算。统计师。数据分析。,54, 1284–1298. ·Zbl 1452.62049号 ·doi:10.1016/j.csda.2008.11.007
[4] Efron,B.、Hastie,T.、Johnstone,I.和Tibshirani,R.(2004)。最小角度回归。安.统计师。,32, 407–499. ·Zbl 1091.62054号 ·doi:10.1214/009053604000000067
[5] El Anbari,M.和Mkhadri,A.(2008年)。结合L1范数和基于相关性的惩罚进行惩罚回归。法国国家信息与自动化研究所(Rapports de Recherche de L'Institut National de Recherche en Informatique et Automatique),N{\(\deg\)}6746·兹比尔1305.62241
[6] Golub,T.、Slonim,D.、Tamayo,P.、Huard,C.、Gaasenbeek,M.、Mesirov,J.、Coller,H.、Loh,M.,Downing,J.和Caliuguri,M.(1999)。癌症的分子分类:通过基因表达监测进行分类发现和分类预测。《科学》,286513-536·doi:10.1126/science.286.5439.531
[7] Hoerl,A.和Kennard,R.(1970年)。岭回归:非正交问题的有偏估计。技术计量学,12,55–67·Zbl 0202.17205号 ·网址:10.1080/00401706.1970.10488634
[8] Tibshirani,R.(1996)。通过拉索回归收缩和选择。J.R.统计社会服务。B、 58、267–288·Zbl 0850.62538号
[9] Tutz,G.和Ulbricht,J.(2009年)。基于相关性惩罚的惩罚回归。统计计算。,19, 239–253. ·doi:10.1007/s11222-008-9088-5
[10] Varmuza,K.和Filzmoser,P.(2009年)。化学计量学多元统计分析导论。CRC出版社。
[11] Witten,D.M.和Tibshirani,R.(2009年)。高维问题的协方差回归和分类。J.R.统计社会服务。B、 71、615–636·兹比尔1250.62033 ·文件编号:10.1111/j.1467-9868.2009.00699.x
[12] Wu,S.、Shen,X.和Geyer,C.J.(2009)。使用整个解曲面的自适应正则化。《生物统计学》,96、513–527·Zbl 1170.62036号 ·doi:10.1093/biomet/asp038
[13] Yuan,M.和Lin,Y.(2006)。分组变量回归中的模型选择和估计。J.R.统计社会服务。B、 68、49–67岁·Zbl 1141.62030号 ·doi:10.1111/j.1467-9868.2005302.x
[14] Zou,H.和Hastie,T.(2005)。通过弹性网进行正则化和变量选择。J.R.统计社会服务。B、 67、301–320·Zbl 1069.62054号 ·数字对象标识代码:10.1111/j.1467-9868.2005.0050.x
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。