×

正则化Huber回归的安全特征筛选规则。 (英语) Zbl 1497.62165号

摘要:随着数据采集和存储技术的飞速发展,我们经常会遇到大量高维数据集,其中包含离群值和严重错误。最近,正则化Huber回归得到了广泛的发展,以处理这种复杂的数据集。尽管已有数十篇论文致力于开发正则化Huber回归的高效求解器,但当特征数量非常大时,仍然具有挑战性。本文基于对偶理论,提出了正则化Humber回归的安全特征筛选规则。这些规则可以通过快速减少特征数量,显著加快正则化Huber回归的现有求解器。具体来说,所提出的安全特征筛选规则能够在启动求解器之前识别并消除非活动特征,从而大大节省计算工作量。此外,所提出的筛选规则在理论和实践上都是安全的。最后,在合成数据集和实际数据集上的实验结果表明,所提出的筛选规则可以加快正则化Huber回归的求解速度并保持其准确性。特别是,当特征数量很大时,我们的规则所获得的加速比可以是数量级的。

MSC公司:

62J05型 线性回归;混合模型
62层35 鲁棒性和自适应程序(参数推断)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Huber,P.,《稳健回归:渐近性、猜想和蒙特卡罗》,《Ann.Stat.》,1799-821(1973)·兹标0289.62033
[2] 荷兰,P.W。;Welsch,R.E.,使用迭代重加权最小二乘的稳健回归,Commun。《法律总汇》第6、9、813-827页(1977年)·兹伯利0376.62035
[3] Lambert-Lacroix,S。;Zwald,L.,通过Hubers准则和自适应套索惩罚的稳健回归,Electron。J.Stat.,51015-153(2011)·Zbl 1274.62467号
[4] Yi,C。;黄,J.,弹性网惩罚Huber损失回归和分位数回归的半光滑牛顿坐标下降算法,J.Compute。图表。Stat.,26,3,547-557(2017)
[5] 范,J。;李,Q。;Wang,Y.,在缺乏对称性和轻尾假设的情况下估计高维平均回归,J.R.Stat.Soc.Ser。B、 79、247-265(2017)·Zbl 1414.62178号
[6] 孙,Q。;周伟新。;Fan,J.,自适应Huber回归,美国统计协会,115,254-265(2020)·Zbl 1437.62250号
[7] 范,J。;刘,H。;孙,Q。;Zhang,T.,I-Lamm《稀疏学习:算法复杂性和统计误差的同时控制》,《Ann.Stat.》,46,814-841(2018)·Zbl 1392.62215号
[8] 范,J。;Lv,J.,超高维特征空间的确定独立筛选,J.R.Stat.Soc.Ser。B、 70,5849-911(2008)·Zbl 1411.62187号
[9] Tibshirani,R。;比恩,J。;弗里德曼,J。;哈斯蒂,T。;等,套索型问题中丢弃预测因子的强规则,J.R.Stat.Soc.Ser。B、 74、2、245-266(2012)·Zbl 1411.62213号
[10] Ghaoui,E.L。;维亚永,V。;Rabbani,T.,稀疏监督学习中的安全特征消除,Pac。J.Optim。,8, 4, 667-698 (2012) ·Zbl 1259.65010号
[11] Tibshirani,R.,《通过套索进行回归收缩和选择》,J.R.Stat.Soc.Ser。B、 58、1、267-288(1996)·Zbl 0850.62538号
[12] 王,Y。;项振杰。;Ramadge,P.J.,《改进套索问题筛查的权衡》,IEEE国际声学会议,3297-3301(2013)
[13] 王,Y。;项振杰。;Ramadge,P.J.,用小正则参数进行Lasso筛选,IEEE国际声学会议,3342-3346(2013)
[14] 刘杰。;郑,Z。;杰·W。;Ye,J.,变分不等式的安全筛选及其在套索中的应用,机器学习国际会议,32,289-297(2014)
[15] 项振杰。;王,Y。;Ramadge,P.J.,套索问题的筛选测试,IEEE Trans。模式分析。机器。智力。,39, 5, 1008-1027 (2017)
[16] Lee,S。;Gornitz,N。;Xing,E.P。;赫克曼博士。;Lippert,C.,套索筛选规则集合,IEEE Trans。模式分析。机器。智力。,40, 12, 2841-2852 (2018)
[17] Wang,J。;Wonka,P。;Ye,J.,Lasso通过双多面体投影筛选规则,J.Mach。学习。第16号决议,1063-1101(2015)·兹比尔1360.62403
[18] 潘,X。;Xu,Y.,基于可行解决方案的套索安全增强特征筛选策略,Inf.Sci。,477132-147(2019)·Zbl 1442.68199号
[19] Huber,P.,位置参数的稳健估计,Ann.Math。Stat.,35,73-101(1964年)·Zbl 0136.39805号
[20] 恩迪亚耶,E。;费尔科克,O。;Gramfort,A。;Salmon,J.,《稀疏执法处罚的间隙安全筛选规则》,J.Mach。学习。决议,18,1-33(2017)·Zbl 1442.62161号
[21] Rockafellar,R.T.,《凸分析》(1970),普林斯顿大学出版社·Zbl 0229.90020号
[22] 弗朗西斯,B。;Rodolphe,J。;朱利安,M。;Guillaume,O.,发现具有稀疏诱导惩罚的优化。趋势马赫数。学习。,4, 1, 1-106 (2011) ·Zbl 06064248号
[23] 布鲁姆菲尔德,P。;Steiger,W.L.,《最小绝对偏差:理论、应用和算法》(1983),Birkhauser·Zbl 0536.62049号
[24] 王,H。;李·G。;Jiang,G.,通过LAD-lasso的稳健回归收缩和一致变量选择,J.Bus。经济。Stat.,25,3,347-355(2007年)
[25] 李,M。;Kong,L.,矩阵回归的双融合套索惩罚LAD,应用。数学。计算。,357, 15, 119-138 (2019) ·Zbl 1428.62319号
[26] 王,H。;Kong,L.公司。;Tao,J.,稀疏群LAD模型的线性化交替方向乘法器方法,Optim。莱特。,13, 505-525 (2019) ·Zbl 1435.62276号
[27] Beck,A.,优化中的一阶方法(2017),Soc.Ind.Appl。数学·Zbl 1384.65033号
[28] http://cvxr.com/cvx/。
[29] https://docs.mosek.com/7.1/tools/index.html。
[30] Dettling,M.,Bagboosting,利用基因表达数据进行肿瘤分类,生物信息学,20,18,3583-3593(2004)
[31] Bradley,E.,《大尺度推断:估计、测试和预测的经验贝叶斯方法》(2010),剑桥大学出版社·Zbl 1277.62016年
[32] Pomeroy,S.L。;巴勃罗,T。;米歇尔·G。;斯图拉·L·M。;等,《基于基因表达的中枢神经系统胚胎性肿瘤预后预测》,《自然》,4156870436-442(2002)
[33] 阿龙,美国。;北巴尔凯。;诺特曼,D.A。;Gish,K。;等,通过寡核苷酸阵列探测肿瘤和正常结肠组织的聚类分析揭示的广泛基因表达模式,《细胞生物学》。,96, 12, 6745-6750 (1999)
[34] Alizadeh,A.A。;艾森,M.B。;戴维斯,E。;马,C。;等,通过基因表达谱确定的弥漫性大b细胞淋巴瘤的不同类型,《自然》,403,6769,503-511(2000)
[35] Khan,J。;Wei,J.S.(魏建新)。;Ringner先生。;萨尔,L.H。;等人,《利用基因表达谱和人工神经网络对癌症进行分类和诊断预测》,《自然医学》,7,6,673-679(2001)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。