×

特征子集选择的马蹄形正则化。 (英语) Zbl 1469.62303号

摘要:特征子集选择在许多高维统计应用中出现,例如压缩感知和基因组学。\(\ell_0\)惩罚非常适合于此任务,但需要注意的是,它需要对所有模型进行NP-hard组合评估。最近一个相当有趣的领域是开发有效的算法来拟合对(gamma in(0,1))具有非凸(ell_gamma)惩罚的模型,这导致模型比凸(ell_1)或拉索惩罚更稀疏,但更难拟合。我们提出了一种用于特征子集选择的替代方法,称为马蹄正则化惩罚,并证明了其理论和计算优势。与现有非凸优化方法的区别在于,惩罚是适当先验对数的负数,这使得有效的期望最大化和局部线性近似算法能够用于优化,MCMC能够用于不确定性量化。在合成数据和实际数据中,生成的算法提供了更好的统计性能,并且计算所需的时间仅为最先进的非凸解算器的一小部分。

MSC公司:

2007年6月62日 岭回归;收缩估计器(拉索)
2015年1月62日 贝叶斯推断
62C10个 贝叶斯问题;贝叶斯过程的特征

软件:

稀疏的
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿布拉莫维茨,M。;Stegun,I.,《数学函数手册》(1965),纽约:多佛出版社,纽约·Zbl 0171.38503号
[2] Armagan,A.、Clyde,M.和Dunson,D.B.(2011年)。高斯广义β混合物,24,Shawe-Taylor,J.,Zemel,R.S.,Bartlett,P.,Pereira,F.C.N.和Weinberger,K.Q.(编辑),第523-531页。
[3] 阿玛根。;邓森,DB;Lee,J.,广义双Pareto收缩,Stat.Sin。,23, 1, 119-143 (2013) ·兹比尔1259.62061
[4] 巴恩多夫-尼尔森,O。;Kent,J。;Sørensen,M.,正态方差均值混合和z分布,Int.Stat.Rev.,50145-159(1982)·Zbl 0497.62019号
[5] Bhadra,A。;Datta,J。;Polson,NG;Willard,B.,全球局部收缩先验的默认贝叶斯分析,Biometrika,103,955-969(2016)·Zbl 1506.62343号
[6] Bhadra,A。;Datta,J。;Polson,NG;Willard,B.,超稀疏信号的马蹄形+估计器,贝叶斯分析。,12, 1105-1131 (2017) ·Zbl 1384.62079号
[7] Bhadra,A.、Datta,J.、Polson,N.G.和Willard,B.(2018年)。全球-本地混合:统一框架。arXiv:160407487·Zbl 1451.62038号
[8] Bhadra,A.、Datta,J.、Li,Y.和Polson,N.G.(2019a)。复杂和深层模型中机器学习的马蹄正则化。arXiv:190410939。
[9] Bhadra,A.、Datta,J.、Li,Y.、Polson,N.G.和Willard,B.T.(2019b)。马蹄形回归的预测风险。J.马赫。学习。第20、78、1-39号决议·Zbl 1489.62196号
[10] Bhadra,A.、Datta,J.、Polson,N.G.和Willard,B.T.(2019c)。拉索遇到马蹄铁:一项调查。即将到来的统计科学·Zbl 1429.62308号
[11] 巴塔查里亚,A。;帕蒂,D。;皮莱,NS;Dunson,DB,Dirichlet-Laplace最优收缩率先验,美国统计协会,110,1479-1490(2015)·兹比尔1373.62368
[12] Bhattacharya,A.、Chakraborty,A.和Mallick,B.K.(2016)。高维回归中高斯混合先验的快速采样。生物特征p asw042。
[13] 博格丹,M。;查克拉巴蒂,A。;弗洛姆莱,F。;Ghosh,JK,一些多重测试程序稀疏性下的渐近贝叶斯优化,Ann.Stat.,39,3,1551-1579(2011)·Zbl 1221.62012年
[14] 博伊德,S。;Vandenberghe,L.,凸优化(2004),剑桥:剑桥大学出版社,剑桥·兹比尔1058.90049
[15] Breheny,P。;Huang,J.,非凸惩罚回归的坐标下降算法,及其在生物特征选择中的应用,Ann.Appl。统计,5,1,232-253(2011)·Zbl 1220.62095号
[16] 卡瓦略,CM;Polson,NG;斯科特,JG,通过马蹄铁处理稀疏性,J.马赫。学习。W&CP研究,573-80(2009年)
[17] 卡瓦略,CM;Polson,NG;Scott,JG,稀疏信号的马蹄形估计器,Biometrika,97,465-480(2010)·Zbl 1406.62021号
[18] Datta,J。;Ghosh,JK,马蹄形先验贝叶斯风险的渐近性质,贝叶斯分析。,8, 1, 111-132 (2013) ·Zbl 1329.62122号
[19] Datta,J.和Ghosh,J.K.(2015)。为模型选择和估计寻找最佳目标先验。贝叶斯方法及其应用的当前趋势,225-242。
[20] 阿联酋登普斯特;新墨西哥州莱尔德;DB鲁宾,《通过EM算法从不完整数据中获得最大似然》,J.R.Stat.Soc.系列B,39,1-38(1977)·Zbl 0364.62022号
[21] Devroye,L.,非均匀随机变量生成(1986),纽约:Springer,纽约·Zbl 0593.65005号
[22] Dudoit,S。;Fridlyand,J。;Speed,TP,《使用基因表达数据进行肿瘤分类的鉴别方法比较》,《美国统计协会杂志》,97,457,77-87(2002)·Zbl 1073.62576号
[23] Efron,B.,《大尺度推断:估计、测试和预测的经验贝叶斯方法》,1(2010),剑桥:剑桥大学出版社,剑桥·Zbl 1277.62016年
[24] 埃夫隆,B。;哈斯蒂,T。;约翰斯通,I。;Tibshirani,R.,《最小角度回归》,《Ann.Stat.》,32,2,407-499(2004)·Zbl 1091.62054号
[25] 范,J。;Li,R.,《通过非一致惩罚似然进行变量选择及其预言属性》,美国统计协会,96,456,1348-1360(2001)·兹比尔1073.62547
[26] Gelman,A.,层次模型中方差参数的先验分布(Browne和Draper的文章评论),贝叶斯分析。,1, 3, 515-534 (2006) ·Zbl 1331.62139号
[27] Gneiting,T.,正态混合和双概率密度,J.Stat.Compute。同时。,59, 4, 375-384 (1997) ·Zbl 0912.62020号
[28] Golub,TR公司;丹麦斯洛尼姆;Tamayo,P。;华德,C。;加森贝克,M。;梅西洛夫,JP;科勒,H。;卢,马里兰州;唐宁,JR;马萨诸塞州Caligiuri;布鲁姆菲尔德,CD;兰德,ES,《癌症的分子分类:通过基因表达监测进行分类发现和分类预测》,《科学》,286,5439,531-537(1999)
[29] 亨特博士;Li,R.,《使用MM算法的变量选择》,《Ann.Stat.》,33,4,1617-1642(2005)·Zbl 1078.62028号
[30] Jeffreys,H。;Swirles,B.,《数学物理方法》(1972),剑桥:剑桥大学出版社,剑桥·Zbl 0238.00004
[31] 柯克帕特里克,S。;盖拉特,CD;Vecchi,MP,《模拟退火优化》,《科学》,220,4598,671-680(1983)·Zbl 1225.90162号
[32] Mazumder,R。;JH弗里德曼;Hastie,T.,《SparseNet:协调下降与非凸处罚》,《美国统计协会期刊》,第106期,第1125-1138页(2012年)·Zbl 1229.62091号
[33] 孟,XL;Rubin,DB,《通过ECM算法进行最大似然估计:一般框架》,Biometrika,80,2,267-278(1993)·Zbl 0778.62022号
[34] Natarajan,BK,线性系统的稀疏近似解,SIAM J.Compute。,24, 2, 227-234 (1995) ·Zbl 0827.68054号
[35] 内维尔,东南部;JT奥尔默罗德;Wand,M.,《连续稀疏信号收缩的平均场变分贝叶斯:陷阱和补救措施》,电子。J.Stat.,8,1,1113-1151(2014)·Zbl 1298.62050号
[36] 北卡罗来纳州帕里赫。;Boyd,S.,《近似算法》,Found。最佳趋势。,1, 3, 123-231 (2014)
[37] Piironen,J.和Vehtari,A.(2017年)。关于马蹄形先验中全局收缩参数的超先验选择,第905-913页。
[38] Polson,NG;Scott,JG,《全球收缩,局部行动:稀疏贝叶斯正则化和预测》,贝叶斯统计,9,501-538(2010)
[39] Polson,NG;Scott,JG,关于全局尺度参数的半柯西先验,贝叶斯分析。,7, 4, 887-902 (2012) ·Zbl 1330.62148号
[40] 波兰天然气公司;Scott,JG,《混合、包络和等级二元性》,J.R.Stat.Soc.系列B,78,701-727(2016)·Zbl 1414.62056号
[41] Polson,NG;斯科特,JG;Willard,BT,统计和机器学习中的近似算法,统计科学。,30, 4, 559-581 (2015) ·Zbl 1426.62213号
[42] Schifano,ED;斯特劳德曼,RL;Wells,MT,非光滑惩罚目标函数的优化最小化算法,Electron。J.Stat.,41258-1299(2010)·Zbl 1267.65009号
[43] Steutel,F.W.和Van Harn,K.(2003年)。实线上概率分布的无限可除性。CRC出版社·Zbl 1063.60001号
[44] 斯特劳德曼,RL;油井,MT;Schifano,ED,层次贝叶斯,最大后验估计量,最小凹惩罚似然估计,Electron。《J Stat.》,第7973-990页(2013年)·Zbl 1337.62172号
[45] 马萨诸塞州坦纳;Wong,WH,《通过数据增强计算后验分布》,美国统计协会,82,398,528-540(1987)·Zbl 0619.62029号
[46] Tibshirani,R.,《通过套索进行回归收缩和选择》,J.R.Stat.Soc.系列B,58,267-288(1996)·Zbl 0850.62538号
[47] 范德帕斯,S。;Kleijn,B。;van der Vaart,A.,马蹄形估计器:近黑色向量的后验浓度,电子。J.Stat.,82585-2618(2014)·兹比尔1309.62060
[48] 范德帕斯,S。;所罗门,JB;Schmidt-Hieber,J.,稀疏正态平均值问题中的后收缩条件,电子。J.Stat.,10,976-1000(2016)·Zbl 1343.62012年
[49] 范德帕斯,S。;Szabó,B。;van der Vaart,A.,马蹄铁的不确定性量化,贝叶斯分析。,12, 1221-1274 (2017) ·Zbl 1384.62155号
[50] Wang,H。;Pillai,NS,关于协方差矩阵估计的一类收缩先验,J.Compute。图表。统计,22,3,689-707(2013)
[51] Zhang,CH,最小最大凹惩罚下的几乎无偏变量选择,《美国统计年鉴》,38,2,894-942(2010)·Zbl 1183.62120号
[52] Zou,H.,《自适应套索及其预言属性》,美国统计协会,101,476,1418-1429(2006)·Zbl 1171.62326号
[53] 邹,H。;Hastie,T.,《通过弹性网进行正则化和变量选择》,J.R.Stat.Soc.系列B,67,2,301-320(2005)·兹比尔1069.62054
[54] 邹,H。;Li,R.,非冲突惩罚似然模型中的一步稀疏估计,Ann.Stat.,36,4,1509-1533(2008)·Zbl 1142.62027号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。