×

使用自一致性对M估计量进行有限样本分析。 (英语) Zbl 1490.62068号

摘要:参数估计量的经典渐近理论保证,在无限样本容量的极限下,即使在错误指定的情况下,超额风险也具有叉方型分布。我们演示了如何自我一致性损耗的百分比允许表征临界样本量足以保证对超额风险有一个chi-square类型的概率界限。具体来说,我们考虑了两类损失:(i)Nesterov和Nemirovski经典意义上的自洽损失,即其三阶导数与二阶导数的3/2幂一致有界;(ii)自动记录损失,为此断电。这些类别包含对应于几个广义线性模型的损失,包括逻辑损失和伪Huber损失。
我们在最小假设下的基本结果将临界样本大小限定为\(O(d\cdot d_{text{eff}})\),其中\(d)参数维和\(d_{text{eff{}}\)有效维是导致模型错误指定的原因。与现有结果相比,我们只强加地方的与人口风险最小化有关的假设。也就是说,我们假设校准的预测值,即按损失二阶导数平方根缩放的预测值在\(theta_*\)处为次高斯。此外,对于i型损失,我们要求在\(theta_*\)处的人口风险曲率的某些度量具有有界性。
我们改进的结果将上述临界样本大小限定为\[O(\max\{d_{text{eff}},d\log d\})\],前提是假设稍微强一些。也就是说,局部假设必须保持在人口风险的Dikin椭球给出的\(theta_*\)附近。有趣的是,我们发现,对于高斯设计的logistic回归,没有实际的条件限制:Dikin椭球上的次高斯参数和曲率测度保持近常数。最后,我们将这些结果推广到高维的(ell_1)惩罚估计。

MSC公司:

10层62层 点估计
2012年12月62日 参数估计量的渐近性质
62层35 鲁棒性和自适应程序(参数推断)
62甲12 多元分析中的估计
62J12型 广义线性模型(逻辑模型)
90 C90 数学规划的应用

软件:

DiSCO公司
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abramowitz,M.和Stegun,I.A.(1965年)。,数学函数手册:包括公式、图表和数学表格55。Courier公司。
[2] 巴赫·F(2010)。逻辑回归的自协调分析。,电子统计杂志4 384-414·Zbl 1329.62324号 ·doi:10.1214/09-EJS521
[3] 巴赫·F(2014)。logistic回归中平均随机梯度下降对局部强凸性的适应性。,机器学习研究杂志15 595-627·Zbl 1318.62224号
[4] Bach,F.和Moulines,E.(2013年)。具有收敛速度的非严格凸光滑随机逼近\(O(1/n)\)。年,《第26届神经信息处理系统国际会议论文集》1 773-781。
[5] Barbier,J.、Krzakala,F.、Macris,N.、Miolane,L.和Zdeborová,L.(2018)。广义线性模型中的相变、最优误差和消息传递的最优性。年,第31届学习理论会议记录75 728-731·Zbl 1416.62421号
[6] Bartlett,M.S.(1953年)。近似置信区间。二、。多个未知参数。,生物特征40 306-317·Zbl 0053.10404号 ·doi:10.1093/biomet/40.1-2.12
[7] Bartlett,P.L.、Jordan,M.I.和McAuliffe,J.D.(2006年)。凸性、分类和风险边界。,美国统计协会期刊101 138-156·Zbl 1118.62330号 ·doi:10.1198/01621450000000907
[8] Belloni,A.、Chernozhukov,V.和Wang,L.(2011年)。方形套索:通过圆锥曲线编程实现稀疏信号的关键恢复。,生物特征98 791-806·Zbl 1228.62083号 ·doi:10.1093/biomet/asr043
[9] Bickel,P.J.、Ritov,Y.和Tsybakov,A.B.(2009年)。Lasso和Dantzig选择器的同时分析。,统计年鉴37 1705-1732·Zbl 1173.62022号 ·doi:10.1214/08-AOS620
[10] Borovkov,A.A.(1998)。,数理统计。Gordon和Breach科学出版社·Zbl 0913.62002号
[11] Bubeck,S.和Eldan,R.(2015)。熵势垒:一个简单且最优的通用自洽势垒。年,《第28届学习理论会议论文集》40 279-279。
[12] Candes,E.和Tao,T.(2007)。Dantzig选择器:当\(p\)远大于\(n\)时的统计估计。,《统计年鉴》36 2313-2351·Zbl 1139.62019号 ·doi:10.1214/00905360000001523
[13] Caponetto,A.和De Vito,E.(2007年)。正则化最小二乘算法的最优速率。,计算数学基础7 331-368·Zbl 1129.68058号 ·doi:10.1007/s10208-006-0196-8
[14] Chernozhukov,V.、Chetverikov,D.和Kato,K.(2017年)。高维中心极限定理与bootstrap。,概率年鉴45 2309-2352·Zbl 1377.60040号 ·数字对象标识码:10.1214/16-AOP1113
[15] Christensen,R.(2006)。,对数线性模型和Logistic回归。施普林格科技与商业媒体·Zbl 0880.62073号
[16] Donoho,D.和Montanari,A.(2016)。高维稳健估计:通过近似消息传递的渐近方差。,概率论及相关领域166 935-969·Zbl 1357.62220号 ·doi:10.1007/s00440-015-0675-z
[17] Foster,D.J.、Kale,S.、Luo,H.、Mohri,M.和Sridharan,K.(2018年)。逻辑回归:不当的重要性。年,第31届学习理论会议记录75 167-208。
[18] Hazan,E.、Koren,T.和Levy,K.Y.(2014)。Logistic回归:随机和在线优化的严格界限。在,《第27届学习理论会议论文集》,第35期,197-209年。
[19] Hsu,D.、Kakade,S.M.和Zhang,T.(2012)。岭回归的随机设计分析。,机器学习研究杂志23 1-24·Zbl 1298.62120号 ·doi:10.1007/s10208-014-9192-1
[20] Hsu,D.、Kakade,S.M.和Zhang,T.(2012)。亚高斯随机向量二次型的尾部不等式。,概率电子通信17 1-6·Zbl 1309.60017号
[21] Hsu,D.和Sabato,S.(2016)。损耗最小化和具有重尾的参数估计。,机器学习研究杂志17 543-582·Zbl 1360.62380号
[22] Huber,P.J.(1964年)。位置参数的稳健估计。,《数理统计年鉴》35 73-101·Zbl 0136.39805号 ·doi:10.1214/aoms/1177703732
[23] Huber,P.J.(2011)。稳健的统计数据。年,国际统计科学百科全书1248-1251。斯普林格。
[24] Ibragimov,I.A.和Hasminskii,R.Z.(2013)。,统计估计:渐近理论。施普林格科技与商业媒体·Zbl 0705.62039号 ·doi:10.1214/aos/1176347736
[25] Juditsky,A.和Nemirovski,A.S.(2011年)。关于通过(\ell_1)-最小化恢复稀疏信号的可验证充分条件。,数学编程127 57-88·Zbl 1211.90333号 ·doi:10.1007/s10107-010-0417-z
[26] Klenke,A.(2013)。,概率论:综合课程。施普林格科技与商业媒体·Zbl 1451.60003号
[27] Koltchinskii,V.和Lounici,K.(2017年)。样本协方差算子的集中不等式和矩界。,伯努利23 110-133·Zbl 1366.60057号 ·doi:10.3150/15-BEJ730
[28] Laurent,B.和Massart,P.(2000年)。通过模型选择对二次函数的自适应估计。,《统计年鉴》28 1302-1338·Zbl 1105.62328号 ·doi:10.1214/aos/1015957395
[29] Lee,J.D.、Sun,Y.和Saunders,M.A.(2014)。最小化复合函数的近似牛顿型方法。,SIAM优化杂志24 1420-1443·兹比尔1306.65213 ·doi:10.1137/130921428
[30] Lehmann,E.L.和Casella,G.(2006)。,点估计理论。施普林格科技与商业媒体·Zbl 0916.62017号
[31] Loh,P.-L.(2017)。高维稳健估计的统计一致性和渐近正态性。,《统计年鉴》45 866-896·Zbl 1371.62023号 ·doi:10.1214/16-AOS1471
[32] Loh,P.-L.和Wainwright,M.J.(2011)。具有噪声和缺失数据的高维回归:具有非凸性的可证明保证。年,《神经信息处理系统进展》2726-2734。
[33] Loh,P.-L.和Wainwright,M.J.(2015)。非凸正则M-估计:局部最优的统计和算法理论。,机器学习研究杂志16 559-616·Zbl 1360.62276号
[34] Loh,P.-L.和Wainwright,M.J.(2017)。无非相干支持恢复:非凸正则化的一个例子。,《统计年鉴》45 2455-2482·Zbl 1385.62008号 ·doi:10.1214/16-AOS1530
[35] Marteau-Ferey,U.、Bach,F.和Rudi,A.(2019年)。病态广义自协调损失的全局收敛牛顿法。,arXiv:1907.01771年。
[36] Marteau-Ferey,U.、Ostrovskii,D.、Bach,F.和Rudi,A.(2019)。,超越最小二乘法:通过自我协调实现规范化经验风险最小化的快速率99。美国凤凰城PMLR。
[37] McCullagh,P.和Nelder,J.A.(1989)。,广义线性模型,第二版。查普曼和霍尔·Zbl 0744.62098号
[38] Mehta,N.A.(2017年)。在经验凹统计学习中具有高概率的快速率。年,《第20届国际人工智能与统计会议论文集》54 1085-1093。
[39] Mei,S.、Bai,Y.和Montanari,A.(2018年)。非凸损失的经验风险。,《统计年鉴》46 2747-2774·Zbl 1409.62117号 ·doi:10.1214/17-AOS1637
[40] Mendelson,S.和Zhivotovskiy,N.(2018年)。范数等价下的稳健协方差估计。,arXiv:1809.10462·Zbl 1451.62084号 ·doi:10.1214/19-AOS1862
[41] Negahban,S.N.、Ravikumar,P.、Wainwright,M.J.和Yu,B.(2012年)。具有可分解正则化子的(M)-估计的高维分析的统一框架。,统计科学27 538-557·兹比尔1331.62350 ·doi:10.1214/12-STS400
[42] Nesterov,Y.(2013)。,凸优化入门讲座:基础课程。施普林格科技与商业媒体·Zbl 1086.90045号
[43] Nesterov,Y.和Nemirovski,A.S.(1994)。,凸规划中的内点多项式算法。工业和应用数学学会·Zbl 0824.90112号
[44] Ostrovskii,D.M.和Bach,F.(2018年)。使用自一致性的M-估计量的有限样本分析。,arXiv:1810.06838。
[45] Ostrovskii,D.M.和Rudi,A.(2019年)。重尾分布的仿射不变协方差估计。年,《第三十二届学习理论会议论文集》99 2531-2550。美国凤凰城PMLR。
[46] Pollard,D.(1990)。,经验过程:理论与应用。NSF-CBMS概率与统计区域会议系列。数理统计研究所和美国统计协会·Zbl 0741.60001号
[47] Rockafellar,R.T.(1970)。,凸分析。普林斯顿大学出版社·Zbl 0193.18401号
[48] Rush,C.和Venkataramanan,R.(2018年)。近似消息传递算法的有限样本分析。,IEEE信息理论汇刊·Zbl 1432.62017年 ·doi:10.10109/TIT.2018.2816681
[49] Spokoiny,V.(2012)。参数估计。有限样本理论。,《统计年鉴》40 2877-2909·Zbl 1296.62051号 ·doi:10.1214/12-AOS1054
[50] Sun,T.和Tran-Dini,Q.(2018年)。广义自相关函数:牛顿型方法的配方。,数学编程169 1-69·Zbl 1430.90464号 ·doi:10.1007/s10107-018-1282-4
[51] Sur,P.和Candès,E.J.(2019)。高维logistic回归的现代极大似然理论。,美国国家科学院院刊116 14516-14525·Zbl 1431.62084号 ·doi:10.1073/pnas.1810420116
[52] Talagrand,M.(2006)。,一般链:随机过程的上下限。施普林格科技与商业媒体·Zbl 1075.60001号
[53] Thrampoulidis,C.、Abbasi,E.和Hassibi,B.(2018年)。高维正则化(M\)估计的精确误差分析。,IEEE信息理论汇刊64 5592-5628·Zbl 1401.94051号 ·doi:10.1109/TIT.2018.2840720
[54] Tibshirani,R.(1996)。通过拉索回归收缩和选择。,英国皇家统计学会杂志,B辑(方法学)58 267-288·Zbl 0850.62538号 ·doi:10.1111/j.2517-6161.1996.tb02080.x
[55] Tran-Dini,Q.、Kyrillidis,A.和Cevher,V.(2015)。复合自相关最小化。,机器学习研究杂志16 371-416·Zbl 1337.68231号
[56] van de Geer,S.A.和Müller,P.(2012)。高维拟似然和/或稳健估计。,统计科学27 469-480·Zbl 1331.62354号 ·doi:10.1214/12-STS397
[57] van der Vaart,A.W.(1998)。,渐近统计。剑桥统计与概率数学系列。剑桥大学出版社·Zbl 0910.62001号
[58] Vershynin,R.(2011)。高维分布边缘矩的近似。,概率年鉴39 1591-1606·Zbl 1271.62122号 ·doi:10.1214/10-AOP589
[59] Vershynin,R.(2012)。介绍随机矩阵的非渐近分析。年,《压缩传感:理论与应用》210-268。剑桥大学出版社。
[60] Vovk,V.(1998)。一场有专家建议的预测游戏。,计算机与系统科学杂志56 153-173·Zbl 0945.68528号 ·doi:10.1006/jcss.1997.1556
[61] Wei,X.和Minsker,S.(2017)。重尾分布协方差结构的估计。年,神经信息处理系统进展2859-2868。
[62] White,H.(1982)。错误指定模型的最大似然估计。,《计量经济学:计量经济学社会杂志》50 1-25·Zbl 0478.62088号 ·doi:10.2307/1912526
[63] Zhang,Y.和Lin,X.(2015)。DiSCO:自相关经验损失的分布式优化。年,《第32届机器学习国际会议论文集》37 362-370。
[64] Zhang,Y.,Wainwright,M.J.和Jordan,M.I.(2017)。稀疏线性模型的最优预测?坐标可分M-估计量的下限。,电子统计杂志11 752-799·Zbl 1362.62053号 ·doi:10.1214/17-EJS1233
[65] Zhou,C.,Gao,W.和Goldfarb,D.(2017)。最小化期望值的随机自适应拟Newton方法。年,第34届机器学习国际会议论文集4150-4159。
[66] 周,S。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。