×

鲁棒Wasserstein轮廓推理及其在机器学习中的应用。 (英文) Zbl 1436.62336号

摘要:我们证明了几种机器学习估计量,包括平方最小绝对收缩和选择以及正则化logistic回归,可以表示为分布稳健优化问题的解决方案。相关的不确定性区域基于适当定义的Wasserstein距离。因此,我们的表述允许我们将正则化视为引入人为对手的结果,人为对手干扰经验分布,以解释损失估算中的样本外效应。此外,我们引入了RWPI(稳健Wasserstein轮廓推断),这是一种新的推理方法,它将经验似然启发的方法的使用扩展到了最佳运输成本的设置(Wassersstein距离是其中的一种特殊情况)。我们使用RWPI展示了如何以最佳方式选择不确定性区域的大小,因此,我们能够在不使用交叉验证的情况下为这些机器学习估计器选择正则化参数。数值实验也验证了我们的理论发现。

MSC公司:

62J07型 岭回归;收缩估计器(拉索)
62J12型 广义线性模型(逻辑模型)
68T05型 人工智能中的学习和自适应系统

软件:

闪耀
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Banerjee,A.、Chen,S.、Fazayeli,F.和Sivakumar,V.(2014)。范数正则化估计。程序中。神经信息处理系统进展27,神经信息处理体系基金会,第1556-1564页。
[2] Belloni,A.、Chernozhukov,V.和Wang,L.(2011年)。正方形LASSO:通过圆锥编程实现稀疏信号的关键恢复。生物计量学98791-806·兹比尔1228.62083
[3] Bertsimas,D.和Copenhaver,M.S.(2018)。线性回归和矩阵回归中鲁棒化和正则化等价性的表征。欧洲。J.操作。第270、931-942号决议·兹比尔1403.62040
[4] Bickel,P.J.、Ritov,Y.和Tsybakov,A.B.(2009年)。LASSO和Dantzig选择器的同时分析。《统计年鉴》371705-1732·Zbl 1173.62022号
[5] Billingsley,P.(2013)。概率测度的收敛性。奇切斯特约翰·威利父子公司·Zbl 0172.21201号
[6] Blanchet,J.和Kang,Y.(2016)。基于Wasserstein距离的样本外推断。预印,arXiv:1605.01340·Zbl 1472.90077号
[7] Blanchet,J.和Kang,Y.(2017年)。基于分布鲁棒优化的半监督学习。预印本,arXiv:1702.08848。
[8] Blanchet,J.和Murthy,K.(2016年)。通过优化运输量化分销模式风险。预印,arXiv:1604.01446·Zbl 1434.60113号
[9] Blanchet,J.、Kang,Y.和Murthy,K.(2019年)。鲁棒Wasserstein轮廓推理及其在机器学习中的应用。补充材料。可在http://doi.org/jpr.2019.49。 ·Zbl 1436.62336号
[10] Blanchet,J.、Murthy,K.和Si,N.(2018年)。基于最优运输的分布式鲁棒优化问题的置信域。正在准备中。
[11] Bravo,F.(2004)。基于经验似然的推断及其在一些计量经济模型中的应用。计量经济学理论20,231-264·Zbl 1072.62016年
[12] Candes,E.和Tao,T.(2007)。Dantzig选择器:当p远大于n时的统计估计Ann.Statist.352313-2351·Zbl 1139.62019号
[13] Chen,S.X.和Hall,P.(1993)。分位数的平滑经验似然置信区间。Ann.Statist.21,1166-1181年·兹比尔0786.62053
[14] Duchi,J.、Glynn,P.和Namkoong,H.(2016)。稳健优化的统计:广义经验似然方法。预打印,arXiv:1610.03425·Zbl 1473.62292号
[15] Efron,B.、Hastie,T.、Johnstone,I.和Tibshirani,R.(2004年)。最小角度回归。《统计年鉴》32,407-499·Zbl 1091.62054号
[16] Esfahani,P.和Kuhn,D.(2015)。使用Wasserstein度量的数据驱动分布式稳健优化:性能保证和易处理的重新设计。预打印,arXiv:1505.05116·Zbl 1433.90095
[17] Fournier,N.和Guillin,A.(2015)。关于经验测度的Wasserstein距离的收敛速度。探针。理论关联。字段162,707-738·Zbl 1325.60042号
[18] Frogner,C.、Zhang,C.、Mobahi,H.、Araya,M.和Poggio,T.A.(2015)。Wasserstein失学。程序中。神经信息处理系统进展28,神经信息处理体系基金会,第2053-2061页。
[19] Gao,R.和Kleywegt,A.J.(2016)。具有Wasserstein距离的分布鲁棒随机优化。预印,arXiv:1604.02199v1。
[20] Gotoh,J.-Y.、Kim,M.J.和Lim,A.E.(2017年)。分布稳健经验优化模型的校准。预印本,arXiv:1711.06565·Zbl 1485.90080号
[21] Hastie,T.、Tibshirani,R.、Friedman,J.和Franklin,J.(2005)。统计学习的要素:数据挖掘、推理和预测。数学。情报27,83-85。
[22] Hjort,N.L.、McKeague,I.和Van Keilegom,I.(2009年)。扩大经验似然的范围。《统计年鉴》371079-1111·Zbl 1160.62029号
[23] Isii,K.(1962年)。关于切比雪夫型不等式的尖锐性。Ann.Inst.统计。数学.14185-197·Zbl 0245.60014号
[24] K.奈特和W.傅(2000)。LASSO型估计量的渐近性。《Ann.Statist.281356-1378》·Zbl 1105.62357号
[25] Lam,H.(2016)。通过基于经验差异的分布稳健优化恢复最佳统计保证。预印,arXiv:1605.09349·兹比尔1455.90122
[26] Lam,H.和Zhou,E.(2016)。样本平均值近似中量化不确定性的经验似然方法。预印,arXiv:1604.02573·Zbl 1409.62073号
[27] Li,X.,Zhao,T.,Yuan,X.和Liu,H.(2015)。在R.J.Mach中用于高维线性回归和精确矩阵估计的flare包。学习。第16号决议,553-557·Zbl 1337.62007号
[28] Mohajerin Esfahani,P.和Kuhn,D.(2018年)。使用Wasserstein度量的数据驱动分布式稳健优化:性能保证和易处理的重新设计。数学。程序171115-166·Zbl 1433.90095
[29] Negahban,S.、Ravikumar,P.、Wainwright,M.和Yu,B.(2012年)。具有可分解正则化子的M-估计高维分析的统一框架。统计师。科学27,538-557·Zbl 1331.62350号
[30] Owen,A.(1988年)。单个函数的经验似然比置信区间。生物特征75,237-249·Zbl 0641.62032号
[31] Owen,A.(1990年)。经验似然比置信区。统计年鉴.1890-120·Zbl 0712.62040号
[32] Owen,A.(1991年)。线性模型的经验似然。《Ann.Statist.191725-1747》·Zbl 0799.62048号
[33] Owen,A.(2001年)。经验可能性。佛罗里达州博卡拉顿CRC出版社·Zbl 0989.62019
[34] Peyré,G.、Cuturi,M.和Solomon,J.(2016)。核矩阵和距离矩阵的Gromov-Wasserstein平均。程序中。Int.Conf.机器学习,第48卷。国际机器学习协会,第2664-2672页。
[35] Qin,J.和Lawless,J.(1994)。经验似然和一般估计方程。《统计年鉴》22,300-325·Zbl 0799.62049号
[36] Rachev,S.T.和Rüschendorf,L.(1998)。大众运输问题。第二卷:应用。施普林格科学与商业媒体,纽约·兹比尔0990.60500
[37] Rachev,S.T.和Rüschendorf,L.(1998年)。大众运输问题。第一卷:理论。Springer Science&Business Media,纽约·兹比尔0990.60500
[38] Rubner,Y.、Tomasi,C.和Guibas,L.J.(2000)。推土机距离作为图像检索的度量。国际。J.计算。愿景40,99-121·Zbl 1012.68705号
[39] Seguy,V.和Cuturi,M.(2015)。最优运输度量下概率测度的主测地线分析。神经信息处理系统进展,第28卷。神经信息处理系统基金会,第3312-3320页。
[40] Shafieezadeh-Abadeh,S.、Esfahani,P.和Kuhn,D.(2015)。分布稳健逻辑回归。神经信息处理系统进展,第28卷。神经信息处理系统基金会,第1576-1584页。
[41] Shafieezadeh-Abadeh,S.、Kuhn,D.和Esfahani,P.M.(2017年)。通过大众运输实现正规化。预印,arXiv:1710.10016·Zbl 1434.68450号
[42] Shapiro,A.(2001)。关于二次曲线线性问题的对偶理论。在半有限编程中,编辑M.á。Goberna和M.A.López,纽约斯普林格,第135-165页·Zbl 1055.90088号
[43] Smith,J.(1995)。广义切比雪夫不等式:决策分析中的理论和应用。运营商。第43号决议,807-825·Zbl 0842.90002号
[44] Solomon,J.、Rustamov,R.、Guibas,L.和Butscher,A.(2014)。推土机在离散表面上的距离。ACM事务处理。图表。33, 67:1-67:12. ·Zbl 1396.65063号
[45] Srivastava,S.、Cevher,V.、Tran-Dinh,Q.和Dunson,D.B.(2015)。WASP:通过子集后验的重心可缩放贝叶斯。程序中。机器学习研究,第38卷,第912-920页。
[46] Talagrand,M.(1992)。在许多维度上匹配随机样本。附录申请。大概2846-856·兹比尔0761.60007
[47] Tibshirani,R.(1996)。通过LASSO进行回归收缩和选择。J.R.统计。Soc.B[统计方法]58,267-288·Zbl 0850.62538号
[48] Villani,C.(2008)。最佳交通:新旧。Springer Science&Business Media,纽约·Zbl 1156.53003号
[49] Wu,C.(2004)。加权经验似然推断。统计师。探针。第66、67-79页·Zbl 1117.62468号
[50] Xu,H.、Caramanis,C.和Mannor,S.(2009年)。支持向量机的鲁棒性和正则化。J.马赫。学习。第10号决议,1485-1510·Zbl 1235.68209号
[51] Xu,H.、Caramanis,C.和Mannor,S.(2009年)。稳健回归和LASSO。神经信息处理系统进展,第21卷。神经信息处理系统基金会,第1801-1808页·Zbl 1366.62147号
[52] 周明(2015)。生存分析中的经验似然法。佛罗里达州博卡拉顿CRC出版社。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。