×

通过分布稳健优化学习性能一致的模型。 (英语) Zbl 1473.62019年

摘要:统计和机器学习的一个共同目标是学习能够很好地应对分布迁移的模型,例如潜在的异质子种群、未知的协变量迁移或未建模的时间效应。我们开发并分析了一个分布鲁棒随机优化(DRO)框架,该框架学习一个模型,该模型能够在数据生成分布的扰动下提供良好的性能。我们给出了该问题的凸形式,并提供了几个收敛保证。我们证明了有限样本极小极大上界和下界,表明分布稳健性有时以收敛速度为代价。我们给出了学习参数的极限定理,其中我们完全指定了极限分布,以便可以计算置信区间。在实际任务中,包括推广到未知子种群、细粒度识别和提供良好的尾部性能,分布式稳健方法通常表现出改进的性能。

MSC公司:

62C20个 统计决策理论中的Minimax过程
2012年12月62日 参数估计量的渐近性质
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agarwal,A.、Bartlett,P.L.、Ravikumar,P.和Wainwright,M.J.(2012)。随机凸优化预言复杂性的信息论下限。IEEE传输。Inf.理论58 3235-3249. ·Zbl 1365.94132号 ·doi:10.1109/TIT.2011.2182178
[2] Ahmadi-Javid,A.(2012年)。熵值风险:一种新的一致性风险度量。J.优化。理论应用。155 1105-1123. ·Zbl 1257.91024号 ·doi:10.1007/s10957-011-9968-2
[3] Aitkin,M.和Rubin,D.B.(1985年)。有限混合模型中的估计和假设检验。J.罗伊。统计师。Soc.序列号。B类47 67-75. ·Zbl 0576.62038号
[4] Ali,S.M.和Silvey,S.D.(1966年)。一种分布与另一种分布的散度系数的一般类别。J.罗伊。统计师。Soc.序列号。B类28 131-142. ·Zbl 0203.19902号
[5] Amodei,D.、Ananthanarayanan,S.、Anubhai,R.、Bai,J.、Battenberg,E.、Case,C.、Casper,J.、Catanzaro,B.、Cheng,Q.等人(2016)。深度语音2:英语和普通话的端到端语音识别会议记录33第三届国际机器学习会议173-182.
[6] 安德森·T·W(1955)。对称单峰函数在对称凸集上的积分和一些概率不等式。程序。阿默尔。数学。Soc公司。6 170-176. ·Zbl 0066.37402号 ·doi:10.2307/2032333
[7] Artzner,P.、Delbaen,F.、Eber,J.-M.和Heath,D.(1999)。一致的风险度量。数学。财务9 203-228. ·Zbl 0980.91042号 ·数字对象标识代码:10.1111/1467-9965.00068
[8] Asuncion,A.和Newman,D.J.(2007年)。UCI机器学习知识库。
[9] Atar,R.、Chowdhary,K.和Dupuis,P.(2015)。通过Rényi发散对风险敏感泛函的鲁棒界。SIAM/ASA J.不确定性。量化。3 18-33. ·Zbl 1341.60008号 ·doi:10.1137/130939730
[10] Bartlett,P.L.、Bousquet,O.和Mendelson,S.(2005)。局部Rademacher复杂性。安。统计师。33 1497-1537. ·Zbl 1083.62034号 ·doi:10.1214/009053605000000282
[11] Ben-David,S.、Blitzer,J.、Crammer,K.、Kulesza,A.、Pereira,F.和Vaughan,J.W.(2010年)。从不同领域学习的理论。机器。学习。79 151-175. ·Zbl 1470.68081号 ·文件编号:10.1007/s10994-009-5152-4
[12] Ben-David,S.、Blitzer,J.、Crammer,K.和Pereira,F.(2007年)。领域适应的表示分析。神经信息处理系统研究进展20 137-144.
[13] Ben-Tal,A.、den Hertog,D.、Waegenaere,A.D.、Melenberg,B.和Rennen,G.(2013)。受不确定概率影响的优化问题的稳健解。管理。科学。59 341-357.
[14] Ben Tal,A.、El Ghaoui,L.和Nemirovski,A.(2009年)。稳健优化.普林斯顿应用数学系列普林斯顿大学出版社,新泽西州普林斯顿·Zbl 1221.90001号 ·doi:10.1515/9781400831050
[15] Bertsimas,D.、Gupta,V.和Kallus,N.(2018年)。数据驱动的稳健优化。数学。程序。167 235-292. ·Zbl 1397.90298号 ·doi:10.1007/s10107-017-1125-8
[16] Bickel,S.、Brückner,M.和Scheffer,T.(2007)。针对不同培训和测试分布的区别学习。会议记录24第届国际机器学习大会.
[17] Blanchet,J.、Kang,Y.和Murthy,K.(2019年)。鲁棒Wasserstein轮廓推理及其在机器学习中的应用。J.应用。普罗巴伯。56 830-857. ·Zbl 1436.62336号 ·doi:10.1017/jpr.2019.49
[18] Blanchet,J.和Murthy,K.(2019)。通过优化运输量化分销模式风险。数学。操作。物件。44 565-600. ·Zbl 1434.60113号 ·doi:10.1287/门.2018.0936
[19] Blitzer,J.、McDonald,R.和Pereira,F.(2006年)。结构对应学习的领域适应。会议记录2006自然语言处理实证方法会议120-128. 计算语言学协会,宾夕法尼亚州斯特劳德斯堡。
[20] Blodgett,S.L.、Green,L.和O'Connor,B.(2016)。社交媒体中的人口方言变异:美国黑人英语个案研究。自然语言处理实证方法进展1119-1130.
[21] Boucheron,S.、Lugosi,G.和Massart,P.(2013)。集中不等式以下为:独立性的非渐近理论牛津大学出版社,牛津·Zbl 1337.60003号 ·doi:10.1093/acprof:oso/9780199535255.001.0001
[22] Boyd,S.和Vandenberghe,L.(2004)。凸优化剑桥大学出版社,剑桥·Zbl 1058.90049号 ·doi:10.1017/CBO9780511804441
[23] Bühlmann,P.和Meinshausen,N.(2016)。Magging:最大化非均匀大规模数据的聚合。程序。电气与电子工程师协会104 126-135.
[24] 蔡,Z.,樊,J.和李,R.(2000)。变系数模型的有效估计和推断。J.Amer。统计师。协会。95 888-902·Zbl 0999.62052号 ·doi:10.2307/2669472
[25] Cappé,O.,Moulines,E.和Rydén,T.(2005)。隐马尔可夫模型中的推理.统计学中的斯普林格系列纽约州施普林格·Zbl 1080.62065号
[26] Caruana,R.(1998)。多任务学习。学会学习95-133. 柏林施普林格。
[27] Cressie,N.和Read,T.R.C.(1984年)。多项优良性测试。J.罗伊。统计师。Soc.序列号。B类46 440-464. ·兹比尔0571.62017
[28] Csiszár,I.(1967年)。概率分布差异和间接观测的信息型度量。科学研究所。数学。匈牙利。2 299-318. ·Zbl 0157.25802号
[29] Daumé,H.III和Marcu,D.(2006年)。统计分类器的域自适应。J.人工智能研究。26 101-126. ·Zbl 1161.68724号 ·doi:10.1613/jair.1872
[30] de Campos,T.E.、Babu,B.R.和Varma,M.(2009)。自然图像中的字符识别。第四届计算机视觉理论与应用国际会议论文集.
[31] Delage,E.和Ye,Y.(2010年)。矩不确定性下的分布稳健优化及其在数据驱动问题中的应用。操作。物件。58 595-612. ·Zbl 1228.90064号 ·doi:10.1287/opre.1090.0741
[32] Denker,J.S.、Gardner,W.R.、Graf,H.P.、Henderson,D.、Howard,R.E.、Hubbard,W.、Jackel,L.D.、Baird,H.S.和Guyon,I.(1988)。手写邮政编码数字的神经网络识别器。神经信息处理系统研究进展1
[33] Duchi,J.C.(2018)。随机优化入门讲座。数据的数学.IAS/公园城市数学。序列号。25 99-185. 阿默尔。数学。佛罗里达州普罗维登斯Soc·Zbl 1448.68005号
[34] Duchi,J.C.、Glynn,P.W.和Namkoong,H.(2016)。稳健优化的统计:广义经验似然方法。可从arXiv:1610.03425获取。
[35] Duchi,J.C.和Namkoong,H.(2021)。补充“通过分布稳健优化实现统一性能的学习模型”https://doi.org/10.1214/20-AOS2004支持
[36] Dupuis,P.、Katsoulakis,M.A.、Pantazis,Y.和Plechánch,P.(2016)。随机动力学不确定性量化和灵敏度分析的路径空间信息界。SIAM/ASA J.不确定性。量化。4 80-111. ·Zbl 1371.65004号 ·doi:10.137/15M1025645
[37] Eldar,Y.C.、Ben-Tal,A.和Nemirovski,A.(2004)。有界数据不确定性确定性参数的线性极大极小遗憾估计。IEEE传输。信号处理。52 2177-2188. ·Zbl 1369.93592号 ·doi:10.1109/TSP.2004.831144
[38] Fan,J.和Zhang,W.(1999)。变系数模型中的统计估计。安。统计师。27 1491-1518. ·Zbl 0977.62039号 ·doi:10.1214/aos/1017939139
[39] Figueiredo,M.A.T.和Jain,A.K.(2002)。有限混合模型的无监督学习。IEEE传输。模式分析。机器。智力。24 381-396.
[40] Gao,R.和Kleywegt,A.J.(2016)。具有Wasserstein距离的分布鲁棒随机优化。可从arXiv:1604.02199获取。
[41] Gardner,R.J.(2002)。Brunn-Minkowski不等式。牛市。阿默尔。数学。Soc公司. (N.S公司.) 39 355-405. ·Zbl 1019.26008号 ·doi:10.1090/S0273-079-02-00941-2
[42] Ghosh,S.和Lam,H.(2019年)。随机模拟中的稳健分析:计算和性能保证。操作。物件。67 232-249. ·兹比尔1455.90002 ·doi:10.1287/opre.2018.1765
[43] Glasserman,P.和Xu,X.(2014)。稳健的风险度量和模型风险。数量。财务14 29-58. ·Zbl 1294.91076号 ·doi:10.1080/14697688.2013.822989
[44] Gotoh,J.-y.、Kim,M.J.和Lim,A.(2015)。稳健的经验优化与均值优化几乎相同。可在https://ssrn.com/abstract=2827400。 ·Zbl 1525.90300号
[45] Grother,P.J.、Quinn,G.W.和Phillips,P.J(2010)。2D静态图像人脸识别算法评估报告。NIST机构间/内部报告(NISTIR)7709。
[46] Hand,D.J.(2006)。分类器技术和进步的幻觉。统计师。科学。21 1-34. ·Zbl 1426.62188号 ·doi:10.1214/08834230600000060
[47] Hansen,L.P.和Sargent,T.J.(2008)。稳健性普林斯顿大学出版社,新泽西州普林斯顿·Zbl 1339.93001号 ·doi:10.1515/9781400829385
[48] Hiriart-Urruti,J.-B.和Lemaréchal,C.(1993)。凸分析和最小化算法。以下为:基本原理.德国数学研究所[数学科学基本原理] 305. 柏林施普林格。
[49] Hovy,D.和SØgaard,A.(2015)。标记性能与作者年龄相关。会议记录53计算语言学协会第三届年会(短文) 2 483-488.
[50] Huang,J.、Gretton,A.、Borgwardt,K.M.、Schölkopf,B.和Smola,A.J.(2007)。通过未标记的数据纠正样本选择偏差。神经信息处理系统研究进展20 601-608.
[51] Huber,P.J.(1981)。稳健的统计.概率与数理统计中的威利级数纽约威利·兹比尔0536.62025
[52] Huber,P.J.和Ronchetti,E.M.(2009年)。稳健的统计,第2版。概率统计中的威利级数新泽西州霍博肯威利·Zbl 1276.62022号 ·doi:10.1002/9780470434697
[53] Jia,Y.、Shelhamer,E.、Donahue,J.、Karayev,S.、Long,J.,Girshick,R.、Guadarrama,S.和Darrell,T.(2014)。Caffe:用于快速特征嵌入的卷积架构。可从arXiv:1408.5093获取。
[54] Jiang,R.和Guan,Y.(2016)。数据驱动的机会约束随机程序。数学。程序。158 291-327. ·Zbl 1346.90640号 ·doi:10.1007/s10107-015-0929-7
[55] Khosla,A.、Jayadevaprakash,N.、Yao,B.和Li,F.-F.(2011)。用于细粒度图像分类的新数据集。第一次精细视觉分类研讨会,IEEE计算机视觉和模式识别会议2 1-2.
[56] King,A.J.和Wets,R.J.-B.(1991年)。凸随机规划的表一致性。斯托克。斯托克。代表。34 83-92. ·Zbl 0733.90049号 ·doi:10.1080/174425091083833676
[57] Krokhmal,P.A.(2007年)。更高的力矩一致性风险度量。数量。财务7 373-387. ·Zbl 1190.91074号 ·网址:10.1080/14697680701458307
[58] Kusuoka,S.(2001)。关于不变律的相干风险测度。数学经济学进展,卷. 3.高级数学。经济。83-95. 东京施普林格·Zbl 1010.60030号 ·doi:10.1007/978-4-431-67891-54
[59] Lam,H.(2016)。随机系统的鲁棒灵敏度分析。数学。操作。物件。41 1248-1275. ·Zbl 1361.65008号 ·doi:10.1287/门2015.0776
[60] Lam,H.(2017)。对输入过程的串行依赖性的敏感性:一种稳健的方法。管理。科学。64 1311-1327.
[61] Lam,H.和Zhou,E.(2017年)。用于量化样本平均近似中不确定性的经验似然方法。操作。雷斯莱特。45 301-307. ·Zbl 1409.62073号 ·doi:10.1016/j.orl.2017.04.003
[62] Le Cam,L.和Yang,G.L.(2000)。统计学中的渐近以下为:一些基本概念,第2版。统计学中的斯普林格系列纽约州施普林格·Zbl 0952.62002号 ·doi:10.1007/978-1-4612-1166-2
[63] LeCun,Y.、Boser,B.、Denker,J.S.、Henderson,D.、Howard,R.E.、Hubbard,W.和Jackel,L.D.(1989)。反向传播应用于手写邮政编码识别。神经计算。1 541-551.
[64] Ledoux,M.和Talagrand,M.(1991)。Banach空间中的概率以下为:等周测量和过程.Ergebnisse der Mathematik和Ihrer Grenzgebiete(3) [数学及相关领域成绩(3)] 23. 柏林施普林格·Zbl 0748.60004号 ·doi:10.1007/978-3642-20212-4
[65] Lee,J.和Raginsky,M.(2017年)。基于Wasserstein距离的Minimax统计学习和领域适应。可从arXiv:1705.07815获取。
[66] McLachlan,G.和Peel,D.(2000年)。有限混合模型.概率统计中的威利级数以下为:应用概率统计Wiley Interscience,纽约·Zbl 0963.62061号 ·doi:10.1002/0471721182
[67] Meinshausen,N.和Bühlmann,P.(2015)。非均匀大规模数据中的Maximin效应。安。统计师。43 1801-1830. ·Zbl 1317.62059号 ·doi:10.1214/15-OS1325
[68] Mohajerin Esfahani,P.和Kuhn,D.(2018年)。使用Wasserstein度量的数据驱动分布式稳健优化:性能保证和易处理的重新设计。数学。程序。171 115-166. ·Zbl 1433.90095 ·doi:10.1007/s10107-017-1172-1
[69] Namkoong,H.和Duchi,J.C.(2016年)。具有(f)-发散的分布鲁棒优化的随机梯度方法。神经信息处理系统研究进展29
[70] Namkoong,H.和Duchi,J.C.(2017年)。凸目标方差正则化。神经信息处理系统研究进展30. ·Zbl 1489.62193号
[71] Owen,A.(1990年)。经验似然比置信区间。安。统计师。18 90-120. ·Zbl 0712.62040号 ·doi:10.1214/aos/1176347494
[72] Petersen,I.R.、James,M.R.和Dupuis,P.(2000)。具有相对熵约束的随机不确定系统的Minimax最优控制。IEEE传输。自动化。控制45 398-412. ·Zbl 0978.93083号 ·数字对象标识代码:10.1109/9.847720
[73] Pflug,G.和Wozabal,D.(2007年)。投资组合选择中的模糊性。数量。财务7 435-442. ·Zbl 1190.91138号 ·doi:10.1080/14697680701455410
[74] Recht,B.、Roelofs,R.、Schmidt,L.和Shankar,V.(2019年)。ImageNet分类器是否泛化为ImageNetwork?会议记录36第届国际机器学习大会.
[75] Redmond,M.和Baveja,A.(2002年)。一种数据驱动的软件工具,用于实现警察部门之间的合作信息共享。《欧洲期刊》。物件。141 660-678. ·Zbl 1081.68745号
[76] Rockafellar,R.T.和Uryasev,S.(2000年)。风险条件值的优化。J.风险2 21-42.
[77] Rockafellar,R.T.和Wets,R.J.-B.(1998)。变分分析.Wissenschaften公司董事[数学科学基本原理] 317. 柏林施普林格·Zbl 0888.49001号 ·doi:10.1007/978-3-642-02431-3
[78] Rothenhäusler,D.、Bühlmann,P.、Meinshausen,N.和Peters,J.(2018)。锚回归:异质数据符合因果关系。可从arXiv:1801.06229获取。
[79] Rothenhäusler,D.、Meinshausen,N.和Bühlmann,P.(2016)。非均匀大规模数据中最大效应的置信区间。高维数据的统计分析.阿贝尔交响乐团。11 255-277. 商会施普林格·Zbl 1384.62110号
[80] Saenko,K.、Kulis,B.、Fritz,M.和Darrell,T.(2010年)。使视觉类别模型适应新领域。欧洲计算机视觉会议记录213-226. 柏林施普林格。
[81] Sapiezynski,P.、Kassarig,V.和Wilson,C.(2017年)。性别失衡环境下的学业成绩预测。第十一届ACM推荐系统会议记录1 48-51.
[82] Shafieezadeh-Abadeh,S.、Esfahani,P.M.和Kuhn,D.(2015)。分布稳健逻辑回归。神经信息处理系统研究进展28 1576-1584.
[83] Shaked,M.和Shanthikumar,J.G.(2007年)。随机订单.统计学中的斯普林格系列纽约州施普林格·兹比尔1111.62016 ·数字对象标识代码:10.1007/978-0-387-34675-5
[84] Shapiro,A.(2013)。关于法不变风险测度的Kusuoka表示。数学。操作。物件。38 142-152. ·Zbl 1291.91125号 ·doi:10.1287/门1120.0563
[85] 夏皮罗,A.(2017)。分布稳健随机规划。SIAM J.优化。27 2258-2275. ·Zbl 1373.90089 ·doi:10.137/16M1058297
[86] Shapiro,A.、Dentcheva,D.和Ruszczynski,A.(2009年)。随机规划讲座以下为:建模与理论.MPS/SIAM优化系列9.宾夕法尼亚州费城SIAM;宾夕法尼亚州费城数学规划学会(MPS)·邮编:1183.90005 ·数字对象标识代码:10.1137/1.9780898718751
[87] Shimodaira,H.(2000)。通过加权对数似然函数改进协变量移位下的预测推断。J.统计。计划。推断90 227-244. ·Zbl 0958.62011号 ·doi:10.1016/S0378-3758(00)00115-4
[88] Sinha,A.、Namkoong,H.和Duchi,J.C.(2017)。通过原则性对抗训练证明分布式鲁棒性。可从arXiv:1710.10571获取。
[89] Sugiyama,M.、Krauledat,M.和Müller,K.-R.(2007年)。通过重要性加权交叉验证实现协变量移位适应。J.马赫。学习。物件。8 985-1005. ·Zbl 1222.68313号
[90] Sugiyama,M.、Nakajima,S.、Kashima,H.、Buenau,P.V.和Kawanabe,M.(2008)。带模型选择的直接重要性估计及其在协变量移位自适应中的应用。神经信息处理系统研究进展21 1433-1440.
[91] Talagrand,M.(1996)。重新审视独立。安·普罗巴伯。24 1-34. ·Zbl 0858.60019号 ·doi:10.1214/aop/1042644705
[92] Tatman,R.(2017)。YouTube自动字幕中的性别和方言偏见。第一期自然语言处理伦理研讨会1 53-59.
[93] Torralba,A.和Efros,A.A.(2011年)。无偏见地看待数据集偏差。IEEE计算机视觉与模式识别会议论文集1521-1528. IEEE,新泽西州皮斯卡塔韦。
[94] Tsuboi,Y.、Kashima,H.、Hido,S.、Bickel,S.和Sugiyama,M.(2009年)。大规模协变量移位自适应的直接密度比估计。J.信息处理。17 138-155.
[95] Udell,M.、Mohan,K.、Zeng,D.、Hong,J.、Diamond,S.和Boyd,S.(2014)。Julia中的凸优化。动态语言高性能技术计算第一次研讨会18-28. IEEE,新泽西州皮斯卡塔韦。
[96] Usui,Y.和Kondo,K.(2009年)。使用直方图交集核的sift图像特征约简方法。智能信号处理和通信系统国际研讨会(印度太平洋科学院) 517-520. IEEE,新泽西州皮斯卡塔韦。
[97] van Erven,T.和Harremoös,P.(2014)。雷尼散度和库尔贝克-莱布勒散度。IEEE传输。Inf.理论60 3797-3820·Zbl 1360.94180号 ·doi:10.1109/TIT.2014.2320050
[98] van der Vaart,A.W.(1998)。渐近统计.剑桥统计与概率数学系列3.剑桥大学出版社,剑桥·Zbl 0943.6202号 ·doi:10.1017/CBO978051180225
[99] van der Vaart,A.W.和Wellner,J.A.(1996)。弱收敛与经验过程以下为:统计应用.统计学中的斯普林格系列纽约州施普林格·兹比尔0862.60002 ·数字对象标识代码:10.1007/978-1-4757-2545-2
[100] Wald,A.(1945年)。最大风险最小化的统计决策函数。数学年鉴. (2) 46 265-280. ·Zbl 0063.08126号 ·doi:10.2307/1969022
[101] Wozabal,D.(2012年)。模糊条件下的优化框架。安·Oper。物件。193 21-47. ·Zbl 1255.91454号 ·doi:10.1007/s10479-010-0812-0
[102] Yu,B.(1997年)。阿苏德、法诺和勒康。Lucien Le Cam的节日423-435. 施普林格,纽约。
[103] Zou,H.和Hastie,T.(2005)。通过弹性网进行规则化和变量选择。J.罗伊。统计师。Soc.序列号。B类67 301-320 ·Zbl 1069.62054号 ·文件编号:10.1111/j.1467-9868.2005.005.x
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。