×

通过大众运输实现正规化。 (英语) Zbl 1434.68450号

总结:监督学习中回归和分类方法的目标是最小化经验风险,即期望一些损失函数量化经验分布下的预测误差。当面对稀缺的训练数据时,通常通过在目标中添加正则化项来减少过度拟合,从而降低假设的复杂性。在本文中,我们使用分布鲁棒优化的思想引入了新的正则化技术,并对现有技术给出了新的概率解释。具体而言,我们建议最小化最坏情况下的预期损失,其中最坏情况是从(离散)经验分布的有界运输距离的所有(连续或离散)分布中选取球。通过明智地选择该球的半径,我们可以确保最坏情况下的预期损失提供测试数据损失的置信上限,从而提供新的泛化边界。我们证明了由此产生的正则化学习问题是可处理的,并且可以对许多常见的损失函数进行可处理的核化。所提出的正则化方法也扩展到了神经网络。我们通过模拟和实证实验验证了我们的理论样本外保证。

理学硕士:

68T05型 人工智能中的学习和自适应系统
60B10型 概率测度的收敛性
62层35 鲁棒性和自适应程序(参数推断)
62H30型 分类和区分;聚类分析(统计方面)
62J05型 线性回归;混合模型
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] Y.S.Abu-Mostafa、M.Magdon-Ismail和H.-T.Lin。从数据中学习。AMLBook,2012年。
[2] N.Agarwal、B.Bullins和E.Hazan。线性时间机器学习的二阶随机优化。《机器学习研究杂志》,2017年18:4148-4187·Zbl 1441.90115号
[3] M.Arjovsky、S.Chintala和L.Bottou。Wasserstein生成性对抗网络。在机器学习国际会议上,第214-223页,2017年。
[4] K.Bache和M.Lichman。UCI机器学习库,2013年。统一资源定位地址http://archive。ics.uci.edu/ml可用来自http://archive.ics.uci.edu/ml。
[5] P.L.Bartlett和S.Mendelson。Rademacher和Gaussian复杂性:风险边界和结构结果。机器学习研究杂志,3:463-482002·Zbl 1084.68549号
[6] A.Ben-Tal、L.El Ghaoui和A.Nemirovski。稳健优化。普林斯顿大学出版社,2009年·Zbl 1221.90001号
[7] A.Ben-Tal、D.Den Hertog、A.De Waegenaere、B.Melenberg和G.Rennen。受不确定概率影响的优化问题的稳健解。管理科学,59(2):341-3572013。
[8] J.-D.Benamou、G.Carlier、M.Cuturi、L.Nenna和G.Peyre’e。正则化运输问题的迭代Bregman投影。SIAM科学计算杂志,37(2):A1111-A11382015·Zbl 1319.49073号
[9] D.贝尔塞卡斯。凸优化理论。雅典娜科学公司,2009年·Zbl 1242.90001号
[10] D.Bertsimas和M.S.Copenhaver。线性回归和矩阵回归中鲁棒化和正则化等价性的表征。欧洲操作杂志·Zbl 1403.62040号
[11] C.巴塔查里亚。特征选择的二阶锥规划公式。机器学习研究杂志,5:1417-14332004·Zbl 1222.68147号
[12] J.Blanchet和K.Murthy。通过优化运输量化分销模式风险。《运筹学数学》,2019年·Zbl 1434.60113号
[13] J.Blanchet、Y.Kang和K.Murthy。稳健的Wasserstein轮廓推理及其在机器学习中的应用。arXiv预印本arXiv:1610.056272016·Zbl 1436.62336号
[14] J.Blanchet、Y.Kang、F.Zhang和K.Murthy。分布式稳健优化的数据驱动最优运输成本选择。arXiv预印本arXiv:1705.071522017。
[15] S.Boucheron、G.Lugosi和P.Massart。集中不等式:独立性的非渐近理论。牛津大学出版社,2013年·Zbl 1279.60005号
[16] L.布雷曼。偏差、方差和电弧分类器。技术报告,加州大学伯克利分校,1996年。
[17] 蔡振峰、坎迪斯和沈振中。矩阵补全的奇异值阈值算法。SIAM优化杂志,20(4):1956-19822010·Zbl 1201.90155号
[18] G.C.Calafiore和L.El Ghaoui。关于分布稳健的机会约束线性规划。优化理论与应用杂志,130(1):1-222006·Zbl 1143.90021号
[19] K.Chatfield、K.Simonyan、A.Vedaldi和A.Zisserman。细节中魔鬼的回归:深入挖掘卷积网。2014年英国机器视觉大会。
[20] C.Cortes和V.Vapnik。支持向量网络。机器学习,20(3):273-2971995·兹比尔08316.8098
[21] M.Cuturi,《陷坑距离:最佳运输的光速计算》。神经信息处理系统进展,第2292-2300页,2013年。
[22] M.Cuturi和D.Avis。基础度量学习。机器学习研究杂志,15:533-5642014·Zbl 1317.68149号
[23] M.Cuturi和A.Doucet。Wasserstein重心的快速计算。2014年,在机器学习国际会议上,第685-693页。
[24] B.变形。多阶段随机规划的机器学习求解方法。2010年列日大学蒙特菲奥雷研究所博士论文。
[25] E.Delage和Y.Ye。力矩不确定性下的分布稳健优化及其在数据驱动问题中的应用。运筹学,58(3):595-6122010·Zbl 1228.90064号
[26] J.Donahue、Y.Jia、O.Vinyals、J.Hoffman、N.Zhang、E.Tzeng和T.Darrell。DeCAF:用于通用视觉识别的深度卷积激活功能。InInternational国际
[27] J.Duchi、S.Shalev-Shwartz、Y.Singer和T.Chandra。高效投射到高维度学习的“1球”上。国际机器学习会议,第272-2792008页。
[28] L.El Ghaoui和H.Lebret。具有不确定数据的最小二乘问题的稳健解。SIAM矩阵分析与应用杂志,18(4):1035-10641997·Zbl 0891.65039号
[29] H.Everett III。解决资源优化配置问题的广义拉格朗日乘子法。运筹学,11(3):399-4171963·Zbl 0113.14202号
[30] M.Everingham、L.Van Gool、C.K.Williams、J.Winn和A.Zisserman。Pascal可视对象类(VOC)挑战。国际计算机视觉杂志,88(2):303-3382010。
[31] F.Farnia和D.Tse。监督学习的极大极小方法。《神经信息处理系统进展》,第4240-4248页,2016年。
[32] N.Fournier和A.Guillin。关于经验测度的Wasserstein距离的收敛速度。概率论及相关领域,162(3-4):707-7382015·Zbl 1325.60042号
[33] C.Frogner、C.Zhang、H.Mobahi、M.Araya和T.A.Poggio。Wasserstein失学。《神经信息处理系统进展》,第2053-2061页,2015年。
[34] R.Gao和A.Kleywegt。具有Wasserstein距离的分布鲁棒随机优化。arXiv预印本arXiv:1604.021992016。
[35] J.Goh和M.Sim。分布稳健优化及其可处理近似。运筹学,58(4):902-9172010·Zbl 1228.90067号
[36] H.Gouk、E.Frank、B.Pfahringer和M.Cree。通过加强Lipschitz连续性对神经网络进行正则化。arXiv预印本arXiv:1804.043682018·Zbl 07432806号
[37] N.Halko、P.-G.Martinsson和J.A.Tropp。寻找具有随机性的结构:用于构造近似矩阵分解的概率算法。SIAM审查,53·Zbl 1269.65043号
[38] G.A.Hanasusanto、D.Kuhn和W.Wiesemann。随机规划问题的计算复杂性评述。数学规划A,159(1-2):557-5692016·Zbl 1345.90063号
[39] D.Hosmer、S.Lemeshow和R.X.Sturdivant。应用Logistic回归。John Wiley&Sons,2013年·Zbl 1276.62050号
[40] K.Huang、H.Yang、I.King、M.R.Lyu和L.Chan。最小误差最小最大概率机。机器学习研究杂志,5:1253-12862004·Zbl 1222.62071号
[41] R.Koenker。分位数回归。剑桥大学出版社,2005年·Zbl 1111.62037号
[42] A.Krizhevsky、I.Sutskever和G.E.Hinton。基于深度卷积神经网络的Imagenet分类。神经信息处理系统进展,第1097-1105页,2012年。
[43] G.Lanckriet、L.El Ghaoui、C.Bhattacharyya和M.I.Jordan。极小极大概率机器。神经信息处理系统进展,第801-8072002a页。
[44] G.R.Lanckriet、L.El Ghaoui、C.Bhattacharyya和M.I.Jordan。一种稳健的最小极大分类方法。机器学习研究杂志,3:555-5822002b·Zbl 1084.68657号
[45] N.Lawrence和B.Sch¨olkopf。在存在标签噪声的情况下估计核Fisher判别式。在机器学习国际会议上,第306-306页,2001年。
[46] Y.LeCun、C.Cortes和C.J.Burges。MNIST手写数字数据库,1998年。可用来自http://yann.lecun.com/exdb/mnist。
[47] C.Lee和S.Mehrotra。一种用于查找支持向量机的分布式ROBLOST方法。可从Optimization Online获取,2015年。
[48] J.Lee和M.Raginsky。Wasserstein距离的Minimax统计学习。《神经信息处理系统进展》,第2687-2696页,2018年。
[49] N.Loizou和P.Richt´arik。随机梯度的动量和随机动量,牛顿,近点和子空间下降法。arXiv预印本arXiv:1712.096772017。
[50] F.Luo和S.Mehrotra。基于Wasserstein度量的分布鲁棒优化分解算法及其在一类回归模型中的应用。欧洲·兹比尔1430.90557
[51] T.Miyato、T.Kataoka、M.Koyama和Y.Yoshida。生成性对抗网络的频谱归一化。2018年国际学习代表大会。
[52] P.Mohajerin Esfahani和D.Kuhn。使用Wasserstein度量的数据驱动分布式稳健优化:性能保证和易处理的重新设计·Zbl 1433.90095
[53] N.Natarajan、I.S.Dhillon、P.K.Ravikumar和A.Tewari。用嘈杂的标签学习。《神经信息处理系统进展》,第1196-1204页,2013年·Zbl 1467.68151号
[54] B.Neyshabur、S.Bhojanapalli和N.Srebro。神经网络光谱归一化边界的PAC-Baysian方法。国际学习会议
[55] A.尼坦达。使用加速技术的随机近端梯度下降。《神经信息处理系统进展》,第1574-1582页,2014年。
[56] R.T.Rockafellar和R.J.-B.Wets。变异分析。施普林格,2009年。
[57] Y.Rubner、C.Tomasi和L.J.Guibas。推土机距离作为图像检索的度量。国际计算机视觉杂志,40(2):99-1212000·兹比尔1012.68705
[58] K.Scaman和A.Virmaux。深度神经网络的Lipschitz正则性:分析和有效估计。《神经信息处理系统进展》,第3835-3844页,2018年。
[59] B.Sch¨olkopf和A.Smola。使用内核学习:支持向量机、正则化、优化及其他。麻省理工学院出版社,2001年。
[60] B.Sch–olkopf、J.C.Platt、J.Shawe-Taylor、A.J.Smola和R.C.Williamson。估计高维分布的支持度。神经计算,13(7):1443-14712001·Zbl 1009.62029号
[61] S.Shafieezadeh-Abadeh、P.M.Esfahani和D.Kuhn。分布稳健逻辑回归。《神经信息处理系统进展》,第1576-1584页,2015年。
[62] S.Shalev-Shwartz和S.Ben-David。理解机器学习:从理论到算法。剑桥大学出版社,2014年·Zbl 1305.68005号
[63] A.夏皮罗。关于二次曲线线性问题的对偶理论。在M.´A。Goberna和M.A.L´opez,编辑,《半无限编程》,第135-165页。Kluwer学术出版社,2001年·Zbl 1055.90088号
[64] P.K.Shivaswamy和T.Jebara。椭圆内核机。《人工智能与统计》,第484-4912007页。
[65] P.K.Shivaswamy和T.Jebara。最大相对裕度和数据相关正则化。机器学习研究杂志,11:747-7882010·Zbl 1242.68249号
[66] P.K.Shivaswamy、C.Bhattacharyya和A.J.Smola。处理缺失和不确定数据的二阶锥规划方法。机器学习研究杂志,7:1283-13142006·Zbl 1222.68305号
[67] A.Smola和B.Sch¨olkopf。支持向量回归教程。统计与计算,14(3):199-2222004。
[68] T.Strohmann和G.Z.Grudic。最小最大概率机器回归的公式。神经信息处理系统进展,第785-7922003页。
[69] C.Szegedy、W.Zaremba、I.Sutskever、J.Bruna、D.Erhan、I.Goodfellow和R.Fergus。神经网络的有趣特性。arXiv预印本arXiv:1312.61992013。
[70] R.Tibshirani。通过拉索回归收缩和选择。英国皇家统计学会期刊B辑,58(1):267-2881996·兹比尔0850.62538
[71] A.N.Tikhonov、V.I.Arsenin和F.John。不良问题的解决方案。温斯顿,1977年·Zbl 0354.65028号
[72] C.维拉尼。最佳交通:新旧。施普林格,2008年·Zbl 1156.53003号
[73] J.Weed和F.Bach。Wasserstein距离中经验测度的锐利渐近和有限样本收敛速度。将于2019年在伯努利亮相·Zbl 1428.62099号
[74] T.Wiatowski、M.Tschannen、A.Stanic、P.Grohs和H.B–olcskei。离散深度特征提取:理论和新架构。国际机器会议
[75] W.Wiesemann、D.Kuhn和M.Sim。分布稳健凸优化。运筹学,62(6):1358-13762014·Zbl 1327.90158号
[76] H.Xu、C.Caramanis和S.Mannor。支持向量机的鲁棒性和正则化。《机器学习研究杂志》,10:1485-15102009年·Zbl 1235.68209号
[77] H.Xu、C.Caramanis和S.Mannor。稳健回归和拉索。IEEE信息理论汇刊,56(7):3561-35742010·Zbl 1366.62147号
[78] T.Yang、M.Mahdavi、R.Jin、L.Zhang和Y.Zhou。基于随机规划的噪声标签多核学习。国际机器学习会议,第123-130页,2012年。
[79] M.D.Zeiler和R.Fergus。可视化和理解卷积网络。2014年欧洲计算机视觉会议,第818-833页。
[80] C、。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。