×

数学ZBZ-数学第一资源

通过大规模运输实现正规化。(英语) 兹布1434.68450
摘要:有监督学习中回归分类方法的目标是最小化经验风险,即在经验分布下量化预测误差的损失函数的期望值。当面临过度拟合的目标数据时,通常会通过添加规则化项来减轻训练的复杂性。本文利用分布鲁棒优化的思想引入了新的正则化技术,并对现有的方法给出了新的概率解释。具体地说,我们建议最小化最坏情况下的预期损失,其中最坏情况是所有(连续或离散)分布的球,这些分布与(离散)经验分布有界的运输距离。通过明智地选择球的半径,我们可以保证最坏情况下的期望损失为测试数据的损失提供了一个置信上限,从而提供了新的推广范围。我们证明了所得到的正则化学习问题是可处理的,并且可以对许多常用的损失函数进行可跟踪核化。提出的正则化方法也推广到神经网络。我们通过模拟实验和实证实验验证了理论上的样本外保证。

理学硕士:
68T05型 人工智能中的学习与自适应系统
60磅10 概率测度的收敛性
62F35层 鲁棒性和自适应程序(参数推理)
62小时30分 分类和区分;聚类分析(统计方面)
6205年 线性回归;混合模型
PDF格式 BibTeX公司 XML 引用
全文: 链接
参考文献:
[1] Y、 S.Abu Mostafa,M.Magdon Ismail,和H.-T.Lin.从数据中学习。AMLBook,2012年。
[2] N、 沃尔,哈兹,阿甘。线性时间机器学习的二阶随机优化。机器学习研究杂志,18:4148-4187,2017。
[三] M、 阿尔乔夫斯基、S.钦塔拉和L.博图。瓦瑟斯坦生成对抗网络。国际机器学习会议,第214-223页,2017年。
[4] K、 巴赫和李奇曼先生。UCI机器学习知识库,2013年。统一资源定位地址http://archive。集成电路。uci公司。edu/ml.可用来自http://archive.ics.uci.edu/ml。
[5] P、 巴特利特和门德尔森。Rademacher和Gaussian复杂性:风险边界和结构结果。机器学习研究杂志,3:463-4822002。
[6] A、 Ben Tal,L.El Ghaoi和A.Nemirovski。稳健优化。普林斯顿大学出版社,2009年。
[7] A、 Ben Tal,D.Den Hertog,A.De Waegenere,B.Melenberg和G.Rennen。不确定概率影响下优化问题的鲁棒解。管理科学,59(2):341-3572013年。
[8] J、 -D.Benamou、G.Carlier、M.Cuturi、L.Nenna和G.Peyr′e.正则化运输问题的迭代Bregman预测。暹罗科学计算杂志,37(2):A1111-A11382015。
[9] D、 伯塞卡斯。凸优化理论。雅典娜科学出版社,2009年。
[10] D、 伯西马斯和M.S.Copenhaver。线性回归与矩阵回归中正则化与鲁棒化等价性的刻画。欧洲运行杂志
[11] C、 巴塔查里亚。特征选择的二阶锥规划公式。机器学习研究杂志,5:1417-14332004。
[12] J、 布兰切特和K。默蒂。通过最优运输量化分布模型风险。运筹学数学,2019年。
[13] J、 布兰切特、Y.康和K.穆尔蒂。鲁棒Wasserstein轮廓推理及其在机器学习中的应用。arXiv预印本arXiv:1610.05627,2016年。
[14] J、 布兰切特、康永康、张福林、莫西。基于数据驱动的分布式稳健优化运输成本优化选择。arXiv预印本arXiv:1705.071522017年。
[15] S、 Boucheron,G.Lugosi和P.Massart。非交感独立性理论。牛津大学出版社,2013年。
[16] 五十、 布雷曼。偏差、方差和弧线分类器。技术报告,加州大学伯克利分校,1996年。
[17] J、 ——蔡福林,E.J.Cand'es,和Z.Shen。矩阵完备化的奇异值阈值算法。暹罗优化杂志,20(4):1956-1982,2010。
[18] G、 C.Calafiore和L.El Ghaoi。关于分布鲁棒机会约束线性规划。最优化理论与应用杂志,130(1):1-22,2006。
[19] K、 Chatfield,K.Simonyan,A.Vedaldi和A.Zisserman。细节中的魔鬼归来:深入研究卷积网。2014年英国机器视觉大会。
[20] C、 Cortes和V.Vapnik。支持向量网络。机器学习,20(3):273-2971995。
[21] M、 库图里。下沉角距离:最佳传输的光速计算。神经信息处理系统指南,2292-2300页,2013年。
[22] M、 库图里和D.Avis。基本度量学习。机器学习研究杂志,15:533-5642014。
[23] M、 库图里和A.Doucet。瓦瑟斯坦重心的快速计算。国际机器学习会议,第685-693页,2014年。
[24] B、 落叶的。多阶段随机规划的机器学习解法。博士论文,蒙特菲奥雷学院,列日大学,2010年。
[25] E、 黛丽。还有你。矩不确定性下的分布鲁棒优化及其在数据驱动问题中的应用。运筹学,58(3):595-6122010。
[26] J、 多纳休、贾玉英、欧文雅、霍夫曼、张恩章、郑恩哲、达雷尔。DeCAF:一种用于一般视觉识别的深卷积激活特征。国际间
[27] J、 杜奇,S.沙利夫·什瓦茨,Y.辛格和T.钱德拉。高效投影到“1球”上,以便在高维度中学习。国际机器学习会议,第272-279页,2008年。
[28] 五十、 El Ghaoui和H.Lebret。具有不确定数据的最小二乘问题的鲁棒解。暹罗矩阵分析与应用杂志,18(4):1035-10641997。
[29] H、 埃弗雷特III。求解资源优化配置问题的广义拉格朗日乘子法。运筹学,11(3):399-4171963年。
[30] M、 Everingham,L.Van Gool,C.K.Williams,J.Winn和A.Zisserman。Pascal可视化对象类(VOC)挑战。国际计算机视觉杂志,88(2):303-3382010。
[31] F、 Farnia和D.Tse。监督学习的极小极大方法。神经信息处理系统指南,第4240-42482016页。
[32] N、 福尼尔和A。桂林。关于经验测度的Wasserstein距离的收敛速度。概率论与相关领域,162(3-4):707-7382015。
[33] C、 Frogner,C.Zhang,H.Mobahi,M.Araya和T.A.Poggio。学习与瓦瑟斯坦的损失。神经信息处理系统指南,2053-20612015页。
[34] R、 高和A.Kleywegt。具有Wasserstein距离的分布鲁棒随机优化。arXiv预印本arXiv:1604.021992016年。
[35] J、 吴和西姆。分布鲁棒优化及其可处理逼近。运筹学,58(4):902-9172010。
[36] H、 Gouk,E.Frank,B.Pfahringer和M.Cree。通过加强Lipschitz连续性对神经网络进行正则化。arXiv预印本arXiv:1804.04368,2018年。
[37] N、 哈尔科,P.—G.马丁森和J.A.特罗普。寻找随机结构:构造近似矩阵分解的概率算法。暹罗评论,53
[38] G、 A.Hanasusanto,D.Kuhn和W.Wiesemann。随机规划问题的计算复杂性评述。数学规划A,159(1-2):557-5692016。
[39] D、 Hosmer,S.Lemeshow和R.X.Sturdivant。应用逻辑回归。John Wiley&Sons,2013年。
[40] K、 黄,杨,金一,吕先生,陈丽君。最小误差极大极小概率机。机器学习研究杂志,5:1253-12862004。
[41] R、 科恩克。分位数回归。剑桥大学出版社,2005年。
[42] A、 Krizhevsky,I.Sutskever和G.E.Hinton。用深卷积神经网络进行图像网络分类。神经信息处理系统指南,第1097-11052012页。
[43] G、 兰克丽特,L.El-Ghaoi,C.Bhattacharyya和M.I.Jordan。极大极小概率机。神经信息处理系统导论,801-8072002a页。
[44] G、 R.兰克丽特,L.El Ghaoui,C.Bhattacharyya和M.I.Jordan。一种稳健的极小极大分类方法。机器学习研究杂志,3:555-582200b。
[45] N、 劳伦斯和B。朔尔科普夫。在标签噪声存在下估计核Fisher判别式。国际机器学习会议,第306-306页,2001年。
[46] Y、 LeCun,C.Cortes和C.J.Burges。MNIST手写数字数据库,1998年。可用来自http://yann.lecun.com/exdb/mnist。
[47] C、 李和S.Mehrotra。一种寻找支持向量机的分布式鲁棒方法。可从优化在线获取,2015年。
[48] J、 李和拉金斯基。基于Wasserstein距离的Minimax统计学习。神经信息处理系统进展,第2687-2696页,2018年。
[49] N、 里查里特·洛伊普。动量和随机动量随机梯度,牛顿,近点和子空间下降方法。arXiv预印本arXiv:1712.096772017年。
[50] F、 罗和S.Mehrotra。基于Wasserstein度量的分布鲁棒优化分解算法及其在一类回归模型中的应用。欧洲的
[51] T、 宫东、T.Kataoka、M.Koyama和Y.Yoshida。生成对抗网络的频谱规范化。2018年国际学习代表大会。
[52] P、 Mohajerin Esfahani和D.Kuhn。使用Wasserstein度量的数据驱动分布式鲁棒优化:性能保证和可处理的重构。
[53] N、 Natarajan,I.S.Dhillon,P.K.Ravikumar和A.Tewari。用嘈杂的标签学习。神经信息处理系统进展,1196-12042013页。
[54] B、 Neyshabur、S.Bhojanapalli和N.Srebro。用PAC-Bayesian方法计算神经网络的频谱归一化裕度界。国际学术会议
[55] A、 尼坦达。随机近端梯度下降加速技术。神经信息处理系统指南,1574-1582页,2014年。
[56] R、 T.Rockafellar和R.J.-B.Wets。变分分析。斯普林格,2009年。
[57] Y、 鲁布纳,C.托马西和L.J.吉巴斯。作为图像检索度量的土方移动距离。国际计算机视觉杂志,40(2):99-1212000。
[58] K、 斯卡曼和A.维莫克斯。深层神经网络的Lipschitz正则性:分析和有效估计。神经信息处理系统指南,第3835-3844页,2018年。
[59] B、 舒尔科普夫和A.斯莫拉。核学习:支持向量机,正则化,优化,等等。麻省理工学院出版社,2001年。
[60] B、 舒奥尔科普夫、普拉特、泰勒、斯莫拉和威廉森。估计高维分布的支持度。神经计算,13(7):1443-14712001。
[61] S、 Shafieezadeh Abadeh,P.M.Esfahani和D.Kuhn。分布稳健logistic回归。神经信息处理系统指南,1576-1584页,2015年。
[62] S、 沙利夫·施瓦茨和S·本·大卫。理解机器学习:从理论到算法。剑桥大学出版社,2014年。
[63] A、 夏皮罗。关于二次曲线问题的对偶理论。在M.A.Goberna和M.A.L'opez,编辑,半无限编程,135-165页。学术出版社,2001年。
[64] P、 希瓦斯瓦米和杰巴拉。椭球形核心机。自然情报与统计,第484-4912007页。
〔65〕 P、 希瓦斯瓦米和杰巴拉。最大相对裕度和数据相关正则化。机器学习研究杂志,11:747-7882010。
[66] P、 K.Shivaswamy,C.Bhattacharyya和A.J.Smola。处理缺失和不确定数据的二阶锥规划方法。机器学习研究杂志,7:1283-13142006。
[67] A、 斯莫拉和B.朔奥尔科夫。支持向量回归教程。统计与计算,14(3):199-2222004。
[68] T、 斯特罗曼和G.Z.Grudic。极大极小概率机器回归公式。神经信息处理系统导论,第785-7922003页。
〔69〕 C、 塞格迪,W.扎勒巴,I.萨茨克弗,J.布鲁纳,D.埃尔汉,I.古德费罗和R.费格斯。神经网络有趣的特性。arXiv预印本arXiv:1312.61992013年。
[70] R、 提比拉尼。回归收缩和选择通过套索。英国皇家统计学会期刊B辑,58(1):267-2881996年。
[71] A、 N.蒂霍诺夫,V.I.阿森宁和F.约翰。不适定问题的解。温斯顿,1977年。
[72] C、 维拉尼。最佳运输方式:旧的和新的。斯普林格,2008年。
[73] J、 威德和巴赫。经验测度在Wasserstein距离上的渐近收敛速度和有限样本收敛速度。伯努利将于2019年亮相。
[74] T、 维托夫斯基,M.Tschannen,A.Stanic,P.Grohs和H.B–olcskei。离散深度特征提取:一种理论和新体系结构。国际机械会议
[75] W、 维斯曼,D.库恩和M.西姆。分布鲁棒凸优化。运筹学,62(6):1358-13762014。
[76] H、 Xu,C.Caramanis和S.Mannor。支持向量机的鲁棒性和正则化。机器学习研究杂志,10:1485-15102009。
[77] H、 Xu,C.Caramanis和S.Mannor。稳健回归和套索。IEEE信息论汇刊,56(7):3561-35742010。
[78] T、 Yang,M.Mahdavi,R.Jin,L.Zhang和Y.Zhou。基于随机规划的噪声标签多核学习。国际机器学习会议,第123-1302012页。
[79] M、 D.Zeiler和R.Fergus。可视化和理解卷积网络。欧洲计算机视觉会议,818-833页,2014年。
[80] C。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。