×

恶意数据的PAC-Baysian边界更简单。 (英语) Zbl 1464.62238号

总结:PAC-Baysian学习边界是学习社区最感兴趣的。它们的作用是将聚集分布(rho)的泛化能力与其经验风险以及相对于某些先验分布(pi)的Kullback-Leibler发散联系起来。不幸的是,大多数可用边界通常依赖于大量假设,例如观测值的有界性和独立性。本文旨在放松这些约束,并提供了PAC-Baysian学习边界,该边界适用于依赖的重尾观测(以下简称为恶意数据). 在这些边界中,库拉克-莱布勒散度被替换为一般形式的Csiszár散度。我们证明了一般的PAC-Baysian界,并展示了如何在各种敌对环境中使用它。

MSC公司:

2015年1月62日 贝叶斯推断
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿加瓦尔,A;Duchi,JC,相关数据在线算法的泛化能力,IEEE信息理论汇刊,59573-587,(2013)·Zbl 1364.68372号 ·doi:10.10109/TIT.2012.2212414
[2] Alquier,P.和Li,X.(2012年)。通过统计学习预测分位数,并将其应用于gdp预测。2012年第十五届发现科学国际会议(第23-36页)。施普林格
[3] 阿尔基尔,P;Wintenberger,O,《弱相关时间序列预测的模型选择》,Bernoulli,18,883-913,(2012)·Zbl 1243.62117号 ·doi:10.3150/11-BEJ359
[4] 阿尔基尔,P;李,X;Wintenberger,O,《通过统计学习预测时间序列:一般损失和快速率》,依赖建模,165-93,(2013)·Zbl 06297673号 ·doi:10.2478/demo-2013-0004
[5] Alquier,P.、Ridgway,J.和Chopin,N.(2016)。关于gibbs后验函数的变分逼近的性质。机器学习研究杂志,17(239), 1-41. http://jmlr.org/papers/v17/15-290.html。 ·Zbl 1437.62129号
[6] Audibert,J-Y,《通过聚合进行统计推断的快速学习率》,《统计年鉴》,第37期,第1591-1646页,(2009年)·Zbl 1360.62167号 ·doi:10.1214/08-AOS623
[7] 奥迪伯特,J-Y;Catoni,O,稳健线性最小二乘回归,《统计年鉴》,39,2766-2794,(2011)·Zbl 1231.62126号 ·doi:10.1214/11-AOS918
[8] Bégin,L.、Germain,P.、Laviolette,F.和Roy,J.-F.(2016)。基于Rényi散度的PAC-Bayesian界。第19届国际人工智能与统计会议论文集(第435-444页)。
[9] Boucheron,S.、Lugosi,G.和Massart,P.(2013)。集中不等式:一个非共鸣的独立理论牛津:牛津大学出版社·Zbl 1279.60005号 ·doi:10.1093/acprof:oso/9780199535255.001.0001
[10] Catoni,O;Picard,J(编辑),统计学习理论和随机优化,(2004),柏林·Zbl 1076.93002号
[11] Catoni,O.(2007)。PAC-Baysian监督分类:统计学习的热力学。数理统计研究所讲义专著系列(第56卷)。俄亥俄州比奇伍德:数理统计研究所·Zbl 1277.62015年
[12] Catoni,O.(2012)。挑战经验均值和经验方差:偏差研究。《亨利·庞加莱研究所年鉴》,概率与统计(第48卷,第1148-1185页)。巴黎:亨利·彭加莱研究所·Zbl 1282.62070号
[13] Catoni,O.(2016)。随机设计的Gram矩阵和最小二乘回归的PAC-Bayesian界。arXiv:1603.05229·Zbl 1404.68114号
[14] Csiszár,I.和Shields,P.C.(2004年)。信息理论与统计学教程布雷达:现在出版公司·Zbl 1156.62300号
[15] Dedecker,J.、Doukhan,P.、Lang,G.、Rafael,L.R.J.Louhichi,S.和Prieur,C.(2007)。依赖性弱。弱依赖性:示例和应用(第9-20页)。柏林:斯普林格·Zbl 1165.62001号
[16] Devroye,L.、Györfi,L.和Lugosi,G.(1996)。模式识别的概率理论柏林:施普林格·Zbl 0853.68150号 ·doi:10.1007/978-1-4612-0711-5
[17] Devroye,L.、Lerasle,M.、Lugosi,G.和Oliveira,R.I.(2015)。亚高斯平均估计量。arXiv:1509.05845·兹比尔1360.62115
[18] Dinh,V.C.,Ho,L.S.,Nguyen,B.,&Nguyen-D.(2016)。学习速度快,损失惨重。在D.D.Lee、M.Sugiyama、U.V.Luxburg、I.Guyon和R.Garnett(编辑)中,神经信息处理系统研究进展(第29卷,第505-513页)。Curran Associates公司。,http://papers.nips.cc/paper/6104-fast-learning-rates-with-heavy-tailed-losses.pdf。
[19] Doukhan,P.(1994)。混合:特性和示例,《统计学讲稿》,纽约:施普林格出版社·Zbl 0801.60027号 ·doi:10.1007/978-1-4612-2642-0
[20] Giraud,C;鲁埃夫,F;Sanchez-Pèrez,A,非平稳次线性过程的预测因子聚合和时变自回归过程的在线自适应预测,《统计年鉴》,43,2412-2450,(2015)·Zbl 1327.62478号 ·doi:10.1214/15-AOS1345
[21] Giulini,I.(2015)。Hilbert空间中主成分分析的PAC-Bayesian界。arXiv:1511.06263·Zbl 1364.60030号
[22] Grünwald,P.D.和Mehta,N.A.(2016年)。快速的利率和无限的损失。arXiv:1605.00252。
[23] Guedj,B;Alquier,P,PAC-稀疏可加模型中的贝叶斯估计和预测,《统计学电子期刊》,第7期,第264-291页,(2013年)·兹比尔1337.62075 ·doi:10.1214/13-EJS771
[24] 纪尧姆,L.和马蒂厄,L.(2017)。学习妈妈的原则。arXiv:1701.01961年。
[25] Honorio,J.和Jaakkola,T.(2014)。线性分类器和PAC-Bayes有限样本保证的预期风险的严格界限。第17届国际人工智能与统计会议记录(第384-392页)·Zbl 1360.62167号
[26] 徐,D;Sabato,S,《重尾损失最小化和参数估计》,《机器学习研究杂志》,17,1-40,(2016)·Zbl 1360.62380号
[27] 洛杉矶康托洛维奇;拉马南,K;等。,基于鞅方法的相依随机变量的集中不等式,《概率年鉴》,36,2126-2158,(2008)·Zbl 1154.60310号 ·doi:10.1214/07-AOP384
[28] Kuznetsov,V.和Mohri,M.(2014)。非平稳过程时间序列预测的推广界。算法学习理论国际会议(第260-274页)。斯普林格·Zbl 1432.62304号
[29] Langford,J.和Shawe-Taylor,J.(2002年)。PAC-Bayes和利润。第十五届神经信息处理系统国际会议记录(第439-446页)。麻省理工学院出版社·兹比尔1242.62057
[30] Lecué,G.和Mendelson,S.(2016)。规则化和小球方法I:稀疏回收。arXiv:1601.05584·Zbl 1242.62060号
[31] 伦敦,B;黄,B;Getoor,L,《结构化预测中的稳定性和泛化》,《机器学习研究杂志》,17,1-52,(2016)·Zbl 1404.68114号
[32] Lugosi,G.和Mendelson,S.(2016年)。通过中位数比赛将风险降至最低。arXiv:1608.00757·Zbl 1243.62117号
[33] Lugosi,G.和Mendelson,S.(2017年)。规则化、稀疏恢复和中位数比赛。arXiv:1701.04112。
[34] McAllester,D.A.(1998年)。一些PAC-Baysian定理。第十一届计算学习理论年会论文集(第230-234页)。纽约:ACM。
[35] McAllester,D.A.(1999)。PAC-Baysian模型平均。第十二届计算学习理论年会论文集(第164-170页)。ACM公司·Zbl 1242.68238号
[36] Mendelson,S.(2015)。学习不专心。ACM学报,62(3), 21:1-21:25. 国际标准编号:0004-5411。https://doi.org/10.1145/2699439。 ·Zbl 1333.68232号
[37] Minsker,S,Banach空间中的几何中值和稳健估计,Bernoulli,212308-2335,(2015)·Zbl 1348.60041号 ·doi:10.3150/14-BEJ645
[38] 莫达,DS;Masry,E,平稳随机过程的记忆普遍预测,IEEE信息理论汇刊,44117-133,(1998)·Zbl 0938.62106号 ·数字对象标识代码:10.1109/18.650998
[39] 莫赫里,M;Rostamizadeh,A,平稳(φ)混合和(β)混合过程的稳定性界限,机器学习研究杂志,11,789-814,(2010)·Zbl 1242.68238号
[40] Oliveira,R.I.(2013)。随机二次型的下尾,应用于普通最小二乘和限制特征值性质。arXiv:1312.2903。(出现在概率论及相关领域)
[41] 一对,L;安吉塔,D;Ridela,S,PAC-Baysian分布相关先验分析:更严格的风险边界和稳定性分析,模式识别快报,80,200-207,(2016)·doi:10.1016/j.parec.2016.0.019
[42] 拉莱沃拉,L;萨夫兰斯基,M;Stempfel,G,《非iid数据的彩色PAC-Bayes界:排序和平稳(β)混合过程的应用》,《机器学习研究杂志》,11927-1956,(2010)·兹比尔1242.62057
[43] Rio,E.(2000年)。faiblement dépendants的进程渐近线(第31卷)。柏林:数学与应用·Zbl 0944.60008号
[44] Seeger,M,PAC-高斯过程分类的贝叶斯泛化误差界,机器学习研究杂志,3,233-269,(2002)·Zbl 1088.68745号 ·数字对象标识代码:10.1162/153244303765208377
[45] 塞尔丁,Y;Tishby,N,PAC共同聚类及其后的贝叶斯分析,机器学习研究杂志,11,3595-3646,(2010)·Zbl 1242.62060号
[46] Seldin,Y.、Auer,P.、Shawe-Taylor,J.、Ortner、R&Laviolette,F.(2011)。PAC-Baysian对相关盗贼的分析。神经信息处理系统研究进展(第1683-1691页)·Zbl 1348.60041号
[47] 塞尔丁,Y;拉维奥莱特,F;塞萨·比安奇,N;肖·泰勒,J;Auer,P,PAC-Baysian鞅不等式,IEEE信息理论汇刊,587086-7093,(2012)·Zbl 1364.60030号 ·doi:10.10109/TIT.2012.2211334
[48] Shawe-Taylor,J.和Williamson,R.(1997)。贝叶斯估计的PAC分析。第十届计算学习理论年会论文集(第2-9页)。纽约:ACM。
[49] Steinwart,I.和Christmann,A.(2009年)。从非iid观察中快速学习。神经信息处理系统研究进展(第1768-1776页)。
[50] Taleb,N.N.(2007年)。黑天鹅:极不可能的影响纽约:兰登书屋。
[51] LG Valiant,《可学习理论》,《ACM通信》,第27期,第1134-1142页,(1984年)·Zbl 0587.68077号 ·数字对象标识代码:10.1145/1968.1972
[52] Vapnik,V.N.(2000)。统计学习理论的性质柏林:施普林格·Zbl 0934.62009号 ·doi:10.1007/978-1-4757-3264-1
[53] Yu,B.(1994)。平稳混合序列经验过程的收敛速度。概率年鉴,22(1), 94-116 ·Zbl 0802.60024号
[54] Zimin,A.和Lampert,C.H.(2015)。随机过程的条件风险最小化。arXiv:1510.02706。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。