×

分析了核化谱滤波学习算法的差异原理。 (英语) Zbl 07370593号

摘要:在使用迭代学习算法且最优迭代次数未知的非参数回归问题中,我们研究了提前停止规则的构造。更准确地说,我们研究了包括Tikhonov正则化和梯度下降在内的核化谱滤波器学习算法的差异原理以及基于平滑残差的修改。我们的主要理论界是针对经验估计误差(固定设计)和预测误差(随机设计)建立的预言不等式。从这些有限样本边界可以看出,经典差异原则在统计上适用于硬学习场景中出现的低速率,而平滑差异原则适用于更快的速率范围(对应更高的平滑度参数)。我们的方法依赖于固定设计设置中停止规则的偏差不等式,并结合改变形式的参数来处理随机设计设置。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] M.A.Aizerman、E.M.Braverman和L.I.Rozonoer。通过随机观察点恢复功能转换器特性问题中的势函数方法。Avtomatika i Telemekhanika,25(12),1964年。
[2] 马丁·安东尼和彼得·巴特利特。神经网络学习:理论基础。剑桥大学出版社,剑桥,1999年·Zbl 0968.68126号
[3] 纳奇曼·阿伦扎恩(Nachman Aronszajn)。再生核理论。美国数学学会汇刊,68(3):337-4041950·Zbl 0037.20701号
[4] Peter L.Bartlett、Olivier Bousquet和Shahar Mendelson。局部Rademacher复杂性。安.统计师。,33(4):1497-1537, 2005. ·Zbl 1083.62034号
[5] Peter L.Bartlett、Philip M.Long、G’abor Lugosi和Alexander Tsigler。线性回归中的良性过拟合。arXiv预印本arXiv:1906.113002019。
[6] Frank Bauer、Sergei Pereverzev和Lorenzo Rosasco。学习理论中的正则化算法。《复杂性杂志》,23(1):52-722007年·Zbl 1109.68088号
[7] 米哈伊尔·贝尔金。近似值胜过集中值?关于光滑径向核推理的近似观点。《第31届学习理论会议论文集》,机器学习研究进展第75卷,第1348-1361页,2018年。
[8] 拉金德拉·巴蒂亚。矩阵分析。Springer-Verlag,纽约,1997年。
[9] Gilles Blanchard和Nicole Kr¨amer。随机设计回归核共轭梯度的收敛速度。分析。申请。(新加坡),14(6):763-7942016·Zbl 1349.62125号
[10] Gilles Blanchard和Peter Math。统计反问题的差异原理及其在共轭梯度迭代中的应用。反问题,28(11):115011,232012·Zbl 1284.47051号
[11] Gilles Blanchard和Nicole M–ucke。统计逆学习问题正则化的最佳速率。已找到。计算。数学。,18(4):971-1013, 2018. ·Zbl 1412.62042号
[12] Gilles Blanchard、Marc Hoffmann和Markus Reiß。统计逆问题中提前停止的最佳适应。SIAM/ASA J.不确定性。数量。,6(3):1043-10752018a·Zbl 1401.65058号
[13] Gilles Blanchard、Marc Hoffmann和Markus Reiß。通过截断SVD估计提前停止统计逆问题。电子。《统计杂志》,12(2):3204-32312018b·Zbl 1403.65025号
[14] Gilles Blanchard、Peter Math´e和Nicole M¨ucke。监督学习中的Lepskii原则。arXiv预印arXiv:1905.107642019。
[15] 斯蒂芬·博伊德和利文·范登伯格。凸优化。剑桥大学出版社,剑桥,2004年·Zbl 1058.90049号
[16] Elodie Brunel、Andr´e Mas和Ang´elina Roche。函数线性模型中的非症状自适应预测。《多元分析杂志》。,2016年第143:208-232页·Zbl 1328.62408号
[17] 彼得·贝鲁曼(Peter B–uhlmann)和余斌(Bin Yu)。L2损失提升:回归和分类。J.Amer。统计师。协会,98(462):324-3392003·Zbl 1041.62029号
[18] T.Tony Cai、Michael Levine和Lie Wang。固定设计多元非参数回归中的方差函数估计。《多元分析杂志》。,100(1):126-136, 2009. ·Zbl 1151.62029号
[19] 安德烈亚·卡波内托(Andrea Caponetto)。学习理论中正则化算子的最优速率。技术报告,麻省理工学院,2006年。
[20] 安德烈亚·卡蓬内托(Andrea Caponetto)和埃内斯托·德维托(Ernesto De Vito)。正则化最小二乘算法的最优速率。计算数学基础,7(3):331-3682007·Zbl 1129.68058号
[21] 安德烈亚·卡蓬内托和袁瑶。学习理论中基于交叉验证的正则化算子自适应。分析。申请。(新加坡),8(2):161-1832010·Zbl 1209.68405号
[22] 菲利佩·库克和史蒂夫·斯梅尔。关于学习的数学基础。牛市。阿默尔。数学。Soc.(N.S.),39(1):1-492002年·Zbl 0983.68162号
[23] 埃内斯托·德维托(Ernesto De Vito)、洛伦佐·罗萨斯科(Lorenzo Rosasco)、安德烈亚·卡波内托(Andrea Caponetto)、翁贝托·德吉奥瓦尼尼(Umberto De Giovannini)和弗朗西斯卡·奥多内。从例子中学习是一个反问题。J.马赫。学习。Res.,6:883-9042005年·Zbl 1222.68180号
[24] 埃内斯托·德维托(Ernesto De Vito)、谢尔盖·佩雷弗齐耶夫(Sergei Pereverzyev)和洛伦佐·罗萨斯科(Lorenzo Rosasco)。使用平衡原理的自适应核方法。计算数学基础,10(4):455-4792010·Zbl 1204.68154号
[25] Luc Devroye、L´aszl´o Gy¨orfi、G´abor Lugosi和Harro Walk。残差方差的最近邻估计。电子。J.Stat.,12(1):1752-17782018年·Zbl 1395.62088号
[26] Lee H.Dicker、Dean P.Foster和Daniel Hsu。核岭与主成分回归:极小极大界和正则化算子的限定。电子。J.Stat.,11(1):1022-10472017年·Zbl 1362.62087号
[27] 奈杰尔·达菲和大卫·赫尔姆博尔德。回归的增强方法。机器学习,47(2-3):153-2002002·Zbl 0998.68113号
[28] Heinz W.Engl、Martin Hanke和Andreas Neubauer。反问题的正则化。Kluwer学术出版集团,多德雷赫特,1996年·Zbl 0859.65054号
[29] 西蒙·菲舍尔(Simon Fischer)和英戈·斯坦沃特(Ingo Steinwart)。正则化最小二乘算法的Sobolev范数学习率。机器学习研究杂志,21(205):1-382020·Zbl 1475.68268号
[30] Evarist Gin´e和Richard Nickl。无限维统计模型的数学基础。剑桥大学出版社,纽约,2016年·Zbl 1358.62014号
[31] 伊恩·古德费罗(Ian Goodfellow)、约舒亚·本吉奥(Yoshua Bengio)和亚伦·库维尔(Aaron Courville)。深度学习。麻省理工学院出版社,马萨诸塞州剑桥,2016年·Zbl 1373.68009号
[32] L´aszl´o Gy¨orfi、Michael Kohler、Adam Krzy˙zak和Harro Walk。非参数回归的无分布理论。统计学中的斯普林格系列。Springer-Verlag,纽约,2002年·Zbl 1021.62024号
[33] 亚瑟·杰科特(Arthur Jacot)、弗兰克·加布里埃尔(Frank Gabriel)和克莱门·洪勒(Cl´ement Hongler)。神经切线核:神经网络中的收敛和泛化。《神经信息处理系统进展》,第8571-8580页,2018年。
[34] 斯坦尼斯劳·贾斯特泽布斯基(Stanislaw Jastrzebski)、扎卡里·肯顿(Zachary Kenton)、尼古拉斯·巴拉斯(Nicolas Ballas)、阿斯贾·费舍尔(Asja Fischer)、约书亚·本吉奥(Yoshua Bengio)和阿莫斯·。DNN损失最尖锐方向与SGD步长的关系。arXiv预印本arXiv:1807.050312018。
[35] 弗拉基米尔·科尔钦斯基。风险最小化中的局部Rademacher复杂性和oracle不等式。安.统计师。,34(6):2593-2656, 2006. ·Zbl 1118.62065号
[36] 弗拉基米尔·科尔钦斯基。Oracle在经验风险最小化和稀疏恢复问题中的不等式,数学讲义2033卷。施普林格,海德堡,2011年·Zbl 1223.91002号
[37] 加利纳·克鲁科娃(Galyna Kriukova)、奥列克桑德拉·帕纳修克(Oleksandra Panasiuk)、谢尔盖·佩雷弗齐耶夫(Sergei V.Pereverzyev)和帕夫洛·特卡琴科(Pavlo Tkachenko)。正则化排名的线性函数策略。神经网络,73:26-352016·兹比尔1394.68295
[38] 李元志和梁英玉。基于结构化数据的随机梯度下降学习超参数神经网络。《神经信息处理系统进展》,第8157-8166页,2018年。
[39] Elia Liiti¨ainen、Francesco Corona和Amaury Lendasse。使用最近邻统计进行剩余方差估计。《多元分析杂志》。,101(4):811-823, 2010. ·Zbl 1181.62035号
[40] 林俊宏、亚历山德罗·鲁迪、洛伦佐·罗萨斯科和沃尔坎·塞弗尔。希尔伯特空间上最小二乘回归谱算法的最优速率。申请。计算。哈蒙。分析。,48(3):868-8902020·Zbl 1436.62146号
[41] Shuai Lu和Sergei V.Pereverzev。不适定问题的正则化理论。De Gruyter,柏林,2013年。选定的主题·Zbl 1282.47001号
[42] Peter Math´e和Sergei V.Pereverzyev。一般源条件下的离散差分原理。复杂性杂志,22(3):371-3812006·Zbl 1095.65046号
[43] 威廉·S·梅塞尔。数学模式识别中的潜在功能。IEEE计算机汇刊,100(10):911-9181969·Zbl 0208.19805号
[44] 卡桑德拉·米尔布拉特和马丁·沃尔。PCA重建误差的高概率界。统计师。普罗巴伯。莱特。,161:108741, 2020. ·Zbl 1440.62233号
[45] 斯坦尼斯拉夫·明斯克。关于自共轭算子Bernstein不等式的一些推广。统计师。普罗巴伯。莱特。,127:111-119, 2017. ·Zbl 1377.60018号
[46] 弗拉基米尔·阿列克谢维奇·莫罗佐夫。关于用正则化方法求解函数方程。苏联数学。道克。,7:414-417, 1966. ·Zbl 0187.12203号
[47] 斯蒂芬·佩奇(Stephen Page)和斯蒂芬·格鲁内尔(Steffen Gr¨unew¨alder)。RKHS上约束最小二乘估计的Goldenshluger-Lepski方法。伯努利,将于2018年亮相。
[48] 大卫·L·菲利普斯。第一类积分方程的数值解法。J.助理计算。机器。,9:84-97, 1962. ·Zbl 0108.29902号
[49] Loucas Pillaud Vivien、Alessandro Rudi和Francis Bach。通过多次传递的难学习问题的随机梯度下降的统计最优性。《神经信息处理系统进展》,第8114-8124页,2018年。
[50] Lutz Prechelt。提前停止——但什么时候?神经网络:交易技巧,第55-69页。斯普林格,1998年。
[51] 加维什·拉斯库蒂(Garvesh Raskutti)、马丁·温赖特(Martin J.Wainwright)和余斌(Bin Yu)。早期停止和非参数回归:一种最佳数据相关停止规则。J.马赫。学习。2014年第15:335-366号决议·兹比尔1318.62136
[52] Bernhard Scholkopf和Alexander J.Smola。使用内核学习:支持向量机、正则化、优化及其他。麻省理工学院出版社,马萨诸塞州剑桥,美国。
[53] 约翰·肖·泰勒和尼洛·克里斯蒂亚尼尼。模式分析的核心方法。剑桥大学出版社,美国,2004年。
[54] 史蒂夫·斯梅尔(Steve Smale)和丁宣周(Ding Xuan Zhou)。香农采样。二、。与学习理论的联系。申请。计算。哈蒙。分析。,19(3):285-302, 2005. ·兹比尔1107.94008
[55] 史蒂夫·斯梅尔(Steve Smale)和丁宣周(Ding Xuan Zhou)。学习理论通过积分算子及其近似进行估计。施工。约,26(2):153-1722007·Zbl 1127.68088号
[56] 弗拉基米尔·斯波科尼。高维回归模型的方差估计。《多元分析杂志》。,82(1):111-133, 2002. ·Zbl 1010.62033号
[57] 伯恩哈德·斯坦克维茨(Bernhard Stankewitz)。通过截断SVD估计平滑统计反问题的残差停止。电子。《统计杂志》,14(2):3396-34282020·Zbl 1451.65071号
[58] 英戈·斯坦沃特(Ingo Steinwart)和安德烈亚斯·克里斯特曼(Andreas Christmann)。支持向量机。信息科学与统计。施普林格,纽约,2008年·Zbl 1203.68171号
[59] 英戈·斯坦沃特(Ingo Steinwart)、唐·胡斯(Don Hush)和克林特·斯科维尔(Clint Scovel)。正则化最小二乘回归的最佳速率。InCOLT,2009年。
[60] 乔尔·特罗普(Joel Tropp)。矩阵集中不等式简介。可从arxiv.org/abs/1501.01571获取,2015年·Zbl 1391.15071号
[61] 亚历山大·齐巴科夫。非参数估计简介。统计学中的斯普林格系列。施普林格,纽约,2009年。对2004年法文原版进行修订和扩充,弗拉基米尔·扎亚茨翻译·Zbl 1029.62034号
[62] Aad W.van der Vaart和Jon A.Wellner。弱收敛和经验过程。Springer-Verlag,纽约,1996年·Zbl 0862.60002号
[63] 罗曼·弗什宁。高维概率。剑桥大学出版社,剑桥,2018年·Zbl 1430.60005号
[64] 魏玉婷(Yuting Wei)、杨芬妮(Fanny Yang)和马丁·温赖特(Martin J.Wainwright)。内核提升算法的提前停止:局部复杂性的一般分析。IEEE传输。通知。理论,65(10):6685-67032019·Zbl 1432.62115号
[65] 袁瑶、洛伦佐·罗萨斯科和安德烈亚·卡波内托。关于梯度下降学习中的提前停止。施工。约,26(2):289-3152007·兹比尔1125.62035
[66] 张彤。核学习的有效维度和泛化。神经信息处理系统进展,第471-478页,2003年。
[67] 张彤和余斌。提前停止推进:收敛性和一致性。安.统计师。,33(4):1538-1579, 2005. ·Zbl 1078.62038号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。