×

带随机投影的正则化算法和随机梯度方法的收敛性。 (英语) Zbl 1499.62138号

摘要:我们研究了希尔伯特空间上的最小二乘回归问题,将再生核希尔伯特空间中的非参数回归作为一个特例。我们首先研究适用于希尔伯特空间闭子空间上投影算子的正则化算法。在假设空间的容量假设和目标函数的正则性条件下,我们证明了关于范数变量的收敛结果。因此,如果草图尺寸与有效尺寸成比例,达到对数因子,我们可以获得随机草图正则化算法的最优速率。作为副产品,我们获得了Nyström正则化算法的类似结果。我们的结果提供了最优的、与分布相关的速率,对于草图/Nyström正则化算法,在条件良好的情况下,考虑到可实现和不可实现的情况,这些速率没有任何饱和效应。然后,我们研究了在子空间上投影的随机梯度方法,允许在数据和小批量上进行多次传递,并得出了类似的最优统计收敛结果。

MSC公司:

62G08号 非参数回归和分位数回归
46 E22型 具有再生核的希尔伯特空间(=(适当的)泛函希尔伯特空间,包括de Branges-Rovnyak和其他结构空间)
62克20 非参数推理的渐近性质
PDF格式BibTeX公司 XML格式引用
全文: 链接

参考文献:

[1] 艾哈迈德·阿洛伊和迈克尔·马奥尼。具有统计保证的快速随机核岭回归。《神经信息处理系统进展》,第775-783页,2015年。
[2] 弗朗西斯·巴赫。低阶核矩阵近似的尖锐分析。2013年学习理论会议,第185-209页。
[3] 弗朗西斯·巴赫。关于核求积规则与随机特征展开的等价性。机器学习研究杂志,18(21):1-382017·Zbl 1435.65045号
[4] 理查德·巴拉纽克、马克·达文波特、罗纳德·德沃尔和迈克尔·沃金。随机矩阵的限制等距性质的一个简单证明。构造逼近,28(3):253-2632008·Zbl 1177.15015号
[5] Frank Bauer、Sergei Pereverzev和Lorenzo Rosasco。学习理论中的正则化算法。复杂性杂志,23(1):52-722007·Zbl 1109.68088号
[6] Gilles Blanchard和Nicole M–ucke。统计逆学习问题正则化的最佳速率。计算数学基础,18(4):971-10132018·Zbl 1412.62042号
[7] 安德烈亚·卡波内托(Andrea Caponetto)。学习理论中正则化算子的最优学习率。2006年技术报告。
[8] 安德烈亚·卡蓬内托(Andrea Caponetto)和埃内斯托·德维托(Ernesto De Vito)。正则化最小二乘算法的最优速率。计算数学基础,7(3):331-3682007·Zbl 1129.68058号
[9] 安德烈亚·卡蓬内托和袁瑶。学习理论中正则化算子的自适应。2006. ·Zbl 1209.68405号
[10] 菲利佩·库克和丁宣周。学习理论:近似理论观点,第24卷。剑桥大学出版社,2007年·Zbl 1274.41001号
[11] Lee H Dicker、Dean P Foster和Daniel Hsu。核岭与主成分回归:极小极大界和正则化算子的限定。《电子统计杂志》,11(1):1022-10472017·Zbl 1362.62087号
[12] 彼得·德里尼亚斯(Petros Drineas)、马利克·马格顿·伊斯梅尔(Malik Magdon-Ismail)、迈克尔·马奥尼(Michael W Mahoney)和大卫·伍德拉夫(David P Woodruff)。矩阵一致性和统计杠杆的快速近似。机器学习研究杂志,13(12月):3475-35062012·Zbl 1437.65030号
[13] 亨茨·沃纳·恩格尔(Heinz Werner Engl)、马丁·汉克(Martin Hanke)和安德烈亚斯·纽鲍尔(Andreas Neubauer)。反问题的正则化,第375卷。施普林格科学与商业媒体,1996年·Zbl 0859.65054号
[14] 西蒙·菲舍尔(Simon Fischer)和英戈·斯坦沃特(Ingo Steinwart)。正则化最小二乘算法的Sobolev范数学习率。arXiv 1702.07254v12017。
[15] 藤井纯一、藤井正俊、Furuta Takayuki和Nakamoto Ritsuo。范数不等式等价于Heinz不等式。美国数学学会学报,118(3):827-8301993·Zbl 0783.47008号
[16] L Lo Gerfo、Lorenzo Rosasco、Francesca Odone、Ernesto De Vito和Alessandro Verri。监督学习的光谱算法。神经计算,20(7):1873-18972008·Zbl 1147.68643号
[17] Alex Gittens和Michael W Mahoney。重温用于改进大规模机器学习的nystr–om方法。机器学习研究杂志,17(1):3977-40412016·Zbl 1367.68223号
[18] Daniel Hsu、Sham M Kakade和Tong Zhang。岭回归的随机设计分析。计算数学基础,14(3):569-6002014·Zbl 1298.62120号
[19] 费利克斯·克拉默和雷切尔·沃德。新的和改进的Johnson-Lindenstraus嵌入通过受限等距属性。SIAM数学分析杂志,43(3):1269-12812011·Zbl 1247.15019号
[20] Sanjiv Kumar、Mehryar Mohri和Amee Talwalkar。奈斯特罗姆法的取样技术。《人工智能与统计》,第304-311页,2009年·Zbl 1283.68292号
[21] 林俊宏(Junhong Lin)和沃尔坎·塞弗尔(Volkan Cevher)。希尔伯特空间上最小二乘回归的草图正则化算法的最佳速率。arXiv预印本arXiv:1803.04371(第35届国际机器学习会议论文集),2018a。
[22] 林俊宏(Junhong Lin)和沃尔坎·塞弗尔(Volkan Cevher)。使用随机梯度方法和谱算法进行分布式学习的最佳收敛性。arXiv预印本arXiv:1801.072262018b。
[23] 林俊宏和洛伦佐·罗萨斯科。Nystr–om随机梯度法的最佳学习速率。arXiv预印本arXiv:1710.077972017a·Zbl 1435.68272号
[24] 林俊宏和洛伦佐·罗萨斯科。多通道随机梯度法的最优速率。机器学习研究杂志,18(97):1-472017b·Zbl 1435.68272号
[25] 林俊宏、亚历山德罗·鲁迪、洛伦佐·罗萨斯科和沃尔坎·塞弗尔。希尔伯特空间上最小二乘回归谱算法的最优速率。应用和计算谐波分析,2018年。统一资源定位地址https://doi.org/10.1016/j.acha.2018。 09.009. ·兹比尔1436.62146
[26] 迈克尔·马奥尼。矩阵和数据的随机算法。机器学习的基础和趋势,3(2):123-2242011·Zbl 1232.68173号
[27] Shahar Mendelson、Alain Pajor和Nicole Tomczak-Jaegermann。伯努利和亚高斯系综的一致测不准原理。构造近似,28(3):277-2892008·Zbl 1230.46011号
[28] 斯坦尼斯拉夫·明斯克。关于自共轭算子Bernstein不等式的一些推广。arXiv预打印arXiv:1112.54482011·Zbl 1377.60018号
[29] GL Myleiko、S Pereverzyev Jr和SG Solodky。在一般光滑性假设下,回归和排序问题中的正则化Nystr¨om子采样。2017
[30] Loucas Pillaud-Vivien、Alessandro Rudi和Francis Bach。通过多次传递的难学习问题的随机梯度下降的统计最优性。《神经信息处理系统进展》,第8114-8124页,2018年。
[31] 如果是松果树和AI Sakhanenko。关于大偏差概率不等式的备注。概率论及其应用,30(1):143-1481986·Zbl 0583.60023号
[32] Ali Rahimi和Benjamin Recht。大型内核机的随机特性。《神经信息处理系统进展》,第1177-1184页,2008年。
[33] 詹姆斯·奥拉姆齐(James O Ramsay)。功能数据分析。威利在线图书馆,2006年。43 ·Zbl 1305.62017号
[34] 亚历山德罗·鲁迪(Alessandro Rudi)、拉斐洛·卡莫利亚诺(Raffaello Camoriano)和洛伦佐·罗萨斯科(Lorenzo Rosasco)。少即是多:Nystrom计算正则化。arXiv预印本arXiv:1507.047172015。
[35] 约翰·肖·泰勒和尼洛·克里斯蒂亚尼尼。模式分析的核心方法。剑桥大学出版社,2004年·Zbl 0994.68074号
[36] 史蒂夫·斯梅尔(Steve Smale)和丁宣周(Ding Xuan Zhou)。学习理论通过积分算子及其近似进行估计。构造近似,26(2):153-1722007·Zbl 1127.68088号
[37] Bharath Sriperumbudur和Nicholas Sterge。使用随机特征的近似核主成分分析:计算与统计权衡。arXiv预印本arXiv:1706.062962017。
[38] 英戈·斯坦沃特(Ingo Steinwart)和安德烈亚斯·克里斯特曼(Andreas Christmann)。支持向量机。施普林格科学与商业媒体,2008年·Zbl 1203.68171号
[39] Ingo Steinwart、Don R Hush和Clint Scovel。正则化最小二乘回归的最佳速率。学习理论国际会议,2009年·Zbl 1127.68090号
[40] 乔尔·特罗普(Joel A Tropp)。随机矩阵的用户友好工具:简介。技术报告,DTIC文件,2012年·Zbl 1259.60008号
[41] 王树森(Shusen Wang)、亚历克斯·吉滕斯(Alex Gittens)和迈克尔·马奥尼(Michael W Mahoney)。草图岭回归:优化视角、统计视角和模型平均。机器学习研究杂志,18(1):8039-80882017·Zbl 1473.62253号
[42] 克里斯托弗·基·威廉姆斯和马蒂亚斯·西格。使用Nystr–om方法加速内核机器。神经信息处理系统进展,第661-667页。麻省理工学院出版社,2000年。
[43] 杨天宝、李玉峰、迈赫达德·马赫达维、金荣和周志华。Nystr–om方法与随机傅里叶特征:理论和经验比较。《神经信息处理系统进展》,第476-484页,2012年。
[44] Yun Yang、Mert Pilanci和Martin J Wainwright。内核随机草图:快速最佳非参数回归。《统计年鉴》,45(3):991-10232017年·Zbl 1371.62039号
[45] 张彤。使用有效数据维度学习核回归的边界。神经计算,17(9):2077-20982005·Zbl 1080.68044号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。