×

基于最小误差熵原理的分布式核梯度下降算法。 (英语) Zbl 1434.68416号

摘要:基于分而治之方法的分布式学习是大数据处理的强大工具。介绍了一种基于最小误差熵原理的分布式核梯度下降算法,并分析了其收敛性。我们证明了在一些温和的条件下,(L^2)误差以极小最大最优速率衰减。作为一种工具,我们为U统计量建立了一些集中不等式,这些不等式在我们的误差分析中起着关键作用。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68T09号 数据分析和大数据的计算方面
94甲17 信息的度量,熵
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Caponetto,A。;De Vito,E.,正则化最小二乘算法的最佳速率,Found。计算。数学。,7, 3, 331-368 (2007) ·Zbl 1129.68058号
[2] Chaudhari等人。;奥伯曼,A。;Osher,S。;索托,S。;Carlier,G.,《深度松弛:优化深度神经网络的偏微分方程》,《数学研究》。科学。,5, 3, 30 (2018) ·Zbl 1427.82032年
[3] 陈,B。;Principe,J.C.,熵准则下的随机梯度算法,电路系统信号处理。,26, 6, 941-960 (2007) ·Zbl 05320945号
[4] 陈,B。;朱,P。;Principe,J.C.,《生存信息潜力:自适应系统训练的新标准》,IEEE Trans。信号处理。,6011184-1194(2012年)
[5] 陈,B。;朱,Y。;胡,J.,最小误差熵准则下adaline训练的均方收敛性分析,IEEE Trans。神经网络。,21168-1179年7月21日(2010年)
[6] Cucker,F。;周德兴,《学习理论:一种近似理论观点》(2007),剑桥大学出版社·Zbl 1274.41001号
[7] 埃尔多姆斯,D。;希尔德,K。;Principe,J.C.,使用Rényi’sα-边缘熵进行盲源分离,神经计算,49,25-38(2002)·Zbl 1047.68097号
[8] 埃尔多姆斯,D。;Principe,J.C.,《使用高阶统计的自适应系统训练中熵和均方误差标准的比较》,(ICA和信号分离国际会议论文集(2000),Springer-Verlag:Springer-Verlag Berlin),75-90
[9] 埃尔多姆斯,D。;Principe,J.C.,adaline训练中最小误差熵准则的收敛性和数据效率,IEEE Trans。信号处理。,51, 1966-1978 (2003)
[10] 范,J。;胡,T。;吴琼。;周大新,经验最小误差熵算法的一致性分析,应用。计算。哈蒙。分析。,41, 164-189 (2016) ·Zbl 1382.94034号
[11] Feng,Y。;范,J。;Suykens,J.A.,《模态回归的统计学习方法》(2017)
[12] Gokcay,E。;Principe,J.C.,《信息论聚类》,IEEE Trans。模式分析。马赫。智力。,24, 2, 158-171 (2002)
[13] 郭振中。;林,S.-B。;周德兴,分布式谱算法学习理论,逆问题。,第33、7条,第074009页(2017年)·Zbl 1372.65162号
[14] 郭振中。;Shi,L。;吴琼,带偏差修正正则化核网络的分布回归学习理论,J.Mach。学习。第18、118、1-25号决议(2017年)·Zbl 1435.68260号
[15] 郭振中。;香,D.-H。;郭,X。;周,D.-X.,稀疏近似的阈值谱算法,Ana。申请。,15, 3, 433-455 (2017) ·Zbl 1409.68232号
[16] 胡,T。;范,J。;吴琼。;周,D.-X.,最小误差熵准则的学习理论方法,J.Mach。学习。研究,14,377-397(2013)·Zbl 1320.62096号
[17] 胡,T。;范,J。;吴琼。;周,D.-X.,最小误差熵原理的正则化方案,分析。申请。,13437-455(2015年)·Zbl 1329.68216号
[18] 胡,T。;吴琼。;周德兴,线性回归最小误差熵原理梯度下降法的收敛性,IEEE Trans。信号处理。,第64、24、6571-6579页(2016年)·Zbl 1414.94263号
[19] 胡涛,吴琼,周德兴,信息论学习的核梯度下降算法,预印本,2016。
[20] 林,S.-B。;郭,X。;Zhou,D.-X.,利用正则化最小二乘进行分布式学习,J.Mach。学习。第18、92、1-31号决议(2017年)·Zbl 1435.68273号
[21] 林,S.-B。;周,D.-X.,分布式核梯度下降算法,Constr。约47249-276(2018年)·Zbl 1390.68542号
[22] Pinelis,I.,Banach空间鞅分布的最佳界,Ann.Probab。,22, 4, 1679-1706 (1994) ·Zbl 0836.60015号
[23] 罗森布拉特,J.D。;Nadler,B.,《关于分布式统计学习中平均值的最佳性》,Inf.Inference,5,4,379-404(2016)·Zbl 1426.68241号
[24] 沈,P。;Li,C.,参数估计的最小总误差熵法,IEEE Trans。信号处理。,63, 15, 4079-4090 (2015) ·Zbl 1394.94812号
[25] Silva,L.M。;Marques de Sá,J。;Alexandre,L.A.,使用Shannon熵进行神经网络分类,(欧洲人工神经网络研讨会论文集(2005),D-Side:D-Side-Bruges),217-222
[26] Silva,L.M。;Marques de Sá,J。;Alexandre,L.A.,数据分类中的MEE原则:基于感知器的分析,神经计算。,22, 2698-2728 (2010) ·Zbl 1208.68182号
[27] Syed,M。;帕尔达洛斯,P。;Principe,J.,最小误差熵准则的不变性,IEEE信号处理。莱特。,20, 12, 1159-1162 (2013)
[28] 吴,Z。;彭,S。;马伟(Ma,W.)。;陈,B。;Principe,J.C.,具有稀疏惩罚约束的最小误差熵算法,熵,17,5,3419-3437(2015)
[29] 姚,Y。;Rosasco,L。;Caponetto,A.,关于梯度下降学习中的早期停止,Constr。约26,2289-315(2007)·Zbl 1125.62035号
[30] Ying,Y。;周德兴,在线成对学习算法,神经计算。,28, 4, 743-777 (2016) ·兹比尔1472.68221
[31] Ying,Y。;Zhou,D.-X.,具有一般损失函数的非规则在线学习算法,应用。计算。哈蒙。分析。,42, 2, 224-244 (2017) ·兹比尔1382.68204
[32] 张,S。;Choromanska,A.E。;LeCun,Y.,利用弹性平均值进行深度学习sgd,(神经信息处理系统进展(2015)),685-693
[33] Zhang,Y。;杜奇,J.C。;温赖特,M.J.,《分治核岭回归:具有最小最优率的分布式算法》,J.马赫。学习。研究,16,3299-3340(2015)·Zbl 1351.62142号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。