×

马尔可夫链随机DCA及其在PDE正则化深度学习中的应用。 (英语) Zbl 07794066号

摘要:本文讨论了一大类非光滑非凸随机DC(微分凸函数)程序,其中涉及内生不确定性,且独立同分布样本可用。相反,我们假设只可能访问其分布序列收敛到目标分布的马尔可夫链。这种设置是合理的,因为马尔可夫噪声在许多情况下都会出现,包括贝叶斯推理、强化学习和高维或组合空间中的随机优化。然后,我们基于DCA(DC算法)设计了一种称为马尔可夫链随机DCA(MCSDCA)的随机算法,DCA是一种著名的非凸优化方法。我们建立了渐近和非共鸣意义下的收敛性分析。然后通过偏微分方程正则化将MCSDCA应用于深度学习,其中基于过阻尼和欠阻尼Langevin动力学分别构造了MCSDCA的两个实现,即MCSDCA-odLD和MCSDCA-udLD。对具有各种神经网络拓扑的时间序列预测和图像分类问题的数值实验表明了所提出方法的优点。

MSC公司:

90C26型 非凸规划,全局优化
90立方厘米 随机规划
46B99型 赋范线性空间与Banach空间;巴拿赫晶格
60F99型 概率论中的极限定理
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 巴查克,M。;Borwein,J.M.,关于局部Lipschitz函数的差分凸性。优化,8-9,961-978(2011)·Zbl 1237.46007号
[2] Belomestny,D。;Iosipoi,L。;Moulines,E。;Naumov,A。;Samsonov,S.,马尔可夫链的方差减少及其在MCMC中的应用。统计与计算,4973-997(2020)·Zbl 1447.62107号
[3] Berrada,L.,Zisserman,A.,&Kumar,M.P.(2017)。分段线性CNN的信任SVM。在学习代表国际会议上
[4] 曹毅。;卢,J。;Wang,L.,关于欠阻尼langevin动力学的显式L2-收敛率估计(2019),arXiv预印本arXiv:1908.04746
[5] Chaudhari,P。;Choromanska,A。;索托,S。;LeCun,Y。;巴尔达西,C。;Borgs,C。;Chayes,J。;萨贡,L。;Zecchina,R.,Entropy-sgd:向宽阔山谷倾斜梯度下降。统计力学杂志:理论与实验,12(2019)·Zbl 1459.65091号
[6] Chaudhari,P。;奥伯曼,A。;Osher,S。;索托,S。;Carlier,G.,深度松弛:用于优化深度神经网络的偏微分方程。数学科学研究,3,1-30(2018)·Zbl 1427.82032年
[7] Chen,Z。;袁,Z。;Yi,J。;周,B。;陈,E。;Yang,T.,在平均解上收敛的非凸问题的通用分段学习
[8] Cheng,X。;查特基,新南威尔士州。;Bartlett,P.L。;Jordan,M.I.,欠阻尼Langevin MCMC:非渐近分析,300-323
[9] 崔,Y。;何,Z。;Pang,J.-S.,用于训练深层神经网络的MultiComposite非凸优化。SIAM优化杂志,21693-1723(2020)·Zbl 1445.90086号
[10] 崔,Y。;Pang,J.-S。;Sen,B.,现代统计估计问题的复合差分最大程序。SIAM优化杂志,4,3344-3374(2018)·Zbl 1407.62250号
[11] Doan,X.V.,内生不确定性下的分布稳健优化及其在改造规划中的应用。欧洲运筹学杂志,173-84(2022)·Zbl 1495.90118号
[12] Doan,T.T。;Nguyen,L.M。;Pham,N.H。;Romberg,J.,《加速马尔可夫梯度下降的收敛速度及其在强化学习中的应用》(2020),arXiv预印本arXiv:2002873
[13] 杜奇,J.C。;阿加瓦尔,A。;约翰逊,M。;乔丹,M.I.,《遍地镜下降》。SIAM优化期刊,41549-1578(2012)·Zbl 1262.90114号
[14] Dupačová,J.(2006年)。外生和内生不确定性下的优化。第24届经济学数学方法国际会议论文集
[15] Durmus,A。;Moulines,E.,未调整Langevin算法的非渐近收敛性分析。应用概率年鉴,31551-1587(2017)·Zbl 1377.65007号
[16] Eaton,M.L.,《多元统计:向量空间方法》(1983年),John Wiley&Sons,Inc:John Willey&Sons公司,美国纽约州纽约市10158号,1983年第三大道605号·Zbl 0587.62097号
[17] Evans,L.C.,偏微分方程。美国数学学会2010年第19卷·Zbl 1194.35001号
[18] Fischer,A。;伊格尔,C.,《训练限制型波尔兹曼机器:简介》。模式识别,1,25-39(2014)·Zbl 1326.68220号
[19] 戈麦斯,D.A。;Valdinoci,E.,Hamilton-Jacobi方程的熵惩罚方法。数学进展,194-152(2007)·Zbl 1119.70013号
[20] 胡,Z。;黄,F。;Huang,H.,最佳欠阻尼Langevin MCMC方法。神经信息处理系统进展(2021)
[21] 卡里米,B。;Miasojedow,B。;Moulines,E。;Wai,H.-T.,有偏随机近似方案的非症状分析,1944-1974
[22] Le Thi,H.A。;Huynh,V.N。;Pham Dinh,T。;Luu,H.P.H.,非凸规划的随机凸函数差分算法。SIAM优化杂志,3,2263-2293(2022)·Zbl 1501.90074号
[23] Le Thi,H.A。;Le,H.M。;Phan,D.N。;Tran,B.,大数非凸函数问题的随机DCA及其在分类群变量选择中的应用,3394-3403
[24] Le Thi,H.A。;Le,H.M.先生。;Phan,D.N。;Tran,B.,随机DCA,用于最小化大量DC函数,并应用于多类逻辑回归。神经网络,220-231(2020)·Zbl 1481.90263号
[25] Le Thi,H.A。;卢,H.P.H。;Le,H.M。;Pham Dinh,T.,《方差减少的随机DCA及其在机器学习中的应用》。机器学习研究杂志,206,1-44(2022)
[26] Le Thi,H.A。;卢,H.P.H。;Pham Dinh,T.,《在线随机DCA及其在主成分分析中的应用》。IEEE神经网络和学习系统汇刊(2022)
[27] Le Thi,H.A。;Pham Dinh,T.,DC编程和DCA:三十年的发展,5-68·Zbl 1387.90197号
[28] 刘杰。;崔,Y。;Pang,J.-S。;Sen,S.,具有线性双参数二次资源的两阶段随机规划。SIAM优化杂志,32530-2558(2020)·Zbl 1451.90106号
[29] 马,Y.-A。;查特吉,N。;Cheng,X。;弗拉马利翁,N。;Bartlett,P。;Jordan,M.I.,MCMC是否存在类似Nesterov加速度的情况?(2019),arXiv预印arXiv:1902.00996
[30] Mörters,P。;佩雷斯,Y.,布朗运动。第30卷(2010),剑桥大学出版社·Zbl 1243.60002号
[31] Nagaraj,D。;吴,X。;Bresler,G。;Jain,P。;Netrapalli,P.,《马尔科夫数据的最小二乘回归:基本极限和算法》。神经信息处理系统进展,16666-16676(2020)
[32] Nitanda,A。;Suzuki,T.,凸算法的随机差分及其在深度Boltzmann机器训练中的应用,470-478
[33] Pham Dinh,T。;Le Thi,H.A.,DC编程的凸分析方法:理论、算法和应用。越南数学学报,1289-355(1997)·Zbl 0895.90152号
[34] 罗宾斯,H。;Siegmund,D.,非负几乎上鞅的收敛定理及其应用,233-257·Zbl 0286.60025号
[35] Roberts,G.O。;Tweedie,R.L.,朗之万分布的指数收敛性及其离散近似。伯努利,341-363(1996)·Zbl 0870.60027号
[36] 萨哈,B。;Goebel,K.,电池数据集
[37] Sateesh Babu,G。;赵,P。;Li,X.-L.,基于深度卷积神经网络的剩余使用寿命估算回归方法,214-228
[38] Saxena,A。;Goebel,K.,涡扇发动机退化模拟数据集,1551-3203
[39] Saxena,A。;Goebel,K。;西蒙,D。;Eklund,N.,飞机发动机运行至故障模拟的损伤传播建模,1-9
[40] Sun,T。;孙,Y。;Yin,W.,关于马尔可夫链梯度下降
[41] Tierney,L.,用于探索后验分布的马尔可夫链。《统计年鉴》,1701-1728(1994)
[42] 韦林,M。;Teh,Y.W.,通过随机梯度Langevin动力学进行贝叶斯学习,681-688
[43] Xu,Y。;齐,Q。;林,Q。;金·R。;Yang,T.,具有非渐近收敛性的DC函数和非光滑非凸正则化子的随机优化,6942-6951
[44] 张,C。;林,P。;秦,A.K。;Tan,K.C.,预测中剩余有效寿命估计的多目标深信念网络集成。IEEE神经网络和学习系统汇刊,102306-2318(2016)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。