乔治·格内科;阿尔贝托·本普拉德;马可·戈里;马塞洛·桑吉内蒂 LQG在线学习。 (英语) 兹比尔1456.68147 神经计算。 29,第8号,2203-2291(2017). 小结:将最优控制理论和机器学习技术相结合,通过对更新进行正则化,从有监督的示例中制定并求解在线学习的最优控制公式。研究了与经典线性二次高斯(LQG)最优控制问题的联系,所提出的学习范式是一个非平凡的变化,因为它涉及随机矩阵。将获得的最优解与待学习参数向量的卡尔曼滤波估计进行比较。结果表明,该算法对卡尔曼估计中的异常值不太敏感(由于正则化项的存在),因此可以提供更平滑的时间估计。所提出的在线学习框架的基本公式是指具有有限学习范围和线性模型的离散时间设置。通过所谓的核技巧,非线性模型的情况。 引用于1文件 MSC公司: 68T05型 人工智能中的学习和自适应系统 49纳米90 最优控制和微分对策的应用 PDF格式BibTeX公司 XML格式引用 \textit{G.Gnecco}等人,《神经计算》。29,第8号,2203--2291(2017;Zbl 1456.68147) 全文: 内政部 arXiv公司 链接 参考文献: [1] Alessandri,A.和Awawdeh,M.(2016)。离散时间线性系统和测量值存在离群值时具有保证鲁棒性的移动时域估计。自动化,67,85-93·Zbl 1335.93123号 [2] Alessandri,A.、Sanguineti,M.和Maggiore,M.(2002年)。前馈神经网络的基于优化的有界误差学习。IEEE神经网络汇刊,15,261-273, [3] Antsaklis,P.J.和Michel,A.N.(2007年)。线性系统入门。马萨诸塞州剑桥市:Birkhäuser·Zbl 1168.93001号 [4] Bašar,T.和Bernhard,P.(2008)##img##-最优控制和相关的极大极小设计问题:动态博弈方法。马萨诸塞州剑桥市:Birkhäuser·Zbl 1130.93002号 [5] Belkin,M.和Niyogi,P.(2006年)。流形正则化:从标记和未标记的例子中学习的几何框架。机器学习研究杂志,72299-2434·Zbl 1222.68144号 [6] Bernstein,D.S.(2009)。矩阵数学:理论、事实和公式。新泽西州普林斯顿:普林斯顿大学出版社·Zbl 1183.15001号 [7] Bertsekas,D.P.(1995)。动态规划和最优控制,第1卷。马萨诸塞州贝尔蒙特:雅典娜科学·Zbl 0904.90170号 [8] Bertsekas,D.P.(1996a)。增量最小二乘法和扩展卡尔曼滤波。SIAM优化杂志,6807-822·Zbl 0945.93026号 [9] Bertsekas,D.P.(1996b)。神经动力学编程。马萨诸塞州贝尔蒙特:雅典娜科学·Zbl 0924.68163号 [10] Bertsekas,D.P.和Shrieve,S.E.(1978年)。Borel空间中的动态规划。M.Puterman(Ed.),《动态编程及其应用》(第115-130页)。佛罗里达州奥兰多:学术出版社·Zbl 0458.90076号 [11] Bierens,H.J.(2005)。介绍计量经济学的数学和统计基础。剑桥:剑桥大学出版社·Zbl 1070.91046号 [12] Camacho,E.F.和Bordons Alba,C.(2004)。模型预测控制。纽约:斯普林格·Zbl 1080.93001号 [13] Chakrabarti,D.、Wang,Y.、Wang,D.、Leskovec,J.和Faloutsos,C.(2008年)。真实网络中的流行病传播。ACM信息和系统安全事务,10,1-26, [14] Chang,G.(2014)。具有自适应性和鲁棒性的卡尔曼滤波器。过程控制杂志,24,81-87, [15] Conway,J.B.(1985)。函数分析课程。纽约:斯普林格·Zbl 0558.46001号 [16] Cristianini,N.和Shawe-Taylor,J.(2000)。介绍支持向量机和其他基于核的学习方法。剑桥:剑桥大学出版社·兹比尔0994.68074 [17] Crone,E.A.和Ridderinkhof,K.E.(2011年)。发展中的大脑:从理论到神经成像,再回来。发展认知神经科学,101-109, [18] Cucker,F.和Smale,S.(2002年)。学习理论中正则化参数的最佳选择:关于偏差方差问题。计算数学基础,2413-428·Zbl 1057.68085号 [19] Davis,M.H.A.和Vinter,R.B.(1985年)。随机建模和控制。伦敦:查普曼和霍尔·Zbl 0654.93001号 [20] De Palma,D.和Indiveri,G.(2016)。输出异常值鲁棒状态估计。国际自适应控制与信号处理杂志。doi:10.1002/acs.2673·Zbl 1369.93589号 [21] Diethe,T.和Girolma,M.(2013年)。使用(多)内核的在线学习:综述。神经计算,25,567-625·Zbl 1269.68079号 [22] Fang,Y.、Loparo,K.A.和Feng,X.(1994)。矩阵乘积迹的不等式。IEEE自动控制汇刊,39,2489-2490·Zbl 0825.93107号 [23] Gaggro,M.、Gnecco,G.和Sanguineti,M.(2013年)。序列决策问题中的动态规划和值函数逼近:误差分析和数值结果。最优化理论与应用杂志,156380-416·兹比尔1262.90186 [24] Gaggro,M.、Gnecco,G.和Sanguineti,M.(2014)。随机n阶段优化的近似动态规划及其在不确定条件下的最优消费中的应用。计算优化与应用,58,31-85·Zbl 1321.90093号 [25] Gallieri,M.和Maciejowski,J.M.(2012)。LASSO MPC:智能调节过驱动系统。《美国控制会议记录》(第1217-1222页)。新泽西州皮斯卡塔韦:IEEE。 [26] Gnecco,G.、Bempoad,A.、Gori,M.、Morisi,R.和Sanguineti,M.(2015)。在线学习是一个具有随机矩阵的LQG最优控制问题。《14##img##IEEE欧洲控制会议论文集》(第2487-2494页)。新泽西州皮斯卡塔韦:IEEE, [27] Gnecco,G.、Gori,M.、Melacci,S.和Sanguineti,M.(2015a)。支持约束机器的基础。神经计算,27388-480·Zbl 1473.68145号 [28] Gnecco,G.、Gori,M.、Melacci,S.和Sanguineti,M.(2015b)。学习混合硬/软逐点约束。IEEE神经网络和学习系统汇刊,26,2019-2032, [29] Gnecco,G.、Gori,M.和Sanguineti,M.(2013)。用边界条件学习。神经计算,251029-1106·Zbl 1269.68080号 [30] Gnecco,G.、Morisi,R.和Bempoad,A.(2015)。通过最快混合Markov-chan问题的各种正则化,得到平均一致性问题的稀疏解。IEEE网络科学与工程汇刊,297-111, [31] Gnecco,G.和Sanguineti,M.(2010年)。通过近似策略函数求解动态优化问题的次优解。优化理论与应用杂志,46,746-794·Zbl 1254.90285号 [32] Gori,M.(2009)。基于语义的规则化和皮亚杰的认知阶段。神经网络,221036-1036, [33] Grewal,M.和Andrews,A.(2001年)。卡尔曼滤波:使用Matlab的理论和实践。纽约:Wiley·Zbl 1322.93001号 [34] Jay,E.、Duvaut,P.、Darolles,S.和Gouriéroux,C.(2011年)。外生异常值剔除卡尔曼滤波器的正则化:在对冲基金分析中的应用。在《美国电气与电子工程师协会多传感器自适应处理计算进展国际研讨会论文集》(第29-32页)。新泽西州皮斯卡塔韦:IEEE。 [35] Khan,J.、Bouaynaya,N.和Fathallah-Shaykh,H.(2014)。用LASSO-Kalman平滑器跟踪时变基因组调控网络。EURASIP生物信息学和系统生物学杂志,3。 [36] Krall,A.M.(2002)。希尔伯特空间,边值问题,正交多项式。马萨诸塞州剑桥市:Birkhäuser·Zbl 1033.34080号 [37] Lataire,J.、Piga,D.和Tóth,R.(2014)。频域最小二乘支持向量机用于识别线性时变系统时处理相关误差。国际会计师联合会世界大会会议记录(第10024-10029页)。新泽西州皮斯卡塔韦:IEEE, [38] Li,Y.,Gui,Q.,Gu,Y.,Han,S.和Du,K.(2014)。岭型卡尔曼滤波器及其算法。WSEAS数学汇刊,13852-862。 [39] Liu,M.,&Chang,G.(2016)。用于INS/GNSS集成的数字和统计稳定卡尔曼滤波器。机械工程师学会会刊,第G部分:航空航天工程杂志,230321-332, [40] Liu,W.、Park,I.M.、Wang,Y.和Príncipe,J.C.(2009)。扩展内核递归最小二乘算法。IEEE信号处理汇刊,57,3801-3814·Zbl 1391.94306号 [41] Maybeck,P.S.(1982年)。随机模型、估计和控制,第3卷。佛罗里达州奥兰多:学术出版社·Zbl 0546.93063号 [42] McGough,B.(2003)。时变参数的统计学习。宏观经济动力学,7119-139·Zbl 1042.91081号 [43] Mesbahi,M.和Egerstedt,M..(2010年)。多智能体网络中的图论方法。新泽西州普林斯顿:普林斯顿大学出版社·Zbl 1203.93001号 [44] Papoulis,A.(1991)。概率、随机变量和随机过程。纽约:McGraw-Hill·Zbl 0191.46704号 [45] Piaget,J.(1961)。智力心理学。巴黎:阿曼德·科林。 [46] Ralaivola,L.和d'AlchéBuc,F.(2005)。使用核卡尔曼滤波器进行时间序列滤波、平滑和学习。《国际神经网络联合会议记录》(第1449-1454页)。新泽西州皮斯卡塔韦:IEEE, [47] Recht,B.(2011年)。矩阵补全的简单方法。机器学习研究杂志,12,3413-3430·Zbl 1280.68141号 [48] Rudin,W.(1987)。真实而复杂的分析。纽约:McGraw-Hill·Zbl 0925.00005 [49] 赛义德,A.(2003)。《自适应滤波基础》(Fundamentals of adaptive filtering),纽约:威利国际科学出版社。 [50] Schölkopf,B.、Smola,A.和Müller,K.-R(1998)。非线性分量分析是一个核心特征值问题。神经计算,101299-1319, [51] Shalev-Shwartz,S.(2012年)。在线学习和在线凸优化。《机器学习的基础与趋势》,4107-194·Zbl 1253.68190号 [52] Smale,S.和Tao,Y.(2006)。在线学习算法。计算数学基础,6145-170·Zbl 1119.68098号 [53] Söderström,T.(2002)。离散时间随机系统:估计和控制。纽约:Springer-Verlag·Zbl 1014.93001号 [54] Spall,J.C.(2003)。随机搜索和优化简介:估计、模拟和控制。纽约:Wiley-Interscience·邮编1088.90002 [55] Sutton,R.(1992)。增益自适应优于最小二乘法?《耶鲁大学适应性和学习系统研讨会论文集》(第161-166页)。康涅狄格州纽黑文:耶鲁大学。 [56] Sutton,R.S.和Barto,A.G.(1998年)。强化学习。马萨诸塞州剑桥:麻省理工学院出版社·Zbl 1407.68009号 [57] Suykens,J.、Vandewalle,J.和De Moor,B.(2001年)。最小二乘支持向量机的最优控制。神经网络,14,23-35, [58] Tibshirani,R.(1996)。通过LASSO进行回归收缩和选择。英国皇家统计学会杂志,B辑,58267-288·Zbl 0850.62538号 [59] Vu,K.M.(2007)。最优离散控制理论:合理的功能结构模型。渥太华:AuLac Technologies。 [60] Wang,K.,Li,Y.,&Rizos,C.(2012)。具有时间相关测量误差的卡尔曼滤波实用方法。IEEE航空航天和电子系统汇刊,481669-1681, [61] Ying,Y.和Pontil,M.(2008年)。在线梯度下降算法。计算数学基础,8561-596·Zbl 1175.68211号 [62] Zinkevich,M.(2003年)。在线凸规划与广义无穷小梯度提升。《20##img##机器学习国际会议论文集》(第928-936页)。纽约:ACM。 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。