×

数据库攻击下基于在线学习的线性二次控制的遗憾界。 (英语) Zbl 1520.93623号

摘要:本文旨在了解和对抗数据库攻击对基于学习的线性二次型自适应控制器的影响。这种攻击既不针对传感器也不针对执行器,只会毒害调节方案中的学习算法和参数估计器。我们重点介绍了由Abbasi-Yadkori和Szepesvari引入的自适应最优控制算法,并在存在攻击以及减轻其影响的修改时提供遗憾分析。该算法的核心步骤是自调节在线最小二乘估计,它以高概率围绕系统的真实参数确定一个紧置信集。在没有恶意数据注入的情况下,该集合为控制设计的目标提供了适当的参数估计。然而,在存在攻击的情况下,该置信集不再可靠。因此,我们首先要解决的问题是如何调整置信集,使其能够补偿有害数据的影响。然后,我们通过限定被攻击闭环系统的遗憾来量化此类攻击对控制策略最优性的有害影响。

MSC公司:

93E35型 随机学习与自适应控制
93E20型 最优随机控制
49甲10 线性二次型最优控制问题
93E24型 随机控制系统的最小二乘法及其相关方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abbasi-Yadkori,Yasin,线性参数化控制问题的在线学习(2013),阿尔伯塔大学
[2] Abbasi Yadkori,亚辛;Lazic,Nevena;Szepesvári,Csaba,通过简化为专家预测的无模型线性二次控制,(第22届国际人工智能与统计会议(2019年),PMLR),3108-3117
[3] Abbasi Yadkori,亚辛;Pál,Dávid;Szepesvári,Csaba,线性随机强盗的改进算法,神经信息处理系统的进展,24(2011)
[4] 阿巴斯·亚德科里(Abbasi-Yadkori),亚辛(Yasin);Pál,Dávid;Szepesvári,Csaba,《带自归一化过程的在线最小二乘估计:土匪问题的应用》(2011),arXiv预印本arXiv:1102.2670
[5] Abbasi-Yadkori、Yasin和Szepesvári,Csaba(2011年)。线性二次系统自适应控制的回归界。第24届学习理论年会论文集(第1-26页)。
[6] 希普拉·阿格拉瓦尔;Goyal,Navin,Thompson《用线性回报对背景盗贼进行抽样》(机器学习国际会议(2013),PMLR),127-135
[7] 安德烈亚·亚历山大。;乔治·帕帕斯(George J.Pappas),《基于云的控制的安全多方计算》(Secure multi-party computing for cloud-based control),(动力系统中的隐私(Privacy in dynamic systems,2020),斯普林格出版社,179-207年)
[8] Amin、Saurabh、Litrico、Xavier、Sastry、S.Shankar和Bayen,Alexandre M(2010年)。对水SCADA系统的秘密欺骗攻击。《第13届ACM混合系统:计算和控制国际会议论文集》(第161-170页)·Zbl 1360.93315号
[9] Arora、Sanjeev、Hazan、Elad、Lee、Holden、Singh、Karan、Zhang、Cyril和Zhang,Yi(2018)。未知线性动力系统的可证明控制。在学习代表国际会议上,被拒绝:被邀请参加研讨会。
[10] 朱利安·小檗(Julian Berberich);安妮·科赫(Anne Koch);谢勒(Carsten W.Scherer)。;Allgöwer,Frank,稳健的数据驱动状态反馈设计,(2020年美国控制会议(2020),IEEE),1532-1538
[11] 马可·坎皮。;Kumar,P.R.,《自适应线性二次高斯控制:重温成本偏向方法》,SIAM控制与优化杂志,36,1890-1907(1998)·Zbl 0919.93087号
[12] 车坎,贾法尔·阿巴斯扎德;Langbort,Cedric,数据库攻击下LQ自适应控制的后悔界限(扩展版)(2020),arXiv预印本arXiv:2004.00241
[13] 伊格纳西·克拉维拉;乔纳斯·罗斯福斯(Jonas Rothfuss);约翰·舒尔曼;藤田康弘;阿斯福,塔米姆;Abbeel,Pieter,通过元策略优化进行基于模型的强化学习,(机器人学习会议(2018),PMLR),617-629
[14] 科恩,阿隆;Koren,Tomer;Mansour,Yishay,《高效学习线性二次调节器,仅带遗憾》(2019年第36届机器学习国际会议论文集,PMLR),1300-1309
[15] Kwassi H.德格。;丹尼斯·埃菲莫夫;勒尼,杰罗姆;Feron,Eric,网络物理系统安全评估的间隔观测者,(2018年IEEE决策和控制会议(2018),IEEE),4559-4564
[16] Faradonbeh,Mohamad Kazem Shirani;Ambuj Tewari;Michailidis,George,基于优化的线性二次系统自适应调节,IEEE自动控制汇刊(2020)·Zbl 1441.93149号
[17] 哈姆扎·法齐;保罗·塔布阿达;Diggavi,Suhas,《对抗性攻击下网络物理系统的安全估计和控制》,IEEE自动控制交易,59,6,1454-1467(2014)·Zbl 1360.93201号
[18] 法泽尔、玛丽亚姆;葛荣;Sham M.卡卡德。;Mesbahi,Mehran,线性化控制问题的政策梯度方法的全球收敛,(第35届机器学习国际会议论文集(2018))
[19] 芬恩·特纳(Finn Turner),(2022)。https://orangematter.solarwinds.com/2019/08/23/data-tampering-the-quiet-threat/。(2022年1月19日访问)。
[20] 朱利安·亨德里克斯。;卡尔·亨里克·约翰逊(Karl Henrik Johansson);拉斐尔·荣格斯。;亨利克·桑德伯格;Sou,Kin Cheong,电力网络虚假数据攻击安全指数的有效计算,IEEE自动控制交易,59,12,3194-3208(2014)·Zbl 1360.68430号
[21] 莫特扎·易卜拉希米;阿德尔·詹马德;Roy,Benjamin V.,《高维线性二次系统的有效强化学习》,(神经信息处理系统的进展(2012),2636-2644
[22] 拉勒,萨欣;阿齐扎德涅谢利(Azizzadenesheli),卡姆亚尔(Kamyar);哈西比,巴巴克;阿南德库马尔(Anima Anandkumar),《探索线性二次调节器中的更多并改善遗憾》(2020),arXiv预印本arXiv:2007.12291
[23] 拉勒,萨欣;阿齐扎德涅谢利(Azizzadenesheli),卡姆亚尔(Kamyar);哈西比,巴巴克;Anandkumar,Animashree,线性动力系统中具有快速稳定的强化学习,(国际人工智能与统计会议(2022),PMLR),5354-5390
[24] Ralph Langner,Stuxnet:剖析网络战武器,IEEE安全与隐私,9,3,49-51(2011)
[25] 毛燕文;密特拉,阿里特拉;Shreyas Sundaram;保罗,塔布瓦达,《关于安全状态重建问题的计算复杂性》,Automatica,136,文章110083,pp.(2022)·Zbl 1480.93045号
[26] Mo,Yilin,&Sinopoli,Bruno(2010)。控制系统中的虚假数据注入攻击。安全控制系统第一次研讨会会议记录(第1-6页)。
[27] Teixeira、André、Pérez、Daniel、Sandberg、Henrik和Johansson、Karl Henrik(2012)。网络控制系统的攻击模型和场景。《第一届高可信网络系统国际会议论文集》(第55-64页)。
[28] 图,斯蒂芬;Recht,Benjamin,线性二次调节器的最小二乘时差学习,(机器学习国际会议(2018),PMLR),5005-5014
[29] 图,斯蒂芬;Benjamin Recht,线性二次调节器上基于模型和无模型方法之间的差距:渐近观点,(学习理论会议(2019年),PMLR),3036-3083
[30] 萨塔尔·瓦基利;纳西米·布齐亚尼;塞佩尔贾拉利;阿尔贝托·伯纳奇亚;Shiu,Da-shan,高斯过程强盗的最优顺序简单后悔,神经信息处理系统的进展,34,21202-21215(2021)
[31] 马库斯·威贝尔;Michael Beetz;哈维尔·西维拉;拉斐洛·安德里亚;乔斯·埃尔弗林;Galvez-Lopez,Dorian,机器人地球,IEEE Robotics&Automation Magazine,18,2,69-82(2011)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。