Kybernetika 59号3, 418-436, 2023

双线性耦合双子网零和博弈的分布式加速纳什均衡学习

曾宪林(Xianlin Zeng),李华斗崔金强内政部:10.14736/kyb-2023-3-0418

摘要:

本文提出了一种分布式加速一阶连续时间算法,用于求解一类具有双线性耦合的两个子网零和对策的$O({1}/{t^2})$收敛到Nash均衡。一阶方法仅使用函数的次梯度,由于其结构简单,在解决大规模大数据问题的分布式/并行算法中经常使用。然而,在最坏的情况下,两个子网零和对策的一阶方法通常具有渐近或$O(1/t)$收敛性。与现有的时不变一阶方法相比,本文将鞍点动力学和时变导数反馈技术相结合,设计了一种分布式加速算法。如果所提算法的参数合适,则该算法对于对偶间隙函数具有$O(1/t^2)$收敛性,而不需要任何一致或强凸性要求。数值仿真表明了该算法的有效性。

关键词:

连续时间算法,双子网零和博弈,分布式加速算法,纳什均衡学习,非光滑函数

分类:

91A10、37N40、93A14

参考文献:

  1. M.S.Alkousa、A.V.Gasnikov、D.M.Dvinskikh、D.A.Kovalev和F.S.Stonyakin:鞍点问题的加速方法。 计算。数学。和数学。物理学。60 (2020), 1787-1787. 内政部:10.1134/S0965542520110020
  2. H.Attouch、Z.Chbani和H.Riahi:次临界情况下Nesterov加速梯度法的收敛速度$\alpha\leq 3$。 ESAIM:COCV 25(2019),2。 内政部:10.1051/cocv/2017083
  3. J.P.Aubin和A.Cellina:差异包含。 施普林格·弗拉格,柏林,1984年。 交叉参考
  4. A.Beck和M.Teboulle:线性反问题的快速迭代收缩阈值算法。 SIAM J.成像科学。21 (2009), 1, 183-202. 内政部:10.1137/080716542
  5. D.P.贝塞卡斯:凸优化算法。 Athena Scientific,贝尔蒙特2015。 交叉参考
  6. A.Chambolle和T.Pock:凸问题的一阶原对偶算法及其在成像中的应用。 数学杂志。成像视觉。40 (2011), 1, 120-145. 数字对象标识码:10.1007/s10851-010-0251-1
  7. Y.Chen、G.Lan和Y.Ouyang:一类鞍点问题的最优原对偶方法。 SIAM J.控制优化。24 (2014), 4, 1779-1814. 内政部:10.1137/130919362
  8. S.Chen和S.Liang:具有线性收敛速度的非平衡图上多智能体系统的分布式优化。 Kybernetika 56(2020),3559-577。 内政部:10.31857/S0044452920070438
  9. Z.Chen和S.Liang:具有量化通信的分布式聚合优化。 凯贝内提卡58(2022),112-144。 DOI:10.14736/kyb-2022-1-0123
  10. G.Chen、Y.Ming、Y.Hong和P.Yi:不确定耦合约束下广义纳什均衡的分布式算法。 Automatica 123(2021),109313。 DOI:10.1016/j.自动2020.109313
  11. J.Chen、J.Sun和G.Wang:从无人系统到自主智能系统。 工程8(2022),1-5。 内政部:10.1155/2022/1426724
  12. A.Cherukuri、B.Gharisfard和J.Cortés:鞍点动力学:鞍点渐近稳定的条件。 SIAM J.控制优化。55 (2017), 1, 486-511. 内政部:10.1137/15M1026924
  13. Z.邓:非光滑聚集博弈的分布式广义Nash均衡搜索算法。 Automatica 132(2021),109794。 DOI:10.1016/j.自动2021.109794
  14. Z.邓:具有二阶非线性参与者的聚集博弈的分布式纳什均衡求解。 Automatica 135(2022),109980。 内政部:10.1016/j.autotica202109980
  15. B.Gharisfard和J.Cortés:两网络零和博弈中Nash均衡的分布式收敛。 Automatica 49(2013),第6期,第1683-1692页。 DOI:10.1016/j.automatica.2013.02.062
  16. R.戈贝尔:鞍点动力学通过单调映射的稳定性和鲁棒性。 系统。控制。莱特。108 (2017), 16-22. DOI:10.1016/j.sysconle.2017.07.014
  17. X.He、R.Hu和Y.P.Fang:可分离凸优化问题的惯性原对偶动力方法的收敛速度。 SIAM J.控制优化。59 (2021), 5, 3278-3301. 内政部:10.1137/20M1355379
  18. S.Huang、J.Lei和Y.Hong:一种线性收敛的聚合博弈分布式纳什均衡搜索算法。 IEEE传输。自动化。控制,2022年。 内政部:10.1109/TAC.2022.3154356
  19. S.Huang、J.Lei、Y.Hong和U.V.Shanbhag:双网络零和博弈中的无重分布学习。 摘自:第60届IEEE决策与控制会议(CDC),2021年,第924-929页。 交叉参考
  20. 茨城和加藤:资源分配问题:算法方法。 麻省理工学院出版社,剑桥,1988年。 交叉参考
  21. S.Khan、M.Tufail、M.T.Khan,Z.A.Khan、J.Iqbal和A.Wasim:使用无人机在精准农业应用中进行多地面目标检测、识别和检查的新框架。 无人系统。10 (2022), 1, 45-56. 交叉参考
  22. S.S.起亚、J.科尔特斯和S.马丁内斯:基于离散时间通信的连续时间协调算法的分布式凸优化。 Automatica 55(2015),254-264。 DOI:10.1016/j.automatica.2015.03.001
  23. P.Li、J.Hu、L.Qiu、Y.Zhao和B.K.Ghosh:一种分布式水电网经济调度策略。 IEEE传输。控制。Netw公司。系统9(2022),1,356-366。 内政部:10.1109/TCNS.2021.3104103
  24. Y.Lou、Y.Hong、L.Xie、G.Shi和K.H.Johansson:切换通信子网零和博弈中的纳什均衡计算。 IEEE传输。自动化。对照61(2016),102920-2935。 内政部:10.1109/TAC.2015.2504962
  25. L.Mo、Y.Yu、G.Ren和X.Yuan:具有非凸约束和时滞的连续时间异质多智能体网络的约束一致性。 J.系统。科学。综合体35(2022),105-122。 DOI:10.1007/s11424-021-0092-6
  26. Y.内斯特罗夫:一种求解收敛速度为$O(1/k^2)$的凸规划问题的方法。 苏联数学。Doklady 27(1983),第372-376页。 交叉参考
  27. Y.内斯特罗夫:非光滑函数的平滑最小化。 数学课程。103 (2005), 1, 127-152. DOI:10.1007/s10107-004-0552-5
  28. 洛杉矶保利:单边约束振动的存在性结果:非光滑约束集的情况。 数学。模型方法应用。科学。10 (2000), 6, 815-831. DOI:10.1142/S02182020500000422
  29. Z.Peng、R.Luo、J.Hu、K.Shi和B.K.Ghosh:基于事件触发强化学习的离散多智能体系统分布式最优跟踪控制。 IEEE传输。电路系统。I普通论文69(2022),9,3689-3700。 交叉参考
  30. B.Shi、S.S.Du、M.I.Jordan和W.J.Su:通过高分辨率微分方程了解加速度现象。 数学。程序。195 (2022), 79-148. 内政部:10.1007/s10107-021-01681-8
  31. W.Su、S.Boyd和E.J.Candes:Nesterov加速梯度法建模的微分方程:理论与见解。 高级神经信息处理。系统。3 (2015), 1, 2510-2518. 交叉参考
  32. A.瓦西里斯、A.让-弗朗索瓦和D.查尔斯:微分包含建模FISTA算法及其收敛的最优性。 SIAM J.控制。最佳方案。29 (2018), 1, 551-574. 数字对象标识码:10.1137/17m1128642
  33. Q.Wang、J.Chen、B.Xin和X.Zeng:基于事件触发控制的Euler-Lagrange系统的分布式最佳共识。 IEEE传输。系统。人类网络。系统。51 (2021), 7, 4588-4598. 内政部:10.1109/TSMC.2019.2944857
  34. M.Wang、L.Li、Q.Dai和F.Shi:基于DEA和非合作博弈的资源分配。 J.系统。科学。综合体34(2022),2231-2249。 内政部:10.1007/s11424-021-0259-1
  35. Y.Wang、P.Lin和H.Qin:用于交换网络的基于非线性向量支持机的分布式分类学习。 Kybernetika 53(2017),4595-611。 DOI:10.14736/kyb-2017-4-0595
  36. D.Wang、Z.Wang、Wu和W.Wang:有向图上受二阶平稳过程扰动的非线性多智能体系统的分布式凸优化。 科学。中国信息科学。65 (2022), 132201. 交叉参考
  37. A.Wibisono、A.C.Wilson和M.I.Jordan:优化中加速方法的变分观点。 程序。国家。阿卡德。科学。113 (2016), 47, 7351-7358. 内政部:10.13109/kont.2016.47.2.113
  38. C.Wu、H.Fang、Q.Yang、X.Zeng、Y.Wei和J.Chen:具有安全约束的冗余度移动机器人分布式协同控制。 IEEE传输。网络。53 (2023), 2, 1195-1207. 内政部:10.1109/TCYB.2021.310404
  39. Y.Wu、Q.Liang、Y.Zhao、J.Hu和L.Xiang:具有对抗交互的异质领导-跟随系统基于分布式估计的输出一致性控制。 科学。中国信息科学。66 (2023), 139204. 交叉参考
  40. Y.Wu、Q.Liang、Y.Zhao、J.Hu和L.Xiang:求解线性矩阵方程的有效分布式算法。 科学。中国信息科学。66 (2023), 189202. 交叉参考
  41. 谢国忠、王力宏、纳扎里、尹国忠、李国忠:带有马尔可夫切换目标和随机观测噪声的分布式优化及其在直流微电网中的应用。 科学。中国信息科学。65 (2022), 222205. 交叉参考
  42. Y.Xu先生:线性约束复合凸规划的加速一阶原对偶逼近方法。 SIAM J.Optim公司。27 (2018), 3, 1459-1484. 内政部:10.1137/16M1082305
  43. Y.Xu和S.Zhang:约束凸优化的加速原对偶近端块坐标更新方法。 计算。最佳方案。申请。70 (2018), 91-128. 数字对象标识码:10.1007/s10589-017-9972-z
  44. R.Yang、L.Liu和G.Feng:综述了多智能体系统分布式协调的最新进展。 无人系统。2022 内政部:10.1142/S2301385021500199
  45. S.Yang、J.Wang和Q.Liu:有界约束下分布式极小极大优化的合作竞争多智能体系统。 IEEE传输。自动化。控制64(2019),4358-1372。 DOI:10.10109/TAC.2018.2862471
  46. 叶敏儿、胡国伟、徐思敏:一种基于极值搜索的{$N$}集群非合作博弈纳什均衡求解方法。 Automatica 114(2020),108815。 DOI:10.1016/j.自动2020.108815
  47. 叶敏儿、尹建军和尹立军:无速度测量的二阶系统博弈的分布式纳什均衡求解。 IEEE传输。自动化。控制。 内政部:10.1109/TAC.2021.3131553
  48. X.Zeng、J.Chen、S.Liang和Y.Hong:分布式非光滑多集群博弈的广义纳什均衡寻求策略。 Automatica 103(2019),20-26。 DOI:10.1016/j.自动2019.01.025
  49. X.Zeng、L.Dou和J.Chen:求解凸-凹双线性鞍点问题的加速一阶连续时间算法。 参加:第21届IFAC世界大会,柏林2020。 交叉参考
  50. X.Zeng、J.Lei和J.Chen:动态原对偶加速方法及其在网络优化中的应用。 IEEE传输。自动化。控制。 内政部:10.1109/TAC.2022.3152720
  51. H.Zhou、X.Zeng和Y.Hong:约束分布式优化的自适应精确惩罚设计。 IEEE传输。自动化。控制64(2019),11,4661-4667。 内政部:10.1109/tac.2019.2902612