×

通过学习和游戏设计实现强大的电源管理。 (英语) Zbl 1466.90024号

摘要:我们考虑无线网络的目标速率功率管理问题;我们还提出了两种简单的分布式电源管理方案,通过有效利用过去的信息,以可证明是可靠的方式管理电源。这两种方案都是通过学习和“游戏设计”相结合的方法获得的,其中我们(1)设计了一个具有合适的支付函数的游戏,使得原功率管理问题中的最优联合功率剖面是所设计游戏的唯一纳什均衡;(2) 通过指导网络用户使用无遗憾学习算法来导出分布式功率管理算法,以随着时间的推移最大化他们的个人效用。为了建立收敛性,我们重点研究了加权强单调博弈类中著名的在线急切梯度下降学习算法。在这类博弈中,我们证明了当参与者只能获得不完全随机反馈时,多智能体在线急切梯度下降以O(frac{1}{T})速率收敛到均方中唯一的纳什均衡。
在静态网络功率管理的背景下,我们证明了如果网络可行(即当所有用户都可以同时达到其目标速率时),所设计的游戏是强单调的。这使我们能够导出联合最优传输功率的几何收敛速度。更重要的是,在信道质量随时间波动的随机网络中,所设计的博弈也具有强单调加权,所提出的算法以均方收敛到a(O(frac{1}{T})速率的联合最优传输功率,即使网络仅在平均情况下可行(即,用户可能无法以正概率满足其需求)。这与可能无法完全收敛的现有算法(如开创性的Foschini-Miljanic算法及其变体)形成了鲜明对比。

MSC公司:

90B18号机组 运筹学中的通信网络
68T05型 人工智能中的学习和自适应系统
91A10号 非合作游戏
PDF格式BibTeX公司 XML格式引用
全文: 内政部 哈尔

参考文献:

[1] Alpcan T、Basar T、Dey S(2006)基于多小区无线数据网络中断概率的功率控制游戏。IEEE传输。无线通信。5(4):890-899.Crossref,谷歌学者·doi:10.1109/TWC.2006.1618938
[2] Alpcan T,Bašar T,Srikant R,Altman E(2002)CDMA上行链路功率控制作为非合作博弈。无线网络8(6):659-670.谷歌学者交叉引用·Zbl 1012.68959号 ·doi:10.1023/A:1020375225649
[3] Altman E,Bašar T,De Pellegrini F(2010),容错移动自组织网络中的最优单调转发策略。绩效评估67(4):299-317.Crossref,谷歌学者·doi:10.1016/j.peva.2009.09.001
[4] Antipin A(2002)计算平衡问题不动点的梯度方法。J.全球优化。24(3):285-309.交叉引用,谷歌学者·Zbl 1056.91001号 ·doi:10.1023/A:1020321209606
[5] Arrow KJ,Hurwicz L(1960)n人博弈中梯度过程的稳定性。《社会工业杂志》。申请。数学。8(2):280-294.Crossref,谷歌学者·兹比尔0101.37104 ·数字对象标识代码:10.1137/0108016
[6] Au-Yeung KY、Robertson T、Hafezi H、Moon G、DiCarlo L、Zdeblick M、Savage G(2010)药物治疗和健康自我管理的网络系统。无线健康(ACM,纽约),1-9.谷歌学者
[7] Balandat M,Krichene W,Tomlin C,Bayen A(2016)在自反Banach空间上最小化遗憾,并在连续零和博弈中学习Nash均衡。预印本,6月3日提交,https://arxiv.org/abs/1606.01261.谷歌学者
[8] Bradley J、Barbier J、Handler D(2013)《拥抱万事万物的互联网,获取你的份额》(14.4万亿。白皮书,思科系统公司,加利福尼亚州圣何塞。谷歌奖学金)
[9] Byrne C,Lim CL(2007)《可食遥测人体核心温度传感器:有效性和运动应用综述》。英国的。J.运动医学41(3):126-133.Crossref,谷歌学者·doi:10.1136/bjsm.2006.026344
[10] Candogan UO、Menache I、Ozdaglar A、Parrilo PA(2010)《无线网络中的近最优功率控制:一种潜在的游戏方法》。程序。第29届IEEE Conf.计算。通信(IEEE,新泽西州皮斯卡塔韦)1-9谷歌学者
[11] 塞萨·比安奇N,卢戈西G(2006)预测、学习和游戏(英国剑桥大学出版社)。Crossref,谷歌学者·Zbl 1114.91001号 ·doi:10.1017/CBO9780511546921
[12] Chiang M、Hande P、Lan T、Tan CW(2008)《无线蜂窝网络中的功率控制》。Foundations Trends®Networking 2(4):381-533谷歌学者
[13] Chung KL(1954)关于随机近似方法。安。数学。统计师。25(3):463-483.Crossref,谷歌学者·Zbl 0059.13203号 ·doi:10.1214/aoms/1177728716
[14] Cui T,Chen L,Low SH(2008)媒体访问控制的游戏理论框架。IEEE J.选定区域通信。26(7):1116-1127.谷歌学者Crossref·doi:10.1109/JSAC.2008.080909
[15] Deakin M(2013)《智能城市:转型的管理、建模和分析》(Taylor&Francis,伦敦)。谷歌学者
[16] El Gamal A、Mammen J、Prabhakar B、Shah D(2006a)《无线网络中的最佳吞吐量延迟缩放——第一部分:流体模型》。信息论IEEE传输。通知。理论52(6):2568-2592.Crossref,谷歌学者·Zbl 1300.94004号 ·doi:10.1109/TIT.2006.874379
[17] El Gamal A、Mammen J、Prabhakar B、Shah D(2006b)《无线网络中的最佳吞吐量延迟缩放——第一部分:流体模型》。信息论IEEE传输。通知。理论52(6):2568-2592。交叉引用,谷歌学者·Zbl 1300.94004号 ·doi:10.1109/TIT.2006.874379
[18] Eryilmaz A,Modiano E,Ozdaglar A(2006)无线网络中吞吐量最优和公平的随机算法。程序。第45届IEEE Conf.Decision Control(IEEE,新泽西州皮斯卡塔韦),1936-1941年。谷歌学者
[19] Eryilmaz A、Ozdaglar A、Médard M、Ahmed E(2008)《不可靠网络中编码的延迟和吞吐量增益》。IEEE传输.通知。理论54(12):5511-5524.谷歌学者·Zbl 1319.94122号
[20] Facchini F,Pang J-S(2007)有限维变分不等式与互补问题(施普林格科技与商业媒体)。谷歌学者
[21] Fan X,Alpcan T,Arcak M,Wen TJ,Bašar T(2006)游戏理论CDMA功率控制的被动方法。Automatica公司42(11):1837-1847.Crossref,谷歌学者·Zbl 1222.93162号 ·doi:10.1016/j.automatica.2006.05.022
[22] Flóm SD(2002)平衡、进化稳定性和梯度动力学。内部。博弈论评论。4(4):357-370.Crossref,谷歌学者·Zbl 1049.91004号 ·doi:10.1142/S0219198902000756
[23] Flaxman AD、Kalai AT、Kalai-AT、McMahan HB(2005)土匪设置中的在线凸优化:没有梯度的梯度下降。程序。第16届ACM-SIAM年度交响乐团。离散算法(费城工业和应用数学学会),385-394.谷歌学者·Zbl 1297.90117号
[24] Foschini GJ,Miljanic Z(1993)一种简单的分布式自治功率控制算法及其收敛性。IEEE传输。汽车技术42(4):641-646.谷歌学者
[25] Gitzenis S,Bambos N(2002),无线分组网络中的功率控制数据预取/缓存。程序。第21届年度联合大会IEEE Comp。Comm.Soc.,第3卷(IEEE,新泽西州皮斯卡塔韦),1405-1414.谷歌学者
[26] Goldsmith A(2005)无线通信(英国剑桥大学出版社)。Crossref,谷歌学者·邮编1099.94006 ·doi:10.1017/CBO9780511841224
[27] Gopalan A、Caramanis C、Shakkottai S(2015)《部分信道状态信息的无线调度:大偏差和优化》。排队系统80(4):293-340.Crossref,谷歌学者·Zbl 1321.60191号 ·doi:10.1007/s11134-015-9439-9
[28] Han Z、Niyato D、Saad W、Ar TB、Rungnes AH(2014)无线通信网络中的博弈论(英国剑桥大学出版社)。谷歌学者
[29] Han Z、Niyato D、Saad W、Bašar T、Hjörunnes A(2011)无线和通信网络中的博弈论:理论、模型和应用(英国剑桥大学出版社)。Crossref,谷歌学者·Zbl 1260.94002号 ·doi:10.1017/CBO9780511895043
[30] Hazan E(2016)在线凸优化简介基金会趋势优化。2(3-4):157-325.Crossref,谷歌学者·doi:10.1561/9781680831719
[31] Kar S,Moura JMF,Ramanan K(2012),传感器网络中的分布式参数估计:非线性观测模型和不完美通信。IEEE传输。通知。理论58(6):3575-3605.谷歌学者Crossref·Zbl 1365.94021号 ·doi:10.1109/TIT.2012.2191450
[32] Krichene S,Krichen W,Dong R,Bayen A(2015)随机路由博弈中异构分布式学习的收敛性。第53届年度Allerton Conf.Comm.,Control,Compute。(Allerton)(IEEE,新泽西州皮斯卡塔韦),480-487,谷歌学者
[33] Lam K、Krichene W、Bayen A(2016)《关于学习玩家如何学习:路由游戏中学习动力的估计》。2016 ACM/IEEE第七届国际会议。Conf.网络物理系统(IEEE,Piscataway,NJ),1-10.谷歌学者
[34] Li N,Marden JR(2013)《为分布式优化设计游戏》。IEEE J.选定主题信号处理7(2):230-242.Crossref,谷歌学者·doi:10.1109/JSTSP.2013.2246511
[35] Menache I,Ozdaglar A(2010)《网络游戏:理论、模型和动力学》(Morgan&Claypool,San Rafael,CA)。谷歌学者
[36] Mertikopoulos P,Zhou Z(2019)在具有连续动作集和未知回报函数的游戏中学习。数学。编程173(1-2):465-507.Crossref,谷歌学者·Zbl 1420.91027号 ·doi:10.1007/s10107-018-1254-8
[37] Mitra D(1994)蜂窝无线电系统中功率控制的异步分布式算法。Holtzman JM,Goodman DJ,eds.无线和移动通信,Springer工程和计算机科学系列,第277卷(Springer,Boston),177-186。谷歌学者
[38] Nemirovski A,Juditsky A,Lan G,Shapiro A(2009)随机规划的鲁棒随机近似方法。SIAM J.Optim公司。19(4):1574-1609.Crossref,谷歌学者·Zbl 1189.90109号 ·doi:10.1137/070704277
[39] 拉帕波特T(2001)无线通信:原理与实践第二版(普伦蒂斯·霍尔PTR,新泽西州上鞍河)。谷歌学者
[40] Reddy AA、Banerjee S、Gopalan A、Shakkottai S、Ying L(2012)《关于异构延迟网络状态信息的分布式调度》。排队系统72(3-4):193-218.Crossref,谷歌学者·Zbl 1273.90085 ·doi:10.1007/s11134-012-9312-z
[41] Reddy A、Shakkottai S、Ying L(2008)《使用消息传递的无线自组网中的分布式功率控制:吞吐量优化和网络效用最大化》。第42届年度会议通知。科学。Systems(IEEE,新泽西州皮斯卡塔韦),770-775.谷歌学者
[42] Rosen BJ(1965)凹n人对策平衡点的存在唯一性。计量经济学33(3):520-534.Crossref,谷歌学者·Zbl 0142.17603号 ·doi:10.2307/1911749
[43] Seferoglu H,Lakshmikantha A,Ganesh A,Key P(2008)动态分散多信道MAC协议。通知。理论应用。研讨会(IEEE,新泽西州皮斯卡塔韦),100-110.谷歌学者
[44] Shalev-Shwartz S(2012)在线学习和在线凸优化。基础趋势机器学习。4(2):107-194.谷歌学者·Zbl 1253.68190号
[45] Tan CW(2014)Perron-Frobenius理论的无线网络优化。第48届年度会议通知。科学。系统(CISS)(IEEE,新泽西州皮斯卡塔韦),1-6谷歌学者
[46] Tan CW(2015)基于Perron-Frobenius理论的无线网络优化。基金会趋势网络9(2-3):107-218.Crossref,谷歌学者·Zbl 1333.68035号 ·doi:10.1561/9781680830514
[47] Ulukus S,Yates RD(1998),蜂窝无线电系统的随机功率控制。IEEE传输。通信46(6):784-798.谷歌学者
[48] Ward A,Zhou Z,Mertikopoulos P,Bambos N(2018)随机延迟功率控制:鲁棒反馈平均。2018 IEEE Conf.Decision Control(CDC)(IEEE,新泽西州皮斯卡塔韦),7040-7045.谷歌学者
[49] Weeraddana PC、Codreau M、Latva-aho M、Ephremides A、Fischione C(2012)《无线网络中的加权总和最大化:综述》。基金会趋势网络6(1-2):1-163.谷歌学者·Zbl 1278.68022号
[50] Yates RD(1996)蜂窝无线电系统中上行链路功率控制的框架。IEEE J.选定区域通信。13(7):1341-1347.Crossref,谷歌学者·doi:10.1009/49.414651
[51] Zhou Z,Bambos N(2015)固定和随机环境中的无线通信游戏。第54届IEEE Conf.Decision Control(CDC)(IEEE,新泽西州皮斯卡塔韦),1637-1642年。谷歌学者
[52] Zhou Z,Bambos N,Glynn P(2016a)随机环境下线性影响网络游戏的动力学。朱Q,Alpcan T,第7版,国际出版社。Conf.决策博弈论安全,第9996卷(Springer-Verlag,Berlin,Heidelberg),114-126。谷歌学者·Zbl 1453.91036号
[53] Zhou Z,Bambos N,Glynn P(2018a)《确定性和随机无线网络游戏:无政府状态的均衡、动态和价格》。操作。物件。66(6):1498-1516。谷歌学者链接·Zbl 1455.91060号
[54] Zhou Z,Glynn P,Bambos N(2016b)《无线通信中功率控制的重复游戏:平衡与遗憾》。第55届IEEE Conf.Decision Control(CDC)(IEEE,新泽西州皮斯卡塔韦),3603-3610。谷歌学者
[55] Zhou Z,Miller D,Glynn P,Bambos N(2016c)随机无线网络中Foschini-Miljanic算法的随机稳定性特征。2016 IEEE全球通信。Conf.(GLOBECOM)(IEEE,新泽西州皮斯卡塔韦)。谷歌学者
[56] Zhou Z,Mertikopoulos P,Bambos N,Glynn PW,Tomlin C(2017a)《多智能体学习中反馈延迟的应对》。von Luxburg U,Guyon I编辑。第31届国际。Conf.神经信息。处理系统(纽约州Red Hook市Curran Associates),6171-6181.谷歌学者
[57] Zhou Z,Mertikopoulos P,Moustakas AL,Bambos N,Glynn P(2017b)连续游戏中的镜像下降学习。第56届IEEE年度会议决策控制(CDC)(IEEE,新泽西州皮斯卡塔韦),5776-5783.谷歌学者
[58] Zhou Z,Mertikopoulos P,Athey S,Bambos N,Glynn PW,Yinyu Y(2018b)有损反馈的游戏学习。Bengio S,Wallach HM,编辑程序。第32届国际。Conf.神经信息。处理系统(Curran Associates,Red Hook,NY),5140-5150.谷歌学者
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。