基于深度强化学习的SWIPT边缘网络联合优化方法

doi:10.11772/j.issn.1001-9081.2022111732

《计算机应用》唯一官方网站››2023,第43卷››发行（11）: 3540-3550.内政部：10.11772/j.issn.1001-9081.2022111732

• 网络与通信 • 上一篇

基于深度强化学习的SWIPT公司边缘网络联合优化方法

王哲¹^,²^,^三,王启名²(),李陶深⁴,葛丽娜¹^,^三^,⁵

¹广西民族大学人工智能学院，南宁 530006
²广西民族大学电子信息学院，南宁 530006
^三。广西混杂计算与集成电路设计分析重点实验室（广西民族大学），南宁 530006
^4.广西大学计算机与电子信息学院，南宁 530004
⁵广西民族大学网络通信工程重点实验室，南宁 530006

收稿日期:2022-11-22 修回日期:2023-04-30 接受日期:2023-05-12 发布日期:2023-06-02 出版日期:2023-11-10
通讯作者:王启名
作者简介:王哲（1991—），男，河南南阳人，副教授，博士，共因失效会员，主要研究方向：计算机网络、携能通信、联邦机器学习
王启名（1997—），男，江苏宿迁人，硕士研究生，主要研究方向：计算机网络、携能通信、机器学习wqm082199@163。通用域名格式
李陶深（1957—），男，广西南宁人，教授，博士，共因失效杰出会员，主要研究方向：移动无线网络、无线能量传输、物联网、智慧城市
葛丽娜（1969—），女，广西环江人，教授，博士，共因失效高级会员，主要研究方向：网络与信息安全、移动计算、人工智能。
基金资助:
国家自然科学基金资助项目(61862007);广西自然科学基金资助项目（2020GXNSFBA297103）；广西民族大学引进人才科研启动项目（2019KJQD17）

基于深度强化学习的SWIPT边缘网络联合优化方法

王哲（Zhe WANG）¹^,²^,^三,王启明（Qiming WANG）²(),李桃神⁴,利纳通用电气¹^,^三^,⁵

¹广西民族大学人工智能学院，广西南宁530006
²广西民族大学电子信息学院，广西南宁530006
^三。广西混合计算与集成电路设计分析重点实验室（广西民族大学），广西南宁530006
^4.广西大学计算机、电子与信息学院，广西南宁530004
⁵广西民族大学网络通信工程重点实验室，广西南宁530006

收到：2022-11-22 修订过的：2023-04-30 认可的：2023-05-12 在线：2023-06-02 出版：2023-11-10
联系人：王启明（Qiming WANG）
关于作者：王哲，1991年生，博士，副教授。他的研究兴趣包括计算机网络、同步信息和权力转移、联邦机器学习。
王启明，1997年出生，硕士研究生。他的研究兴趣包括计算机网络、同步信息和权力转移、机器学习。
李陶深，1957年生，博士，教授。他的研究兴趣包括移动无线网络、无线能源传输、物联网、智能城市。
GE Lina，1969年出生，博士，教授。她的研究兴趣包括网络和信息安全、移动计算、人工智能。
支持单位：
国家自然科学基金项目（61862007）；广西省自然科学基金项目（2020GXNSFBA297103）；广西民族大学引进人才科研启动项目（2019KJQD17）

摘要/摘要

摘要：

边缘计算（欧共体）与无线携能通信（SWIPT）技术能够提升传统网络性能，但同时也增加了系统决策制定的难度和复杂度。而基于最优化方法所设计的系统决策往往具有较高的计算复杂度，无法满足系统的实时性需求。为此，针对EC SWIPT公司辅助的无线传感网络（WSN）联合考虑网络中波束成形、计算卸载与功率控制问题，建立了系统能效最优化数学模型；其次，针对该模型的非凸与参数耦合特征，通过设计系统的信息交换过程，提出基于深度强化学习的联合优化方法，该方法无须建立环境模型，采用奖励函数代替评论家网络对动作进行评估，能降低决策制定难度并提升实时性；最后，基于该方法设计了改进的深度确定性策略梯度（IDDPG）算法，并与多种最优化算法和机器学习算法进行仿真对比，验证了联合优化方法在降低计算复杂度、提升决策实时性方面的优势。

关键词: 无线传感网络, 深度强化学习, 无线携能通信, 边缘计算, 联合优化

摘要：

边缘计算（EC）和同步无线信息和功率传输（SWIPT）技术可以提高传统网络的性能，但也增加了系统决策的难度和复杂性。采用优化方法设计的系统决策往往具有较高的计算复杂度，难以满足系统的实时性要求。因此，针对EC和SWIPT辅助下的无线传感器网络（WSN），结合网络中的波束形成、计算卸载和功率控制问题，提出了系统能量效率优化的数学模型。然后，针对该模型的非凸性和参数耦合特性，通过设计系统的信息交换过程，提出了一种基于深度强化学习的联合优化方法。该方法不需要建立环境模型，采用奖励函数代替Critic网络进行行动评估，可以降低决策难度，提高系统的实时性能。最后，基于联合优化方法，设计了一种改进的深度确定性策略梯度（IDDPG）算法。通过与多种优化算法和机器学习算法的仿真比较，验证了联合优化方法在降低计算复杂度和提高决策实时性方面的优势。

关键词： 无线传感器网络（WSN），深度强化学习， SWIPT（同步无线信息和电力传输），边缘计算（EC），联合优化

王哲, 王启名, 李陶深, 葛丽娜. 基于深度强化学习的SWIPT公司边缘网络联合优化方法[J] ●●●●。计算机应用, 2023, 43(11): 3540-3550.

王哲，王启明，李涛深，葛丽娜。基于深度强化学习的SWIPT边缘网络联合优化方法[J]。计算机应用杂志，2023，43（11）：3540-3550。

图/表14

图1SWIPT公司的无线传感网络边缘计算系统

图1基于SWIPT的无线传感器网络边缘计算系统

图2 系统周期示意图

图2系统循环示意图

图三信息交换示意图

图3信息交换示意图

图4 多智能体算法的示意图

图4多智能体算法示意图

图5 网络结构

图5网络结构

表1 仿真参数

表1仿真参数

参数	参数值
水槽n个	10
传感器节点数k	20
水槽节点最大发射功率/分贝	38
周期长度/毫秒	0.02
高斯白噪声/分贝	-114
功率分割因子 $ζ$	0.5
能量收集的时间比 $η$	0.5

表1 仿真参数

表1仿真参数

参数	参数值
水槽n个	10
传感器节点数k	20
水槽节点最大发射功率/分贝	38
周期长度/毫秒	0.02
高斯白噪声/分贝	-114
功率分割因子 $ζ$	0.5
能量收集的时间比 $η$	0.5

表2IDDPG公司

表2IDDPG超参数

参数	参数值
探索率（e（电子））	0.01
批大小（批量）	128
折扣因子	0.5
学习率	0.001
软更新频率	0.01
隐藏层单元个数	（200，100，50）

图6 不同学习率下的算法收敛性

图6不同学习速率下算法的收敛性

图7 训练结果

图7培训结果

图8 损失值变化曲线

图8损失值变化曲线

图9 测试集结果图

图9测试集结果图

表三测试集上的性能检测结果对比

表3测试集性能测试结果的比较

（水槽、传感器）	迭代次数		采取决策制定所需时间/毫秒				准确度%
（水槽、传感器）	WMMSE公司	FP公司	WMMSE公司	FP公司	IDDPG公司	德奎因	FP公司	IDDPG公司	DQN公司	最大威力
（10，20）	47	24	24.3	18.6	1.05	1.20	94	96	95	35
（20，40）	75	29	64.3	18.5	0.53	0.94	94	94	92	29
（20，60）	83	28	120	25.3	0.41	0.64	93	93	93	21
（20，100）	96	32	179.4	28.4	0.59	0.78	91	91	90	14

图10 系统传感器不同运动情况的目标函数CDF公司

图10系统传感器不同运动状态下的目标函数CDF

图11 不同数量节点移动和非移动（完美CSI）情况CDF

图11不同数量的移动和非移动节点的CDF（perfectCSI）

参考文献34

1	刘通，方璐，高洪皓. 边缘计算中任务卸载研究综述［记者：。计算机科学，2021，48（1）：11-15.10.11896/jsjkx.200900217
	刘涛，方力，高浩海.边缘计算中任务卸载的研究综述〔J〕。计算机科学，2021，48（1）： 11-15.10.11896/jsjkx.200900217
2	陈霄，刘巍，陈静，等. 边缘计算环境下的计算卸载策略研究［记者：。火力与指挥控制，2022，47（1）：7-14， 19.10.3969/j.issn.1002-0640.2022.01.002
	陈曦，刘伟，陈杰，等.边缘计算环境下的计算卸载策略研究〔J〕。消防与指挥控制，2022，47（1）：7-14， 19.10.3969/j.issn.1002-0640.2022.01.002
三	刘辉，贾赫，陈杰，等.基于势博弈理论的移动边缘计算网络资源分配计算〔EB/OL〕2022-11-16］..10.1109/康普2018.8780576
4	王刚，徐凤.基于移动边缘计算的车载网络中的区域智能资源分配〔J〕。IEEE接入，2020，8： 7173-7182.10.1109/访问.2020.2964018
5	鲜永菊，宋青芸，郭陈榕，等. 计算资源受限MEC公司中任务卸载与资源分配方法［记者：。小型微型计算机系统，2022，43（8）：1782-1787.
	冼永杰，宋庆英，郭春瑞，等.计算资源有限的MEC中的任务卸载和资源分配方法〔J〕。中国计算机系统杂志，2022，43（8）：1782-1787.
6	李余，何希平，唐亮贵. 基于终端直通通信的多用户计算卸载资源优化决策［记者：。计算机应用，2022，42（5）：1538-1546.10.11772/j.issn.1001-9081.2021030458
	李毅，何晓平，唐立刚.基于设备通信的多用户计算卸载与资源优化策略〔J〕。计算机应用杂志，2022，42（5）：1538-1546.10.11772/j.issn.1001-9081.2021030458
7	李燕君，蒋华同，高美惠. 基于强化学习的边缘计算网络资源在线分配方法［记者：。控制与决策，2022，37（11）： 2880-2886.
	李永杰，姜海堂，高美华.基于强化学习的边缘计算网络在线资源分配〔J〕。控制和决策，2022，37（11）： 2880-2886.
8	朱思峰，蔡江昊，柴争义，等. 车联网边缘场景下基于免疫算法的计算卸载优化［J/OL公司。吉林大学学报（工学版）（2022-07-26）［2022-11-16］..1959年10月10日/j.issn.1000-436x.2022114
	朱士芳，蔡继华，蔡志勇，等.基于免疫算法的车联网边缘计算场景计算卸载优化新方案〔J/OL〕。吉林大学学报（工程技术版）（2022-07-26）［2022-11-16］..1959年10月10日/j.issn.100-436x.2022114
9	李斌，刘文帅，谢万城，等. 智能超表面赋能移动边缘计算部分任务卸载策略［记者：。电子与信息学报，2022，44（7）：2309-2316.1999年10月10日/JEIT211595
	李斌，刘文思，谢文C，等.双RIS辅助多用户移动边缘计算网络的部分计算卸载〔J〕。电子与信息技术杂志，2022，44（7）： 2309-2316.1999年10月10日/JEIT211595
10	陈峰，王安，张勇，等.基于SWIPT的WSN辅助物联网节能移动边缘计算框架〔J〕。传感器，2021，21（14）：4798号。10.3390/s21144798
11	付杰，华杰，温杰，等.基于SWIPT和MEC的多用户卫星物联网系统可达速率优化〔J〕。IEEE工业信息学汇刊，2021，17（3）： 2072-2080.10.1109/tii.2020.2985157
12	TIONG T，SAAD I，KIN TEO K T，et al.SWIPT多址边缘计算网络的深度强化学习在线卸载〔C〕//IEEE第十一届系统工程与技术国际会议论文集。皮斯卡塔韦：IEEE2021： 240-245.10.1109/icset53708.2021.9612551
13	李恩，郝伟，周飞，等.基于SWIPT的MEC系统的智能网格计算卸载和资源分配〔J〕。IEEE电路与系统汇刊Ⅱ：简报，2022，69（8）： 3610-3614.10.1109/tcsi.2022.3168149年10月10日
14	王霞，李杰，宁Z，等.无线移动边缘计算网络研究〔J〕。倒排索引综述，2023，55（13s）：第263号。10.1145/3579992
15	MUSTAFA E，SHUJA J，BILAL K，等.无线边缘网络中智能在线计算卸载的强化学习〔J〕。集群计算，2023，26（2）： 1053-1062.2007年10月10日/10586-022-03700-5
16	施安妮，李陶深，王哲，等.基于缓存辅助的全双工无线携能通信系统的中继选择策略［记者：。计算机应用，2021，41（6）：1539-1545.10.3969/j.issn.1000-1220.2021.09.018
	史安南，李铁生，王Z，等.缓存辅助全双工同步无线信息与功率传输系统的中继选择策略〔J〕。计算机应用杂志，2021，41（6）：1539-1545.10.3969/j.issn.1000-1220.2021.09.018
17	陈艳，王子健，赵泽，等. 传感器网络环境监测时间序列数据的高斯过程建模与多步预测［记者：。通信学报，2015，36（10）： 252-262.1959年10月10日/j.issn.100-436x.2015247
	陈毅，王振杰，赵Z，等.无线传感器网络环境监测中时间序列数据的高斯过程建模与多步预测〔J〕。通讯杂志，2015，36（10）： 252-262.10.11959/j.issn.1000-436x.2015247
18	侯艳丽，苏佳，胡佳伟. 基于有限反馈机会波束的无线传感器网络［记者：。传感器与微系统，2014，33（2）： 57-60.10.3969/j.issn.1000-9787.2014.02.016
	HOU Y L，SU J，HU J W.基于有限反馈机会波束形成的无线传感器网络〔J〕。传感器与微系统，2014，33（2）： 57-60.10.3969/j.issn.1000-9787.2014.02.016
19	DENT P，BOTTOMLEY G E，CROFT T.Jakes衰落模型的再探讨〔J〕。电子信件，1993，29（13）：1162-1163.10.1049/电话：19930777
20	王强，王鸿. 智能反射面辅助的下行无脑脊髓炎系统和速率最大化研究［记者：。南京邮电大学学报（自然科学版），2022，42（1）： 23-29.
	王清，王宏.IRS辅助下行链路NOMA系统的和速率最大化〔J〕。南京邮电大学学报（自然科学版），2022，42（1）： 23-29.
21	吴毅凌，李红滨，赵玉萍. 一种适用于时不变信道的信道估计方法［记者：。高技术通讯，2010，20（1）： 1-7.10.3772/j.issn.1002-0470.2010.01.001
	吴永乐，李海波，赵永平.一种新的时不变信道估计方法〔J〕。中国高科技快报，2010，20（1）： 1-7.10.3772/j.issn.1002-0470.2010.01.001
22	SEID A M，BOATENG G O，ANOKYE S，等.多无人机辅助物联网中的协同计算卸载和资源分配：一种深度强化学习方法〔J〕。IEEE物联网杂志，2021，8（15）： 12203-12218.10.1109/节2021.3063188
23	罗斌，于波. 移动边缘计算中基于粒子群优化的计算卸载策略［记者：。计算机应用，2020，40（8）：2293-2298.10.11772/j.issn.1001-9081.2019122200
	LUO B，YU B.移动边缘计算中基于粒子群优化的计算卸载策略〔J〕。计算机应用杂志，2020，40（8）： 2293-2298.10.11772/j.issn.1001-9081.2019122200
24	罗志清，张S.动态频谱管理：复杂性与对偶性〔J〕。IEEE信号处理专题杂志，2008，2（1）： 57-73.10.1109/jstsp.2007.914876
25	张淑兴，马驰，杨志学，等. 基于深度确定性策略梯度算法的风光储系统联合调度策略［记者：。中国电力，2023，56（2）： 68-76.
	张世新，马C，杨振新，等.基于深度确定性策略梯度算法的风光储能混合系统联合调度〔J〕。电力，2023，56（2）： 68-76.
26	韩佶，苗世洪，约翰·M·R等. 基于机群划分与深度强化学习的风电场低电压穿越有功/无功功率联合控制策略［记者：。中国电机工程学报，2023，43（11）： 4228-4244.
	HAN J，MIAO S H，JON M R，et al.基于风力发电机分组和深度强化学习的风电场低电压穿越下的组合再/有功功率控制[J]。中国电机工程学报，2023，43（11）： 4228-4244.
27	邓晖奕，李勇振，尹奇跃. 引入通信与探索的多智能体强化学习质量管理信息系统〔J〕。计算机应用，2023，43（1）： 202-208.
	邓海英，李永中，尹庆英.基于通信和探索的多智能体强化学习QMIX改进算法〔J〕。计算机应用杂志，2023，43（1）： 202-208.
28	李利克雷普T P，亨特J J，普瑞泽尔A，等.基于深度强化学习的连续控制〔EB/OL〕2022-11-16］..
29	蒋宝庆，陈宏滨. 基于问学习的无人机辅助无线传感器网络数据采集轨迹规划［记者：。计算机工程，2021，47（4）： 127-134， 165.
	姜碧清，陈海波.基于Q学习的无人机辅助无线传感器网络数据采集轨迹规划〔J〕。计算机工程，2021，47（4）： 127-134， 165.
30	孙浩，陈曦，石强，等.学习优化：训练深度神经网络进行干扰管理〔J〕。IEEE信号处理汇刊，2018，66（20）： 5438-5453.10.1109/tsp.2018.2866382
31	李烨，肖梦巧. 大规模MIMO公司系统中功率分配的深度强化学习方法［J/OL公司。小型微型计算机系统（2022-08-01）［2022-11-16］..
	李毅，肖明清.大规模MIMO系统功率分配的深度强化学习方法〔J/OL〕。中国计算机系统杂志［2022-11-16］..
32	张先超，赵耀，叶海军，等. 无线网络多用户干扰下智能发射功率控制算法［记者：。通信学报，2022，43（2）： 15-21.1959年10月10日/j.issn.1000-436x.2022028
	张小川，赵毅，叶海杰，等.无线网络多用户干扰下的智能发射功率控制算法〔J〕。通讯杂志，2022，43（2）： 15-21.1959年10月10日/j.issn.1000-436x.2022028
33	陶丽佳，赵宜升，徐新雅. 无人机协助边缘计算的能量收集MEC公司系统资源分配策略［记者：。南京邮电大学学报（自然科学版），2022，42（1）： 37-44.
	陶立杰，赵燕生，徐晓云.能量采集MEC系统中无人机辅助边缘计算的资源分配策略〔J〕。南京邮电大学学报（自然科学版），2022，42（1）： 37-44.
34	沈坤，于伟.通信系统的分式编程.第I部分：功率控制和波束形成〔J〕。IEEE信号处理汇刊，2018，66（10）： 2616-2630.10.1109/tsp.2018.2812733

[1]	赵徐炎, 崔允贺, 蒋朝惠, 钱清, 申国伟, 郭春, 李显超.链条：基于重合支配的边缘计算节点放置算法[J] ●●●●。《计算机应用》唯一官方网站, 2023, 43(9): 2812-2818.
[2]	王昱, 任田君, 范子琳.基于引导最小-DDQN的无人机空战机动决策[J] ●●●●。《计算机应用》唯一官方网站, 2023, 43(8): 2636-2643.
[3]	王子腾, 于亚新, 夏子芳, 乔佳琪.融合好奇心和策略蒸馏的稀疏奖励探索机制[J] ●●●●。《计算机应用》唯一官方网站, 2023, 43(7): 2082-2090.
[4]	陈宛桢, 张恩, 秦磊勇, 洪双喜.边缘计算下基于区块链的隐私保护联邦学习算法[J] ●●●●。《计算机应用》唯一官方网站, 2023, 43(7): 2209-2216.
[5]	李校林, 江雨桑.无人机辅助移动边缘计算中的任务卸载算法[J] ●●●●。《计算机应用》唯一官方网站, 2023, 43(6): 1893-1899.
[6]	方和平, 刘曙光, 冉泳屹, 钟坤华.基于深度强化学习的多数据中心一体化调度优化[J] ●●●●。《计算机应用》唯一官方网站, 2023, 43(6): 1884-1892.
[7]	黄晓辉, 杨凯铭, 凌嘉壕.基于共享注意力的多智能体强化学习订单派送[J] ●●●●。《计算机应用》唯一官方网站, 2023, 43(5): 1620-1624.
[8]	曹腾飞, 刘延亮, 王晓英.基于改进深度强化学习的边缘计算服务卸载算法[J] ●●●●。《计算机应用》唯一官方网站, 2023, 43(5): 1543-1550.
[9]	丁正凯, 傅启明, 陈建平, 陆悠, 吴宏杰, 方能炜, 邢镔.结合注意力机制与深度强化学习的超短期光伏功率预测[J] ●●●●。《计算机应用》唯一官方网站, 2023, 43(5): 1647-1654.
[10]	邓晖奕, 李勇振, 尹奇跃.引入通信与探索的多智能体强化学习QMIX公司[J] ●●●●。《计算机应用》唯一官方网站, 2023, 43(1): 202-208.
[11]	刘炎培, 陈宁宁, 朱运静, 王丽萍.面向5G/超过5G的移动边缘缓存优化技术综述[J] ●●●●。《计算机应用》唯一官方网站, 2022, 42(8): 2487-2500.
[12]	王界钦, 林士飏, 彭世明, 贾硕, 杨苗会.协同移动边缘计算分层资源配置机制[J] ●●●●。《计算机应用》唯一官方网站, 2022, 42(8): 2501-2510.
[13]	夏慧雯, 赵中雨, 王卓尔, 张清勇, 彭峰.基于边缘计算的公共交通工具疫情监测系统[J] ●●●●。《计算机应用》唯一官方网站, 2022, 42(7): 2132-2138.
[14]	张杰, 许姗姗, 袁凌云.基于区块链与边缘计算的物联网访问控制模型[J] ●●●●。《计算机应用》唯一官方网站, 2022, 42(7): 2104-2111.
[15]	邓世权, 叶绪国.基于深度问网络的多目标任务卸载算法[J] ●●●●。《计算机应用》唯一官方网站, 2022, 42(6): 1668-1674.

基于深度强化学习的SWIPT公司边缘网络联合优化方法

基于深度强化学习的SWIPT边缘网络联合优化方法

RichHTML格式

PDF格式

可视化

摘要/摘要

引用本文

使用本文

图/表14

参考文献34

相关文章15

编辑推荐

韵律学