计算机应用》唯一官方网站››2023,第43卷››发行(11): 3540-3550.内政部:10.11772/j.issn.1001-9081.2022111732

• 网络与通信 • 上一篇   

基于深度强化学习的SWIPT公司边缘网络联合优化方法

王哲1,2,,王启名2(),李陶深4,葛丽娜1,,5  

  1. 1广西民族大学 人工智能学院,南宁 530006
    2广西民族大学 电子信息学院,南宁 530006
    三。广西混杂计算与集成电路设计分析重点实验室广西民族大学),南宁 530006
    4.广西大学 计算机与电子信息学院,南宁 530004
    5广西民族大学 网络通信工程重点实验室,南宁 530006
  • 收稿日期:2022-11-22 修回日期:2023-04-30 接受日期:2023-05-12 发布日期:2023-06-02 出版日期:2023-11-10
  • 通讯作者:王启名
  • 作者简介:王哲(1991—),男,河南南阳人,副教授,博士,共因失效会员,主要研究方向:计算机网络、携能通信、联邦机器学习
    王启名(1997—),男,江苏宿迁人,硕士研究生,主要研究方向:计算机网络、携能通信、机器学习wqm082199@163。通用域名格式
    李陶深(1957—),男,广西南宁人,教授,博士,共因失效杰出会员,主要研究方向:移动无线网络、无线能量传输、物联网、智慧城市
    葛丽娜(1969—),女,广西环江人,教授,博士,共因失效高级会员,主要研究方向:网络与信息安全、移动计算、人工智能。
  • 基金资助:
    国家自然科学基金资助项目(61862007);广西自然科学基金资助项目(2020GXNSFBA297103);广西民族大学引进人才科研启动项目(2019KJQD17)

基于深度强化学习的SWIPT边缘网络联合优化方法

王哲(Zhe WANG)1,2,,王启明(Qiming WANG)2(),李桃神4,利纳通用电气1,,5  

  1. 1广西民族大学人工智能学院,广西南宁530006
    2广西民族大学电子信息学院,广西南宁530006
    三。广西混合计算与集成电路设计分析重点实验室(广西民族大学),广西南宁530006
    4.广西大学计算机、电子与信息学院,广西南宁530004
    5广西民族大学网络通信工程重点实验室,广西南宁530006
  • 收到:2022-11-22 修订过的:2023-04-30 认可的:2023-05-12 在线:2023-06-02 出版:2023-11-10
  • 联系人:王启明(Qiming WANG)
  • 关于作者:王哲,1991年生,博士,副教授。他的研究兴趣包括计算机网络、同步信息和权力转移、联邦机器学习。
    王启明,1997年出生,硕士研究生。他的研究兴趣包括计算机网络、同步信息和权力转移、机器学习。
    李陶深,1957年生,博士,教授。他的研究兴趣包括移动无线网络、无线能源传输、物联网、智能城市。
    GE Lina,1969年出生,博士,教授。她的研究兴趣包括网络和信息安全、移动计算、人工智能。
  • 支持单位:
    国家自然科学基金项目(61862007);广西省自然科学基金项目(2020GXNSFBA297103);广西民族大学引进人才科研启动项目(2019KJQD17)

摘要:

边缘计算(欧共体)与无线携能通信(SWIPT)技术能够提升传统网络性能,但同时也增加了系统决策制定的难度和复杂度。而基于最优化方法所设计的系统决策往往具有较高的计算复杂度,无法满足系统的实时性需求。为此,针对EC SWIPT公司辅助的无线传感网络(WSN)联合考虑网络中波束成形、计算卸载与功率控制问题,建立了系统能效最优化数学模型;其次,针对该模型的非凸与参数耦合特征,通过设计系统的信息交换过程,提出基于深度强化学习的联合优化方法,该方法无须建立环境模型,采用奖励函数代替评论家网络对动作进行评估,能降低决策制定难度并提升实时性;最后,基于该方法设计了改进的深度确定性策略梯度(IDDPG)算法,并与多种最优化算法和机器学习算法进行仿真对比,验证了联合优化方法在降低计算复杂度、提升决策实时性方面的优势。

关键词: 无线传感网络, 深度强化学习, 无线携能通信, 边缘计算, 联合优化

摘要:

边缘计算(EC)和同步无线信息和功率传输(SWIPT)技术可以提高传统网络的性能,但也增加了系统决策的难度和复杂性。采用优化方法设计的系统决策往往具有较高的计算复杂度,难以满足系统的实时性要求。因此,针对EC和SWIPT辅助下的无线传感器网络(WSN),结合网络中的波束形成、计算卸载和功率控制问题,提出了系统能量效率优化的数学模型。然后,针对该模型的非凸性和参数耦合特性,通过设计系统的信息交换过程,提出了一种基于深度强化学习的联合优化方法。该方法不需要建立环境模型,采用奖励函数代替Critic网络进行行动评估,可以降低决策难度,提高系统的实时性能。最后,基于联合优化方法,设计了一种改进的深度确定性策略梯度(IDDPG)算法。通过与多种优化算法和机器学习算法的仿真比较,验证了联合优化方法在降低计算复杂度和提高决策实时性方面的优势。

关键词: 无线传感器网络(WSN), 深度强化学习, SWIPT(同步无线信息和电力传输), 边缘计算(EC), 联合优化