计算机工程与应用››2024,第60卷››发行(10): 301-310.内政部:10.3778/j.issn.1002-8331.2304-0194

•大数据和云计算• 以前的文章   下一篇文章

混合动作空间中的多设备边缘计算卸载方法

张吉、齐国良、杜春红、龚文文  

  1. 1.华北电力大学计算机系,河北保定071000
    2.河北省能源与电力知识计算重点实验室,河北保定,071000,中国
  • 在线:2024-05-15 出版:2024-05-15

混合动作空间下的多设备边缘计算卸载方法

张冀,齐国梁,朵春红,龚雯雯  

  1. 1.华北电力大学(保定) 计算机系,河北 保定 071000
    2河北省能源电力知识计算重点实验室,河北 保定 071000

摘要:为了降低多设备多边缘服务器场景中设备级的总成本,解决现有深度强化学习(DRL)仅支持单个动作空间的算法局限性,提出了一种基于混合的多智能体深度确定策略梯度(H-MADDPG)。首先,考虑各种复杂的环境条件,如物联网设备/服务器的计算能力随负载的动态变化、时变无线传输信道增益、未知能量获取以及任务大小的不确定性,建立MEC系统模型。然后,以连续时间段内的综合时延和能耗总成本最小为优化目标,建立了问题模型。最后,将问题以马尔可夫决策过程(MDP)的形式传递给H-MADDPG,该过程在价值网络的帮助下训练两个并行策略网络,并输出离散的服务器选择和连续的任务卸载率。实验结果表明,H-MADDPG方法具有良好的收敛性和稳定性。从不同的角度来看,无论计算任务是密集型还是延迟敏感型,H-MADDPG的整体系统收益都优于Local、OffLoad和DDPG。与其他方法相比,它可以在计算密集型任务的需求下保持更大的系统吞吐量。

关键词: 物联网, 移动边缘计算, 多智能体深度确定策略梯度(MADDPG), 混合动作空间

摘要:为降低多设备多边缘服务器场景中设备层级的总成本,并解决现有深度强化学习(深度强化学习,DRL)只支持单一动作空间的算法局限性,提出基于混合决策的多智能体深度确定性策略梯度方法(基于混合的多智能体深度确定策略梯度,H-MADDPG)首先考虑物联网设备/服务器计算能力随负载的动态变化、时变的无线传输信道增益、能量收集的未知性、任务量不确定性多种复杂的环境条件,建立MEC公司系统模型;其次以一段连续时隙内综合时延、能耗的总成本最小作为优化目标建立问题模型;最后将问题以马尔科夫决策过程(马尔可夫决策过程,MDP)方法H-MADDPG在价值网络的辅助下训练并行的两个策略网络,为设备输出离散的服务器选择及连续的任务卸载率。实验结果表明,H-MADDPG公司方法具有良好的收敛性和稳定性,从计算任务是否密集、延迟是否敏感等不同角度进行观察,H-MADDPG公司系统整体回报优于本地、卸载和DDPG在计算密集型的任务需求下也能保持更大的系统吞吐量。

关键词: 物联网(物联网), 边缘计算卸载, 多智能体深度确定性策略梯度(MADDPG), 混合动作空间