计算机工程与应用››2024,第60卷››发行(10): 301-310.内政部:10.3778/j.issn.1002-8331.2304-0194
•大数据和云计算• 以前的文章 下一篇文章
张吉、齐国良、杜春红、龚文文
在线:
出版:
张冀,齐国梁,朵春红,龚雯雯
摘要:为了降低多设备多边缘服务器场景中设备级的总成本,解决现有深度强化学习(DRL)仅支持单个动作空间的算法局限性,提出了一种基于混合的多智能体深度确定策略梯度(H-MADDPG)。首先,考虑各种复杂的环境条件,如物联网设备/服务器的计算能力随负载的动态变化、时变无线传输信道增益、未知能量获取以及任务大小的不确定性,建立MEC系统模型。然后,以连续时间段内的综合时延和能耗总成本最小为优化目标,建立了问题模型。最后,将问题以马尔可夫决策过程(MDP)的形式传递给H-MADDPG,该过程在价值网络的帮助下训练两个并行策略网络,并输出离散的服务器选择和连续的任务卸载率。实验结果表明,H-MADDPG方法具有良好的收敛性和稳定性。从不同的角度来看,无论计算任务是密集型还是延迟敏感型,H-MADDPG的整体系统收益都优于Local、OffLoad和DDPG。与其他方法相比,它可以在计算密集型任务的需求下保持更大的系统吞吐量。
关键词: 物联网, 移动边缘计算, 多智能体深度确定策略梯度(MADDPG), 混合动作空间
摘要:为降低多设备多边缘服务器场景中设备层级的总成本,并解决现有深度强化学习(深度强化学习,DRL)只支持单一动作空间的算法局限性,提出基于混合决策的多智能体深度确定性策略梯度方法(基于混合的多智能体深度确定策略梯度,H-MADDPG)首先考虑物联网设备/服务器计算能力随负载的动态变化、时变的无线传输信道增益、能量收集的未知性、任务量不确定性多种复杂的环境条件,建立MEC公司系统模型;其次以一段连续时隙内综合时延、能耗的总成本最小作为优化目标建立问题模型;最后将问题以马尔科夫决策过程(马尔可夫决策过程,MDP)方法H-MADDPG在价值网络的辅助下训练并行的两个策略网络,为设备输出离散的服务器选择及连续的任务卸载率。实验结果表明,H-MADDPG公司方法具有良好的收敛性和稳定性,从计算任务是否密集、延迟是否敏感等不同角度进行观察,H-MADDPG公司系统整体回报优于本地、卸载和DDPG在计算密集型的任务需求下也能保持更大的系统吞吐量。
关键词: 物联网(物联网), 边缘计算卸载, 多智能体深度确定性策略梯度(MADDPG), 混合动作空间
张吉、齐国良、杜春红、龚文文。混合作用空间中的多设备边缘计算卸载方法[J]。计算机工程与应用,2024,60(10):301-310。
张冀, 齐国梁, 朵春红, 龚雯雯. 混合动作空间下的多设备边缘计算卸载方法[J] ●●●●。计算机工程与应用, 2024, 60(10): 301-310.
0 / 推荐
添加到引文管理器 尾注|里斯|BibTeX公司
网址: http://cea.ceaj.org/EN/10.3778/j.issn.1002-8331.2304-0194
http://cea.ceaj.org/EN/Y2024/V60/I10/301