MSC 90C40中最近的zbMATH文章 https://zbmath.org/atom/cc/90C40 2024-04-15T15:10:58.286558Z Werkzeug公司 随机下料问题的强化学习方法 https://zbmath.org/1530.90110 2024-04-15T15:10:58.286558Z “皮托姆贝拉·内托,安塞尔莫·R。” https://zbmath.org/authors/?q=ai:pitombeira-neto.anselmo-ramalho公司 “阿瑟·H·F·穆塔” https://zbmath.org/authors/?q=ai:murta.arthur-氢-氟 摘要:我们提出了随机下料问题作为折扣的无限小时马尔可夫决策过程的一个公式。在每个决策阶段,给定当前的项目库存,代理选择以何种模式削减库存对象,以预测未知需求。最佳解决方案对应于一种策略,该策略将每个状态与一个决策关联起来,并将预期总成本最小化。由于精确算法随状态空间维数呈指数级扩展,因此我们开发了一种基于强化学习的启发式求解方法。我们提出了一种近似策略迭代算法,其中我们应用线性模型来近似策略的动作值函数。政策评估是通过从模拟获得的状态转换、决策和成本样本中求解预测的Bellman方程来进行的。由于决策空间较大,因此通过交叉熵方法进行策略改进。利用实际数据进行了计算实验,以说明该算法的应用。将用多项式和傅立叶基函数获得的启发式策略与短视和随机策略进行了比较。结果表明,获得能够充分控制库存的政策的可能性,其平均成本比短视政策获得的成本低80%。 多马尔可夫衰落信道的最优传输策略:存在性、结构和近似 https://zbmath.org/1530.93507 2024-04-15T15:10:58.286558Z “徐勇” https://zbmath.org/authors/?q=ai:xu.yong.4 “香,好香” https://zbmath.org/authors/?q=ai:xiang.haoxiang “杨,李欣” https://zbmath.org/authors/?q=ai:yang.lixin(中文) “陆仁泉” https://zbmath.org/authors/?q=ai:lu.renquan “丹尼尔·奎韦多(Daniel E.Quevedo)” https://zbmath.org/authors/?q=ai:quevedo.daniel-e(电子) 摘要:本文研究了多马尔可夫衰落信道下远程状态估计的最优传输策略。智能传感器用于获取系统的局部状态估计,并将其传输给远程估计器。通过信道分配和传输功率控制的协同设计,提出了一种新的传输策略。将协同设计问题建模为一个约束马尔可夫决策过程(CMDP),以最小化能量约束下的期望平均估计误差协方差。然后,使用拉格朗日乘子方法将CMDP放松为无约束马尔可夫决策过程(UMDP)。建立了UMDP最优平稳策略存在的充分条件,以获得最优传输策略。本文还阐述了具有折现成本的UMDP最优输电功率控制策略的结构。考虑离散-连续混合作用空间,采用参数化深度Q网络(P-DQN)算法获得UMDP的近似最优策略。最后,以一辆行驶车辆为例说明了所提出方法的有效性。