分散随机控制

@第{Mahajan2013DecentralizedSC条,title={分散随机控制},author={Aditya Mahajan和Mehnaz Mannan},journal={运筹学年鉴},年份={2013},体积={241},页数={109-126},url={https://api.semanticscholar.org/CorpusID:17735171}}
信息状态的概念用于解释分散控制的两种常用解决方案:个人对个人方法和公共信息方法。

询问这篇论文
AI供电

去中心化POMDP简介

本书介绍了由分散的部分可观测马尔可夫决策过程(Dec-POMDP)形式化的不确定性下的多智能体规划。目标受众是研究人员和

团队最优分散状态估计

研究了线性随机过程的多智能体最优分散估计问题,证明了公共估计可以从单个卡尔曼滤波器中计算出来,并导出了计算偏移协方差和估计增益的递推表达式。

基于Girsanov测度变换的分散噪声信息结构随机微分决策系统动态团队理论

本文在连续时间随机非线性微分分散决策系统的背景下,提出了两种将静态团队理论推广到动态团队理论的方法,

部分可观测Markov决策过程中学习与控制的分离

本文提供了一个理论框架,旨在分离控制和学习任务,使我们能够将基于实时模型的控制与在线学习方法相结合,从而避免了为CPS推导最佳控制策略的挑战。

具有信念共享的分散POMDP中的政策评估

该工作考虑了一个协作策略评估任务,其中不假设代理直接观察环境状态,并提出了一个完全分散的信任形成策略,该策略依赖于个人更新和通信网络上的局部交互。

基于Girsanov测度变换的随机微分决策问题的分散最优性条件

基于分散全局最优性和分散人对人(PbP)最优性的概念,应用两种方法推导了具有多个决策者的随机微分决策问题的分散最优性充要条件,其目的是优化一个共同的收益。

分散决策的充分信息方法

提出了充分信息的概念,它为决策目的提供了代理私有和公共信息的相互一致压缩,并对动态博弈随时间的顺序分解,指定了确定基于充分信息的完美贝叶斯均衡(SIB-PBE)的算法。

基于随机线性规划的平均报酬多智能体强化学习的收敛速度

建立了获得近全局最优解的样本复杂度与状态空间和动作空间的基数的紧密依赖性相匹配,并根据多智能体优化展现了网络的经典尺度。

多智能体强化学习中基于公共信息的近似状态表示

一个具有近似公共和私有状态表示的通用压缩框架,基于该框架可以构造分散策略,根据近似误差参数和剩余时间步长,导出了用近似状态执行动态规划的最优性差距。

顺序随机控制的标准形式

具有非经典信息模式的因果离散时间随机控制问题可以简化为(理论上的)标准形式,从而能够以直观透明的方式建立最大值原理、可达集概念和动态规划。

分散随机控制的公共信息方法

本章介绍了分散随机控制的常见信息方法,并将这种方法描述为一个通用模型,并通过实时通信、网络控制系统、蜂窝系统中的寻呼和注册以及多址广播系统的例子进行了说明。

具有共同过去信息集的马尔可夫链的分散最优控制

研究表明,基于常维充分统计量的存在性,非经典动态规划方法可用于有限时间范围内Markov链的集中和分散控制。

具有控制共享的耦合子系统的最优分散控制

提出了有限值控制行为的三步求解方法,并使用基于公共信息的方法为所有控制站之间共享的公共信息找到一个充分的统计量,从而获得动态规划分解。

最优分散控制中的信息结构

给出了团队决策问题中信息结构的综合特征及其对信息约束下线性对象团队优化和规范优化控制的可处理性的影响。

分散控制中周期共享信息模式的分离定理

证明了周期共享模式与先前研究的一步延迟共享模式具有类似的分离特性。

离散时间系统的估计与控制分离

试图协调离散时间随机控制理论中与估计和控制分离有关的众多结果。结果差异很大,具体取决于

部分历史共享的分散随机控制:一种公共信息方法

提出了一种称为部分历史共享信息结构的分散随机控制的一般模型,并证明了协调器处的最优控制问题是一个部分可观测的马尔可夫决策过程(POMDP),该过程是利用马尔可夫决策理论的技术求解的。

随机网络控制系统:信息约束下的稳定与优化

《随机网络控制系统:信息约束下的稳定与优化》是一本内容全面、内容完备的书,旨在将这些不同的学科与精确性和严谨性联系起来,同时向控制器架构师传达设计指南。

非经典信息结构网络控制系统的最优性能

开发了一种用于获得全局优化问题的顺序分解的求解方法,并将其扩展到传感器对工厂状态进行不完美观测的情况。