潜在平均场博弈中最优策略的学习:平滑策略迭代算法

@文章{Tang2022LearningOP,title={潜在平均场博弈中的最优策略学习:平滑策略迭代算法},author={清唐和宋嘉浩},日志={SIAM J.控制优化},年份={2022},体积={62},页数={351-375},网址={https://api.semanticscholar.org/CorpusID:254535747}}
介绍了两种平滑策略迭代算法,作为二阶势场博弈(MFG)中学习策略的规则和计算纳什均衡的方法。

本文中的数字

反均场对策的一种策略迭代方法

我们提出了一种策略迭代方法来解决平均场博弈(MFG)模型的逆问题,特别是从以下部分观测数据重建博弈中的障碍函数

古诺平均场控制对策中的学习均衡

我们考虑的是古诺平均场控制博弈,这是一个最初为生产者连续生产可耗竭资源而开发的模型。我们在以下条件下证明了解的唯一性

平稳平均场博弈系统稳定解的逼近和扰动

这项工作为二阶平均场对策系统在解的唯一性可能失效的情况下的稳定平衡点的数值分析引入了一种新的通用方法。看在我的份上

平均场博弈的一种策略迭代方法

本文介绍了平均场博弈系统的一种策略迭代方法,并证明了该方法对问题的解的收敛性,并引入适当的离散化来数值求解平稳问题和演化问题。

在Mean-Field游戏中边学习边游戏:融合与优化

提出了一种拟议算法,该算法通过策略优化和梯度下降的一步交替更新策略(学习)和平均场状态(播放),是第一个在播放时实现学习的有效算法。

一个学习Mean-Field游戏的通用框架

对一个均衡产品定价问题的实验表明,在一般平均场博弈(GMFG)环境下,具有Q学习的GMF-V和具有信赖域策略优化的GMF-P的两个具体实例化都是有效且鲁棒的。

势平均场对策中的广义条件梯度与学习

结果表明,广义条件梯度算法可以解释为一种称为虚拟游戏的学习方法,并且证明了对于学习序列$\delta_k=2/(k+2)$,潜在代价收敛于$O(1/k)$,问题的可利用性和变量收敛于$1/\sqrt{k}$。

平均场博弈中无模型学习的收敛性

本文全面分析了在平均场MAS的每个步骤中使用任何单个智能体学习算法的虚拟迭代方案的收敛性,并首次证明了无模型学习算法朝向非平稳MFG平衡点的收敛性。

具有不可分哈密顿量的时间相关平均场对策系统的策略迭代方法

介绍了两种基于策略迭代方法数值求解含不可分离哈密顿量的含时偏微分方程平均场对策系统的算法,并证明了其收敛速度是线性的。

具有最优停止和吸收的平均场博弈的线性规划虚拟博弈算法

我们在线性规划方法的背景下开发了虚拟游戏算法,用于最优停止的平均场游戏和具有规则控制和吸收的平均场博弈。这个

平均场对策和平均场类型控制的数值方法

    劳里埃先生
    数学、计算机科学
  • 2021
讨论了偏微分方程前向-后向系统的数值格式、Kolmogorov-Foker-Planck偏微分方程驱动的变分问题的优化技术、基于单调算子观点的方法以及依赖于机器学习工具的随机方法。

控制的平均场游戏:有限差分近似

考虑了主体通过状态和控制相互作用的平均场博弈的数值近似,提出了一种求解离散环境中非线性方程组的迭代方法。
...