内政部：10.1137/22m1539861
语料库ID:254535747

潜在平均场博弈中最优策略的学习：平滑策略迭代算法

@文章{Tang2022LearningOP，title={潜在平均场博弈中的最优策略学习：平滑策略迭代算法}，author={清唐和宋嘉浩}，日志={SIAM J.控制优化}，年份={2022}，体积={62}，页数={351-375}，网址={https://api.semanticscholar.org/CorpusID:254535747}}

Q.唐宋嘉浩
出版在里面SIAM控制与…杂志… 2022年12月9日
计算机科学、数学

介绍了两种平滑策略迭代算法，作为二阶势场博弈（MFG）中学习策略的规则和计算纳什均衡的方法。

[PDF]语义阅读器

本文中的数字

话题

平均场博弈最优策略全球融合纳什均衡收敛性分析有限差分格式激光离子单调性条件虚拟播放算法

反均场对策的一种策略迭代方法

奎仁N.Soedjak公司山阴通

计算机科学、数学

2024

我们提出了一种策略迭代方法来解决平均场博弈（MFG）模型的逆问题，特别是从以下部分观测数据重建博弈中的障碍函数…

高度影响力

[PDF]（PDF格式）

古诺平均场控制对策中的学习均衡

法比奥·卡米利马修·劳里埃清汤

经济学、数学

2024

我们考虑的是古诺平均场控制博弈，这是一个最初为生产者连续生产可耗竭资源而开发的模型。我们在以下条件下证明了解的唯一性…

高度影响力

[PDF]（PDF格式）

平稳平均场博弈系统稳定解的逼近和扰动

朱利斯·贝里奥利维尔·莱伊弗朗西斯科·席尔瓦

数学

arXiv.org网站

2024

这项工作为二阶平均场对策系统在解的唯一性可能失效的情况下的稳定平衡点的数值分析引入了一种新的通用方法。看在我的份上…

[PDF]（PDF格式）

平均场博弈的一种策略迭代方法

S.Cacace公司F.卡米利亚历山德罗·戈菲

数学、计算机科学

E S A I M：控制、优化和微积分…

2021

本文介绍了平均场博弈系统的一种策略迭代方法，并证明了该方法对问题的解的收敛性，并引入适当的离散化来数值求解平稳问题和演化问题。

[PDF]（PDF格式）

在Mean-Field游戏中边学习边游戏：融合与优化

谢巧敏杨卓然王兆然安德烈亚·明卡

计算机科学、数学

机器学习国际会议

2021

提出了一种拟议算法，该算法通过策略优化和梯度下降的一步交替更新策略（学习）和平均场状态（播放），是第一个在播放时实现学习的有效算法。

一个学习Mean-Field游戏的通用框架

Xin Guo公司胡安然徐仁元Junzi Zhang（张军子）

计算机科学、数学

运筹学数学

2023

对一个均衡产品定价问题的实验表明，在一般平均场博弈（GMFG）环境下，具有Q学习的GMF-V和具有信赖域策略优化的GMF-P的两个具体实例化都是有效且鲁棒的。

41

[PDF]（PDF格式）

势平均场对策中的广义条件梯度与学习

J.博纳斯P.拉维尼劳伦特·菲佛

计算机科学、数学

2021

结果表明，广义条件梯度算法可以解释为一种称为虚拟游戏的学习方法，并且证明了对于学习序列$\delta_k=2/（k+2）$，潜在代价收敛于$O（1/k）$，问题的可利用性和变量收敛于$1/\sqrt{k}$。

16

[PDF]（PDF格式）

平均场博弈系统策略迭代方法的收敛速度

F.卡米利Q.唐

数学

数学分析与应用杂志

2022

15

[PDF]（PDF格式）

平均场博弈中无模型学习的收敛性

瑞利朱利安·佩罗拉M.Laurière先生M.盖斯特O.派琴

计算机科学

AAAI人工智能会议

2020

本文全面分析了在平均场MAS的每个步骤中使用任何单个智能体学习算法的虚拟迭代方案的收敛性，并首次证明了无模型学习算法朝向非平稳MFG平衡点的收敛性。

84

[PDF]（PDF格式）

具有不可分哈密顿量的时间相关平均场对策系统的策略迭代方法

劳里埃先生宋嘉浩Q.唐

数学

应用数学与优化

2023

介绍了两种基于策略迭代方法数值求解含不可分离哈密顿量的含时偏微分方程平均场对策系统的算法，并证明了其收敛速度是线性的。

15

[PDF]（PDF格式）

具有最优停止和吸收的平均场博弈的线性规划虚拟博弈算法

罗克萨娜·杜米特里斯库马科斯·卢彻P.坦科夫

数学

数学建模与数值…

2023

我们在线性规划方法的背景下开发了虚拟游戏算法，用于最优停止的平均场游戏和具有规则控制和吸收的平均场博弈。这个…

12

[PDF]（PDF格式）

平均场对策和平均场类型控制的数值方法

劳里埃先生

数学、计算机科学

应用数学专题讨论会论文集

2021

讨论了偏微分方程前向-后向系统的数值格式、Kolmogorov-Foker-Planck偏微分方程驱动的变分问题的优化技术、基于单调算子观点的方法以及依赖于机器学习工具的随机方法。

70

[PDF]（PDF格式）

控制的平均场游戏：有限差分近似

Y.Achdou先生齐亚德·科贝西

数学

2021

考虑了主体通过状态和控制相互作用的平均场博弈的数值近似，提出了一种求解离散环境中非线性方程组的迭代方法。

26

[PDF]（PDF格式）