×

序列决策问题的代数优化。 (英语) Zbl 07740057号

摘要:我们研究了平稳随机策略集上有限部分可观测马尔可夫决策过程中期望长期报酬的优化问题。在确定性观测的情况下,也称为状态聚合,该问题等效于在二次约束下优化线性目标。我们将该问题的可行集刻画为秩一矩阵的仿射簇与多面体的乘积的交集。基于这种描述,我们得到了优化问题临界点数目的界。最后,我们进行了实验,在可行集的不同边界分量上求解KKT方程或拉格朗日方程,并将结果与理论界和其他约束优化方法进行了比较。

理学硕士:

62年01月 代数统计学
90C23型 多项式优化
90立方厘米 马尔可夫和半马尔可夫决策过程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abadie,J.,《关于Kuhn-Tucker定理》,(非线性规划(北约暑期学校)。非线性编程(北约暑期学校),芒顿,1964年(1967年),北荷兰:北荷兰阿姆斯特丹),19-36·Zbl 0183.22803号
[2] 阿马托,C。;伯恩斯坦,D。;Zilberstein,S.,使用二次约束线性规划求解POMDP,(第五届自治代理和多代理系统国际联合会议论文集(2006)),341-343
[3] Azizzadenesheli,K。;Yu,Y。;Anandkumar,A.,《部分可观测环境中的政策梯度:近似与收敛》(2018年),印前
[4] 巴尔迪,L。;Mourrain,B.,多项式优化中的精确矩表示(2022),预印本
[5] 巴扎拉,M。;Sherali,H。;Shetty,C.,非线性规划(2006),Wiley-Interscience[John Wiley&Sons]:Wiley-Interscience[John Willey&Sons]Hoboken,NJ,理论与算法·Zbl 1140.90040号
[6] Bellman,R.,《马尔科夫决策过程》,J.Math。机械。,6, 679-684 (1957) ·Zbl 0078.34101号
[7] Bellman,R.,《动态规划,科学》,153,34-37(1966)
[8] Bertsekas,D.,非线性规划,J.Oper。Res.Soc.,48,334(1997)
[9] Bezanson,J。;Edelman,A。;卡宾斯基,S。;Shah Julia,V.,《数值计算的新方法》,SIAM Rev.,59,65-98(2017)·Zbl 1356.68030号
[10] 班达里,J。;Russo,D.,政策梯度方法的全球最优保证(2019年),预印本
[11] 育种,P。;Rose,K。;Timme,S.,使用区间算术证明多项式系统的零点(2021),预印本
[12] 育种,P。;Timme,S。;jl,同伦延续,Julia中的同伦延续包,(国际数学软件大会(2018),Springer),458-465·Zbl 1396.14003号
[13] Chernoff,H.,最优随机控制,Sankhyá:印度J.Stat.,Ser。A、 221-252(1968)·Zbl 0206.15901号
[14] 达达西,R。;Taiga,A。;Le Roux,N。;舒尔曼斯,D。;Bellemare,M.,强化学习中的价值函数多面体,(国际机器学习会议,PMLR(2019)),1486-1495
[15] 达尔,J。;Andersen,E.D.,非对称指数锥优化的原对偶内点算法,数学。程序。(2021)
[16] Derman,C.,有限状态马尔可夫决策过程(1970),技术报告·Zbl 0262.90001号
[17] 亨利安,D。;Lasserre,J。;Löfberg,J.,《Gloptipoly 3:矩、优化和半定规划》,Optim。方法软件。,24, 761-779 (2009) ·Zbl 1178.90277号
[18] 亨利安,D。;Lasserre,J.-B.,《在GloptiPoly中检测全球最优性和提取解决方案》,293-310(2005),施普林格-柏林-海德堡:施普林格·Zbl 1119.93301号
[19] Howard,R.,《动态规划和马尔可夫过程》(1960),John Wiley·Zbl 0091.16001号
[20] 琼斯,C。;Kerrigan,E。;Maciejowski,J.,《等式集投影:半空间表示中多边形投影的新算法》(2004),45
[21] Kallenberg,L.,标准和非标准马尔可夫控制问题线性规划综述。第一部分:理论,Z.Oper-研究,40,1-42(1994)·Zbl 0810.90133号
[22] 库恩,H。;塔克,A.,《非线性规划》(第二届伯克利数理统计与概率研讨会(1951年)),481-492·Zbl 0044.05903号
[23] Lasserre,J.,多项式全局优化与矩问题,SIAM J.Optim。,1796-817年11月(2000/01年)·Zbl 1010.90061号
[24] Lasserre,J。;亨利安,D。;Prieur,C。;Trélat,E.,通过占用测度和线性松弛实现非线性最优控制,SIAM J.control Optim。,47, 1643-1666 (2008) ·Zbl 1188.90193号
[25] 蒙图法尔,G。;Ghazi-Zahedi,K。;Ay,N.,部分可观测马尔可夫决策过程中最优平稳控制的几何和确定性(2015),预印本
[26] 蒙图法尔,G。;Rauh,J.,政策改进的几何,(国际信息几何科学会议(2017),施普林格),282-290·Zbl 1426.91076号
[27] 蒙图法尔,G。;Rauh,J。;Ay,N.,平均奖励POMDP中的任务认知约束,(2019年ICLR任务认知强化学习研讨会(2019))
[28] 穆勒,J。;Montüfar,G.,无限大POMDP中无记忆随机策略优化的几何结构,(学习表征国际会议(2022))
[29] 穆勒,J。;Montüfar,G.,用无记忆随机策略求解状态-行为空间中的无限大POMDP,(第五届强化学习和决策多学科会议(2022年))
[30] Neyman,A.,随机游戏中的实代数工具,(随机游戏和应用(2003),Springer),57-75·Zbl 1161.91313号
[31] Nie,J.,通过平面截断证明Lasserre层次的收敛性,数学。程序。,142, 485-510 (2011) ·Zbl 1305.65151号
[32] Nie,J.,Lasserre层次的最优性条件和有限收敛,数学。程序。,146, 97-121 (2014) ·Zbl 1300.65041号
[33] 聂,J。;Ranestad,K.,多项式优化的代数度,SIAM J.Optim。,20, 485-502 (2009) ·Zbl 1190.14051号
[34] 聂,J。;Tang,X.,凸广义Nash均衡问题与多项式优化,数学。程序。,1-34 (2021)
[35] 波塔卡尔,I。;Sturmfels,B.,《依赖平衡的几何》(2022),预印本·Zbl 1518.14003号
[36] Poupart,P。;朗·T。;Toussant,M.,《分析和逃避规划中的局部最优作为部分可观察域的推理》,(机器学习和数据库知识发现联合欧洲会议(2011),Springer),613-628
[37] Puterman,M.,《马尔可夫决策过程:离散随机动态规划》(2014),John Wiley&Sons
[38] Sutton,R.S。;McAllester,D。;辛格,S。;Mansour,Y.,《函数逼近强化学习的策略梯度方法》,《神经信息处理系统进展》,第12卷(1999),麻省理工学院出版社
[39] 弗拉西斯,N。;利特曼,M。;Barber,D.,关于POMDP中随机控制器优化的计算复杂性,ACM Trans。计算。理论,4,1-8(2012)·兹比尔1322.68111
[40] 瓦希特,A。;Biegler,L.,《关于大规模非线性规划的点内滤波线性搜索算法的实现》,数学。程序。,106, 25-57 (2006) ·Zbl 1134.90542号
[41] 王凯。;库马尔,N。;Zhou,K。;胡伊,B。;冯,J。;Mannor,S.,稳健值函数的几何,(第39届机器学习国际会议论文集,第39届机械学习国际会议文献集,机器学习研究论文集,PMLR,第162卷(2022)),22727-22751
[42] 怀特,D.,马尔可夫决策过程的进一步实际应用,接口,18,55-61(1988)
[43] Wu,Y。;De Loera,J.,马尔可夫决策过程的几何政策迭代,(第28届ACM SIGKDD知识发现和数据挖掘会议论文集,KDD’22(2022),计算机械协会:美国纽约州纽约市计算机械协会),2070-2078
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。