On the Complexity of Value Iteration (Track B: Automata, Logic, Semantics, and Theory of Programming)

Balaji, Nikhil; Kiefer, Stefan; Novotný, Petr; Pérez, Guillermo A.; Shirmohammadi, Mahsa

doi:10.4230/LIPIcs.ICALP.2019.102

文件

LIPIcs公司。ICALP.2019.102.pdf

文件大小：0.52 MB
15页

文件标识符

内政部： 10.4230/LIPIcs公司。ICALP.2019.102年
瓮： urn:nbn:de:0030-drops-106782

作者详细信息

尼希尔·巴拉吉

英国牛津大学

斯特凡·基弗

英国牛津大学

彼得·诺沃顿

捷克共和国布尔诺Masaryk大学

吉列尔莫·A·佩雷斯

比利时安特卫普大学

马赫萨·希尔穆罕默德

CNRS，法国巴黎
IRIF，巴黎，法国

致谢

我们感谢詹姆斯·沃雷尔对这部作品早期版本的有益评论。

引用为获取BibTex

尼基尔·巴拉吉（Nikhil Balaji）、斯特凡·基弗（Stefan Kiefer）、彼得·诺沃顿（Petr Novotn）、吉列尔莫·A·佩雷斯（Guillermo A.Pérez）和马哈萨·西尔莫哈马迪。关于价值迭代的复杂性（B轨道：自动机、逻辑、语义和编程理论）。第46届国际自动化、语言和编程学术讨论会（ICALP 2019）。莱布尼茨国际信息学论文集（LIPIcs），第132卷，第102:1-102:15页，达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所（2019）
https://doi.org/10.4230/LIPIcs.ICALP.2019.102

@会议记录{balaji_et_al:LIPIcs.ICALP.2019.102，author={Balaji、Nikhil和Kiefer、Stefan和Novotn、Petr和P{e} 雷兹吉列尔莫·A.和西尔穆罕默德·马赫萨}，title={{关于值迭代的复杂性}}，booktitle={第46届国际自动化、语言和编程学术讨论会（ICALP 2019）}，页数={102:1--102:15}，series={Leibniz国际信息学论文集（LIPIcs）}，国际标准图书编号={978-3-95977-109-2}，ISSN={1868-8969}，年份={2019}，体积={132}，editor={Baier、Christel和Chatzigiannakis、Ioannis和Flocchini、Paola和Leonardi、Stefano}，publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik}，地址={Dagstuhl，德国}，URL={https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.ICALP.2019.102},URN={URN:nbn:de:0030-drops-106782}，doi={10.4230/LIPIcs.ICALP.2019.102}，annote={关键词：马尔可夫决策过程，值迭代，形式验证}}

<trans data-src="@InProceedings{balaji_et_al:LIPIcs.ICALP.2019.102,">@诉讼程序{balaji_et_al:LIPIcs.ICALP.2019.102，</trans><trans data-src="author =	{Balaji, Nikhil and Kiefer, Stefan and Novotn\'{y}, Petr and P\'">author={Balaji、Nikhil和Kiefer、Stefan和Novotn、Petr和P</trans><trans data-src="{e}rez">{e} 雷兹</trans><trans data-src=", Guillermo A. and Shirmohammadi, Mahsa},">吉列尔莫·A.和西尔穆罕默德·马赫萨}，</trans><trans data-src="title =	{{On the Complexity of Value Iteration}},">title={{关于值迭代的复杂性}}，</trans><trans data-src="booktitle =	{46th International Colloquium on Automata, Languages, and Programming (ICALP 2019)},">booktitle={第46届国际自动化、语言和编程学术讨论会（ICALP 2019）}，</trans><trans data-src="pages =	{102:1--102:15},">页数＝{102:1--102:15}，</trans><trans data-src="series =	{Leibniz International Proceedings in Informatics (LIPIcs)},">series={Leibniz国际信息学论文集（LIPIcs）}，</trans><trans data-src="ISBN =	{978-3-95977-109-2},">国际标准图书编号={978-3-95977-109-2}，</trans><trans data-src="ISSN =	{1868-8969},">ISSN={1868-8969}，</trans><trans data-src="year =	{2019},">年份={2019}，</trans><trans data-src="volume =	{132},">体积={132}，</trans><trans data-src="editor =	{Baier, Christel and Chatzigiannakis, Ioannis and Flocchini, Paola and Leonardi, Stefano},">editor={Baier、Christel和Chatzigiannakis、Ioannis和Flocchini、Paola和Leonardi、Stefano}，</trans><trans data-src="publisher =	{Schloss Dagstuhl -- Leibniz-Zentrum f{\"u}r Informatik},">publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik}，</trans><trans data-src="address =	{Dagstuhl, Germany},">地址={Dagstuhl，德国}，</trans><trans data-src="URL =		{">URL={</trans><trans data-src="https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.ICALP.2019.102">https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.ICALP.2019.102</trans><trans data-src="},">},</trans><trans data-src="URN =		{urn:nbn:de:0030-drops-106782},">URN={URN:nbn:de:0030-drops-106782}，</trans><trans data-src="doi =		{10.4230/LIPIcs.ICALP.2019.102},">doi={10.4230/LIPIcs.ICALP.2019.102}，</trans><trans data-src="annote =	{Keywords: Markov decision processes, Value iteration, Formal verification}">annote={关键词：马尔可夫决策过程，价值迭代，形式验证}</trans><trans data-src="}">}</trans>

摘要

值迭代是求解马尔可夫决策过程（MDP）的基本算法。它通过迭代n次与MDP自然相关的递归方程来计算最大n步回报。同时，值迭代为MDP提供了一种策略，该策略在给定的有限时域n上是最优的。本文解决了值迭代的计算复杂性。我们表明，给定二进制和MDP中的地平线n，计算最优策略是EXPTIME-complete，从而解决了一个开放问题，该问题可以追溯到1987年Papadimitriou和Tsitsiklis关于MDP复杂性的开创性论文。为了获得这一主要结果，我们开发了几个垫脚石，这些垫脚石产生了独立利益的结果。例如，我们证明了在以max和+为运算符的整数上计算直线程序给定的函数的n次迭代（二进制中n次）是EXPTIME-complete。我们还为线性更新计数器中的有界暂停问题提供了新的复杂性结果。

主题分类

ACM科目分类

计算理论→概率计算
计算理论→逻辑和验证
计算理论→马尔可夫决策过程

关键词

马尔可夫决策过程
价值迭代
正式验证

韵律学

访问统计信息
总访问次数（每周更新）

0

PDF下载

0

元数据视图

工具书类

Pieter Abbeel和Andrew Y.Ng。学习控制的一阶马尔可夫模型。L.K.Saul、Y.Weiss和L.Bottou主编，《神经信息处理系统进展》17，第1-8页。麻省理工学院出版社，2005年。网址：http://papers.nips.cc/paper/2569-learning-first-order-markov-models-for-control.pdf.
埃里克·阿伦德（Eric Allender）、尼基尔·巴拉吉（Nikhil Balaji）和萨米尔·达塔（Samir Datta）。低深度均匀阈值电路与直线程序的位复杂性。在Erzébet Csuhaj-Varjü，Martin Dietzfelbinger和Zoltán E-sik，编辑，2014年计算机科学数学基础第39届国际研讨会，2014年8月25-29日，匈牙利布达佩斯，MFCS 2014。《计算机科学讲义》第8635卷第二部分会议录，第13-24页。斯普林格，2014年。网址：http://dx.doi.org/10.1007/978-3-662-44465-8_2.
埃里克·阿伦德（Eric Allender）、彼得·布尔吉塞（Peter Bürgisser）、约翰·科杰尔加德·佩德森（Johan Kjeldgaard-Pedersen）和彼得·布罗·米尔特森（Peter Bro Miltersen）。关于数值分析的复杂性。SIAM计算机杂志，38（5）：1987-2006，2009。
埃里克·阿伦德（Eric Allender）、安德烈亚斯·克雷布斯（Andreas Krebs）和皮埃尔·麦肯齐（Pierre McKenzie）。成本登记自动机的复杂度边界更好。《计算系统理论》，2017年第1-19页。
编辑Christel Baier和Katoen Joost-Pieter。模型检查原则。麻省理工学院出版社，2008年。
理查德·贝尔曼（Richard Bellman）。动态编程。普林斯顿大学出版社，1957年。
丹尼尔·斯伯恩斯坦（Daniel S Bernstein）、罗伯特·吉万（Robert Givan）、尼尔·伊梅尔曼（Neil Immerman）和什洛莫·齐尔伯斯坦（Shlomo Zilberstein）。马尔可夫决策过程分散控制的复杂性。运筹学数学，27（4）：819-8402002。
迪米特里·伯特塞卡斯（Dimitri P.Bertsekas）。动态规划：确定性和随机模型。Prentice-Hall，Inc.，美国新泽西州上鞍河，1987年。
迪米特里·伯特塞卡斯（Dimitri P.Bertsekas）。动态规划与最优控制。雅典娜科学公司，马萨诸塞州贝尔蒙特，2005年。
文森特·德·布隆德尔（Vincent D Blondel）和约翰·齐齐克利斯（John N Tsitsiklis）。对计算复杂性的调查导致了系统和控制。自动化，36（9）：1249-12742000。
妮可·巴伊尔和乌尔里希·里德。马尔可夫决策过程及其在金融中的应用。施普林格-弗拉格-柏林-海德堡，2011年。
编辑Edmund M.Clarke、Thomas A.Henzinger、Helmut Veith和Bloem Roderick。模型检查手册。施普林格国际出版公司，2018年。
沃伊西奇·切尔温斯基、斯拉沃米尔·拉索塔、兰科·拉齐奇、杰罗姆·勒鲁和菲利普·马佐维耶基。Petri网的可达性问题不是初等的（扩展抽象）。CoRR，abs/1809.071152018年。网址：http://arxiv.org/abs/1809.07115.
戴鹏、毛萨姆、丹尼尔·S·韦尔德和朱迪·戈德史密斯。拓扑值迭代算法。J.阿蒂夫。智力。2011年第42:181-209号决议。网址：http://jair.org/papers/paper3390.html.
Laurent Doyen、Thierry Massart和Mahsa Shirmohammadi。马尔可夫决策过程中的极限同步。In Anca Muscholl，编辑，《软件科学与计算结构基础-第17届国际会议》，FOSSACS 2014，作为欧洲软件理论与实践联席会议的一部分举行，ETAPS 2014，法国格勒诺布尔，2014年4月5日至13日，《计算机科学讲义》第8412卷，第58-72页。斯普林格，2014年。网址：http://dx.doi.org/10.1007/978-3-642-54830-7_4.
约翰·费恩利和拉胡尔·萨瓦尼。单纯形方法的复杂性。《第四十七届美国计算机学会计算机理论研讨会论文集》，STOC’15，201-208页，美国纽约州纽约市，2015年。ACM公司。网址：http://dx.doi.org/10.1145/2746539.2746558.
朱迪·戈德史密斯（Judy Goldsmith）、迈克尔·利特曼（Michael L Littman）和马丁·蒙德亨克（Martin Mundhenk）。概率域中计划存在性和评估的复杂性。《第十三届人工智能不确定性会议论文集》（UAI'97），182-189页。摩根考夫曼出版社，1997年。
朱迪·戈德史密斯和马丁·蒙德亨克。马尔可夫决策过程中的复杂性问题。1998年6月15日至18日，美国纽约州布法罗市，第13届IEEE计算复杂性年会会议记录，第272-280页。IEEE计算机学会，1998年。网址：http://dx.doi.org/10.109/CCC.1998.694621.
R.Greenlaw、H.J.Hoover和W.L.Ruzzo。并行计算的局限性：P-完备性理论。牛津大学出版社，1995年。网址：https://books.google.fr/books？id=YZHnCwAAQBAJ.
威廉·黑塞（William Hesse）、埃里克·阿伦德（Eric Allender）和大卫·米斯·巴林顿（David A.Mix Barrington）。用于除法和迭代乘法的一致恒深阈值电路。J.计算。系统。科学。，65(4):695-716, 2002. 网址：http://dx.doi.org/10.1016/S0022-0000(02)00025-9.
迈克尔·利特曼。概率命题规划：表示和复杂性。1997年AAAI，第748-754页，1997年。
Michael L.Littman、Thomas L.Dean和Leslie Pack Kaelbling。关于马尔可夫决策问题求解的复杂性。菲利普·贝斯纳德（Philippe Besnard）和史蒂夫·汉克斯（Steve Hanks），编辑，《1995年UAI：第十一届人工智能不确定性年会论文集》，加拿大魁北克省蒙特利尔，1995年8月18日至20日，第394-402页。Morgan Kaufmann，1995年。网址：https://dslpitt.org/uai/displayArticleDetails.jsp？mmnu=1&smnu=2&article_id=457&proceeding_id=11.
迈克尔·利特曼（Michael L Littman）、朱迪·戈德史密斯（Judy Goldsmith）和马丁·蒙德亨克（Martin Mundhenk）。概率规划的计算复杂性。《人工智能研究杂志》，9:1-361998年。
Yishay Mansour和Satinder P.Singh。论政策迭代的复杂性。Kathryn B.Laskey和Henri Prade，编辑，《UAI’99：第十五届人工智能不确定性会议记录》，瑞典斯德哥尔摩，1999年7月30日至8月1日，第401-408页。Morgan Kaufmann，1999年。网址：https://dslpitt.org/uai/displayArticleDetails.jsp？mmnu=1&smnu=2&article_id=192&proceeding_id=15.
恩斯特·梅耶（Ernst W.Mayr）。一般Petri网可达性问题的一种算法。第十三届ACM计算理论研讨会（STOC'81）会议记录，第238-246页。美国医学会，1981年。
马丁·蒙德亨克（Martin Mundhenk）、朱迪·戈德史密斯（Judy Goldsmith）、克里斯托弗·卢塞纳（Christopher Lusena）和埃里克·阿伦德（Eric Allender）。有限域马尔可夫决策过程问题的复杂性。J.ACM，47（4）：681-7202000年7月。网址：http://dx.doi.org/10.1145/347476.347480.
Christos H.Papadimitriou和John N.Tsitsiklis。马尔可夫决策过程的复杂性。数学。操作。决议，12（3）：441-450，1987年。网址：http://dx.doi.org/10.1287/moor.12.3.441.
Christos H.Papadimitriou和Mihalis Yannakakis。关于图的简洁表示的注记。信息与控制，71（3）：181-1851986。网址：http://dx.doi.org/10.1016/S0019-9958(86)80009-2.
马丁·普特曼。马尔可夫决策过程。威利国际科学，2005年。
Tim Quatmann和Joost-Pieter Katoen。声音值迭代。Hana Chockler和Georg Weissenbacher，编辑，《计算机辅助验证》，第643-661页。施普林格国际出版公司，2018年。
曼弗雷德·施瓦勒。金融和动态期权中的马尔可夫决策过程。《马尔可夫决策过程手册》，运筹学与管理科学国际系列，第461-487页。斯普林格，2002年。
Aaron Sidford，Mengdi Wang，Xian Wu和Yinyu Ye。求解马尔可夫决策过程的方差减少值迭代和更快算法，第770-787页。SIAM，2018年。网址：http://dx.doi.org/10.1137/1.9781611975031.50.
Olivier Sigaud和Olivie自助餐。人工智能中的马尔可夫决策过程。John Wiley&Sons，2013年。
R.S.Sutton和A.G Barto。强化学习：简介。自适应计算和机器学习。麻省理工学院出版社，2018年。
Aviv Tamar、YI WU、Garrett Thomas、Sergey Levine和Pieter Abbeel。价值迭代网络。D.D.Lee、M.Sugiyama、U.V.Luxburg、I.Guyon和R.Garnett，编辑，《神经信息处理系统进展》29，第2154-2162页。Curran Associates，Inc.，2016年。网址：http://papers.nips.cc/paper/6046-value-iteration-networks.pdf.
Paul Tseng。求解时间与对数（H）成正比的H时域平稳马尔可夫决策问题。《运营研究快报》，9（5）：287-2971990年。
吴志敏（Zhimin Wu）、莫里茨·哈恩（Ernst Moritz Hahn）、阿金·圭奈（Akin Günay）、张丽君（Lijun Zhang）和杨柳（Yang Liu）。用于计算mdp中可达概率的GPU加速值迭代。加尔·卡明卡（Gal A.Kaminka）、玛丽亚·福克斯（Maria Fox）、保罗·布奎特（Paolo Bouquet）、埃克·胡勒梅尔（Eyke Hüllermier）、弗吉尼亚·迪格纳姆（Virginia Dignum）、弗兰克·迪格纳姆（Frank Dignum，Frank van Harmelen），编辑，《ECAI 2016-22。IOS出版社，2016年。网址：http://dx.doi.org/10.3233/978-1-61499-672-9-1726.
Yinyu Ye。解决马尔可夫决策问题的一个新的复杂性结果。运筹学数学，30（3）：733-7492005。
Ye Yinyu。对于固定折扣率的马尔可夫决策问题，单纯形方法和策略迭代方法是强多项式。运筹学数学，36（4）：593-6032011。

关于值迭代的复杂性（B轨道：自动机、逻辑、语义和编程理论）

作者尼希尔·巴拉吉, 斯特凡·基弗, 彼得·诺沃顿 , 吉列尔莫·A·佩雷斯 , 马赫萨·希尔穆罕默德

文件

文件标识符

作者详细信息

致谢

引用为获取BibTex

摘要

主题分类

ACM科目分类

关键词

韵律学

工具书类

感谢您的反馈！

无法发送消息

关于值迭代的复杂性（B轨道：自动机、逻辑、语义和编程理论）

作者 尼希尔·巴拉吉, 斯特凡·基弗, 彼得·诺沃顿 , 吉列尔莫·A·佩雷斯 , 马赫萨·希尔穆罕默德

文件

文件标识符

作者详细信息

基金

致谢

引用为获取BibTex

摘要

主题分类

ACM科目分类

关键词

韵律学

相关版本

工具书类

感谢您的反馈！

无法发送消息

作者尼希尔·巴拉吉, 斯特凡·基弗, 彼得·诺沃顿 , 吉列尔莫·A·佩雷斯 , 马赫萨·希尔穆罕默德