文件Open Access徽标

关于值迭代的复杂性(B轨道:自动机、逻辑、语义和编程理论)

作者 尼希尔·巴拉吉, 斯特凡·基弗, 彼得·诺沃顿 , 吉列尔莫·A·佩雷斯 , 马赫萨·希尔穆罕默德



PDF格式
缩略图PDF

文件

LIPIcs公司。ICALP.2019.102.pdf
  • 文件大小:0.52 MB
  • 15页

文件标识符

作者详细信息

尼希尔·巴拉吉
  • 英国牛津大学
斯特凡·基弗
  • 英国牛津大学
彼得·诺沃顿
  • 捷克共和国布尔诺Masaryk大学
吉列尔莫·A·佩雷斯
  • 比利时安特卫普大学
马赫萨·希尔穆罕默德
  • CNRS,法国巴黎
  • IRIF,巴黎,法国

致谢

我们感谢詹姆斯·沃雷尔对这部作品早期版本的有益评论。

引用为获取BibTex

尼基尔·巴拉吉(Nikhil Balaji)、斯特凡·基弗(Stefan Kiefer)、彼得·诺沃顿(Petr Novotn)、吉列尔莫·A·佩雷斯(Guillermo A.Pérez)和马哈萨·西尔莫哈马迪。关于价值迭代的复杂性(B轨道:自动机、逻辑、语义和编程理论)。第46届国际自动化、语言和编程学术讨论会(ICALP 2019)。莱布尼茨国际信息学论文集(LIPIcs),第132卷,第102:1-102:15页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2019)
https://doi.org/10.4230/LIPIcs.ICALP.2019.102

摘要

值迭代是求解马尔可夫决策过程(MDP)的基本算法。它通过迭代n次与MDP自然相关的递归方程来计算最大n步回报。同时,值迭代为MDP提供了一种策略,该策略在给定的有限时域n上是最优的。本文解决了值迭代的计算复杂性。我们表明,给定二进制和MDP中的地平线n,计算最优策略是EXPTIME-complete,从而解决了一个开放问题,该问题可以追溯到1987年Papadimitriou和Tsitsiklis关于MDP复杂性的开创性论文。为了获得这一主要结果,我们开发了几个垫脚石,这些垫脚石产生了独立利益的结果。例如,我们证明了在以max和+为运算符的整数上计算直线程序给定的函数的n次迭代(二进制中n次)是EXPTIME-complete。我们还为线性更新计数器中的有界暂停问题提供了新的复杂性结果。

主题分类

ACM科目分类
  • 计算理论→概率计算
  • 计算理论→逻辑和验证
  • 计算理论→马尔可夫决策过程
关键词
  • 马尔可夫决策过程
  • 价值迭代
  • 正式验证

韵律学

工具书类

  1. Pieter Abbeel和Andrew Y.Ng。学习控制的一阶马尔可夫模型。L.K.Saul、Y.Weiss和L.Bottou主编,《神经信息处理系统进展》17,第1-8页。麻省理工学院出版社,2005年。网址:http://papers.nips.cc/paper/2569-learning-first-order-markov-models-for-control.pdf.
  2. 埃里克·阿伦德(Eric Allender)、尼基尔·巴拉吉(Nikhil Balaji)和萨米尔·达塔(Samir Datta)。低深度均匀阈值电路与直线程序的位复杂性。在Erzébet Csuhaj-Varjü,Martin Dietzfelbinger和Zoltán E-sik,编辑,2014年计算机科学数学基础第39届国际研讨会,2014年8月25-29日,匈牙利布达佩斯,MFCS 2014。《计算机科学讲义》第8635卷第二部分会议录,第13-24页。斯普林格,2014年。网址:http://dx.doi.org/10.1007/978-3-662-44465-8_2.
  3. 埃里克·阿伦德(Eric Allender)、彼得·布尔吉塞(Peter Bürgisser)、约翰·科杰尔加德·佩德森(Johan Kjeldgaard-Pedersen)和彼得·布罗·米尔特森(Peter Bro Miltersen)。关于数值分析的复杂性。SIAM计算机杂志,38(5):1987-2006,2009。谷歌学者
  4. 埃里克·阿伦德(Eric Allender)、安德烈亚斯·克雷布斯(Andreas Krebs)和皮埃尔·麦肯齐(Pierre McKenzie)。成本登记自动机的复杂度边界更好。《计算系统理论》,2017年第1-19页。谷歌学者
  5. 编辑Christel Baier和Katoen Joost-Pieter。模型检查原则。麻省理工学院出版社,2008年。谷歌学者
  6. 理查德·贝尔曼(Richard Bellman)。动态编程。普林斯顿大学出版社,1957年。谷歌学者
  7. 丹尼尔·斯伯恩斯坦(Daniel S Bernstein)、罗伯特·吉万(Robert Givan)、尼尔·伊梅尔曼(Neil Immerman)和什洛莫·齐尔伯斯坦(Shlomo Zilberstein)。马尔可夫决策过程分散控制的复杂性。运筹学数学,27(4):819-8402002。谷歌学者
  8. 迪米特里·伯特塞卡斯(Dimitri P.Bertsekas)。动态规划:确定性和随机模型。Prentice-Hall,Inc.,美国新泽西州上鞍河,1987年。谷歌学者
  9. 迪米特里·伯特塞卡斯(Dimitri P.Bertsekas)。动态规划与最优控制。雅典娜科学公司,马萨诸塞州贝尔蒙特,2005年。谷歌学者
  10. 文森特·德·布隆德尔(Vincent D Blondel)和约翰·齐齐克利斯(John N Tsitsiklis)。对计算复杂性的调查导致了系统和控制。自动化,36(9):1249-12742000。谷歌学者
  11. 妮可·巴伊尔和乌尔里希·里德。马尔可夫决策过程及其在金融中的应用。施普林格-弗拉格-柏林-海德堡,2011年。谷歌学者
  12. 编辑Edmund M.Clarke、Thomas A.Henzinger、Helmut Veith和Bloem Roderick。模型检查手册。施普林格国际出版公司,2018年。谷歌学者
  13. 沃伊西奇·切尔温斯基、斯拉沃米尔·拉索塔、兰科·拉齐奇、杰罗姆·勒鲁和菲利普·马佐维耶基。Petri网的可达性问题不是初等的(扩展抽象)。CoRR,abs/1809.071152018年。网址:http://arxiv.org/abs/1809.07115.
  14. 戴鹏、毛萨姆、丹尼尔·S·韦尔德和朱迪·戈德史密斯。拓扑值迭代算法。J.阿蒂夫。智力。2011年第42:181-209号决议。网址:http://jair.org/papers/paper3390.html.
  15. Laurent Doyen、Thierry Massart和Mahsa Shirmohammadi。马尔可夫决策过程中的极限同步。In Anca Muscholl,编辑,《软件科学与计算结构基础-第17届国际会议》,FOSSACS 2014,作为欧洲软件理论与实践联席会议的一部分举行,ETAPS 2014,法国格勒诺布尔,2014年4月5日至13日,《计算机科学讲义》第8412卷,第58-72页。斯普林格,2014年。网址:http://dx.doi.org/10.1007/978-3-642-54830-7_4.
  16. 约翰·费恩利和拉胡尔·萨瓦尼。单纯形方法的复杂性。《第四十七届美国计算机学会计算机理论研讨会论文集》,STOC’15,201-208页,美国纽约州纽约市,2015年。ACM公司。网址:http://dx.doi.org/10.1145/2746539.2746558.
  17. 朱迪·戈德史密斯(Judy Goldsmith)、迈克尔·利特曼(Michael L Littman)和马丁·蒙德亨克(Martin Mundhenk)。概率域中计划存在性和评估的复杂性。《第十三届人工智能不确定性会议论文集》(UAI'97),182-189页。摩根考夫曼出版社,1997年。谷歌学者
  18. 朱迪·戈德史密斯和马丁·蒙德亨克。马尔可夫决策过程中的复杂性问题。1998年6月15日至18日,美国纽约州布法罗市,第13届IEEE计算复杂性年会会议记录,第272-280页。IEEE计算机学会,1998年。网址:http://dx.doi.org/10.109/CCC.1998.694621.
  19. R.Greenlaw、H.J.Hoover和W.L.Ruzzo。并行计算的局限性:P-完备性理论。牛津大学出版社,1995年。网址:https://books.google.fr/books?id=YZHnCwAAQBAJ.
  20. 威廉·黑塞(William Hesse)、埃里克·阿伦德(Eric Allender)和大卫·米斯·巴林顿(David A.Mix Barrington)。用于除法和迭代乘法的一致恒深阈值电路。J.计算。系统。科学。,65(4):695-716, 2002. 网址:http://dx.doi.org/10.1016/S0022-0000(02)00025-9.
  21. 迈克尔·利特曼。概率命题规划:表示和复杂性。1997年AAAI,第748-754页,1997年。谷歌学者
  22. Michael L.Littman、Thomas L.Dean和Leslie Pack Kaelbling。关于马尔可夫决策问题求解的复杂性。菲利普·贝斯纳德(Philippe Besnard)和史蒂夫·汉克斯(Steve Hanks),编辑,《1995年UAI:第十一届人工智能不确定性年会论文集》,加拿大魁北克省蒙特利尔,1995年8月18日至20日,第394-402页。Morgan Kaufmann,1995年。网址:https://dslpitt.org/uai/displayArticleDetails.jsp?mmnu=1&smnu=2&article_id=457&proceeding_id=11.
  23. 迈克尔·利特曼(Michael L Littman)、朱迪·戈德史密斯(Judy Goldsmith)和马丁·蒙德亨克(Martin Mundhenk)。概率规划的计算复杂性。《人工智能研究杂志》,9:1-361998年。谷歌学者
  24. Yishay Mansour和Satinder P.Singh。论政策迭代的复杂性。Kathryn B.Laskey和Henri Prade,编辑,《UAI’99:第十五届人工智能不确定性会议记录》,瑞典斯德哥尔摩,1999年7月30日至8月1日,第401-408页。Morgan Kaufmann,1999年。网址:https://dslpitt.org/uai/displayArticleDetails.jsp?mmnu=1&smnu=2&article_id=192&proceeding_id=15.
  25. 恩斯特·梅耶(Ernst W.Mayr)。一般Petri网可达性问题的一种算法。第十三届ACM计算理论研讨会(STOC'81)会议记录,第238-246页。美国医学会,1981年。谷歌学者
  26. 马丁·蒙德亨克(Martin Mundhenk)、朱迪·戈德史密斯(Judy Goldsmith)、克里斯托弗·卢塞纳(Christopher Lusena)和埃里克·阿伦德(Eric Allender)。有限域马尔可夫决策过程问题的复杂性。J.ACM,47(4):681-7202000年7月。网址:http://dx.doi.org/10.1145/347476.347480.
  27. Christos H.Papadimitriou和John N.Tsitsiklis。马尔可夫决策过程的复杂性。数学。操作。决议,12(3):441-450,1987年。网址:http://dx.doi.org/10.1287/moor.12.3.441.
  28. Christos H.Papadimitriou和Mihalis Yannakakis。关于图的简洁表示的注记。信息与控制,71(3):181-1851986。网址:http://dx.doi.org/10.1016/S0019-9958(86)80009-2.
  29. 马丁·普特曼。马尔可夫决策过程。威利国际科学,2005年。谷歌学者
  30. Tim Quatmann和Joost-Pieter Katoen。声音值迭代。Hana Chockler和Georg Weissenbacher,编辑,《计算机辅助验证》,第643-661页。施普林格国际出版公司,2018年。谷歌学者
  31. 曼弗雷德·施瓦勒。金融和动态期权中的马尔可夫决策过程。《马尔可夫决策过程手册》,运筹学与管理科学国际系列,第461-487页。斯普林格,2002年。谷歌学者
  32. Aaron Sidford,Mengdi Wang,Xian Wu和Yinyu Ye。求解马尔可夫决策过程的方差减少值迭代和更快算法,第770-787页。SIAM,2018年。网址:http://dx.doi.org/10.1137/1.9781611975031.50.
  33. Olivier Sigaud和Olivie自助餐。人工智能中的马尔可夫决策过程。John Wiley&Sons,2013年。谷歌学者
  34. R.S.Sutton和A.G Barto。强化学习:简介。自适应计算和机器学习。麻省理工学院出版社,2018年。谷歌学者
  35. Aviv Tamar、YI WU、Garrett Thomas、Sergey Levine和Pieter Abbeel。价值迭代网络。D.D.Lee、M.Sugiyama、U.V.Luxburg、I.Guyon和R.Garnett,编辑,《神经信息处理系统进展》29,第2154-2162页。Curran Associates,Inc.,2016年。网址:http://papers.nips.cc/paper/6046-value-iteration-networks.pdf.
  36. Paul Tseng。求解时间与对数(H)成正比的H时域平稳马尔可夫决策问题。《运营研究快报》,9(5):287-2971990年。谷歌学者
  37. 吴志敏(Zhimin Wu)、莫里茨·哈恩(Ernst Moritz Hahn)、阿金·圭奈(Akin Günay)、张丽君(Lijun Zhang)和杨柳(Yang Liu)。用于计算mdp中可达概率的GPU加速值迭代。加尔·卡明卡(Gal A.Kaminka)、玛丽亚·福克斯(Maria Fox)、保罗·布奎特(Paolo Bouquet)、埃克·胡勒梅尔(Eyke Hüllermier)、弗吉尼亚·迪格纳姆(Virginia Dignum)、弗兰克·迪格纳姆(Frank Dignum,Frank van Harmelen),编辑,《ECAI 2016-22。IOS出版社,2016年。网址:http://dx.doi.org/10.3233/978-1-61499-672-9-1726.
  38. Yinyu Ye。解决马尔可夫决策问题的一个新的复杂性结果。运筹学数学,30(3):733-7492005。谷歌学者
  39. Ye Yinyu。对于固定折扣率的马尔可夫决策问题,单纯形方法和策略迭代方法是强多项式。运筹学数学,36(4):593-6032011。谷歌学者
问题/备注/反馈
X(X)

Dagstuhl出版社反馈


感谢您的反馈!

已提交反馈

无法发送消息

请稍后再试或发送电子邮件