×

欧米伽正则约束下未知MDP中基于学习的均值-方差优化。 (英语) Zbl 1520.90206号

Schewe,Sven(编辑)等人,第29届并发理论国际会议。CONCUR 2018,中国北京,2018年9月4-7日。诉讼程序。Wadern:达格斯图尔宫——莱布尼茨Zentrum für Informatik。LIPIcs–莱布尼茨国际程序。通知。118,第8条,第18页(2018年)。
摘要:在概率转移函数未知、报酬函数未知的马尔可夫决策过程(MDP)中,我们形式化了在满足奇偶目标的情况下,以高概率最大化平均值的问题。假设未知转移函数的支持度和最小转移概率的下限是预先已知的,我们表明,在由单端组件组成的MDP中,根据愿意使用的内存量,可以实现奇偶性和平均值目标的两种保证组合。(i) 对于所有的(varepsilon)和(gamma),我们可以构造一个在线学习有限记忆策略,该策略几乎完全满足奇偶性目标,并以至少(1-gamma的概率实现(varepsilon)最优平均收益。(ii)或者,对于所有(varepsilon)和(gamma。我们以自然的方式将上述结果扩展到由一个以上末端组件组成的MDP。最后,我们表明上述担保是严格的,即MDP无法确保更强有力的担保组合。
关于整个系列,请参见[Zbl 1402.68024号].

MSC公司:

90立方厘米 马尔可夫和半马尔可夫决策过程
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Shaull Almagor、Orna Kupferman和Yaron Velner。在硬布尔约束下最小化预期成本,并应用于定量合成。在Josée Desharnais和Radha Jagadeesan,编辑,第27届并发理论国际会议,CONCUR 2016,2016年8月23日至26日,加拿大魁北克市,LIPIcs第59卷,第9:1-9:15页。Dagstuhl Schloss-Leibniz-Zentrum fuer Informatik,2016年。doi:10.4230/LIPIcs。2016年9月生效·Zbl 1392.68225号 ·doi:10.4230/LIPIcs。合同2016.9
[2] Mohammed Alshiekh、Roderick Bloem、Rüdiger Ehlers、Bettina Könighfer、Scott Niekum和Ufuk Topcu。通过屏蔽进行安全强化学习。CoRR,abs/1708.086112017年。arXiv:1708.08611。
[3] 本杰明·阿米诺夫和萨莎·鲁宾。第一轮比赛。信息与计算,254:195-2162017。doi:10.1016/j.ic.2016.0008·Zbl 1371.91019号 ·doi:10.1016/j.ic.2016.10.008
[4] Krzysztof R.Apt和Erich Grädel。计算机科学家的博弈论讲座。坎布里奇大学出版社,2011年·Zbl 1214.91003号
[5] 克里斯特尔·拜尔(Christel Baier)和朱斯特·佩特尔·卡托恩(Joost-Pieter Katoen)。模型检查原则。麻省理工学院出版社,2008年·Zbl 1179.68076号
[6] 马克·贝勒马尔(Marc G.Bellemare)、威尔·达布尼(Will Dabney)和雷米·穆诺斯(Rémi Munos)。关于再强制学习的分配观点。Doina Precup和Yee Whye Teh,编辑,《第34届国际机器学习会议论文集》,2017年8月6日至11日,澳大利亚新南威尔士州悉尼,ICML 2017,《机器学习研究论文集》第70卷,第449-458页。PMLR,2017年。网址:http://proceedings.mlr.press/v70/bellemare17a.html。
[7] 朱利安·贝内特(Julien Bernet)、大卫·贾宁(David Janin)和伊戈尔·瓦卢基维奇(Igor Walukiewicz)。许可策略:从平价游戏到安全游戏。ITA,36(3):261-2752002年。doi:10.1051/ita:20013年·Zbl 1090.91514号 ·doi:10.1051/ita:20013年
[8] 拉斐尔·伯顿、米凯尔·兰杜尔和珍妮·弗兰索瓦·拉斯金。马尔可夫决策过程中具有奇偶目标保证的阈值约束。在Ioannis Chatzigiannakis、Piotr Indyk、Fabian Kuhn和Anca Muscholl,编辑,第44届国际自动化、语言和编程学术讨论会,2017年7月10日至14日,2017年,波兰华沙,LIPIcs第80卷,第121:1-121:15页。达格斯图尔宫(Schloss Dagstuhl)-莱布尼茨-泽特鲁姆-富尔信息-马提克宫(Leibniz-Zentrum fuer Infor-matik),2017年。doi:10.4230/LIPIcs。ICALP.2017.121·Zbl 1442.90199号 ·doi:10.4230/LIPIcs。ICALP.2017年12月21日
[9] Tomás Brázdil、Krishnendu Chatterjee、Martin Chmelik、Vojtech Forejt、Jan Kretínsk、Marta Z.Kwiatkowska、David Parker和Mateusz Ujma。使用学习算法验证马尔可夫决策过程。2014年11月3日至7日,澳大利亚新南威尔士州悉尼,ATVA 2014年第12届国际研讨会,《验证和分析自动化技术》,计算机科学讲稿第8837卷,第98-114页。斯普林格,2014年·Zbl 1448.68290号
[10] 托马斯·布拉兹迪尔(Tomás Brázdil)、安东尼·库塞拉(Antonín Kucera)和彼得·诺沃顿(Petr Novotn)。优化能量马尔可夫决策过程中的期望平均收益。2016年10月17日至20日在日本千叶举行的自动验证和分析技术第14届国际研讨会上,计算机科学讲稿第9938卷,第32-49页。doi:10.1007/978-3-319-46520-3·Zbl 1346.68003号 ·doi:10.1007/978-3-319-46520-3
[11] Véronique Bruyère、Emmanuel Filiot、Mickael Randour和Jean-François Raskin。保证满足您的期望:超越定量游戏中的最坏情况合成。Ernst W.Mayr和Natacha Portier,编辑,第31届计算机科学理论方面国际研讨会(STACS 2014),STACS 2014,2014年3月5日至8日,法国里昂,LIPIcs第25卷,第199-213页。达格斯图尔宫-莱布尼茨-泽特鲁姆富尔信息科技,2014年。doi:10.4230/LIPIcs。堆栈。2014.199·Zbl 1360.91042号 ·doi:10.4230/LIPIcs。STACS.2014.199标准
[12] 克里斯蒂安·卡鲁德(Cristian S.Calude)、桑杰·贾恩(Sanjay Jain)、巴哈迪尔·库萨诺夫(Bakhadyr Khousainov)、魏莉(Wei Li)和弗兰克·斯蒂芬(Frank Stephan)。拟多项式时间上的去中心奇偶对策。编辑Hamed Hatami、Pierre McKenzie和Valerie King,《第49届ACM SIGACT计算机专业研讨会论文集》,STOC 2017,加拿大魁北克省蒙特利尔,2017年6月19-23日,第252-263页·Zbl 1369.68234号
[13] ACM,2017年。doi:10.1145/3055399.3055409·Zbl 1369.68234号 ·doi:10.1145/3055399.3055409
[14] J.Křetínsk \345],G.A.Pérez,J.-F.Raskin 8:17
[15] 克里希南德·查特吉。带有尾部目标的并发游戏。理论计算机科学,388(1-3):181-1982007。doi:10.1016/j.tcs.2007.07.047·Zbl 1177.91031号 ·doi:10.1016/j.tcs.2007.07.047
[16] 克里希南德·查特吉。结构等价并发奇偶博弈的鲁棒性。Lars Birkedal,编辑,《软件科学和计算结构基础——第15届国际会议》,FOSSACS 2012,作为欧洲软件理论与实践联合会议的一部分,ETAPS 2012,爱沙尼亚塔林,2012年3月24日至4月1日。《计算机科学讲义》第7213卷,第270-285页。施普林格,2012年。doi:10.1007/978-3642-28729-9_18·Zbl 1352.68178号 ·doi:10.1007/978-3-642-28729-9_18
[17] Krishnendu Chatterjee和Laurent Doyen。能量和平均值奇偶马尔可夫决策过程。2011年8月22日至26日,波兰华沙,2011年MFCS,第36届国际计算机科学数学基础研讨会。《计算机科学讲义》第6907卷,第206-218页。施普林格,2011年。doi:10.1007/978-3642-22993-0·Zbl 1219.68020号 ·doi:10.1007/978-3-642-22993-0
[18] 克里希南德·查特吉(Krishnendu Chatterjee)、彼得·诺沃顿(Petr Novotn)、吉列尔莫·A·佩雷斯(Guillermo A.Pérez)、吉安·弗兰索斯·拉斯金(Jean-François Raskin)和多德·齐科利奇(Dord Zikelic)。通过POMDP中的保证优化预期。2017年2月4日至9日在美国加利福尼亚州旧金山举行的第三十届AAAI人工智能会议记录,第3725-3732页。AAAI出版社,2017年。网址:http://www.aaai。org/Library/AAAI/aaai17内容.php。
[19] Lorenzo Clemente和Jean-François Raskin。针对平均值目标的多维超越最坏情况和几乎最安全的问题。在2015年7月6日至10日于日本京都举行的第30届ACM/IEEE计算机科学逻辑年会上,第257-268页。IEEE计算机学会,2015年。doi:10.1109/LICS.2015.33·Zbl 1401.68117号 ·doi:10.1109/LICS.2015.33
[20] Przemyslaw Daca、Thomas A.Henzinger、Jan Kretínsk和Tatjana Petrov。更快的统计模型检查无界时间属性。《用于系统构建和分析的工具和算法——第22届国际会议,TACAS 2016,作为欧洲软件理论和实践联合会议的一部分举行》,ETAPS 2016,荷兰埃因霍温,2016年4月2-8日,《会议录》,计算机科学讲稿第9636卷,第112-129页。斯普林格,2016年。doi:10.1007/978-3-662-49674-9·Zbl 1360.68008号 ·doi:10.1007/978-3-662-49674-9
[21] 亚历山大·戴维(Alexandre David)、彼得·高勒·延森(Peter Gjöl Jensen)、金·古德斯特兰·拉森(Kim Guldstrand Larsen)、阿克塞尔·莱吉(Axel Legay)、迪迪埃·利姆(Didier Lime)、马蒂亚斯·格兰德·瑟伦森(Mathias Grund Sörensen)和雅各布·哈赫尔·泰克维斯特。以最低的预期成本按时完成!2014年11月3日至7日,澳大利亚新南威尔士州悉尼,第12届国际研讨会,验证与分析自动化技术,2014年11月3日至7日,《计算机科学讲义》第8837卷,第129-145页。斯普林格,2014年·Zbl 1448.68294号
[22] 雨果·金伯特(Hugo Gimbert)。马尔可夫决策过程中的纯平稳最优策略。2007年2月22日至24日,德国亚琛,STACS 2007,第24届计算机科学理论方面年度研讨会编辑Wolf-gang Thomas和Pascal Weil,《论文集》,计算机科学讲稿第4393卷,第200-211页。施普林格,2007年。doi:10.1007/978-3-540-70918-3_18·Zbl 1186.93043号 ·doi:10.1007/978-3-540-70918-3_18
[23] 塞巴斯蒂安·荣格斯(Sebastian Junges)、尼尔斯·詹森(Nils Jansen)、克里斯蒂安·德内特(Christian Dehnert)、乌夫克·托普库(Ufuk Topcu)和朱斯特·佩特尔·卡托恩(Joost-Pieter Katoen)。MDP的安全约束强化学习。Marsha Chechik和Jean-François Raskin,编辑,系统构建和分析的工具和算法-第22届国际会议,TACAS 2016,作为欧洲软件理论和实践联合会议的一部分举行,ETAPS 2016,荷兰埃因霍温,2016年4月2-8日,会议记录,《计算机科学讲义》第9636卷,第130-146页。斯普林格,2016年。doi:10.1007/978-3-662-49674-98·doi:10.1007/978-3-662-49674-98
[24] 莱斯利·帕克·凯尔布林(Leslie Pack Kaelbling)、迈克尔·利特曼(Michael L.Littman)和安德鲁·摩尔(Andrew W.Moore)。强化学习:一项调查。J.阿蒂夫。智力。决议,4:237-2851996年。doi:10.1613/jair.301·doi:10.1613/jair.301
[25] 詹姆斯·诺里斯,马尔可夫链。剑桥统计和概率数学系列。剑桥大学出版社,1998年·Zbl 0938.60058号
[26] 未知奇偶校验MDP中基于学习的均值-收益优化
[27] Christos H.Papadimitriou和Mihalis Yannakakis。没有地图的最短路径。理论计算机科学,84(1):127-1501991·Zbl 0733.68065号
[28] 马丁·普特曼。马尔可夫决策过程。Wiley Interscience,2005年·Zbl 1184.90170号
[29] 斯图亚特·罗素(Stuart J.Russell)和彼得·诺维格(Peter Norvig)。人工智能-现代方法(3。国际。编辑)。培生教育,2010年。网址:http://vig.pearsoned.com/store/product/1,1207,store-12521_isbn-0136042597,00.html。
[30] 埃隆·索兰。竞争马尔可夫决策过程值的连续性。理论概率杂志,16(4):831-8452003·Zbl 1044.90087号
[31] 理查德·萨顿(Richard S.Sutton)和安德鲁·巴托(Andrew G.Barto)。强化学习:简介。自适应计算和机器学习。麻省理工学院出版社,2018年。网址:网址://www。completeideas.net/book/the-book-2nd.html·Zbl 1407.68009号
[32] 沃尔夫冈·托马斯。关于无限对策中策略的综合。在STACS中,第1-13页,1995年。doi:10.1007/3-540-59042-0_57·Zbl 1379.68233号 ·doi:10.1007/3-540-59042-0_57
[33] 莱斯利·瓦利安特(Leslie G.Valiant)。可学习理论。Richard A.DeMillo,编辑,第16届ACM计算理论年度研讨会论文集,1984年4月30日至5月2日,美国华盛顿特区,第436-445页。ACM,1984年。doi:10.1145/800057.808710·doi:10.1145/800057.808710
[34] 莫舍·瓦尔迪(Moshe Y.Vardi)。概率并发有限状态程序的自动验证。1985年10月21日至23日在美国俄勒冈州波特兰举行的第26届计算机科学基础年度研讨会上,第327-338页。IEEE计算机学会,1985年。doi:10.1109/SFCS。1985.12. ·doi:10.1109/SFCS.1985.12
[35] 克里斯托弗·J·C·H·沃特金斯和彼得·达扬。技术说明q-学习。机器学习,8:279-2921992。doi:10.1007/BF00992698·Zbl 0773.68062号 ·doi:10.1007/BF00992698
[36] Min Wen、Rüdiger Ehlers和Ufuk Topcu。具有时序逻辑约束的正确综合强化学习。2015年IEEE/RSJ智能机器人和系统国际会议,IROS 2015,德国汉堡,2015年9月28日至10月2日,第4983-4990页。IEEE,2015年。网址:http://ieeexplore.ieee.org/xpl/most中心问题.jsp?punumber=7347169。
[37] Min Wen和Ufuk Topcu。在具有时序逻辑规范的随机游戏中,可能是近似正确的学习。2016年7月9日至15日在美国纽约州纽约市举行的第二十五届国际人工智能联合会议记录,第3630-3636页。IJCAI/AAAI出版社,2016年。网址:http://www.ijcai.org/会议记录/2016
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。