×

使用学习的二值化神经网络转换模型,在分解状态和动作空间中进行紧凑高效的规划编码。 (英语) Zbl 1451.68251号

摘要:在本文中,我们利用二值化神经网络(BNN)的效率学习具有离散化因子状态和动作空间的规划域的复杂状态转换模型。为了直接利用这种转换结构进行规划,我们基于加权部分最大布尔可满足性(FD-SAT-Plan+)和二进制线性规划(FD-BLP-Plan+。理论上,我们表明,相对于当前文献,基于SAT的双向神经元激活编码是渐近最紧凑的编码,并且支持单位传播(UP),这是提高SAT解算器效率的一个重要特性。实验上,我们验证了与现有神经元激活编码相比,双向神经元激活编码的计算效率,并证明了使用BNN学习复杂过渡模型的能力。我们在学习到的因子规划问题上测试了FD-SAT-Plan+和FD-BLP-Plan+的运行时效率,结果表明,随着BNN大小和复杂性的增加,FD-SAT-Plan+的伸缩性更好。最后,我们提出了一种基于广义地标约束的有限时间增量约束生成算法,通过模拟或实际交互来提高编码的规划精度。

MSC公司:

68T20型 人工智能背景下的问题解决(启发式、搜索策略等)
68T07型 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 说,B。;Sanner,S.,《使用学习的二值化神经网络转换模型在分解状态和行动空间中进行规划》,(第27届国际人工智能学会,人工智能组织国际联合会议(2018)),4815-4821
[2] Krizhevsky,A。;Sutskever,I。;Hinton,G.E.,用深度卷积神经网络进行Imagenet分类,(第25届NIPS(2012)),1097-1105
[3] 邓,L。;辛顿,G.E。;Kingsbury,B.,《语音识别和相关应用的新型深层神经网络学习:概述》,(IEEE声学、语音和信号处理国际会议(2013)),8599-8603
[4] 科洛伯特,R。;J·韦斯顿。;博图,L。;卡伦,M。;Kavukcuoglu,K。;Kuksa,P.,自然语言处理(几乎)从头开始,J.Mach。学习。第12号决议,2493-2537(2011年)·Zbl 1280.68161号
[5] 西尔弗·D。;黄,A。;Maddison,C.J。;A.盖兹。;西夫雷,L。;van den Driessche,G。;Schrittwieser,J。;安东尼奥卢,I。;Panneershelvam,V.公司。;Lanctot,M。;迪尔曼,S。;格雷,D。;Nham,J。;Kalchbrenner,N。;Sutskever,I。;Lillicrap,T。;利奇,M。;Kavukcuoglu,K。;Graepel,T。;Hassabis,D.,《掌握深度神经网络和树搜索的游戏》,《自然》,484-503(2016)
[6] 西尔弗·D。;休伯特,T。;Schrittwieser,J。;安东尼奥卢,I。;赖,M。;A.盖兹。;Lanctot,M。;Sifre,L。;库马兰,D。;Graepel,T。;Lillicrap,T。;Simonyan,K。;Hassabis,D.,使用通用强化学习算法通过自我游戏掌握国际象棋和将棋·Zbl 1433.68320号
[7] 说,B。;Wu,G。;周永强。;Sanner,S.,《具有深层网络学习过渡模型和混合整数线性规划的非线性混合规划》,(第26届IJCAI(2017)),750-756
[8] 胡巴拉,I。;Courbariaux,M。;Soudry,D。;El-Yaniv,R。;Bengio,Y.,二值化神经网络,(第30届NIPS(2016),Curran Associates,Inc.),4107-4115
[9] Boutiler,C。;院长,T。;Hanks,S.,《决策理论规划:结构假设和计算杠杆》,J.Artif。智力。第11、1、1-94号决议(1999年)·Zbl 0918.68110号
[10] Boudane,A。;雅布尔,S。;Raddaoui,B。;Sais,L.,条件基数约束的高效基于卫星的编码,(第22届国际编程、人工智能和推理逻辑会议,第57卷(2018)),181-195·Zbl 1415.68185号
[11] 杨琼。;Wu,K。;Jiang,Y.,使用加权max-sat从计划示例中学习行动模型,Artif。智力。,171, 2, 107-143 (2007) ·Zbl 1168.68555号
[12] 埃米尔,E。;Chang,A.,学习部分可观测的确定性动作模型,J.人工智能。智力。决议,33,349-402(2008)·Zbl 1183.68565号
[13] Helmert,M.,《快速向下规划系统》,J.Artif。智力。第26号、第1号、第191-246号决议(2006年)·Zbl 1182.68245号
[14] 里希特,S。;Westphal,M.,《喇嘛规划师:用地标指导基于成本的任何时间规划》,J.Artif。智力。研究,39,1,127-177(2010)·Zbl 1205.68383号
[15] Kocsis,L。;Szepesvári,C.,基于班迪特的蒙特卡洛规划(ECML(2006)),282-293
[16] Keller,T。;Helmert,M.,有限视野MDP的基于试验的启发式树搜索,(第23届ICAPS(2013)),135-143
[17] 托耶,S。;特雷维赞,F.W。;蒂埃鲍克斯,S。;Xie,L.,《行动模式网络:具有深度学习的通用政策》,(第32届AAAI(2018))
[18] Davies,T.O。;皮尔斯,A.R。;Stuckey,P.J。;Lipovetzky,N.,《测序算子计数》(第25届ICAPS(2015)),第61-69页
[19] 任天堂,塞尔达传奇,1986年。
[20] 奈尔,V。;Hinton,G.E.,《校正线性单位改进受限Boltzmann机器》,(第27届ICML(2010)),807-814
[21] 洛夫,S。;Szegedy,C.,《批量规范化:通过减少内部协变量偏移来加速深层网络训练》,(第32届ICML(2015)),448-456
[22] Davis,M。;Putnam,H.,量化理论的计算程序,J.ACM,7,3,201-215(1960)·Zbl 0212.34203号
[23] 戴维斯,J。;Bacchus,F.,通过求解一系列简单SAT实例来求解MAXSAT,(第17届约束编程原理与实践国际会议论文集(2013))
[24] 阿辛,R。;Nieuwenhuis,R。;阿尔伯特·奥利弗拉斯(Albert Oliveras);Rodriguez-Carbonell,Enric,基数网络及其应用,(可满足性测试理论与应用国际会议(2009)),167-180·Zbl 1247.68244号
[25] 道林,W.F。;Gallier,J.H.,测试命题角公式可满足性的线性时间算法,J.Log。程序。,1, 3, 267-284 (1984) ·Zbl 0593.68062号
[26] Sinz,C.,走向布尔基数约束的最优CNF编码,827-831(2005),施普林格-柏林-海德堡:施普林格-柏林-海德堡-柏林,海德堡·Zbl 1153.68488号
[27] 俄亥俄州Bailleux。;布夫哈德,Y。;Roussel,O.,《伪布尔约束到SAT的转换》,J.Satisfe。布尔模型。计算。,2, 191-200 (2006) ·Zbl 1116.68078号
[28] 贾布尔,S。;萨伊斯,L。;Salhi,Y.,基于鸽子洞的基数约束编码,(ISAIM(2014))
[29] IBM,IBM ILOG CPLEX Optimization Studio CPLEX用户手册,2017年。
[30] 阿比奥,I。;Stuckey,P.J.,《将线性约束编码到sat中》,(约束编程原理与实践(2014),Springer Int Publishing),75-91
[31] Sanner,S.,关系动态影响图语言(rddl):语言描述(2010)
[32] 埃恩,n。;Sörensson,N.,将伪布尔约束转化为sat,J.Satisf。布尔模型。计算。,2, 1-26 (2006) ·Zbl 1116.68083号
[33] 桑纳,S。;Yoon,S.,《国际概率规划竞赛》(2011年)
[34] Mann,T。;Mannor,S.,《用选项放大近似值迭代:迭代次数较少的更好政策》(第21届国际货币市场协会,第1卷(2014))
[35] Guestrin,C。;科勒,D。;Parr,R.,系数化MDP的最大形式预测,(第17届国际JCAI(2001)),673-680
[36] 马希尔,S.J。;Fischer,T。;加里,T。;Gamrath,G。;Gleixner,A。;Gottwald,R.L。;亨德尔·G。;科赫,T。;吕贝克,M.E。;Miltenberger,M。;米勒,B。;Pfetsch,M.E。;Puchert,C。;Rehfeldt,D。;Schenker,S。;施瓦兹,R。;塞拉诺,F。;Y.Shinano。;Weninger,D。;Witt,J.T。;Witzig,J.,The scip optimization suite 4.0(2017),ZIB:ZIB Takustr.7,14195 Berlin,技术代表17-12
[37] 说,B。;Sanner,S.,带约束生成的度量非线性混合规划(PlanSOpt 2018,第28届ICAPS规划、搜索和优化研讨会(PlanSOpt)(2018)),19-25
[38] 说,B。;Sanner,S.,《非线性领域中带约束生成的度量混合因子规划》(Rousseau,L.-M.;Stergiou,K.,《约束编程、人工智能和运筹学集成》(2019),Springer International Publishing:Springer国际出版公司Cham),502-518·Zbl 1527.68214号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。