文件Zbl 1468.68152-zbMATH Open

使用强化学习管理流推理的缓存策略。（英语） Zbl 1468.68152号

理论与实践。日志。程序。 20，第5号，625-640（2020）.

摘要：对不断变化的数据进行有效决策对于许多应用领域至关重要，例如网络物理系统、工业数字化等。现代流推理框架允许人们在新数据到达流时，使用程序的增量和连续评估来建模和解决各种实际问题。应用技术使用类似数据日志的物化或真值维护算法来避免昂贵的重新计算，从而确保流推理器的低延迟和高吞吐量。然而，现有方法的表达能力非常有限，例如，它们不能用于编码实际中经常出现的带有约束的问题。在本文中，我们提出了一种新的方法，该方法使用冲突驱动约束学习（CDCL），通过对学习到的约束进行智能管理，有效地更新遗留解决方案。特别是，我们研究了强化学习的适用性，以持续评估在当前算法的求解算法之前调用中计算的学习约束的效用。对实际重构问题进行的评估表明，提供一个CDCL算法以及从先前迭代中学习到的相关约束，可以显著提高该算法在流推理场景中的性能。

MSC公司：

68T05型	人工智能中的学习和自适应系统
68T20型	人工智能背景下的问题解决（启发式、搜索策略等）
68周27	在线算法；流式算法

关键词：

流推理；ASP公司；强化学习；缓存策略

软件：

WASP公司；LARS公司；葡萄糖；XSB公司；克林戈

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	亚当斯，E.N.1984。优化软件产品的预防性服务。IBM J.Res.Dev.28、1、2-14。
[2]	Alviano，M.、Dodaro，C.、Faber，W.、Leone，N.和Ricca，F.2013。WASP：基于约束学习的本地ASP解算器。在LPNMR中。54-66.
[3]	Alviano，M.、Dodaro，C.、Leone，N.和Ricca，F.2015。WASP进展。在LPNMR中。40-54. ·Zbl 1467.68021号
[4]	Anantharam，V.、Varaiya，P.和Walrand，J.1987。多游戏多武器盗贼问题的渐近有效分配规则——第一部分：身份识别奖励。IEEE传输。自动控制32、11、968-976·Zbl 0632.93067号
[5]	Aschinger，M.、Drescher，C.、Friedrich，G.、Gottlob，G.，Jeavons，P.、Ryabokon，A.和Thorstensen，E.2011。伙伴单位问题的优化方法。在CPAIOR中。4-19. ·兹比尔1302.90164
[6]	Audemard，G.和Simon，L.2009。在现代SAT解题器中预测所学子句的质量。在IJCAI.399-404中。
[7]	Audemard，G.和Simon，L.2018。在葡萄糖SAT解算器上。国际艺术杂志。智力。工具27、1、25。
[8]	Bazoobandi，H.R.、Beck，H.和Urbani，J.2017。用激光进行表达流推理。在ISWC中。87-103.
[9]	Beck，H.、Bierbaumer，B.、Dao-Tran，M.、Eiter，T.、Hellwagner，H.和Schekotihin，K.2017。CCN路由器中基于流推理的缓存策略控制。在国际商会。IEEE，1-6·Zbl 1483.68021号
[10]	Beck，H.、Dao-Tran，M.和Eiter，T.，2015年。基于规则的流推理的应答更新。在IJCAI。AAAI出版社，2741-2747。
[11]	Beck，H.、Dao Tran，M.和Eiter，T.2018。LARS：基于逻辑的流分析推理框架。Artif公司。智力。261, 16-70. ·Zbl 1448.68395号
[12]	Beck，H.、Eiter，T.和Folie，2017年。Ticker：一个基于asp的增量流推理系统。第17页，第5-6页，第744-763页·Zbl 1422.68218号
[13]	Caliemeri，F.、Ianni，G.、Pacenza，F.，Perri，S.和Zangari，J.2019。带有过接地的增量答案集编程。理论与实践。日志。程序。19,5-6, 957-973. ·Zbl 1434.68555号
[14]	De Kleer，J.1986年。基于假设的TMS。Artif公司。智力。28, 2, 127-162.
[15]	Doyle，J.1979年。真相维护系统。Artif公司。智力。12, 3, 231-272.
[16]	Eiter，T.、Ogris，P.和Schekotihin，K.2019。LARS流推理的分布式方法（系统文件）。理论与实践。日志。程序。19,5-6, 974-989. ·Zbl 1434.68546号
[17]	Gai，Y.、Krishnamachari，B.和Jain，R.2012。未知变量组合网络优化：具有线性奖励和个体观测的多臂匪徒。IEEE/ACM网络汇刊20，5，1466-1478。
[18]	Gaschnig，J.1979。某些搜索算法的性能测量和分析。美国宾夕法尼亚州匹兹堡卡内基梅隆大学博士论文。
[19]	Gebser，M.、Grote，T.、Kaminski，R.、Obermeier，P.、Sabuncu，O.和Schaub，T.2012。答案集编程流推理：初步报告。KR.AAAI出版社。
[20]	Gebser，M.、Kaminski，R.、Kaufmann，B.和Schaub，T.2019。使用clipeo进行多快照ASP求解。理论与实践。日志。程序。19,1, 27-82. ·Zbl 1486.68027号
[21]	Gelfond，M.和Lifschitz，V.1988。逻辑编程的稳定模型语义。在ICLP/SLP中。麻省理工学院出版社，1070-1080。
[22]	Gent，I.P.、Jefferson，C.和Nightingale，P.2017。n皇后完成的复杂性。J.阿蒂夫。智力。第59、815-848号决议·Zbl 1418.68099号
[23]	Gomes，C.P.、Selman，B.和Kautz，H.A.1998。通过随机化推进组合搜索。在AAAI/IAAI中。AAAI出版社/麻省理工学院出版社，431-437。
[24]	Hehenberger，P.、Vogel-Heuser，B.、Bradley，D.、Eynard，B.、Tomiyama，T.和Achiche，S.2016。网络物理系统的设计、建模、模拟和集成：方法和应用。计算。印第安纳州82，273-289。
[25]	黄，J.2007。重启对小句学习效率的影响。在IJCAI.2318-2323中。
[26]	Kaufmann，B.、Leone，N.、Perri，S.和Schaub，T.2016。答案集编程中的接地和解决方法。AI杂志37、3、25-32。
[27]	Nadel，A.和Ryvchin，V.2012。在假设条件下有效解决SAT问题。在SAT.242-255中·Zbl 1273.68358号
[28]	Pipatsrisawat，K.和Darwiche，A.2007。一种用于可满足性求解器的轻量级组件缓存方案。SAT.294-299中。
[29]	Ratasich，D.，Khalid，F.，Geissler，F.、Grosu，R.、Shafique，M.和Bartocci，E.2019。为网络物理系统构建弹性物联网的路线图。IEEE接入713260-13283。
[30]	Rossi，D.和Rossini，G.2012。利用拓扑信息确定CCN内容存储的大小。在INFOCOM研讨会中。IEEE，280-285。
[31]	Silva，J.P.M.和Sakallah，K.A.1996。可满足性搜索算法中的冲突分析。在ICTAI。IEEE计算机学会，467-469。
[32]	Sutton，R.S.1995年。强化学习中的泛化：使用稀疏粗编码的成功示例。以NIPS为单位。麻省理工学院出版社，1038-1044。
[33]	Sutton，R.S.和Barto，A.G.，2018年。强化学习：导论，第二版·Zbl 1407.68009号
[34]	Swift，T.和Warren，D.S.，2012年。XSB：用表逻辑编程扩展prolog。理论与实践。日志。程序。12,1-2, 157-187. ·Zbl 1244.68021号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

使用强化学习管理流推理的缓存策略。 （英语） Zbl 1468.68152号

MSC公司：

关键词：

软件：

参考文献：

使用强化学习管理流推理的缓存策略。（英语） Zbl 1468.68152号