{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{-“日期-部分”:[[2024,9,20]],“日期-时间”:“2024-09-20T16:07:31Z”,“时间戳”:1726848451819},“引用-计数”:31,“发布者”:“运筹学与管理科学研究所(INFORMS)”,“问题”:“4”,“内容-域”:{:“域”:[],“交叉标记-限制”:false},“short-container-title”:[“OR数学”],“published-print”:{“date-parts”:[[2014,11]]},”抽象“:”本文考虑使用简单的后验抽样算法,在学习优化行动时(例如在多武装匪徒问题中),在探索和利用之间取得平衡。该算法也称为汤普森抽样和概率匹配,与流行的上置信限(UCB)方法相比具有显著优势,可以应用于具有有限或无限动作空间以及动作奖励之间复杂关系的问题。我们做出了两个理论贡献。第一种方法建立了后验采样和UCB算法之间的联系。这个结果使我们能够将为UCB算法开发的遗憾界转换为用于后验抽样的贝叶斯遗憾界。我们的第二个理论贡献是后验抽样的贝叶斯后悔界,它广泛适用于许多模型类。这个界限取决于一个我们称之为逃避者维度的新概念,它衡量行动奖励之间的依赖程度。与特定模型类的UCB算法贝叶斯遗憾界相比,我们的广义界匹配线性模型的最佳可用边界,并且比广义线性模型的最优可用边界更强。此外,我们的分析深入了解了后验采样的性能优势,仿真结果表明后验采样性能优于最近提出的UCB算法<\/jats:p>“,”DOI“:”10.1287\/moor.2014.0650“,”type“:”journal-article“,”created“:{”date-parts“:[[2014,4,23]],”date-time“:”2014-04-23T20:43:54Z“,”timestamp“:1398285834000},”page“:“1221-1243”,“source”:“Crossref”,“is-referenced-by-count”:217,“title”:[“通过后验抽样学习优化”],“前缀”:“10.1287”,“volume”:“39”,“作者”:[{“给定”:“Daniel“,”family“:”Russo“,”sequence“:”first“,”affiliation“:[{”name“:”Stanford University,Stanford,California 94305“}]},{”given“:”Benjamin“,”家人“:”Van Roy斯坦福大学管理科学、工程和电气工程系,加利福尼亚州斯坦福94305“}]}],“成员”:“109”,“参考”:[{“key”:“B1”,“volume-title”:“COLT Workshop:Online Learn.Limited Feedback”,“author”:“Abbasi-Yadkori Y”,“year”:“2009”},{“key”:。神经信息。处理系统(NIPS)”,“作者”:“Abbasi Yadkori Y”,“年份”:“2011”},{“密钥”:“B3”,“系列标题”:“JMLR研讨会和会议论文集”,“第一页”:“1”,“卷标题”:“第15届国际会议人工智能统计(AISTATS)”,“卷”:“22”,“作者”:“Abbasi Yadkori Y”,“年份”:“2012”},{“密钥”:“B4”,“系列标题”:“《JMLR研讨会和会议记录》,“第一页”:“39.1”,“卷标”:“Proc。Ann.25,Conf.学习。理论”,“卷”:“23”,“作者”:“Agrawal S”,“年份”:“2012”},{“关键”:“B7”,“系列标题”:“JMLR研讨会和会议记录”,“首页”:“87”,“卷标”:“第24届年会学理论(COLT)”,“体积”:“19”,“作家”:“Amin K”,“年”:“2011”}第22届年会学习理论(COLT)“,”author“:”Audibert J-Y“,”year“:”2009“},{”key“:”B9“,”doi-asserted-by“:”publisher“,”doi“:”10.1023\/A:1013689704352“}”,{“key”:”B10“,”series-title“:”JMLR Workshop and Conference Proceedings“,”first page“:“19”,“volume-title”:“Proc.14th Internat.Conf.Artificial Intelligence Statist.(AISTATS)”,“卷”:“15”,“author”:“Beygelzimer A”“,”年份“:”2011“},{”key“:”B12“,”首页“:”638“,”author“:”Bubeck S“,”year“:”2013“,”journal-title“:”Adv.Neural Inform“。处理系统(NIPS)“},{”键“:”B13“,”首页“:”1655“,”卷“:”12“,”作者“:”Bubeck S“,”年份“:”2011“,”日志标题“:”J.Machine Learn.Res.“}”,{“key”:“B14”,“doi-asserted-by”:“publisher”,“doi”:“10.1214\/13-AOS1119”},“key“:”B1“”,“首页”:“2249”,“volume-title”:“Advv.Neural Inform”。处理系统(NIPS)“,”作者“:”Chapelle O“,”年份“:”2011年“},{“key”:“B16”,“首页”:“355”,“volume-title”:“Proc.21st Annual Conf.Learn.Theory(COLT)”,“author”:“Dani V”,“year”:“2008”},“{”key“:“B17”,“doi-asserted-by”:“publisher”,“doi”:“10.1109 \/Allerton.2012.6483433”}、{“key”:”B18“,”first page“:”586“,”volume-title“:”Advv.Neural Inform。处理系统(NIPS)“,”作者“:”Filippi S“,”年份“:”2010“},{“key“:”B19“,”doi-asserted-by“:”publisher“,”doi“:”10.1093\/biomet\/66.3.561“},{“key”:“B20”,“doi-assert-by”:“publisher”,“doi”:“10.1002\/9780470980033”},}“key:”B22“,”doi-asserted-by“y“:”publisher“,”doi“:”10.1145\/1374376.1374475“},{”key“:”B24“,”首页“:”1448“,”volume-title”:“高级神经信息。处理系统”,“作者”:“Korda N”,“年份”:“2013”},{“密钥”:“B25”,“doi断言者”:“出版商”,“doi”:“10.1214\/aos\/1176350495”},{“密钥”:“B26”,“doi断言者”:“出版商”,“doi”:“10.1016\/0196-8858(85)90002-8”},{“密钥”:“B27”,“卷标题”:“点估计理论”,“作者”:“Lehmann EL”,“年份”:“1998”,“版本”:“2”},{“密钥”:“B29”,“系列标题”:《JMLR研讨会和会议记录》,“第一页”:“43.1”,“卷标”:“Proc。第25届年度Conf.Learn。理论(COLT)“,”卷“:”23“,”作者“:”李L“,”年份“:”2012“},{”问题“:”1“,”关键“:”B30“,”首页“:”2069“,”卷宗“:”13“,”作家“:”公元前5月“,”年“:”2012“,”杂志标题“:”机器学习研究“}”,{“关键”:“B31”,“doi-asserted-by”:“publisher”,“doi”:“10.1287\/moor.1100.0446”},“key”:“B32”,“doi-asserted-by”:“publisher”,“doi”:“10.1287\/opere.1110.0999”},{“key“:”B33“,”doi-asserted-by“:”publisher“,”doi“:”10.1137\/0203021“},”{“key”:“B34”,“doi-assert-by”:“publisher”,“doi”:“10.1002\/asmb.874”},{“key”:”B35“,”doi-asserted-by“”:“publisher”,”doi:“10.1109\/TIT.2011.2182033”}“,”第一页“:”19“,”卷标题“:”Proc.30th Internat.Conf。机器学习。(ICML-13)“,”volume“:”28“,”author“:”Valko M“,”year“:”2013“}],”container-title“:[”Mathematics of Operations Research“],”original-title”:[],”language“:”en“,”link“:[{”URL“:”https:\\/pubsonline.notifies.org\/doi\/pdf\/10.1287\/moor.2014.0650“,”content-type“:”unspecified“,”content-version“:”vor“,”intended-application“:”similarity-检查“}],”deposited”:{“日期部分”:[[2023,4,2]],“日期-时间”:“2023-04-02T13:39:10Z”,“时间戳”:1680442750000},“分数”:1,“资源”:{“主要”:{“URL”:“https:\/\/pubsonline.informs.org/doi\/10.1287\/moor.2014.0650”},“副标题”:[],“短标题”:[],“已发布”:{“日期部分”:[[2014,11]]},“引用次数”:31,“期刊发行”:{“发行”:“4”,“已出版印刷品”:{日期部分“:[[2014,11]}},“替代id”:[“10.1287\/moor.2014.0650”],“URL”:“http:\/\/dx.doi.org/10.1287\/moor.2014.0650”,“关系”:{},“ISSN”:[“0364-765X”,“1526-5471”],“ISSN类型”:[{“值”:“0364-765X”,“类型”:“打印”},{“值”:“1526-5471”,“类型”:“电子”},“主题”:[],“已发布”:{“日期部分”:[[2014,11]}}}