×

学习通过信息导向采样进行优化。 (英语) Zbl 1458.90497号

本文作者提出了一种新的在线优化问题算法——信息定向抽样(IDS),决策者必须从部分反馈中学习。每一个行动都是以最小化平方预期单周期后悔和信息增益度量之间的比率的方式进行采样的:最佳行动和下一次观察之间的自然信息。作者为算法建立了一个广义遗憾界,并将该界专门用于几个广泛研究的问题类。它们通过简单的分析示例说明了IDS如何处理替代方法无法充分处理的各种信息,并说明这可以带来显著的性能提升。最后,对于一些简单且广泛研究的多武装盗贼问题,作者证明了其仿真性能优于常用方法。

MSC公司:

90立方厘米 随机规划
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abbasi-Yadkori Y,Pál D,Szepesvári C(2011)线性随机土匪的改进算法。Shawe-Taylor J、Zemel RS、Bartlett PL、Pereira FCN、Weinberger KQ编辑。神经信息处理系统研究进展,第24卷(纽约州Red Hook市Curran Associates),2313-2320.谷歌学者
[2] Abbasi-Yadkori Y,Pál D,Szepesvári C(2012)《在线信任集转换及其在稀疏随机土匪中的应用》。程序。第15届国际。Conf.人工智能统计师。AISTATS’12(JMLR.org),1-9谷歌学者
[3] Agrawal R,Teneketzis D,Anantharam V(1989年a)受控iid过程的渐近有效自适应分配方案:有限参数空间。IEEE传输。自动控制34(3):258-267.谷歌学者交叉引用·Zbl 0666.93077号 ·数字对象标识代码:10.1109/9.16415
[4] Agrawal R,Teneketzis D,Anantharam V(1989b)受控马尔可夫链的渐近有效自适应分配方案:有限参数空间。IEEE传输。自动控制34(12):1249-1259.Crossref,谷歌学者·Zbl 0689.93039号 ·数字对象标识代码:10.1109/9.40770
[5] Agrawal S,Goyal N(2013a)汤普森抽样的进一步最优后悔界限。程序。第十六国际。Conf.人工智能统计师。AISTATS’13,(JMLR.org),99-107.谷歌学者
[6] Agrawal S,Goyal N(2013b)Thompson对具有线性回报的背景盗贼的抽样调查。程序。第30届国际。Conf.机器学习,ICML’13,(JMLR.org),127-135.谷歌学者
[7] Audibert JY,Bubeck S(2009),针对敌对和随机盗贼的Minimax政策。程序。第22届年度Conf.学习理论,COLT’09,217-226.谷歌学者
[8] Audibert JY、Bubeck S、Lugosi G(2014)《在线组合优化的遗憾》。数学。操作。物件。39(1):31-45Link,谷歌学者·Zbl 1341.68309号
[9] Auer P,Cesa Bianchi N,Fischer P(2002)多臂强盗问题的有限时间分析。机器学习。47(2):235-256.Crosref,谷歌学者·Zbl 1012.68093号 ·doi:10.1023/A:1013689704352
[10] Bai A,Wu F,Chen X(2013)蒙特卡罗树搜索中基于贝叶斯混合建模和推理的汤普森抽样。Burges CJC、Bottou L、Ghahramani Z、Weinberger KQ编辑。神经信息处理系统研究进展第26卷(纽约州Red Hook市Curran Associates),1646-1654年。谷歌学者
[11] Bartók G、Foster DP、Pál D、Rakhlin A、Szepesvári C(2014)部分监控-分类、后悔界限和算法。数学。操作。物件。39(4):967-997.链接,谷歌学者·Zbl 1310.91028号
[12] Boyd S、Vandenberghe L(2004)凸优化(英国剑桥大学出版社)。Crossref,谷歌学者·Zbl 1058.90049号 ·doi:10.1017/CBO9780511804441
[13] Brochu E,Cora V,de Freitas N(2009)《昂贵成本函数的贝叶斯优化教程》,应用于主动用户建模和分层强化学习。技术报告TR-2009-23,不列颠哥伦比亚大学计算机科学系。谷歌学者
[14] Broder J,Rusmevichientong P(2012),一般参数选择模型下的动态定价。操作。物件。60(4):965-980.Link,谷歌学者·Zbl 1260.91094号
[15] Bubeck S,Cesa-Bianchi N(2012)随机和非随机多武器强盗问题的后悔分析。机器学习的基础和趋势。5(1):1-122.Crossref,谷歌学者·Zbl 1281.91051号 ·doi:10.1561/220000024
[16] Bubeck S,Eldan R(2016)凸函数的多尺度探索与土匪凸优化。Feldman V、Rakhlin A、Shamir O编辑。程序。第29届年度大会学习。理论,COLT’16,(JMLR.org),583-589。谷歌学者
[17] Bubeck S,Dekel O,Koren T,Peres Y(2015)Bandit凸优化:一维遗憾。程序。第28届年度Conf.Learn。理论,COLT’15(JMLR.org),266-278.谷歌学者
[18] Bubeck S、Munos R、Stoltz G、Szepesvári C(2011)X武装匪徒。J.机器学习。物件。12:1655-1695.谷歌学者·Zbl 1280.91038号
[19] CappéO,Garivier A,Maillard OA,Munos R,Stoltz G(2013)最优顺序分配的Kullback-Leibler置信上限。安。统计师。41(3):1516-1541。交叉引用,谷歌学者·Zbl 1293.62161号 ·doi:10.1214/13-AOS1119
[20] Chaloner K,Verdinelli I(1995)贝叶斯实验设计:综述。统计师。科学。10(3):273-304.Crossref,谷歌学者·Zbl 0955.62617号 ·doi:10.1214/ss/1177009939
[21] Chapelle O,Li L(2011)汤普森抽样的实证评估。Shawe-Taylor J、Zemel RS、Bartlett PL、Pereira FCN、Weinberger KQ编辑。神经信息处理系统研究进展,第24卷(纽约州Red Hook市Curran Associates),2249-2257.谷歌学者
[22] Contal E,Perchet V,Vayatis:N(2014),具有互信息的高斯过程优化。程序。2014年第31届国际计算机学习大会,(JMLR.org),253-261.谷歌学者
[23] Dani V,Hayes T,Kakade S(2008)强盗反馈下的随机线性优化。Servedio RA,Zhang T编辑。程序。2008年COLT第21届年度Conf.学习理论,(威斯康星州麦迪逊Omnipress),355-366.谷歌学者
[24] Dani V,Kakade S,Hayes T(2007)Platt JC,Koller D,Singer Y,Roweis ST,eds.在线优化盗贼信息的价格。神经信息处理系统研究进展,20(纽约州红钩市Currant Associates),345-352.谷歌学者
[25] Filippi S,CappéO,Garivier A,Szepesvári C(2010)《参数强盗:广义线性情形》。Lafferty JD、Williams CKI、Shawe-Taylor J、Zemel RS、Culotta A编辑。神经信息处理系统研究进展,第23卷(纽约州Red Hook市Currant Associates),586-594.谷歌学者
[26] Francetich A,Kreps DM(2016a)选择一个好的工具箱,I:公式化、启发式和渐近性质。预打印。谷歌学者
[27] Francetich A,Kreps DM(2016b)选择一个好的工具包,II:模拟和结论。预打印。谷歌学者
[28] Frazier P,Powell W(2010)《学习悖论与信息的边际价值》。决策分析。7(4):378-403.Link,谷歌学者
[29] Frazier P、Powell W、Dayanik S(2008)用于顺序信息收集的知识粒度策略。SIAM J.控制优化。47(5):2410-2439.Crossref,谷歌学者·Zbl 1274.62155号 ·数字对象标识代码:10.1137/070693424
[30] Gittins J、Glazebrook K、Weber R(2011)多武器匪徒分配指标(约翰·威利父子公司,新泽西州霍博肯)。Crossref,谷歌学者·Zbl 1401.90257号 ·数字对象标识代码:10.1002/9780470980033
[31] Golovin D,Krause A(2011)自适应子模块:主动学习和随机优化的理论和应用。J.人工智能研究。42(1):427-486.谷歌学者·兹比尔1230.90141
[32] Golovin D,Krause A,Ray D(2010)具有噪声观测的近最优贝叶斯主动学习。Lafferty JD、Williams CKI、Shawe-Taylor J、Zemel RS、Culotta A编辑。神经信息处理系统研究进展,第23卷(纽约州Red Hook的Currant Associates),766-774.谷歌学者
[33] Gopalan A、Mannor S、Mansour Y(2014)《复杂在线问题的汤普森抽样》。程序。第31届国际。Conf.机器学习(JLMR.org),100-108.Google学者
[34] Graves T,Lai T(1997)受控马尔可夫链中控制律的渐近有效自适应选择。SIAM J.控制优化。35(3):715-743.Crossref,谷歌学者·Zbl 0876.93053号 ·doi:10.1137/S0363012994275440
[35] 格雷R(2011)熵与信息论(纽约州施普林格)。Crossref,谷歌学者·Zbl 1216.94001号 ·doi:10.1007/978-1-4419-7970-4
[36] Hennig P,Schuler C(2012)《信息效率全局优化的熵搜索》。J.机器学习。物件。13(1):1809-1837.谷歌学者·Zbl 1432.65073号
[37] Hernández-Lobato JM,Hoffman MW,Ghahramani Z(2014)预测熵搜索,用于黑盒函数的有效全局优化。Ghahramani Z、Welling M、Cortes C、Lawrence ND、Weinberger KQ编辑。神经信息处理系统研究进展,27(麻省理工学院出版社,马萨诸塞州剑桥),918-926。谷歌学者
[38] Hernández-Lobato D,Hernandez-Lopato JM,Shah A,Adams RP(2016)多目标贝叶斯优化的预测熵搜索。Balcan M-F,Weinberger KQ编辑。程序。第33届国际。Conf.机器学习,ICML’16(JMLR.org),1492-1501.谷歌学者
[39] Hernández-Lobato JM,Gelbart MA,Hoffman MW,Adams RP,Ghahramani Z(2015)未知约束贝叶斯优化的预测熵搜索。巴赫FR,布莱DM,编辑。程序。第32届国际。Conf.机器学习,ICML’15(JMLR.org),1699-1707.谷歌学者
[40] Jaksch T,Ortner R,Auer P(2010)强化学习的近似最优后悔界限。J.机器学习。物件。11:1563-1600.谷歌学者·兹比尔1242.68229
[41] Jedynak B,Frazier P,Sznitman Ret等人(2012)关于噪声的二十个问题:熵损失的贝叶斯最优策略。J.应用。普罗巴伯。49(1):114-136.Crossref,谷歌学者·Zbl 1318.62017号 ·doi:10.1239/jap/1331216837
[42] Kamiñski B(2015)学习概率的精细知识粒度政策。操作。Res.Lett公司。43(2):143-147.Crossref,谷歌学者·Zbl 1408.62031号 ·doi:10.1016/j.orl.2015.01.001
[43] Kaufmann E,CappéO,Garivier A(2012a)关于强盗问题的贝叶斯置信上限。程序。第15届国际。Conf.人工智能统计师。,AISTATS’12(JMLR.org),592-600.谷歌学者
[44] Kaufmann E,Korda N,Munos R(2012b)Thompson采样:渐近最优有限时间分析。程序。第23届国际。Conf.算法学习理论,ALT’12(柏林施普林格),199-213.Crossref,谷歌学者·Zbl 1386.91055号 ·doi:10.1007/978-3-642-34106-9_18
[45] Kleinberg R、Slivkins A、Upfal E(2008)《公制空间中的多武器匪徒》。程序。第40届ACM交响乐团。理论计算。,2008年STOC(ACM,纽约),681-690.Crossref,谷歌学者·Zbl 1231.91048号 ·doi:10.1145/1374376.1374475
[46] Kocsis L,Szepesvári C(2006)基于Bandit的Monte-Carlo规划。程序。第17届欧洲计算机学习会议,ECML'06(柏林施普林格),282-293.Crossref,谷歌学者·doi:10.1007/11871842-29
[47] Kushner H(1964)在存在噪声的情况下定位任意多峰值曲线最大点的新方法。J.基础工程。86(1):97-106。Crossref,谷歌学者·数字对象标识代码:10.1115/1.3653121
[48] Lai T(1987)自适应处理分配和多武器强盗问题。安。统计师。15(3):1091-1114.谷歌学者交叉引用·Zbl 0643.62054号 ·doi:10.1214/aos/1176350495
[49] Lai T,Robbins H(1985)渐进有效的自适应分配规则。高级申请。数学。6(1):4-22.Crossref,谷歌学者·兹伯利0568.62074 ·doi:10.1016/0196-8858(85)90002-8
[50] Lindley DV(1956)关于实验所提供信息的测量。安。数学。统计师。78(4):986-1005.Crossref,谷歌学者·Zbl 0073.14103号 ·doi:10.1214/aoms/1177728069
[51] Mockus J,Tiesis V,Zilinskas A(1978)贝叶斯方法在求极值中的应用。走向全球优化。2(2):117-129。谷歌学者·Zbl 0394.90090号
[52] Niño-Mora J(2011)计算有限视界强盗的经典指数。信息J.计算。23(2):254-267.Link,谷歌学者·Zbl 1243.90157号
[53] Osband I、Russo D、Van Roy B(2013)(更多)通过后验抽样进行有效强化学习。Burges CJC、Bottou L、Ghahramani Z、Weinberger KQ编辑。神经信息处理系统研究进展,第26卷(纽约州Red Hook市Curran Associates)。谷歌学者
[54] Piccolboni A,Schindelhauer C(2001)具有任意反馈和损失的离散预测游戏。Helmbold D,Williamson B编辑。程序。第14届国际米兰。Conf.计算。学习理论,COLT’01(柏林施普林格),208-223.Crossref,谷歌学者·Zbl 0992.68506号 ·doi:10.1007/3-540-44581-1_14
[55] Powell W,Ryzhov I(2012年)最佳学习第841卷(约翰·威利父子公司,新泽西州霍博肯)。Crossref,谷歌学者·数字对象标识代码:10.1002/9781118309858
[56] Rusmevichientong P,Tsitsiklis J(2010)《线性参数化匪徒》。数学。操作。物件。35(2):395-411.Link,谷歌学者·Zbl 1217.93190号
[57] Rusmevichienton P,Shen ZJM,Shmoys D(2010)基于多项式logit选择模型和容量约束的动态产品组合优化。操作。物件。58(6):1666-1680.Link,谷歌学者·Zbl 1228.90170号
[58] Russo D,Van Roy B(2013)Eluder维度和乐观探索的样本复杂性。Burges CJC、Bottou L、Welling M、Ghahramani Z、Weinberger KQ编辑。神经信息处理系统研究进展,第26卷(纽约州Red Hook市Curran Associates),2256-2264.谷歌学者
[59] Russo D,Van Roy B(2014a)通过信息定向抽样学习优化。Ghahramani Z、Welling M、Cortes C、Lawrence ND、Weinberger KQ编辑。神经信息处理系统研究进展,第27卷(Curran Associates,Red Hook,NY),1583-1591。谷歌学者
[60] Russo D,Van Roy B(2014b)通过后验抽样学习优化。数学。操作。物件。39(4):1221-1243.链接,谷歌学者·Zbl 1310.93091号
[61] Russo D,Van Roy B(2016)汤普森抽样的信息理论分析。J.机器学习。物件。17(68):1-30.谷歌学者·兹比尔1360.62030
[62] Russo D、Tse D、Van Roy B(2017)《时间敏感强盗学习和满足汤普森抽样》。预印arXiv:1704.09028.谷歌学者
[63] Ryzhov I,Frazier P,Powell W(2010)关于多武装匪徒问题中单周期look-ahead策略的鲁棒性。计算机程序。科学。1(1):1635-1644.Crossref,谷歌学者·doi:10.1016/j.procs.2010.04.183
[64] Ryzhov I,Powell W,Frazier P(2012)一般在线学习问题的知识梯度算法。操作。物件。60(1):180-195.链接,谷歌学者·Zbl 1241.90201号
[65] SauréD,Zeevi A(2013),具有需求学习的最优动态分类规划。制造服务运营。管理15(3):387-404.Link,谷歌学者
[66] Scott S(2010)现代贝叶斯主义者对多武器匪徒的看法。申请。随机模型总线。工业。26(6):639-658.Crossref,谷歌学者·doi:10.1002/asmb.874
[67] Srinivas N,Krause A,Kakade S,Seeger M(2012),强盗环境下高斯过程优化的信息论遗憾界。IEEE传输。通知。理论58(5):3250-3265.Crossref,谷歌学者·Zbl 1365.94131号 ·doi:10.1109/TIT.2011.2182033
[68] Valko M,Carpentier A,Munos R(2013a)随机同步乐观优化。程序。第30届国际。Conf.机器学习,ICML’13(JMLR.org),19-27.谷歌学者
[69] Valko M、Korda N、Munos R、Flaounas I、Cristianini N(2013b)《内核化背景盗贼的有限时间分析》。Nicholson A、Smyth P编辑。程序。2013年UAI第29届人工智能不确定性会议(俄勒冈州科瓦利斯AUAI出版社),654-663.谷歌学者
[70] Villemonteix J、Vazquez E、Walter E(2009)《费用评估函数全局优化的信息方法》。J.全球优化。44(4):509-534.Crossref,谷歌学者·Zbl 1180.90253号 ·doi:10.1007/s10898-008-9354-2
[71] Waeber R·兹比尔1272.93133 ·doi:10.137/120861898
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。