×

技术说明:近似贝叶斯推理下顺序学习的一致性分析。 (英语) Zbl 1445.90043号

摘要:近似贝叶斯推理是一种强大的方法,用于构建计算效率高的统计机制,以便从不完整或删减信息中进行顺序学习。近似贝叶斯学习模型已被证明在各种运筹学和商业问题中取得了成功;然而,这一领域的先前工作主要是计算性的,近似贝叶斯估计量的一致性在很大程度上是一个悬而未决的问题。我们通过将近似贝叶斯推理解释为一种带有附加“偏差”项的随机近似(SA),发展了一种新的一致性理论。我们证明了这种形式的通用SA算法的收敛性,并利用此分析从最近的文献中导出了一组近似贝叶斯模型的首次一致性证明。
在线附录位于https://doi.org/10.1287/oper.2019.1850.

MSC公司:

90B50型 管理决策,包括多个目标
90 C59 数学规划中的近似方法和启发式
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abounadi J,Bertsekas DP,Borkar VS(2002)非扩张映射的随机近似:Q-学习算法的应用。SIAM J.控制优化。41(1):1-22.Crossref,谷歌学者·Zbl 1063.62567号 ·doi:10.1137/S0363012998346621
[2] Anderson CK,Xie X(2012)基于选择的动态规划方法,用于设置不透明价格。生产运营。管理21(3):590-605.Crossref,谷歌学者·数字对象标识代码:10.1111/j.1937-5956.2011.01293.x
[3] Andradóttir S(1995)一种具有可变边界的随机逼近算法。操作。物件。43(6):1037-1048.链接,谷歌学者·Zbl 0852.90115号
[4] Asmussen S,Glynn PW(2011)通过遍历定理证明MCMC的收敛性。统计师。可能性。莱特。81(10):1482-1485.Crossref,谷歌学者·Zbl 1232.65015号 ·doi:10.1016/j.spl.2011.05.004
[5] Bertsimas D,Kallus N(2015)《从预测到规定分析》。工作文件,麻省理工学院,剑桥。谷歌学者
[6] 博卡尔VS(2008)随机逼近:动力系统的观点(英国剑桥大学出版社)。Crossref,谷歌学者·doi:10.1007/978-93-86279-38-5
[7] Borkar VS,Meyn SP(2000)用于随机逼近和强化学习收敛的ODE方法。SIAM J.控制优化。38(2):447-469.Crossref,谷歌学者·Zbl 0990.62071号 ·doi:10.1137/S0363012997331639
[8] Bottou L(1998)在线学习和随机近似。Saad D编辑。神经网络中的在线学习(英国剑桥大学出版社),9-42谷歌学者·Zbl 0968.68127号
[9] Broadie M,Cicek D,Zeevi A(2011)Kiefer-Wolfowitz随机近似算法的一般界限和有限时间改进。操作。物件。59(5):1211-1224.Link,谷歌学者·Zbl 1252.90057号
[10] Chakraborty M,Das S,Magdon-Ismail M(2011)随机二进制信号的近最优目标学习。Cozman F,Pfeffer A编辑。程序。第27届不确定性人工智能大会(俄勒冈州科瓦利斯AUAI出版社,69-76。谷歌学者
[11] Chakraborty M、Das S、Lavoie A、Magdon-Ismail M、Naamad Y(2013)讲师评级市场。程序。第27届AAAI人工智能大会(AAAI Press(,)Palo Alto,CA),159-165.谷歌学者
[12] Chau M、Fu MC、Qu H、Ryzhov IO(2014)《模拟优化:基于梯度方法的教程概述和最新发展》。Tolk A、Diallo SY、Ryzhov IO、Yilmaz L、Buckley S、Miller JA编辑。程序。2014年冬季模拟会议(IEEE(,)新泽西州皮斯卡塔韦),21-35.Crossref,谷歌学者·doi:10.1109/WSC.2014.7019875
[13] Chen C-H,Lee LH(2010)随机模拟优化:一种最优计算预算分配(世界科学,新加坡)。Crossref,谷歌学者·数字对象标识代码:10.1142/7437
[14] Chen Y,Ryzhov IO(2016)近似贝叶斯推断作为随机近似的一种形式:一种新的一致性理论及其应用。Roeder TMK、Frazier PI、Szechtman R、Zhou E、Huschka T、Chick SE编辑。程序。2016年冬季模拟大会(IEEE(,)皮斯卡塔韦,新泽西州(),534-544)。Crossref,谷歌学者·doi:10.1109/WSC.2016.7822119
[15] Chen C-H,Chick SE,Lee LH,Pujowidianto NA(2015)排名与选择:高效模拟预算分配。Fu MC编辑。仿真优化手册(纽约施普林格),45-80.Crossref,谷歌学者·doi:10.1007/978-1-4939-1384-83
[16] Chhabra M,Das S(2011)《学习后定价数字商品拍卖中的需求曲线》。程序。第十届国际。Conf.自治代理多代理系统(国际自治代理和多代理系统基金会,Richland,SC),63-70.谷歌学者
[17] Chick SE(2006)主观概率和贝叶斯方法。Henderson S,Nelson B,eds.Simulation,Handbooks of Operations Research and Management Science第13卷(North-Holland Publishing,阿姆斯特丹),225-258。谷歌学者·Zbl 1170.90300号
[18] Dangauthier P、Herbrich R、Minka T、Graepel T(2007)《穿越时间的真实技巧:重温国际象棋历史》。Platt JC、Koller D、Singer Y、Roweis S编辑。神经信息处理系统研究进展,第20卷(纽约州Red Hook市Curran Associates),337-344.谷歌学者
[19] Das S,Magdon-Ismail M(2009)《适应市场冲击:最优序贯市场营销》。Koller D、Schuurmans D、Bengio Y、Bottou L编辑。神经信息处理系统研究进展,第21卷(纽约州Red Hook市Curran Associates),361-368.谷歌学者
[20] DeGroot MH(1970)最优统计决策(约翰·威利父子公司,新泽西州霍博肯)。谷歌学者·Zbl 0225.62006号
[21] García-FernándezáF,Svensson L(2015)使用卡尔曼优化的高斯MAP滤波。IEEE传输。自动控制60(5):1336-1349.Crossref,谷歌学者·Zbl 1360.93694号 ·doi:10.1109/TAC.2014.2372909
[22] Gelman AB、Carlin JB、Stern HS、Rubin DB(2004年)贝叶斯数据分析第二版(CRC出版社,佛罗里达州博卡拉顿)。谷歌学者·Zbl 1039.62018号
[23] Gupta AK,Nagar DK(2000年)矩阵变量分布(佛罗里达州博卡拉顿CRC出版社)。谷歌学者·Zbl 0935.62064号
[24] Gutin E,Farias V(2016)乐观Gittins指数。Lee DD、Sugiyama M、Luxburg UV、Guyon I、Garnett R编辑。神经信息处理系统研究进展,第29卷(纽约州Red Hook市Curran Associates),3153-3161.谷歌学者
[25] Haario H,Saksman E,Tamminen J(2001)自适应大都会算法。伯努利7(2):223-242.Crossref,谷歌学者·兹伯利0989.65004 ·doi:10.2307/3318737
[26] Herbrich R、Minka T、Graepel T(2006)TrueSkillTM:贝叶斯技能评级系统。Schölkopf B,Platt JC,Hoffman T编辑。神经信息处理系统研究进展,第19卷(麻省理工学院出版社,马萨诸塞州剑桥),569-576。谷歌学者
[27] Hoffman MD、Blei DM、Wang C、Paisley J(2013)《随机变分推断》。J.机器学习。物件。14(1):1303-1347.谷歌学者·Zbl 1317.68163号
[28] Hong LJ,Nelson BL(2009)《模拟优化简介》。Rosetti M、Hill R、Johansson B、Dunkin A、Ingalls R编辑。程序。2009年冬季模拟会议(IEEE(,)皮斯卡塔韦,新泽西州),75-85.Crossref,谷歌学者·doi:10.1109/WSC.2009.5429321
[29] Jaakkola TS,Jordan MI(2000),通过变分方法进行贝叶斯参数估计。统计师。计算。10(1):25-37.Crossref,谷歌学者·doi:10.1023/A:1008932416310
[30] Jaakkola TS,Jordan MI,Singh SP(1994)关于随机迭代动态规划算法的收敛性。神经计算。6(6):1185-1201.谷歌学者交叉引用·Zbl 0822.68095号 ·doi:10.1162/neco.1996.6.1185
[31] Jiang H,Shanbhag UV(2016)关于不完全信息条件下随机优化和变分问题的解决。SIAM J.Optim公司。26(4):2394-2429。Crossref,谷歌学者·Zbl 1356.90097号 ·doi:10.137/140955495
[32] Jiang H,Xu H(2008)随机变分不等式问题的随机逼近方法。IEEE传输。自动控制53(6):1462-1475.谷歌学者交叉引用·Zbl 1367.90072号 ·doi:10.1109/TAC.2008.925853
[33] Keizers JM、Bertrand JWM和Wessels J(2003),使用逻辑回归诊断海军维修组织的订单规划绩效。生产运营。管理12(4):445-463.Crossref,谷歌学者·doi:10.1111/j.1937-5956.2003.tb00214.x
[34] Koshal J,NedićA,Shanbhag UV(2013)随机变分不等式问题的正则迭代随机逼近方法。IEEE传输。自动控制58(3):594-609.Crossref,谷歌学者·Zbl 1369.49012号 ·doi:10.1109/TAC.2012.2215413
[35] Kushner HJ,Yin G(2003)随机逼近和递归算法及其应用第二版(纽约州施普林格)。谷歌学者·Zbl 1026.62084号
[36] Lai TL(2003)随机近似。安。统计师。31(2):391-406.Crossref,谷歌学者·Zbl 1039.62077号 ·doi:10.1214/aos/1051027873
[37] Marin JM、Pudlo P、Robert CP、Ryder RJ(2012)近似贝叶斯计算方法。统计师。计算。22(6):1167-1180.Crossref,谷歌学者·Zbl 1252.62022号 ·doi:10.1007/s11222-011-9288-2
[38] Minka TP(2001)近似贝叶斯推断的期望传播。Breese J、Koller D编辑。程序。第17届Conf.不确定性人工智能(Morgan Kaufmann(,)旧金山),362-369.谷歌学者
[39] Opper M(1998)在线学习的贝叶斯方法。Saad D编辑。神经网络中的在线学习(剑桥大学出版社,英国剑桥),363-378,谷歌学者·Zbl 0966.68178号
[40] Pasupathy R,Kim S(2011)《随机寻根问题:概述、解决方案和开放性问题》。ACM事务处理。模型。计算。模拟21(3):19:1-19:23.Crossref,谷歌学者·Zbl 1386.65054号 ·doi:10.145/1921598.1921603
[41] Petruzzi NC,Dada M(1999)《定价与新闻供应商问题:扩展综述》。操作。物件。47(2):183-194.链接,谷歌学者·Zbl 1005.90546号
[42] Plagnol V,TavaréS(2004)近似贝叶斯计算和MCMC。Niederreiter H编辑。蒙特卡罗和准蒙特卡罗方法(纽约州施普林格市),99-113.谷歌学者·Zbl 1041.65011号
[43] 鲍威尔世界银行(2011)近似动态规划:解决维数问题第二版(新泽西州霍博肯John Wiley&Sons)。Crossref,谷歌学者·Zbl 1242.90002号 ·doi:10.1002/9781118029176
[44] Powell WB,Ryzhov IO(2012年)最佳学习(约翰·威利父子公司,新泽西州霍博肯)。Crossref,谷歌学者·数字对象标识代码:10.1002/9781118309858
[45] Powell WB,George A,Simáo H,Scott WR,Lamont A,Stewart J(2012)SMART:能源、技术和政策分析的随机多尺度模型。信息J.计算。24(4):665-682.链接,谷歌学者·Zbl 1460.91098号
[46] 普特曼ML(1994)马尔可夫决策过程(John Wiley&Sons,纽约)。Crossref,谷歌学者·doi:10.1002/9780470316887
[47] Qu H,Ryzhov IO,Fu MC,Ding Z(2015)未知相关结构的序贯选择。操作。物件。63(4):931-948.链接,谷歌学者·Zbl 1329.62474号
[48] Ribeiro C,Szepesvári C(1996)Q-学习与传播相结合:收敛与结果。程序。1996年ISRF-IEE国际。Conf.智能认知系统,伊朗德黑兰,32-36.谷歌学者
[49] Robbins H,Monro S(1951)随机近似方法。安。数学。统计师。22(3):400-407.Crossref,谷歌学者·Zbl 0054.05901号 ·doi:10.1214/oms/1177729586
[50] Russo D,Van Roy B(2014)通过后验抽样学习优化。数学。操作。物件。39(4):1221-1243.链接,谷歌学者·Zbl 1310.93091号
[51] Ryzhov IO(2015)模拟和优化的近似贝叶斯推断。Defourny B,Terlaky T,编辑。建模与优化:理论与应用(施普林格国际,瑞士查姆),1-28.Crossref,谷歌学者·Zbl 06766569号 ·doi:10.1007/978-3-319-23699-5_1
[52] Ryzhov IO(2016)关于预期改进方法的收敛速度。操作。物件。64(6):1515-1528.链接,谷歌学者·Zbl 1359.62519号
[53] Ryzhov IO,Powell WB(2010)具有相关贝叶斯信念的近似动态规划。Viswanath P,Meyn S编辑。程序。第48届年度Allerton Conf.Comm.Control计算。(IEEE(,)Piscataway,NJ),1360-1367.Crossref,谷歌学者·doi:10.1109/ALLERTON.2010.5707072
[54] Simáo HP、George A、Powell WB、Gifford T、Nienow J、Day J(2010)《近似动态编程》捕获了施耐德国家航空公司的机队运营。接口40(5):342-352.Link,谷歌学者
[55] Sohn SY,Kim HS(2007)技术信用担保基金违约预测的随机效应logistic回归模型。欧洲药典。物件。183(1):472-478.Crossref,谷歌学者·Zbl 1127.90312号 ·doi:10.1016/j.ejor.2006.10.006
[56] Spiegelhalter DJ,Laurizen SL(1990)有向图形结构上条件概率的顺序更新。网络20(5):579-605.谷歌学者交叉引用·Zbl 0697.90045号 ·doi:10.1002/net.3230200507
[57] Sunnáker M、Busetto AG、Numminen E、Corander J、Foll M、Dessimoz C(2013)近似贝叶斯计算。公共科学图书馆计算。生物。9(1):e1002803.Crossref,谷歌学者·doi:10.1371/journal.pcbi.1002803
[58] Szepesvári C(1997)Q学习的渐近收敛速度。Jordan MI、Kearns MJ、Solla SA编辑。神经信息处理系统研究进展,第10卷(麻省理工学院出版社,马萨诸塞州剑桥),1064-1070.谷歌学者
[59] Tsitsiklis JN(1994)《异步随机逼近和Q学习》。机器学习。16(3):185-202.Crossref,谷歌学者·Zbl 0820.68105号 ·doi:10.1007/BF00993306
[60] Wang C,Blei DM(2013)非共轭模型中的变分推断。J.机器学习。物件。14(1):1005-1031.谷歌学者·Zbl 1320.62057号
[61] Wang Y,Blei DM(2019)变分贝叶斯的频繁一致性。J.艾默。统计师。协会。即将到来。谷歌学者·Zbl 1428.62119号
[62] Watkins CJCH,Dayan P(1992)Q-Learning。机器学习。8(3-4):279-292.Crossref,谷歌学者·Zbl 0773.68062号 ·doi:10.1007/BF00992698
[63] Wen Z,Van Roy B(2013)确定性系统中的有效探索和值函数泛化。Burges CJC、Bottou L、Welling M、Ghahramani Z、Weinberger KQ编辑。神经信息处理系统研究进展,第26卷(纽约州Red Hook市Curran Associates),3021-3029。谷歌学者
[64] Yousefian F,NedićA,Shanbhag UV(2012)关于自适应步长序列的随机梯度和次梯度方法。Automatica公司48(1):56-67.Crossref,谷歌学者·Zbl 1244.93178号 ·doi:10.1016/j.automatica.2011.09.043
[65] 张强,宋毅(2015)实证模型比较的模拟选择。Yilmaz L、Chan WKV、Moon I、Roeder TMK、Macal C、Rossetti MD编辑。程序。2015年冬季模拟会议(IEEE(,)皮斯卡塔韦,新泽西州),3777-3788.Crossref,谷歌学者·doi:10.1109/WSC.2015.7408535
[66] 张Q·Zbl 1515.62039号 ·数字对象标识代码:10.1145/3149013
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。