×

双边市场非政策评估的多智能体强化学习框架。 (英语) Zbl 07789404号

概述:双边市场,例如分乘公司,通常涉及一组主体,他们在不同的时间和/或地点做出连续的决策。随着智能手机和物联网的迅速发展,它们极大地改变了人类的交通格局。在本文中,我们考虑了分乘公司的大规模车队管理,这些公司涉及不同地区的多个单位,随着时间的推移接收产品(或治疗)序列。这些研究中出现了重大的技术挑战,例如政策评估,因为:(i)空间和时间邻近性会导致位置和时间之间的干扰,以及(ii)大量位置会导致维度灾难。为了同时应对这两个挑战,我们引入了一个多智能体强化学习(MARL)框架,用于在这些研究中进行政策评估。我们提出了不同乘积下平均结果的新估计量,尽管状态-行动空间的维数很高,但这些估计量是一致的。该估计器在仿真实验中表现良好。我们使用从双边市场公司获得的真实数据集进一步说明了我们的方法,以评估应用不同补贴政策的效果。我们建议的方法的Python实现可以在补充资料中找到,也可以在https://github.com/RunzheStat/CausalMARL.

MSC公司:

62件 统计学的应用
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿姆斯特朗(2006)。双边市场的竞争。兰德经济杂志37 668-691。
[2] Athey,S.、Eckles,D.和Imbens,G.W.(2018)。网络干扰的精确p值。J.Amer。统计师。协会113 230-240。doi:10.1080/016214519.2016.1241178·Zbl 1398.62140号
[3] Belloni,A.、Chernozhukov,V.、Fernández-Val,I.和Hansen,C.(2017)。利用高维数据进行程序评估和因果推断。计量经济学85 233-298。doi:10.3982/ECTA12723·Zbl 1410.62197号
[4] Bhattacharya,R.、Malinsky,D.和Shpitser,I.(2019年)。干扰和网络不确定性下的因果推理。人工智能中的不确定性:。。。会议。2019年人工智能不确定性会议。NIH公共访问。
[5] Bojinov,I.和Shephard,N.(2019年)。时间序列实验和因果估计:精确的随机测试和交易。J.Amer。统计师。协会114 1665-1682。doi:10.1080/01621459.2018.1527225·Zbl 1428.62385号
[6] Boruvka,A.、Almirall,D.、Witkiewitz,K.和Murphy,S.A.(2018年)。评估移动健康中的时变因果关系调节。J.Amer。统计师。协会113 1112-1121。doi:10.1080/01621459.2017.1305274
[7] Bradley,R.C.(2005)。强混合条件下的基本特性。调查和一些开放性问题。普罗巴伯。概述2 107-144。doi:10.1214/154957805100000104·兹比尔1189.60077
[8] 蔡浩、石灿、宋若明、陆伟(2021)。深度跳转学习用于持续治疗环境中的非政策评估。高级神经信息处理。系统34 15285-15300。
[9] Chakraborty,B.、Laber,E.B.和Zhao,Y.-Q.(2014)。数据驱动动态治疗方案的预期性能推断。临床。试验11 408-417。
[10] Chakraborty,B.、Murphy,S.和Strecher,V.(2010年)。最佳动态处理方案中非规则参数的推断。统计方法医学研究19 317-343。doi:10.1177/0962280209105013·Zbl 1365.62411号
[11] Chen,E.Y.,Hu,Z.T.,Song,R.和Jordan,M.I.(2020年)。离线数据的异构强化学习:估计和推断。
[12] Chen,X.和Qi,Z.(2022)。非参数q函数估计在非政策评估中的适定性和极小极大最优率。ArXiv预印本。可从ArXiv:2201.06169获得。
[13] Dempsey,W.、Liao,P.、Kumar,S.和Murphy,S.A.(2020年)。分层微随机试验设计:测试时变治疗嵌套因果效应的样本量考虑。附录申请。统计数字14 661-684。doi:10.1214/19-AOAS1293·Zbl 1446.62271号
[14] Dudík,M.、Erhan,D.、Langford,J.和Li,L.(2014)。双重稳健的政策评估和优化。统计师。科学29 485-511。doi:10.1214/14-STS500·Zbl 1331.62059号
[15] Ertefaie,A.(2014)。在无限度环境中构建动态治疗机制。ArXiv预印本。可从ArXiv:1406.0764获得。
[16] Fang,E.X.Wang,Z.和Wang,L.(2023)。以公平为导向的学习,实现最佳个性化治疗规则。J.Amer。统计师。关联显示。
[17] Farahmand,A.、Ghavamzadeh,M.、Szepesvári,C.和Mannor,S.(2016)。具有非参数函数空间的正则化策略迭代。J.马赫。学习。决议17第139号文件·Zbl 1392.68345号
[18] Frenken,K.和Schor,J.(2017)。正确看待共享经济。环境创新与社会转型23 3-10。
[19] Fukumizu,K.、Gretton,A.、Sun,X.和Schölkopf,B.(2007年)。条件依赖的核心度量。在NIPS20 489-496中。
[20] Hagiu,A.和Wright,J.(2019年)。工人和平台在共享经济中的地位。《经济学杂志》。管理。战略28 97-108。
[21] Halloran,M.E.和Hudgens,M.G.(2016)。相关事件:最近的方法学综述。货币。流行病。代表3 297-305。
[22] Hirano,K.、Imbens,G.W.和Ridder,G.(2003)。使用估计的倾向得分有效估计平均治疗效果。计量经济学71 1161-1189。数字对象标识代码:10.1111/1468-0262.00442·Zbl 1152.62328号
[23] Hu,X.,Qian,M.,Cheng,B.和Cheung,Y.K.(2021)。使用纵向移动健康数据进行个性化策略学习。J.Amer。统计师。协会116 410-420。doi:10.1080/01621459.2020.1785476·Zbl 1457.62347号
[24] Hudgens,M.G.和Halloran,M.E.(2008)。干扰因果推理。J.Amer。统计师。协会103 832-842。doi:10.19198/016214508000000292·Zbl 1471.62507号
[25] Imbens,G.W.和Rubin,D.B.(2015)。统计、社会和生物医学科学因果推断:导论。剑桥大学出版社,纽约。doi:10.1017/CBO9781139025751·Zbl 1355.6202号
[26] 江N.和李L.(2016)。用于强化学习的双重稳健的非政策价值评估。在652-661国际机器学习会议上。
[27] Jin,S.T.、Kong,H.、Wu,R.和Sui,D.Z.(2018)。乘骑采购、共享经济和城市的未来。城市76 96-104。
[28] Kallus,N.和Uehara,M.(2022年)。通过双重强化学习,有效打破政策外评估中的地平线诅咒。操作。第70号决议3282-3302·Zbl 1510.90285号
[29] Laber,E.B.、Meyer,N.J.、Reich,B.J.、Pacifici,K.、Collazo,J.A.和Drake,J.M.(2018)。新发传染病在线控制的空间和时间最优治疗分配。J.R.统计社会服务。C.申请。统计数据67 743-789。doi:10.1111/rssc.12266
[30] Li,B.,Zhang,D.,Sun,L.,Chen,C.,Li,S.,Qi,G.和Yang,Q.(2011)。狩猎还是等待?从大规模真实出租车数据集中发现乘客查找策略。2011年IEEE普及计算和通信国际会议(PERCOM研讨会)63-68。IEEE出版社,纽约。
[31] Li,M.,Shi,C.,Wu,Z.和Fryzlewicz,P.(2022a)。可能非平稳环境中的强化学习。ArXiv预印本。可从ArXiv:2203.01707获得。
[32] Li,Y.,Wang,C.-H.,Cheng,G.和Sun,W.W.(2022b)。费率最优的上下文在线匹配强盗。ArXiv预印本。可从ArXiv:2205.03699获得。
[33] Liao,P.、Klasnga,P.和Murphy,S.(2021)。移动健康应用的长期平均结果的非政策估计。J.Amer。统计师。协会116 382-391。doi:10.1080/01621459.2020.1807993·Zbl 1457.62055号
[34] Liao,P.,Qi,Z.,Wan,R.,Klasnga,P.和Murphy,S.A.(2022年)。平均报酬马尔可夫决策过程中的批量策略学习。美国国家统计局50 3364-3387。doi:10.1214/22-aos2231·Zbl 07641129号
[35] Liu,Q.,Li,L.,Tang,Z.和Zhou,D.(2018)。打破地平线魔咒:无限度非政策估计。神经信息处理系统进展5356-5366。
[36] 劳埃德·E·H(1977)。具有季节性变化的马尔科夫流入量及其首次通过时间的水库·Zbl 0358.90072号
[37] Luckett,D.J.、Laber,E.B.、Kahkoska,A.R.、Maahs,D.M.、Mayer Davis,E.和Kosorok,M.R.(2020)。使用V-learning评估移动健康中的动态治疗方案。J.Amer。统计师。协会115 692-706。doi:10.1080/01621459.2018.1537919·兹比尔1445.62279
[38] Luedtke,A.R.和van der Laan,M.J.(2016)。可能非唯一最优治疗策略下平均结果的统计推断。统计年鉴44 713-742。doi:10.1214/15-AOS1384·Zbl 1338.62089号
[39] Matsouaka,R.A.、Li,J.和Cai,T.(2014)。评估标记引导的治疗选择策略。生物统计学70 489-499。doi:10.1111/biom.12179·Zbl 1299.62129号
[40] 孟浩、赵永清、傅浩和乔晓霞(2020)。接近最佳的个性化治疗建议。J.马赫。学习。决议21第183号文件·Zbl 1527.68187号
[41] Miao,F.,Han,S.,Lin,S..,Stankovic,J.A.,Zhang,D.,Munir,S.、Huang,H.、He,T.和Pappas,G.J.(2016)。大都市地区具有实时传感数据的出租车调度:一种滚动视野控制方法。IEEE传输。自动。科学。工程.13 463-478。
[42] 莫维、齐哲和刘毅(2021)。学习最佳分布稳健的个性化治疗规则。J.Amer。统计师。协会116 659-674。doi:10.1080/01621459.2020.1796359·Zbl 1464.62467号
[43] Murphy,S.A.(2003年)。最佳动态治疗方案。J.R.统计社会服务。B.Stat.方法65 331-366。doi:10.1111/1467-9868.00389·Zbl 1065.62006号
[44] Nachum,O.、Chow,Y.、Dai,B.和Li,L.(2019年)。Dualdice:贴现平稳分布校正的行为认知估计。ArXiv预印本。可从ArXiv:1906.04733获得。
[45] Ning,B.、Ghosal,S.和Thomas,J.(2019年)。空间相关多元时间序列因果推断的贝叶斯方法。贝叶斯分析.14 1-28。doi:10.1214/18-BA1102·Zbl 1409.62178号
[46] Puterman,M.L.(1994)。马尔可夫决策过程:离散随机动态规划。概率与数理统计中的威利级数:应用概率与统计学。纽约威利·Zbl 0829.90134号
[47] Qian,M.和Murphy,S.A.(2011年)。个性化治疗规则的性能保证。统计年鉴39 1180-1210。doi:10.1214/10操作系统864·Zbl 1216.62178号
[48] Reich,B.J.、Yang,S.、Guan,Y.、Giffin,A.B.、Miller,M.J.和Rappold,A.(2021)。环境和流行病学应用的空间因果推理方法综述。国际统计版次89 605-634。doi:10.1111/insr.12452
[49] Robins,J.M.(2004)。最优序列决策的最优结构嵌套模型。第二届西雅图生物统计学研讨会论文集。勒克特。注释统计179 189-326。纽约州施普林格市,doi:10.1007/978-1-4419-9076-1_11·Zbl 1279.62024号
[50] 鲁宾,D.B.(1980)。实验数据的随机化分析:Fisher随机化测试评论。J.Amer。统计师。协会75 591-593。
[51] Rubin,D.B.(1986年)。评论:哪些假设有因果关系的答案。J.Amer。统计师。协会81 961-962。
[52] Rysman,M.(2009)。双边市场的经济学。《经济学杂志》。透视图.23 125-143。
[53] Shi,C.,Fan,A.,Song,R.和Lu,W.(2018)。优化动态治疗方案的高维A-learning。统计年鉴46 925-957。doi:10.1214/17-AOS1570·Zbl 1398.62029号
[54] Shi,C.,Lu,W.和Song,R.(2020年)。在最佳治疗方案下,通过亚累加平均结果来打破不规则的诅咒。J.马赫。学习。决议21第176号文件·兹伯利07307471
[55] Shi,C.,Song,R.,Lu,W.和Fu,B.(2018)。Maximin投影学习在异质个体化治疗效果下的最优治疗决策。J.R.统计社会服务。B.统计方法80 681-702。doi:10.1111/rssb.12273·Zbl 1398.62345号
[56] Shi,C.,Wan,R.,Chernozhukov,V.和Song,R.(2021)。深度偏差的非保单间隔估计。在机器学习国际会议9580-9591上。PMLR公司。
[57] Shi,C.,Wan,R.,Song,G.,Luo,S.,Zhu,H.和Song,R.(2023)。补充“双边市场非政策评估的多智能体强化学习框架”https://doi.org/10.1214/22-AOAS1700SUPP网站
[58] Shi,C.,Wan,R.,Song,R.、Lu,W.和Leng,L.(2020年)。马尔可夫决策过程是否符合数据:测试顺序决策中的马尔可夫属性。在8807-8817国际机器学习会议上。PMLR公司。
[59] Shi,C.,Wang,X.,Luo,S.,Zhu,H.,Ye,J.和Song,R.(2022a)。使用强化学习框架在a/b测试中进行动态因果效应评估。J.Amer。统计师。协会1-13。
[60] Shi,C.,Zhang,S.,Lu,W.和Song,R.(2022b)。无穷大环境下强化学习值函数的统计推断。J.R.统计社会服务。B.统计方法84 765-793。
[61] Song,R.、Wang,W.、Zeng,D.和Kosorok,M.R.(2015)。动态治疗方案的惩罚Q学习。统计师。Sinica25 901-920·Zbl 1415.62054号
[62] Sutton,R.S.和Barto,A.G.(2018年)。强化学习:导论,第二版,自适应计算和机器学习。麻省理工学院出版社,马萨诸塞州剑桥·Zbl 1407.68009号
[63] Tang,Z.、Feng,Y.、Li,L.、Zhou,D.和Liu,Q.(2019)。无限期非政策估计中的双稳健偏差减少。ArXiv预印本。可在ArXiv:1910.07186上获得。
[64] Tchetgen-Tchetgen,E.J.和VanderWeele,T.J.(2012)。关于存在干扰的因果推理。统计方法医学研究21 55-75。doi:10.1177/0962280210386779
[65] Thomas,P.和Brunskill,E.(2016)。用于强化学习的数据高效的非政策政策评估。在2139-2148国际机器学习会议上。PMLR公司。
[66] Thomas,P.S.、Theocharous,G.和Ghavamzadeh,M.(2015)。政策外评估可信度高。在第二十届AAAI人工智能会议上。
[67] Toulis,P.和Kao,E.(2013年)。因果同伴影响影响的估计。在国际机器学习会议1489-1497。
[68] Uehara,M.、Huang,J.和Jiang,N.(2020年)。用于非政策评估的Minimax权重和q函数学习。在机器学习国际会议9659-9668上。PMLR公司。
[69] Wager,S.和Athey,S.(2018年)。使用随机森林评估和推断异质处理效果。J.Amer。统计师。协会113 1228-1242。doi:10.1080/01621459.2017.1319839·Zbl 1402.62056号
[70] Wang,J.、Qi,Z.和Wong,R.K.(2021)。离线强化学习的预测状态-动作平衡权重。ArXiv预印本。可从ArXiv:2109.04640获得。
[71] Wang,L.,Yang,Z.和Wang,Z..(2020年)。利用混杂的观测数据进行因果强化学习,效果显著。ArXiv预印本。可从ArXiv:2006.12311获得。
[72] Wang,L.,Zhou,Y.,Song,R.和Sherwood,B.(2018)。量化最佳治疗方案。J.Amer。统计师。协会113 1243-1254。doi:10.1080/01621459.2017.1330204·Zbl 1402.62294号
[73] Wu,Y.和Wang,L.(2021)。基于重采样的置信区间,用于对最佳治疗方案进行无模型稳健推断。生物统计学77 465-476。doi:10.1111/biom.13337·Zbl 1520.62378号
[74] Yang,Y.、Luo,R.、Li,M.、Zhou,M.、Zhang,W.和Wang,J.(2018)。平均场多智能体强化学习。ArXiv预印本。可从ArXiv:1802.05438获得。
[75] 姚,L.,朱,Z.,李,S.,李,Y.,高,J.和张,A.(2022)。因果推理研究综述。可从arXiv:2002.02770获取。
[76] Zhang,B.、Tsiatis,A.A.、Laber,E.B.和Davidian,M.(2012)。估计最佳治疗方案的稳健方法。生物统计学68 1010-1018。doi:10.1111/j.1541-0420.2012.01763.x·兹比尔1258.62116
[77] Zhang,B.、Tsiatis,A.A.、Laber,E.B.和Davidian,M.(2013)。序列治疗决策的最佳动态治疗方案的稳健估计。生物计量学100 681-694。doi:10.1093/biomet/ast014·Zbl 1284.62508号
[78] Zhang,D.,Sun,L.,Li,B.,Chen,C.,Pan,G.,Li.,S.和Wu,Z.(2014)。从出租车gps轨迹了解出租车服务策略。IEEE传输。智力。运输。系统16 123-135。
[79] Zhang,K.,Yang,Z.和Bašar,T.(2021)。多智能体强化学习:理论和算法的选择性概述。在强化学习和控制手册中。研究系统。Decis公司。控制325 321-384。查姆施普林格。doi:10.1007/978-3-030-60990-0_12·Zbl 07608712号
[80] Zhang,Y.、Laber,E.B.、Davidian,M.和Tsiatis,A.A.(2018年)。使用列表估计最佳治疗方案。J.Amer。统计师。协会113 1541-1549。doi:10.1080/01621459.2017.1345743·Zbl 1409.62231号
[81] Zhang,Y.、Laber,E.B.、Tsiatis,A.和Davidian,M.(2015)。使用决策列表构建可解释和节约的治疗制度。生物统计学71 895-904。doi:10.1111/biom.12354·Zbl 1419.62490号
[82] Zhao,Y.、Zeng,D.、Rush,A.J.和Kosorok,M.R.(2012)。使用结果加权学习评估个体化治疗规则。J.Amer。统计师。协会107 1106-1118。doi:10.1080/016214592012.695674·Zbl 1443.62396号
[83] Zhao,Y.-Q.,Zeng,D.,Laber,E.B.和Kosorok,M.R.(2015)。用于估计最佳动态治疗方案的新统计学习方法。J.Amer。统计师。协会110 583-598。doi:10.1080/01621459.2014.937488·Zbl 1373.62557号
[84] 周伟、朱瑞和曲安(2021)。通过pt-学习估计最佳无限期动态处理方案。ArXiv预印本。可在ArXiv:2110.10719上获得。
[85] Zhu,R.,Zhao,Y.-Q.,Chen,G.,Ma,S.,Zhang,H.(2017)。最优个性化治疗规则的贪婪结果加权树学习。生物统计学73 391-400。doi:10.111/生物量12593·Zbl 1372.62092号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。