文件Zbl 07751828-zbMATH Open

基于强化学习框架的A/B测试中的动态因果效应评估。（英语） Zbl 07751828号

美国统计协会。 118，第543号，2059-271（2023）.

摘要：A/B测试或在线实验是制药、科技和传统行业中比较新产品和旧产品的标准商业策略。在双边市场平台（例如优步）的在线实验中，随着时间的推移，只有一个单元接受一系列治疗，这就产生了重大挑战。在这些实验中，特定时间的治疗会影响当前结果和未来结果。本文的目的是介绍一个强化学习框架，用于在这些实验中进行a/B测试，同时表征长期治疗效果。我们建议的测试程序允许顺序监控和在线更新。它通常适用于不同行业的各种处理设计。此外，我们系统地研究了测试程序的理论特性（例如，尺寸和功率）。最后，我们将我们的框架应用于模拟数据和从技术公司获得的真实数据示例，以说明其相对于当前实践的优势。我们的测试的Python实现可在https://github.com/callmespring/CausalRL。可在线获取本文的补充材料。

引用于2文件

MSC公司：

62至XX

统计

关键词：

A/B测试;因果推理;在线实验;在线更新;强化学习;顺序测试

软件：

因果RL;自动雷达;glmer公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

OA许可证

参考文献：

[1]	班达里，J。；Russo博士。；Singal，R.，“线性函数逼近下时间差分学习的有限时间分析”，arXiv预印本arXiv:1806.02450（2018）
[2]	博季诺夫，I。；Shephard，N.，《时间序列实验与因果估计：精确随机检验与交易》，接受量（2020年），Taylor&Francis·Zbl 1428.62385号
[3]	Boruvka，A。；阿尔米拉尔，D。；Witkiewitz，K。；Murphy，S.A.，“评估移动健康中的时间变化因果关系缓和，美国统计协会杂志，1131112-1121（2018）·doi:10.1080/01621459.2017.1305274
[4]	坎迪斯，E。；Tao，T.，“Dantzig选择器：当p远大于n时的统计估计”，《统计年鉴》，35，2313-2351（2007）·Zbl 1139.62019号
[5]	查克拉波蒂，B。；Murphy，S。；斯特雷彻，V.，“最佳动态治疗方案中非规则参数的推断，医学研究中的统计方法，19，317-343（2010）·Zbl 1365.62411号 ·doi:10.1177/0962280209105013
[6]	切尔诺朱科夫，V。；Chetverikov，D。；Demirer，M。；杜弗洛，E。；Hansen，C。；Newey，W.，“治疗效果的双/负/内曼机器学习，美国经济评论，107，261-65（2017）·doi:10.1257/aer.p20171038
[7]	Ertefaie，A.，“在无限地平线环境中构建动态治疗方案”，arXiv预印本arXiv:1406.0764（2014）
[8]	Hanna，J.P。；斯通，P。；Niekum，S.，“模型引导：非政策评估的置信区间”，第三十届AAAI人工智能会议。(2017)
[9]	郝，B。；纪，X。；Duan，Y。；卢，H。；塞佩斯瓦里，C。；Wang，M.，“非政策评估的自举统计推断”，arXiv预印本arXiv:2102.03607（2021）
[10]	胡，J。；朱，H。；Hu，F.，“基于效率和道德的协变量调整反应-适应性设计的统一家族”，《美国统计协会杂志》，110，357-367（2015）·Zbl 1373.62382号 ·doi:10.1080/01621459.2014.903846
[11]	胡，X。；钱，M。；Cheng，B。；Cheung，Y.K.，“使用纵向移动健康数据进行个性化政策学习，美国统计协会杂志，116，410-420（2020）·Zbl 1457.62347号 ·doi:10.1080/01621459.2020.1785476
[12]	哈金斯，M.G。；Halloran，M.E.，“通过干扰实现因果推断”，《美国统计协会杂志》，第103期，第832-842页（2008年）·Zbl 1471.62507号 ·doi:10.19198/016214508000000292
[13]	Imbens，G.W。；Rubin，D.B.，《统计、社会和生物医学科学中的因果推断》（2015），剑桥：剑桥大学出版社，剑桥·Zbl 1355.6202号
[14]	珍妮森，C。；Turnbull，B.W.，《组序贯方法及其在临床试验中的应用》（1999），佛罗里达州博卡拉顿：查普曼和霍尔/CRC，佛罗里达州波卡拉顿
[15]	蒋，N。；Li，L.，“强化学习的双稳健非政策价值评估”，机器学习国际会议，652-661（2016）
[16]	Jin，S.T。；Kong，H。；Wu，R。；Sui，D.Z.，“骑乘资源、共享经济和城市的未来，城市，76，96-104（2018）·doi:10.1016/j.cities.2018.01.012
[17]	Johari，R。；库门，P。；Pekelis，L。；Walsh，D.，“窥视a/b测试：为什么重要，以及如何应对”，第23届ACM SIGKDD国际知识发现和数据挖掘会议论文集，1517-1525（2017）
[18]	琼斯，B。；Kenward，M.G.，《交叉试验的设计与分析》（1989），佛罗里达州博卡拉顿：查普曼和霍尔/CRC，佛罗里达州波卡拉顿·Zbl 0729.62068号
[19]	北卡罗来纳州卡卢斯。；Uehara，M.，“有效打破地平线的诅咒：无限水平过程中的双重强化学习”，arXiv预印本arXiv:1909.05850（2019）
[20]	Kharitonov，E。；沃罗贝夫，A。；麦克唐纳，C。；谢尔久科夫，P。；Ounis，I.，《提前停止在线实验的顺序测试》，第38届国际ACM SIGIR信息检索研究与开发会议论文集，473-482（2015）
[21]	Lan，K.K.G。；DeMets，D.L.，“临床试验的离散序列边界，生物统计学，70659-663（1983）·Zbl 0543.62059号 ·doi:10.2307/2336502
[22]	李，X。；丁·P。；林，Q。；Yang，D。；Liu，J.S.，“同伴效应的随机推断，美国统计协会杂志，1141651-1664（2019）·Zbl 1428.62134号 ·doi:10.1080/01621459.2018.1512863
[23]	廖，P。；齐，Z。；Murphy，S.，“平均回报马尔可夫决策过程中的批量策略学习”，arXiv预印本arXiv:2007.11771（2020）
[24]	刘，Q。；李，L。；唐，Z。；周，D.，“打破地平线的诅咒：无限水平非政策估计”，《神经信息处理系统的进展》，5356-5366（2018）
[25]	Luckett，D.J。；拉伯，E.B。；Kahkoska，A.R。；Maahs，医学博士。；Mayer-Davis，E。；Kosorok，M.R.，“使用V-Learning评估移动健康中的动态治疗方案”，《美国统计协会杂志》，115，692-706（2020）·兹比尔1445.62279 ·doi:10.1080/016214519.2018.1537919
[26]	孟，H。；赵永清。；Fu，H。；乔，X.，“近最佳个体化治疗建议”，arXiv预印本arXiv:2004.02772（2020）·Zbl 1527.68187号
[27]	Metelkina，A。；Pronzato，L.，“协变适应治疗分配中的信息后悔妥协”，《统计年鉴》，452046-2073（2017）·Zbl 1421.62152号 ·doi:10.1214/16-AOS1518
[28]	莫·W。；齐，Z。；Liu，Y.，“学习最优分布稳健个体化治疗规则”，美国统计协会杂志，116659-674（2020）·Zbl 1464.62467号 ·doi:10.1080/01621459.2020.1796359
[29]	Murphy，S.A.，“最佳动态治疗方案”，《皇家统计学会杂志》，B辑，65，331-366（2003）·Zbl 1065.62006号 ·doi:10.1111/1467-9868.00389
[30]	纽伊，W.K。；谢福林。；Robins，J.（1998）
[31]	宁，B。；Ghosal，S。；Thomas，J.，“空间相关多元时间序列因果推断的贝叶斯方法，贝叶斯分析，14，1-28（2019）·Zbl 1409.62178号 ·doi:10.1214/18-BA1102
[32]	Pouget-Abadie，J。；圣雅克·G。；萨维斯基，M。；Duan，W。；戈什，S。；Xu，Y。；Airoldi，E.M.，“实验平台上任意干扰的测试”，Biometrika，106，929-940（2019）·Zbl 1435.62304号 ·doi:10.1093/biomet/asz047
[33]	Puterman，M.L.，《马尔可夫决策过程：离散随机动态规划》。《概率和数理统计中的威利级数：应用概率和统计》（1994），纽约：威利，纽约·Zbl 0829.90134号
[34]	钱，M。；Murphy，S.A.，“个体化治疗规则的性能保证”，《统计年鉴》，39，1180-1210（2011）·Zbl 1216.62178号
[35]	Rambachan，A.和Shephard，N.（2019），“宏观计量经济学的非参数动态因果模型”，见SSRN 3345325。
[36]	Ramprasad，P。；李毅。；杨，Z。；王，Z。；Sun，W.W。；Cheng，G.，“强化学习中用于政策评估的在线引导推理”，arXiv预印本arXiv:2108.03706（2021）
[37]	Reich，B.J。；Yang，S。；关，Y。；Giffin，A.B。；米勒，M.J。；Rappold，A.G.，“环境和流行病学应用的空间因果推断方法综述”，arXiv预印本arXiv:2007.02714（2020）
[38]	Robins，J.，“持续暴露期死亡率研究中因果推断的新方法——应用于控制健康工人幸存者效应，数学建模，71393-1512（1986）·Zbl 0614.62136号 ·doi:10.1016/0270-0255（86）90088-6
[39]	Robins，J.M.，“最优序列决策的最优结构嵌套模型”，第二届西雅图生物统计学研讨会论文集，189-326（2004），Springer·Zbl 1279.62024号
[40]	Rubin，D.B.，“实验数据的随机化分析：Fisher随机化测试评论”，《美国统计协会杂志》，75，591-593（1980）·doi:10.2307/2287653
[41]	Rysman，M.，“双边市场的经济学”，《经济展望杂志》，第23期，第125-143页（2009年）·doi:10.1257/jep.23.3.125
[42]	Shi，C。；风扇，A。；宋，R。；Lu，W.，“最佳动态治疗方案的高维a-Learning”，《统计学年鉴》，46，925-957（2018）·Zbl 1398.62029号
[43]	Shi，C。；宋，R。；卢·W。；Fu，B.，“具有异质个体化治疗效果的最佳治疗决策的Maximin投影学习，皇家统计学会杂志，B辑，80，681-702（2018）·Zbl 1398.62345号 ·doi:10.1111/rssb.12273
[44]	Shi，C。；Wan，R。；宋，R。；卢·W。；Leng，L.，“马尔可夫决策过程是否适合数据：序列决策中马尔可夫属性的测试”，arXiv预印本arXiv:2002.01751（2020）
[45]	Shi，C。；张，S。；卢·W。；Song，R.，“无限视野下强化学习价值函数的统计推断”，《皇家统计学会杂志》，B辑（2021）
[46]	索贝尔，M.E。；Lindquist，M.A.，“社会评估威胁的平衡开/关研究中具有系统测量误差的fMRI时间序列数据的因果推断，美国统计协会杂志，109967-976（2014）·doi:10.1080/01621459.2014.922886
[47]	宋，R。；Wang，W。；曾博士。；Kosorok，M.R.，“动态治疗方案的惩罚q学习，中国统计，251901-920（2015）·Zbl 1415.62054号 ·doi:10.5705/ss.2012.364
[48]	Sutton，R.S。；Barto，A.G.，《自适应计算和机器学习》，《强化学习：导论》（2018），马萨诸塞州剑桥：麻省理工学院出版社，马萨诸塞诸塞州坎布里奇·Zbl 1407.68009号
[49]	Sutton，R.S。；塞佩斯瓦里，C。；Maei，H.R.，“线性函数逼近非政策时差学习的收敛o（n）算法，神经信息处理系统进展，211609-1616（2008）
[50]	托马斯·P。；Brunskill，E.，“强化学习的数据效率非政策政策评估”，i，机器学习国际会议，2139-2148（2016）
[51]	托马斯，P.S。；Theocharous，G。；Ghavamzadeh，M.，“高度自信的非政策评估”，第二十届AAAI人工智能会议（2015年）
[52]	维维亚诺，D。；Bradic，J.，“合成学习者：随着时间的推移对治疗的无模型推断”，arXiv预印本arXiv:1904.01490（2019）·Zbl 07693690号
[53]	Wager，S。；Athey，S.，“使用随机森林对异质处理效果的估计和推断，美国统计协会杂志，1131228-1242（2018）·Zbl 1402.62056号 ·doi:10.1080/01621459.2017.1319839
[54]	王，L。；周，Y。；宋，R。；Sherwood，B.，“量化最佳治疗方案”，《美国统计协会杂志》，1131243-1254（2018）·Zbl 1402.62294号 ·doi:10.1080/01621459.2017.1330204
[55]	Wu，C.-F.J.，“回归分析中的折刀、Bootstrap和其他重采样方法”，《统计年鉴》，第14期，第1261-1295页（1986年）·Zbl 0618.62072号 ·doi:10.1214/aos/1176350142
[56]	杨，F。；A.拉姆达斯。；杰米森，K.G。；Wainwright，M.J.，“使用在线FDR控制进行Multi-A（rme）/B（andit）测试的框架”，《神经信息处理系统的进展》，5957-5966（2017）
[57]	张，B。；Tsiatis，A.A。；拉伯，E.B。；Davidian，M.，“序贯治疗决策中最佳动态治疗方案的稳健估计，生物统计学，100681-694（2013）·Zbl 1284.62508号 ·doi:10.1093/biomet/ast014
[58]	张丽霞。；胡，F。；Cheung，S.H。；Chan，W.S.，“协变量调整反应的渐近性质——适应性设计，统计年鉴，351166-1182（2007）·Zbl 1118.62124号 ·doi:10.1214/00905360000001424
[59]	Zhang，Y。；拉伯，E.B。；Davidian，M。；Tsiatis，A.A.，“使用列表评估最佳治疗方案，美国统计协会期刊，1131541-1549（2018）·Zbl 1409.62231号 ·doi:10.1080/01621459.2017.1345743
[60]	Zhao，Y。；曾博士。；拉什，A.J。；Kosorok，M.R.，“使用结果加权学习评估个体化治疗规则，美国统计协会杂志，107，1106-1118（2012）·Zbl 1443.62396号 ·doi:10.1080/01621459.2012.695674
[61]	赵永清。；曾博士。；拉伯，E.B。；Kosorok，M.R.，“估算最佳动态治疗方案的新统计学习方法”，《美国统计协会杂志》，110，583-598（2015）·Zbl 1373.62557号 ·doi:10.1080/01621459.2014.937488
[62]	周，Y。；刘，Y。；李，P。；Hu，F.，“聚类自适应网络a/b测试：从随机化到估计”，arXiv预印本arXiv:2008.08648（2020）
[63]	朱，R。；赵永清。；陈，G。；马，S。；Zhao，H.，“最优个性化治疗规则的贪婪结果加权树学习，生物统计学，73，391-400（2017）·Zbl 1372.62092号 ·doi:10.1111/biom.12593
[64]	邹，S。；徐，T。；Liang，Y.，“利用线性函数逼近对Sarsa进行有限样本分析”，《神经信息处理系统的进展》，8665-8675（2019）

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
输出	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
！ab公司	逻辑不
美国广播公司*	右通配符
”ab c公司”	短语
(ab c公司)	括号

示例

领域

操作员

基于强化学习框架的A/B测试中的动态因果效应评估。（英语） Zbl 07751828号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

基于强化学习框架的A/B测试中的动态因果效应评估。 （英语） Zbl 07751828号

MSC公司：

关键词：

软件：

参考文献：

基于强化学习框架的A/B测试中的动态因果效应评估。（英语） Zbl 07751828号