×

贝叶斯探索:激励贝叶斯游戏中的探索。 (英语) Zbl 1493.91078号

总结:我们考虑了互联网经济中普遍存在的一种情况,即个人决策者(从今以后,代理人)在不确定的环境中做出战略选择时,双方都在生产和消费信息。这在探索(尝试探索不足的替代方案,以在未来帮助他人),剥削(根据其他代理发现的信息做出最佳决策),以及激励措施代理人(他们对剥削感兴趣,但更喜欢其他人探索)。我们假设有一位负责人,他控制着从先前到达的代理到后来到达的代理的信息流,并努力协调代理,使其在勘探和开发之间达到社会最佳平衡,而不使用任何货币转移。目标是为委托人设计一个推荐政策,尊重代理人的激励,并尽量减少适当的后悔。我们在此方向上扩展了先前的工作,以允许代理在共享环境中相互交互:在每个时间步,多个代理到达以扮演贝叶斯博弈,接受建议,选择行动,获得回报,然后永远离开游戏。代理人现在面临两个不确定性来源:其他代理人的行为和不确定博弈环境的参数。我们的主要贡献是证明了当效用是确定性的(常数取决于先验分布,而不是时间范围)时,委托人可以实现常后悔,而当效用是随机的时,可以实现对数后悔。作为一个关键技术工具,我们引入了可探索的行动一些激励相容政策可以以非零概率推荐的行动。我们展示了校长如何识别(和探索)所有可探索的行为,并利用所揭示的信息以最佳方式执行。特别是,我们的结果比之前关于每轮单个代理的特殊情况的工作有了显著改进,该特殊情况依赖于假设来确保所有行动都是可探索的。有趣的是,我们并不要求委托人的效用与代理人的累积效用一致;相反,校长可以优化一个关于全面奖励的任意概念。

MSC公司:

91B43型 委托代理模型
91B44型 信息经济学
91A27型 不完全信息博弈,贝叶斯博弈
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Aridor G、Mansour Y、Slivkins A、Wu S(2020)《竞争中的强盗:竞争中的勘探风险》。预印本,7月20日提交,https://arxiv.org/abs/2007.10144.谷歌学者
[2] Athey S,Segal I(2013)一种高效的动态机制。计量经济学81(6):2463-2485。交叉引用,谷歌学者·Zbl 1304.91080号 ·doi:10.3982/ECTA6995
[3] Auer P、Cesa Bianchi N、Fischer P(2002a)《多武装匪徒问题的有限时间分析》。机器学习。47(2-3):235-256.Crossref,谷歌学者·Zbl 1012.68093号 ·doi:10.1023/A:1013689704352
[4] Auer P、Cesa Bianchi N、Freund Y、Schapire RE(2002b)《非草率的多武器匪徒问题》。SIAM J.计算。32(1):48-775.Crossref,谷歌学者·Zbl 1029.68087号 ·网址:10.1137/S0097539701398375
[5] Babaioff M、Kleinberg R、Slivkins A(2015a)《隐含支付计算的真实机制》。美国临床医学杂志,62(2):1-37.Crossref,谷歌学者·Zbl 1333.91013号 ·doi:10.1145/2724705
[6] Babaioff M、Sharma Y、Slivkins A(2014)《真实多武器匪徒机制的特征描述》。SIAM J.计算。43(1):194-230.谷歌学者(Google Scholar)交叉引用·Zbl 1308.91061号 ·数字对象标识代码:10.1137/120878768
[7] Babaioff M、Dughmi S、Kleinberg RD、Slivkins A(2015b)有限供应的动态定价。ACM事务处理。经济。计算。3(1):1-26.Crossref,谷歌学者·doi:10.1145/2559152
[8] Bahar G、Smorodinsky R、Tennenholtz M(2016)《经济推荐系统》。第16届ACM电子商务大会(纽约计算机械协会)。谷歌学者
[9] Bahar G、Smorodinsky R、Tennenholtz M(2019)《社会学习与旅馆老板的挑战》。ACM Conf.经济。计算。(纽约计算机械协会),153-170.谷歌学者
[10] Bergemann D,Morris S(2013),不完全信息博弈中的稳健预测。计量经济学81(4):1251-1308.Crossref,谷歌学者·Zbl 1371.91007号 ·doi:10.3982/ECTA11105
[11] Bergemann D,Morris S(2019)《信息设计:统一视角》。《经济学杂志》。文学类57(1):44-95.Crossref,谷歌学者·doi:10.1257/jel.20181489
[12] Bergemann D,Välimäki J(2000)《市场实验》。经济评论。螺柱。67(2):213-234.Crossref,谷歌学者·Zbl 1028.91537号 ·doi:10.1111/1467-937X.00128
[13] Bergemann D,Välimäki J(2010)动态枢轴机构。计量经济学78(2):771-789.Crossref,谷歌学者·兹比尔1229.91206 ·doi:10.3982/ECTA7260
[14] Besbes O,Zeevi A(2009)《不知道需求函数的动态定价:风险边界和近最优算法》。操作。物件。57(6):1407-1420.Link,谷歌学者·Zbl 1233.90011号
[15] Bimpikis K、Papanastasiou Y、Savva N(2018)众包探索。管理科学。64(4):1727-1746.谷歌学者
[16] Bolton P,Harris C(1999)《战略实验》。计量经济学67(2):349-374.Crossref,谷歌学者·Zbl 1023.91500号 ·doi:10.1111/1468-0262.00022
[17] Bradonjic M、Ercal G、Meyerson A、Roytman A(2014)《调解的代价》。离散数学。理论计算。科学。16(1):31-60.谷歌学者·Zbl 1286.91010号
[18] Bubeck S、Cesa-Bianchi N(2012年)随机和非随机多臂盗贼问题的后悔分析。《机器学习的基础与趋势》,第5卷(现出版公司,波士顿)。Crossref,谷歌学者·Zbl 1281.91051号 ·doi:10.1561/9781601986276
[19] Che Y-K,Hörner J(2018)推荐系统作为社会学习机制。夸脱。《经济学杂志》。133(2):871-925.Crossref,谷歌学者·Zbl 1405.91108号 ·doi:10.1093/qje/qjx044
[20] Devanur N,Kakade SM(2009)付费点击拍卖的真实性价格。第十届ACM电子商务大会(纽约计算机械协会),99-106。谷歌学者
[21] Dughmi S,Xu H(2016)算法贝叶斯说服。第48届ACM交响乐团。理论计算。(纽约计算机协会),412-425.谷歌学者·Zbl 1377.91036号
[22] Engelbrecht-Wiggans R(1986)《论拍卖中私人信息的价值:无知可能是幸福。伊利诺伊大学香槟分校经济和商业研究局第1242号工作文件。谷歌学者
[23] Frazier P、Kempe D、Kleinberg JM、Klein berg R(2014)《激励勘探》。ACM Conf.经济。计算。(纽约计算机械协会),5-22.谷歌学者
[24] Fudenberg D,Levine DK(1998年)游戏学习理论(麻省理工学院出版社,波士顿)。谷歌学者·Zbl 0939.91004号
[25] Ghosh A,Hummel P(2013)用户生成内容中的学习和激励:拥有内生武器的多武装土匪。创新理论计算。科学。Conf.公司。,233-246.谷歌学者·Zbl 1361.68177号
[26] Gittins JC(1979)班迪特过程和动态分配指数(含讨论)。J.罗伊。统计师。Soc.B公司41:148-177.Crossref,谷歌学者·Zbl 0411.62055号 ·doi:10.1111/j.2517-6161.1979.tb01068.x
[27] Gittins J、Glazebrook K、Weber R(2011)多武器匪徒分配指标(约翰·威利父子公司,新泽西州霍博肯)。Crossref,谷歌学者·Zbl 1401.90257号 ·数字对象标识代码:10.1002/9780470980033
[28] Golub B,Sadler ED(2016)《社交网络中的学习》。BramoulléY,Galeotti A,Rogers B编辑。牛津网络经济学手册(牛津大学出版社)。谷歌学者
[29] Ho CJ、Slivkins A、Wortman Vaughan J(2016)《众包市场的适应性合同设计:重复委托代理问题的Bandit算法》。J.人工智能研究。55(1):317-359.Crossref,谷歌学者·Zbl 1351.68293号 ·doi:10.1613/jair.4940
[30] Hörner J,Skrzypacz A(2017)学习、实验和信息设计。HonoréB、Pakes A、Piazzesi M、Samuelson L编辑。经济学和计量经济学进展:第十一届世界大会,第1卷(剑桥大学出版社,英国剑桥),63-98。交叉引用,谷歌学者·doi:10.1017/9781108227162.002
[31] Immorlica N,Mao J,Slivkins A,Wu S(2019)《利用异质介质进行贝叶斯探索》。Web配置。(国际万维网会议委员会,日内瓦),751-761。谷歌学者
[32] Immorlica N,Mao J,Slivkins A,Wu S(2020)《通过选择性数据披露激励勘探》。预印本,2018年11月14日提交;12月29日修订,https://arxiv.org/abs/1811.06026谷歌学者
[33] Kakade SM、Lobel I、Nazerzadeh H(2013)《最优动态机构设计和虚拟象牙机构》。操作。物件。61(4):837-854.链接,谷歌学者·兹比尔1291.91082
[34] Kamenica E(2019)贝叶斯说服和信息设计。年度经济收益。11(1):249-272.Crossref,谷歌学者·doi:10.1146/anurev-economics-080218-025739
[35] Kamenica E,Gentzkow M(2011)《贝叶斯说服》。阿默尔。经济。版次。101(6):2590-2615.Crossref,谷歌学者·数字对象标识代码:10.1257/aer.101.6.2590
[36] Keller G,Rady S(2003)动态差异化商品双寡头垄断中的价格分散和学习。兰德·J·经济学。34(1):138-165.Crossref,谷歌学者·doi:10.2307/3087447
[37] 凯斯勒A(1998)无知的价值。兰德·J·经济学。29(2):339-354.Crossref,谷歌学者·doi:10.2307/2555892
[38] Kleinberg RD,Leighton FT(2003)《了解需求曲线的价值:对网上标价拍卖的后悔极限》。IEEE交响乐。基础计算。科学。(纽约电气与电子工程师学会),594-605.谷歌学者
[39] Kremer I、Mansour Y、Perry M(2014)《实施“大众智慧”》J.政治经济学。122(5):988-1012.谷歌学者交叉引用·doi:10.1086/676597
[40] Lai TL,Robbins H(1985)渐近有效自适应分配规则。高级申请。数学。6:4-22.谷歌学者Crossref·Zbl 0568.62074号 ·doi:10.1016/0196-8858(85)90002-8
[41] Lattimore T,Szepesvári C(2020年)Bandit算法(英国剑桥大学出版社)。Crossref,谷歌学者·Zbl 1439.68002号 ·数字对象标识代码:10.1017/9781108571401
[42] Mansour Y、Slivkins A、Syrgkanis V(2015)《贝叶斯激励相容强盗探索》。第16届ACM会议经济。计算。(纽约计算机械协会),565-582.谷歌学者
[43] Mansour Y、Slivkins A、Syrgkanis V(2020)贝叶斯激励相容土匪探索。操作。物件。68(4):1132-1161.Link,谷歌学者·兹比尔1451.90079
[44] Mansour Y,Slivkins A,Syrgkanis V,Wu ZS(2016)《贝叶斯探索:贝叶斯游戏中的激励探索》。预印本,2月24日提交,https://arxiv.org/abs/1602.07570.谷歌学者
[45] Sellke M,Slivkins A(2021)激励勘探的代价:通过汤普森采样和样本复杂性进行表征。第22届ACM经济大会。计算。(纽约计算机协会),795-796。谷歌学者
[46] Simchowitz M,Slivkins A(2021)强化学习中的激励与探索。2月28日提交的预印本,https://arxiv.org/abs/2103.00360.谷歌学者
[47] Singla A、Krause A(2013)《利用后悔最小化机制在众包任务中的真实激励》。第22届国际。万维网会议(国际万维网会议委员会,日内瓦),1167-1178.谷歌学者
[48] 斯利夫金斯A(2019)《多武器匪徒导论》。机器学习的基础和趋势,第12卷(现出版商,波士顿)。Crossref,谷歌学者·Zbl 1478.68006号 ·doi:10.1561/9781680836219
[49] Syrgkanis V,Kempe D,Tardos E(2015),离散信号公共价值拍卖中的信息不对称。ACM Conf.经济。计算。(纽约计算机械协会),303.谷歌学者
[50] Wang Z,Deng S,Ye Y(2014)《弥合差距:单产品收益管理问题的学习-实践算法》。操作。物件。62(2):318-331.链接,谷歌学者·Zbl 1302.91100号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。