×

与决斗强盗进行基于偏好的在线学习:一项调查。 (英语) Zbl 07370524号

摘要:在机器学习中,多武装匪徒的概念是指一类在线学习问题,在这类问题中,代理应该在顺序决策过程中同时探索和利用一组给定的选择方案。在标准设置中,代理人以实际价值奖励的形式从随机反馈中学习。然而,在许多应用中,数字奖励信号并不容易获得,相反,只提供了较弱的信息,特别是以成对备选方案之间的定性比较的形式提供的相对偏好。这一观察结果推动了对多武装土匪问题变体的研究,在多武装土匪问题中,对要学习的反馈类型和预测目标都使用了更通用的表示。本文的目的是对这一领域的最新技术进行综述,即基于偏好的多武器强盗或决斗强盗。为此,我们概述了文献中考虑的问题以及解决这些问题的方法。我们的分类法主要基于这些方法对数据生成过程的假设,以及与此相关的基于偏好的反馈的属性。

MSC公司:

68T05年 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] 贾亚德夫·阿查里亚(Jayadev Acharya)、君士坦丁诺·达斯卡拉基斯(Constantinos Daskalakis)和高塔姆·卡马特(Gautam Kamath)。分布特性的最佳测试。《神经信息处理系统进展学报》(NIPS),第3591-3599页,2015年·Zbl 1377.62065号
[2] 阿比特·阿加瓦尔(Arpit Agarwal)、希瓦尼·阿加瓦尔(Shivani Agarwal-)、塞珀尔·阿萨迪(Sepehr Assadi)和桑吉夫·坎纳(Sanjeev Khanna)。通过有限轮适应性学习:掷硬币、多武器强盗和两两比较排名。《学习理论年度会议论文集》(COLT),第39-75页,2017年。
[3] 阿比特·阿加瓦尔、尼古拉斯·约翰逊和希瓦尼·阿加瓦尔。精选强盗。神经信息处理系统进展论文集(NeurIPS),2020年。
[4] 希普拉·阿格拉瓦尔和纳文·戈亚尔。汤普森抽样的进一步最优后悔界。《国际人工智能与统计会议论文集》(AISTATS),第99-107页,2013年·Zbl 1426.68293号
[5] 尼尔·艾隆(Nir Ailon)、摩西·查里卡尔(Moses Charikar)和阿兰塔·纽曼(Alantha Newman)。聚合不一致信息:排名和聚类。第三十七届ACM计算机理论研讨会论文集,第684-693页,2005年·Zbl 1192.90252号
[6] 尼尔·艾隆(Nir Ailon)、鸠山康平(Kohei Hatano)和高本英二(Eiji Takimoto)。置换面体上的Bandit在线优化。《算法学习理论会议论文集》,第215-229页,2014a·兹比尔1432.90129
[7] 尼尔·艾隆(Nir Ailon)、佐哈尔·卡宁(Zohar Karnin)和托尔斯滕·约阿希姆(Thorsten Joachims)。将决斗强盗减少为主要强盗。《国际机器学习大会论文集》,第856-864页,2014b。
[8] 梅耶尔·阿尔沃和菲利普·柳传志(Philip L.H.Yu)。排名数据的统计方法。施普林格,2014年·Zbl 1341.62001号
[9] Jean-Yves Audibert、S´ebastien Bubeck和R´emi Munos。多武器匪徒的最佳武器识别。2010年学习理论年会论文集。
[10] 朱利安·奥迪弗伦(Julien Audiffren)和利瓦·拉莱沃拉(Liva Ralaivola)。强盗在部分有序的集合上决斗。《神经信息处理系统进展学报》(NIPS),第2129-2138页,2017年。
[11] 彼得·奥尔。利用置信界限进行开采勘探权衡。机器学习研究杂志,3(11月):397-4222002·Zbl 1084.68543号
[12] 彼得·奥尔、尼科尔·塞萨·比安奇和保罗·菲舍尔。多武器土匪问题的有限时间分析。机器学习,47(2-3):235-2562002a·Zbl 1012.68093号
[13] 彼得·奥尔(Peter Auer)、尼科尔·塞萨·比安奇(Nicol'o Cesa Bianchi)、约夫·弗伦德(Yoav Freund)和罗伯特·夏皮雷(Robert E.Schapire)。非自愿的多武器强盗问题。SIAM计算机杂志,32(1):48-772002b·Zbl 1029.68087号
[14] 阿克谢·巴尔苏布拉马尼(Akshay Balsubramani)、佐哈尔·卡宁(Zohar Karnin)、罗伯特·夏皮雷(Robert E.Schapire)和马斯鲁尔·佐吉(Masrour Zoghi)。决斗强盗的悔恨界限取决于实例。《学习理论年度会议论文集》(COLT),第336-360页,2016年。
[15] G´abor Bart´ok。针对对手的有限部分监控游戏的近最优算法。《学习理论年度会议论文集》(COLT),第696-710页,2013年。
[16] G´abor Bart´ok、D´avid P´al和Csaba Szepesv´ari。Minimax对随机环境中的有限部分监控游戏感到遗憾。《学习理论年度会议论文集》(COLT),第133-154页,2011年。
[17] G´abor Bart´ok、Dean P.Foster、D´avid P´al、Alexander Rakhlin和Csaba Szepesv´ari。部分监控–分类、后悔界限和算法。运筹学数学,39(4):967-9972014·Zbl 1310.91028号
[18] 维克托·本斯(Viktor Bengs)和埃克·H–ullemermier(Eyke H–uller)。预选土匪。《国际机器学习大会论文集》,第778-7872020页。
[19] Alina Beygelzimer、John Langford、Lihong Li、Lev Reyzin和Robert Schapire。具有监督学习保证的上下文盗贼算法。《国际人工智能与统计会议论文集》,2011年第19-26页。
[20] 拉尔夫·阿兰·布拉德利(Ralph Alan Bradley)和米尔顿·E·特里(Milton E.Terry)。不完全区组设计的秩分析:I.成对比较法。Biometrika,39(3/4):324-3451952·Zbl 0047.12903号
[21] 费利克斯·勃兰特和费利克斯费舍尔。PageRank作为弱锦标赛解决方案。《互联网与网络经济国际会议论文集》,第300-305页,2007年。
[22] 费利克斯·勃兰特、马库斯·布里尔、保罗·哈伦斯坦和赫夫·穆林。锦标赛解决方案,第57-84页。剑桥大学出版社,2016·Zbl 1448.91101号
[23] J¨urgen Branke、Stephen E.Chick和Christian Schmidt。选择选择过程。管理科学,53(12):1916-19322007·Zbl 1232.62042号
[24] Mark Braverman、Jieming Mao和S.Matthew Weinberg。带噪声比较的选择和分区并行算法。2016年ACM计算理论研讨会论文集,第851-862页·Zbl 1375.68186号
[25] 谢尔盖·布林和劳伦斯·佩奇。对大型超文本网络搜索引擎的剖析。计算机网络,30(1-7):107-1171998。
[26] Brian Brost、Yevgeny Seldin、Ingemar J.Cox和Christina Lioma。多燃料土匪及其在在线等级评估中的应用。《ACM信息和知识管理国际会议(CIKM)论文集》,第2161-2166页,2016年。
[27] Cameron B.Browne、Edward Powley、Daniel Whitehouse、Simon M.Lucas、Peter I.Cowling、Philipp Rohlfshagen、Stephen Tadere、Diego Perez、Spyridon Samothrakis和Simon Colton。蒙特卡罗树搜索方法综述。IEEE游戏中的计算智能和AI汇刊,4(1):1-432012。
[28] 斯巴斯蒂恩·布贝克和尼科尔·塞萨·比安奇。随机和非随机多武器盗贼问题的遗憾分析。《机器学习基础与趋势》,5(1):1-1222012年·Zbl 1281.91051号
[29] R´obert Busa-Fekete和Eyke H¨ullemerier。使用强盗算法进行基于偏好的在线学习的调查。《算法学习理论国际会议论文集》,第18-39页,2014年·Zbl 1432.68380号
[30] R´obert Busa-Fekete、Bal´azs Sz¨or´enyi、Paul Weng、Weiwei Cheng和Eyke H¨ullemermier。基于噪声偏好的自适应采样的顶部kselection。《机器学习国际会议(ICML)论文集》,第1094-1102页,2013年。
[31] R´obert Busa-Fekete、Eyke H¨ullemerier和Bal´azs Sz¨or´enyi。使用统计模型的基于偏好的排名启发:马洛斯的案例。机器学习国际会议(ICML)论文集,第1071-1079页,2014a。
[32] R´obert Busa-Fekete、Bal´azs Sz¨or´enyi和Eyke H¨ullemermier。通过随机配对偏好的自适应采样进行PAC秩启发。《AAAI人工智能会议论文集》,第1701-1707页,2014b。
[33] R´obert Busa-Fekete、Dimitris Fotakis、Bal´azs Sz¨or´enyi和Manolis Zampetakis。Mallows块模型的优化学习。《学习理论年度会议论文集》(COLT),第529-5322019页。
[34] 奥利维尔·卡普埃(Olivier Capp´e)、奥列琳·加里维尔(Aur´elien Garivier)、奥达里克·安布罗姆·梅拉德(Odarlic-Ambrym Maillard)、雷米·穆诺斯(R´emi Munos)和吉勒斯·斯托尔茨。最优顺序分配的Kullback-Leibler置信上限。《统计年鉴》,41(3):1516-15412013·Zbl 1293.62161号
[35] 费利佩·卡罗和杰尔·埃米·加里恩。季节性消费品的动态分类和需求学习。管理科学,53(2):276-2922007·Zbl 1232.91420号
[36] 丹尼尔·卡瓦格纳罗(Daniel R.Cavagnaro)和克林汀·戴维斯·斯托伯(Clintin P.Davis-Stober)。我们的偏好具有传递性,但以不同的方式具有传递性:对选择可变性的分析。决定,1(2):1022014年。
[37] 尼科尔·塞萨·比安奇(Nicol’o Cesa Bianchi)和卢戈西(G’abor Lugosi)。预测、学习和游戏。剑桥大学出版社,2006年·Zbl 1114.91001号
[38] 尼科尔·塞萨·比安奇(Nicol’o Cesa Bianchi)和卢戈西(G’abor Lugosi)。组合匪徒。《计算机与系统科学杂志》,78(5):1404-14222012·Zbl 1262.91052号
[39] Deepayan Chakrabarti、Ravi Kumar、Filip Radlinski和Eli Upfal。致命的多武器强盗。《神经信息处理系统进展论文集》,第273-280页,2008年。
[40] 侯蓬禅、童昭和欧文·金。使用多武器盗贼算法进行可信软件对等评估。《万维网(WWW)国际会议指南汇编》,第899-903页,2016年。
[41] Olivier Chapelle和Lihong Li.汤普森抽样的实证评估。《第24届神经信息处理系统国际会议论文集》,第2249-2257页,2011年。
[42] 陈邦瑞和彼得·弗雷泽。用依赖的武器与强盗决斗。CoRR,abs/1605.088382016年。
[43] 陈邦瑞和彼得·弗雷泽。带着微弱的遗憾与强盗决斗。《国际机器学习会议(ICML)论文集》,第731-739页,2017年。
[44] 陈寿元、田琳、欧文·金、迈克尔·R·柳和陈伟。多武装匪徒的组合纯粹探索。《神经信息处理系统进展学报》(NIPS),第379-387页,2014年。
[45] 魏晨、杜一翰、黄龙波和赵浩宇。决斗强盗的组合纯粹探索。《机器学习国际会议论文集》,第1531-1541页,2020年。
[46] Xi Chen、Paul N.Bennett、Kevyn Collins-Thompson和Eric Horvitz。众包环境中的成对排名聚合。《ACM网络搜索和数据挖掘国际会议论文集》,第193-202页,2013年。
[47] Xi Chen、Yuanzhi Li和Jieming Mao。多项式logit模型下top-k排序的近似实例优化算法。第二十届ACM-SIAM离散算法年会论文集,第2504-2522页。SIAM,2018年·Zbl 1403.68182号
[48] Yann Chevaleyre、Ulle Endriss、J´erˆome Lang和Nicolas Maudet。计算社会选择简介。《计算机科学理论与实践当前趋势国际会议论文集》(SOFSEM),第51-69页,2007年·Zbl 1131.91316号
[49] Chung-Cheng Chiu和Stacy Marsella。主观优化。《智能虚拟代理(IVA)国际会议论文集》,第204-211页,2012年。
[50] 哈伊姆·科恩和科比·克拉默。使用共享注释器并行学习多个任务。《神经信息处理系统进展学报》(NIPS),第1170-1178页,2014年。
[51] 威廉·科恩(William W.Cohen)、罗伯特·夏皮雷(Robert E.Schapire)和约拉姆·辛格(Yoram Singer)。学习排序。人工智能研究杂志,10(1):243-2701999·Zbl 0915.68031号
[52] 阿赫·科普兰(Arhur H.Copeland)。合理的社会福利功能。数学在社会科学中的应用研讨会。密歇根大学,安娜堡,1951年。
[53] Varsha Dani、Thomas P.Hayes和Sham M.Kakade。强盗反馈下的随机线性优化。《学习理论年度会议论文集》(COLT),第355-366页,2008年。
[54] Dotan Di Castro、Claudio Gentile和Shie Mannor。有刃的强盗。CoRR,abs/1109.22962011年。
[55] Miroslav Dud´ık、Katja Hofmann、Robert E.Schapire、Aleksandrs Slivkins和Masrour Zoghi。背景下的决斗强盗。《学习理论年度会议论文集》(COLT),第563-587页,2015年。
[56] Adil El Mesaoudi-Paul、Eyke H¨ullemermier和R´obert Busa-Fekete。基于噪声排序的排名分布。《机器学习国际会议(ICML)论文集》,第3469-3477页,2018年。
[57] Adil El Mesaoudi-Paul、Dimitri Weiß、Viktor Bengs、Eyke H¨ullermier和Kevin Tierney。基于池的实时算法配置:预选盗贼方法。国际学习与智能优化会议(LION),第216-232页。斯普林格,2020年。
[58] Eyal Even-Dar、Shie Mannor和Yishay Mansour。多武装盗贼和马尔可夫决策过程的PAC界。《学习理论年度会议论文集》,第255-270页,2002年·Zbl 1050.68059号
[59] Eyal Even-Dar、Shie Mannor和Yishay Mansour。多武装盗贼和强化学习问题的行动消除和停止条件。机器学习研究杂志,7:1079-11052006·Zbl 1222.68195号
[60] Moein Falahatgar、Yi Hao、Alon Orlitsky、Venkatadheeraj Pichapati和Vaishakh Ravindrakumar。在很少假设的情况下进行最大化和排名。《神经信息处理系统进展学报》(NIPS),第7060-70702017a页。
[61] Moein Falahatgar、Alon Orlitsky、Venkatadheeraj Pichapati和Ananda Theertha Suresh。噪音比较下的最大选择和排名。机器学习国际会议(ICML)论文集,第1088-1096页,2017b。
[62] Moein Falahatgar、Ayush Jain、Alon Orlitsky、Venkatadheeraj Pichapati和Vaishakh Ravindrakumar。最大化、排名和偏好学习的限制。《机器学习国际会议论文集》,第1426-1435页,2018年。
[63] 乌列尔·菲奇、普拉巴卡尔·拉格万、大卫·佩莱格和埃利·厄普法尔。使用噪声信息进行计算。SIAM计算机杂志,23(5):1001-10181994·Zbl 0813.68057号
[64] Steffen Finck、Hans-Georg Beyer和Alexander Melkozerov。噪声优化:ES、EGS、SPSA和IF在噪声领域的理论策略比较。《遗传与进化计算年度会议论文集》(GECCO),第813-8202011页。
[65] 彼得·菲什伯恩(Peter C.Fishburn)。决策的效用理论。纽约:约翰·威利父子出版社,1970年·Zbl 0213.46202号
[66] 亚伯拉罕·弗拉克斯曼(Abraham D.Flaxman)、亚当·托曼·卡莱(Adam Tauman Kalai)和H.布伦丹·麦克马汉(H.Brendan McMahan)。土匪设置中的在线凸优化:没有梯度的梯度下降。2005年ACM-SIAM离散算法(SODA)年度研讨会论文集,第385-394页·Zbl 1297.90117号
[67] 迈克尔·弗利格纳(Michael A.Fligner)和约瑟夫·威尔杜奇(Joseph S.Verducci)。基于距离的排名模型。英国皇家统计学会杂志。B系列(方法学),48(3):359-3691986·Zbl 0658.62031号
[68] 迈克尔·弗利格纳(Michael A.Fligner)和约瑟夫·威尔杜奇(Joseph S.Verducci)。排名数据的概率模型和统计分析。施普林格,1993年·Zbl 0754.00011号
[69] Johannes F¨urnkranz和Eyke H¨ullemermier。偏好学习。Springer-Verlag,2011年。
[70] Pratik Gajane和Tanguy Urvoy。基于实用性的决斗强盗作为部分监控游戏。CoRR,abs/1507.027502015年·Zbl 1407.62297号
[71] Pratik Gajane、Tanguy Urvoy和Fabrice Cl´ero。针对基于对抗效用的决斗强盗的相对指数加权算法。《机器学习国际会议论文集》(ICML),第218-227页,2015年。
[72] 奥列琳·加里维尔和奥利维尔·卡普。KL-UCB算法用于有界随机土匪及其他情况。《学习理论年度会议论文集》,第359-3762011页。
[73] 马修·格罗夫斯和J¨urgen Branke。顶部κ选择与成对比较。《欧洲运筹学杂志》,274(2):615-6262019年·Zbl 1407.62065号
[74] 郭胜波(Shengbo Guo)、斯科特·桑纳(Scott Sanner)、托尔·格雷佩尔(Thore Graepel)和沃伊·邦廷(Wray Buntine)。基于分数的贝叶斯技能学习。《欧洲数据库机器学习和知识发现会议论文集》(ECML/PKDD),第106-121页,2012年。
[75] Bj¨orn Haddenhorst、Eyke H¨ullemermier和Martin Kolb。广义传递性:巴宾顿-史密斯模型中概念与偏好的系统比较。国际近似推理杂志,119:373-4072020·Zbl 1443.91123号
[76] 埃拉德·哈赞。在线凸优化简介。基础与趋势Rin优化,2(3-4):157-3252016。
[77] Reinhard Heckel、Max Simchowitz、Kannan Ramchandran和Martin Wainwright。成对比较的近似排名。《国际人工智能与统计会议记录》(AISTATS),第1057-1066页,2018年。
[78] 莱因哈德·赫克尔(Reinhard Heckel)、尼哈尔·沙阿(Nihar Shah)、坎南·拉姆昌德兰(Kannan Ramchandran)和马丁·温赖特(Martin Wainwright)。两两比较得出的有效排名以及参数假设没有帮助的情况。《统计年鉴》,47(6):3099-31262019年·Zbl 1435.62293号
[79] 查尔斯·A·R·霍尔。算法65:查找。ACM通讯,4(7):321-3221961。
[80] 查尔斯·A·R·霍尔。快速排序。《计算机杂志》,5(1):10-151962年·Zbl 0108.13601号
[81] 瓦西利·霍夫丁。有界随机变量和的概率不等式。《美国统计协会杂志》,58(301):13-301963年·Zbl 0127.10602号
[82] 卡贾·霍夫曼。快速可靠的在线学习为信息检索排名。荷兰信息和知识系统研究院博士论文,Off-Page,阿姆斯特丹,2013年。
[83] 卡贾·霍夫曼(Katja Hofmann)、西蒙·怀特森(Shimon Whiteson)和马尔滕·德·里杰克(Maarten de Rijke)。从点击推断偏好的概率方法。2011年ACM信息和知识管理国际会议(CIKM)论文集,第249-258页。
[84] 卡贾·霍夫曼(Katja Hofmann)、安妮·舒思(Anne Schuth)、西蒙·怀特森(Shimon Whiteson)和马尔滕·德·里杰克(Maarten de Rijke)。重用历史交互数据以更快地进行在线学习,从而获得IR排名。《ACM网络搜索和数据挖掘国际会议论文集》,第183-192页,2013年。
[85] 本田俊雅(Junya Honda)和竹村秋美(Akimichi Takemura)。有界支持模型的渐近最优土匪算法。《学习理论年度会议论文集》(COLT),第67-79页,2010年·Zbl 1237.91037号
[86] 杰弗里·艾弗森(Geoffrey Iverson)和珍妮·克劳德·法尔马涅(Jean-Claude Falmagne)。计量中的统计问题。数学社会科学,10(2):131-1531985·兹比尔0613.62145
[87] 凯文·杰米森和罗伯特·诺瓦克。使用两两比较进行主动排名。在《神经信息处理系统进展论文集》(NIPS),第2240-22482011页。
[88] Kevin G.Jamieson、Sumeet Katariya、Atul Deshpande和Robert Nowak。稀疏的决斗强盗。《国际人工智能与统计会议论文集》(AISTATS),2015年。
[89] 托比亚斯·乔彭(Tobias Joppen)、克里斯蒂安·沃思(Christian Wirth)和约翰内斯·冯克兰(Johannes F¨urnkranz)。基于偏好的蒙特卡洛树搜索。德国/奥地利人工智能联合会议(K¨unsliche Intelligenz),第327-340页。施普林格,2018年。
[90] Adam Kalai和Santosh Vempala。在线决策问题的高效算法。计算机与系统科学杂志,71(3):291-3072005·Zbl 1094.68112号
[91] 希瓦拉姆·卡利亚纳克里希南(Shivaram Kalyanakrishnan)。不完全表示的序贯决策学习方法。2011年12月,美国德克萨斯州奥斯汀市德克萨斯大学奥斯汀分校博士论文。
[92] Shivaram Kalyanakrishnan、Ambuj Tewari、Peter Auer和Peter Stone。随机多武装匪徒的PAC子集选择。《机器学习国际会议论文集》,第227-234页,2012年。
[93] 佐哈尔·卡宁。结构化MAB问题的基于验证的解决方案。《神经信息处理系统进展学报》(NIPS),第145-153页,2016年。
[94] Sumeet Katariya、Branislav Kveton、Csaba Szepesv´ari、Claire Vernade和Zheng Wen。随机等级为1的强盗。《国际人工智能与统计会议记录》(AISTATS),第392-401页,2017年。
[95] Sumeet Katariya、Lalit Jain、Nandana Sengupta、James Evans和Robert Nowak。用于粗排序的自适应采样。《国际人工智能与统计会议论文集》(AISTATS),第1839-1848页,2018年。
[96] 艾米莉·考夫曼(Emilie Kaufmann)、纳撒尼尔·科尔达(Nathaniel Korda)和雷米·穆诺斯(R’emi Munos)。汤普森抽样:渐近最优有限时间分析。《算法学习理论国际会议论文集》,第199-213页,2012年·Zbl 1386.91055号
[97] 艾米莉·考夫曼(Emilie Kaufmann)、奥利维尔·卡普埃(Olivier Capp´e)和奥雷琳·加里维尔(Aur´elien Garivier)。多武装盗贼模型中最佳武装识别的复杂性。机器学习研究杂志,17(1):1-422016·Zbl 1360.62433号
[98] 莫里斯·G·肯德尔。等级相关法。哈夫纳出版公司,1955年·兹比尔0066.38203
[99] 克莱尔·凯尼恩·马修和沃伦·舒迪。如何在很少出错的情况下进行排名。《美国计算机学会第三十九届年度计算理论研讨会论文集》,第95-1032007页·Zbl 1232.68181号
[100] 约翰内斯·克什纳(Johannes Kirschner)、托尔·拉蒂莫尔(Tor Lattimore)和安德烈亚斯·克劳斯(Andreas Krause)。线性部分监测的信息定向抽样。《学习理论年度会议论文集》,第2328-2369页,2020年。
[101] Andras Kocsor、R´obert Busa-Fekete和Sandor Pongor。基于无根二叉树传播的蛋白质分类。《蛋白质与肽快报》,15(5):428-4342008年。
[102] 普希米特·科利(Pushmet Kohli)、马哈亚尔·萨利克(Mahyar Salek)和格雷格·斯托达德(Greg Stoddard)。一种快速的土匪算法,用于向具有不同口味的用户推荐。《AAAI人工智能会议论文集》,第1135-1141页,2013年。
[103] 小宫山俊培(Junpei Komiyama)、本田俊雅(Junya Honda)、鹿岛久志(Hisashi Kashima)和中川浩史(Hiroshi Nakagawa)。决斗盗贼问题的后悔下界和优化算法。《学习理论年度会议论文集》(COLT),第1141-1154页,2015年。
[104] 小宫山俊培(Junpei Komiyama)、本田俊雅(Junya Honda)和中川浩(Hiroshi Nakagawa)。科普兰决斗强盗问题:后悔下限、最优算法和计算效率高的算法。《机器学习国际会议论文集》(ICML),第1235-1244页,2016年。
[105] Volodymyr Kuleshov和Doina Precup。多武装盗贼问题的算法。CoRR,abs/1402.60282014年。
[106] 鸠山由纪夫。对不断决斗的土匪进行遗憾分析。《神经信息处理系统进展学报》(NIPS),第1488-1497页,2017年。
[107] 鸠山由纪夫。土匪凸优化算法简介。2018年国际信息理论及其应用研讨会(ISITA),第36-39页。
[108] 李泽良和罗宾斯。渐进有效的自适应分配规则。应用数学进展,6(1):4-221985·Zbl 0568.62074号
[109] Tor Lattimore和Csaba Szepesv´ari.Bandit算法。剑桥大学出版社,2020年·Zbl 1439.68002号
[110] Chang Li、Ilya Markov、Maarten De Rijke和Masrour Zoghi。MergeDTS:一种有效的大规模在线等级评估方法。ACM信息系统交易(TOIS),38(4):1-282020。
[111] 庄洁琳和吕志仁。有效的同侪分级和对抗土匪的机制。2018年亚洲机器学习会议(ACML),第740-755页。
[112] 罗伯特·邓肯·卢斯。个人选择行为:理论分析。威利,1959年·Zbl 0093.31708号
[113] 科林·马尔洛(Colin L.Mallows)。非完全排名模型。《生物特征》,44(1):114-1301957·Zbl 0087.34001号
[114] 谢·曼诺(Shie Mannor)和约翰·齐齐克利斯(John N Tsitsiklis)。多武器强盗问题探索的样本复杂性。机器学习研究杂志,5(6月):623-6482004·Zbl 1222.68099号
[115] 约翰·马登。分析和建模排名数据。查普曼和霍尔,1995年·Zbl 0853.62006号
[116] 奥德·马龙和安德鲁·摩尔。Hoeffing竞赛:加速分类和函数近似的模型选择搜索。《神经信息处理系统进展学报》(NIPS),第59-66页,1994年。
[117] 奥德·马龙和安德鲁·摩尔。竞赛算法:懒惰学习者的模型选择。《人工智能评论》,5(1):193-2251997。
[118] 卢卡斯·梅斯特尔(Lucas Maystre)和马蒂亚斯·格罗斯格拉泽(Matthias Grossglauser)。整理一下!一种简单有效的主动偏好学习方法。《国际机器学习会议(ICML)论文集》,第2344-2353页,2017年。
[119] Soheil Mohajer、Changho Suh和Adel Elmahdy。从嘈杂的比较中主动学习顶级知识聚合。《国际机器学习会议(ICML)论文集》,第2488-2497页,2017年。
[120] 赫维·穆林。合作决策公理。剑桥大学出版社,1988年·Zbl 0699.90001号
[121] Sahand Negahban、Sewoong Oh和Devavrat Shah。成对比较的迭代排序。《神经信息处理系统进展学报》(NIPS),第2483-2491页,2012年·兹比尔1414.91133
[122] Harrie Oosterhuis、Anne Schuth和Maarten de Rijke。概率多重叶梯度下降。《欧洲信息检索会议记录》(ECIR),第661-6682016页。
[123] 吉列尔莫·欧文。博弈论。学术出版社,1982年·Zbl 0544.90103号
[124] 爱德华·保尔森。从常态总体中选择平均值最大的总体的顺序程序。《数理统计年鉴》,35(1):174-1801964·Zbl 0136.39404号
[125] Erol Pek–oz、Sheldon M.Ross和Zhengyu Zhang。决斗强盗问题。《工程和信息科学中的概率》,第1-12页,2020年。
[126] 布鲁诺·佩雷拉、阿尔贝托·尤达、古斯塔沃·佩尼亚、罗德里戈·桑托斯和尼维奥·齐维亚尼。在线学习排名顺序音乐推荐。《第13届ACM推荐系统会议(RecSys)论文集》,第237-245页,2019年。
[127] 罗伯特·普拉克特(Robert L.Plackett)。排列分析。英国皇家统计学会杂志。C辑(应用统计学),24(1):193-2021975。
[128] 菲利普·拉德林斯基(Filip Radlinski)、马杜·库鲁普(Madhu Kurup)和托尔斯滕·约阿希姆斯(Thorsten Joachims)。点击数据如何反映检索质量?《ACM信息和知识管理国际会议论文集》,第43-52页,2008年。
[129] Siddartha Y.Ramamohan、Arun Rajkumar和Shivani Agarwal。决斗强盗:超越Condorcet优胜者到一般比赛解决方案。《神经信息处理系统进展学报》(NIPS),第1253-1261页,2016年。
[130] 任文波(Wenbo Ren)、刘佳(Jia Liu)和内斯·什洛夫(Ness Shroff)。样本复杂度上下限,用于噪声比较的准确排名。《神经信息处理系统进展学报》(NeurIPS),第10014-10024页,2019年。
[131] 任文波(Wenbo Ren)、刘佳(Jia Liu)和内斯·什洛夫(Ness Shroff)。从两两比较中选择最佳组合的样本复杂性。《机器学习国际会议论文集》,第8051-80722020页。
[132] 赫伯特·罗宾斯。序贯设计实验的一些方面。美国数学学会公报,58(5):527-5351952·兹比尔0049.37009
[133] Aadirupa Saha和Aditya Gopalan。土匪之战。《人工智能不确定性会议论文集》,2018。
[134] Aadirupa Saha和Aditya Gopalan。具有子级偏好的主动排名。《国际人工智能与统计会议记录》(AISTATS),第3312-3321页,2019a。
[135] Aadirupa Saha和Aditya Gopalan。组合盗贼与相关反馈。《神经信息处理系统进展》(NeurIPS),第983-9932019b页。
[136] Aadirupa Saha和Aditya Gopalan。Plackett-Louce模型中的PAC战斗匪徒。《算法学习理论国际会议论文集》,第700-737页,2019c。
[137] Aadirupa Saha和Aditya Gopalan。从PAC到Plackett-Luce模型中的实例最佳样本复杂性。机器学习国际会议(ICML)论文集,第8367-83762020a页。
[138] Aadirupa Saha和Aditya Gopalan。具有子集选择的随机效用模型中的最佳项学习。《国际人工智能与统计会议记录》(AISTATS),第4281-42912020b页。
[139] 塞巴斯蒂安·施奈德(Sebastian Schneider)和弗兰兹·库默特(Franz Kummert)。探索人机交互中的体现和决斗强盗学习以适应偏好。2017年IEEE机器人与人类交互通信国际研讨会(RO-MAN)论文集,第1325-1331页。
[140] 安妮·舒思(Anne Schuth)、弗洛特·西茨马(Floor Sietsma)、西蒙·怀特森(Shimon Whiteson)、达米安·莱福蒂尔(Damien Lefortier)和马尔滕·德·里杰克(Maarten de Rijke)。用于快速在线评估的多重比较。《信息和知识管理国际会议记录》,第71-80页,2014年。
[141] 安妮·舒思(Anne Schuth)、罗伯特·扬·布鲁因特斯(Robert-Jan Bruintjes)、弗里特约夫·布·诺特纳(Fritjof Bu¨uttner)、乔斯特·凡·杜恩(Joost van Doorn)、卡拉·格伦兰(Carla Groenland)、哈里·奥斯特胡斯(Harrie Oosterhuis)、康格恩·特朗(Cong-Ngu。在线检索评估的概率多重叶。《国际SIGIR信息检索研究与开发会议论文集》,第955-958页,2015年。
[142] 安妮·舒思(Anne Schuth)、哈里·奥斯特赫斯(Harrie Oosterhuis)、西蒙·怀特森(Shimon Whiteson)和马尔滕·德瑞克(Maarten de Rijke)。多重梯度下降快速在线学习排名。《ACM网络搜索和数据挖掘国际会议论文集》,第457-466页,2016年。
[143] 尼哈尔·沙阿(Nihar Shah)、西瓦拉曼·巴拉克里什南(Sivaraman Balakrishnan)、阿迪蒂亚·冈图博伊纳(Aditya Guntuboyina)和马丁·温赖特(Martin Wainwright)。两两比较的随机传递模型:统计和计算问题。《机器学习国际会议(ICML)论文集》,第11-20页,2016年·Zbl 1364.94253号
[144] 谢·沙列夫·施瓦茨。在线学习和在线凸优化。《机器学习基础与趋势》,4(2):107-1942012年·Zbl 1253.68190号
[145] Max Simchowitz、Kevin Jamieson和Benjamin Recht。最好的强盗。《学习理论年度会议论文集》(COLT),第1440-1489页,2016年。
[146] Artem Sokolov、Stefan Riezler和Tanguy Urvoy。统计机器翻译中用于部分反馈学习的Bandit结构化预测。CoRR,abs/1601.044682016年。
[147] 侯赛因·阿扎里·苏菲亚尼、威廉·陈、大卫·C·帕克斯和夏立荣。秩聚合的广义矩方法。《神经信息处理系统进展学报》(NIPS),第26卷,第2706-2714页,2013年。
[148] 侯赛因·阿扎里·索菲亚尼(Hossein Azari Soufiani)、大卫·帕克斯(David C.Parkes)和夏丽蓉(Lirong Xia)。通过等级打破计算参数排名模型。《机器学习国际会议(ICML)论文集》,第360-368页,2014年。
[149] Yanan Sui和Joel Burdick。临床在线推荐和分组等级反馈。《2014年ACM推荐系统会议记录》,第289-292页。
[150] Yanan Sui、Yisong Yue和Joel W.Burdick。相关决斗强盗及其在大型决策空间临床治疗中的应用。《国际人工智能联合会议论文集》(IJCAI),第2793-2799页,2017a。
[151] 隋亚南、庄文森、乔尔·伯迪克和岳一松。武器依赖的多燃料土匪。人工智能不确定性会议论文集,2017b。
[152] 隋亚南、庄文森、乔尔·伯迪克和岳一松。高斯过程分段安全贝叶斯优化。机器学习国际会议(ICML)论文集,第4788-47962018a页。
[153] Yanan Sui、Masrour Zoghi、Katja Hofmann和Yisong Yue。决斗强盗的进展。国际人工智能联合会议(IJCAI)会议记录,2018b。
[154] Bal´azs Sz¨or´enyi、R´obert Busa-Fekete、Adil Paul和Eyke H¨ullemermier。Plackett-Luce的在线排名启发:决斗强盗的方法。《神经信息处理系统进展学报》(NIPS),第604-612页,2015a。
[155] Bal´azs Sz¨or´enyi、R´obert Busa-Fekete、Paul Weng和Eyke H¨ullemermier。定性多武器匪徒:基于数量的方法。《国际机器学习会议(ICML)论文集》,第1660-1668页,2015b。
[156] 威廉·汤普森(William R.Thompson)。考虑到两个样本的证据,一个未知概率超过另一个的可能性。《生物特征》,25(3/4):285-2941933年·JFM 59.1159.03号文件
[157] Kenneth E.火车。离散选择方法与仿真。剑桥大学出版社,2009年·Zbl 1269.62073号
[158] Tanguy Urvoy、Fabrice Clerot、Raphael F´eraud和Sami Naamane。普通勘探和k武装投票土匪。《国际机器学习会议(ICML)论文集》,第91-99页,2013年。
[159] 约翰·冯·诺伊曼(John von Neumann)。Gesellschaftsspiele学院。《数学年鉴》,100(1):295-3201928年·JFM 54.0543.02型
[160] 吴华森和刘欣。对决斗强盗进行双重汤普森抽样。《神经信息处理系统进展学报》(NIPS),第649-657页,2016年。
[161] 徐丽媛(Liyuan Xu)、本田俊雅(Junya Honda)和杉山正树(Masashi Sugiyama)。用定性反馈与强盗决斗。《AAAI人工智能会议记录》,第5549-5556页,2019年。
[162] 徐一冲(Yichong Xu)、陈曦(Xi Chen)、阿尔蒂·辛格(Aarti Singh)和阿图尔·杜布拉夫斯基(Artur Dubrawski)。决斗和拉扯都会导致土匪脱缰问题。《国际人工智能与统计会议记录》(AISTATS),第2591-2600页,2020年。
[163] Yisong Yue和Thorsten Joachims。作为决斗强盗问题,交互式优化信息检索系统。《机器学习国际会议论文集》,第1201-1208页,2009年。
[164] Yisong Yue和Thorsten Joachims。击败卑鄙的强盗。机器学习国际会议(ICML)论文集,第241-248页,2011年。
[165] Yisong Yue、Josef Broder、Robert Kleinberg和Thorsten Joachims。塞克武装决斗强盗问题。《计算机与系统科学杂志》,78(5):1538-15562012·Zbl 1283.68181号
[166] 童昭和欧文·金。为在线学习构建可靠的梯度探索排名。《ACM信息与知识管理国际会议(CIKM)论文集》,第1643-1652页,2016年。
[167] 朱利安·齐默特和叶夫根尼·塞尔丁。保理土匪。《神经信息处理系统进展学报》(NIPS),第2835-2844页,2018年。
[168] 朱利安·齐默特和叶夫根尼·塞尔丁。一种针对随机和对抗性盗贼的优化算法。《国际人工智能与统计会议论文集》(AISTATS),第467-4752019页。
[169] 马丁·津科维奇(Martin Zinkevich)。在线凸规划与广义无穷小梯度提升。《国际机器学习会议论文集》,第928-936页,2003年。
[170] 马斯鲁尔·佐吉(Masrour Zoghi)、西蒙·怀特森(Shimon Whiteson)、马尔滕·德·里杰克(Maarten de Rijke)和雷米·穆诺斯(Remi Munos)。有效在线等级评定的相对置信抽样。ACM网络搜索与数据挖掘国际会议论文集,第73-822014a页。
[171] 马斯鲁尔·佐吉(Masrour Zoghi)、西蒙·怀特森(Shimon Whiteson)、雷米·穆诺斯(Remi Munos)和马尔滕·德·里杰克(Maarten de Rijke)。k型武装决斗强盗问题的相对上界。《国际机器学习会议论文集》,第10-182014b页。
[172] 马斯鲁尔·佐吉(Masrour Zoghi)、佐哈尔·卡宁(Zohar Karnin)、西蒙·怀特森(Shimon Whiteson)和马尔滕·德·里杰克(Maarten de Rijke)。科普兰决斗强盗。《神经信息处理系统进展学报》(NIPS),第307-3152015a页。
[173] 马斯鲁尔·佐吉(Masrour Zoghi)、西蒙·怀特森(Shimon Whiteson)和马尔滕·德瑞克(Maarten de Rijke)。Mergerucb:一种大规模在线排名评估方法。《ACM网络搜索和数据挖掘国际会议(WSDM)论文集》,第17-26页,2015b。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。