文件Zbl 07370524-zbMATH Open

维克托·本斯;鲁伯特·巴斯·费科特;阿迪尔·梅萨奥迪·鲍尔;埃克·Hüllermier

与决斗强盗进行基于偏好的在线学习：一项调查。（英语） Zbl 07370524号

J.马赫。学习。研究。 22，第7号论文，108页（2021年）.

摘要：在机器学习中，多武装匪徒的概念是指一类在线学习问题，在这类问题中，代理应该在顺序决策过程中同时探索和利用一组给定的选择方案。在标准设置中，代理人以实际价值奖励的形式从随机反馈中学习。然而，在许多应用中，数字奖励信号并不容易获得，相反，只提供了较弱的信息，特别是以成对备选方案之间的定性比较的形式提供的相对偏好。这一观察结果推动了对多武装土匪问题变体的研究，在多武装土匪问题中，对要学习的反馈类型和预测目标都使用了更通用的表示。本文的目的是对这一领域的最新技术进行综述，即基于偏好的多武器强盗或决斗强盗。为此，我们概述了文献中考虑的问题以及解决这些问题的方法。我们的分类法主要基于这些方法对数据生成过程的假设，以及与此相关的基于偏好的反馈的属性。

引用于三文件

MSC公司：

68T05年

人工智能中的学习和自适应系统

关键词：

多武器匪徒;在线学习;偏好学习;排名;顶部-\（k\）选择;勘探/开发;累积后悔;样本复杂性;PAC学习

PDF格式 BibTeX公司 XML格式引用

全文： arXiv公司链接

参考文献：

[1]	贾亚德夫·阿查里亚（Jayadev Acharya）、君士坦丁诺·达斯卡拉基斯（Constantinos Daskalakis）和高塔姆·卡马特（Gautam Kamath）。分布特性的最佳测试。《神经信息处理系统进展学报》（NIPS），第3591-3599页，2015年·Zbl 1377.62065号
[2]	阿比特·阿加瓦尔（Arpit Agarwal）、希瓦尼·阿加瓦尔（Shivani Agarwal-）、塞珀尔·阿萨迪（Sepehr Assadi）和桑吉夫·坎纳（Sanjeev Khanna）。通过有限轮适应性学习：掷硬币、多武器强盗和两两比较排名。《学习理论年度会议论文集》（COLT），第39-75页，2017年。
[3]	阿比特·阿加瓦尔、尼古拉斯·约翰逊和希瓦尼·阿加瓦尔。精选强盗。神经信息处理系统进展论文集（NeurIPS），2020年。
[4]	希普拉·阿格拉瓦尔和纳文·戈亚尔。汤普森抽样的进一步最优后悔界。《国际人工智能与统计会议论文集》（AISTATS），第99-107页，2013年·Zbl 1426.68293号
[5]	尼尔·艾隆（Nir Ailon）、摩西·查里卡尔（Moses Charikar）和阿兰塔·纽曼（Alantha Newman）。聚合不一致信息：排名和聚类。第三十七届ACM计算机理论研讨会论文集，第684-693页，2005年·Zbl 1192.90252号
[6]	尼尔·艾隆（Nir Ailon）、鸠山康平（Kohei Hatano）和高本英二（Eiji Takimoto）。置换面体上的Bandit在线优化。《算法学习理论会议论文集》，第215-229页，2014a·兹比尔1432.90129
[7]	尼尔·艾隆（Nir Ailon）、佐哈尔·卡宁（Zohar Karnin）和托尔斯滕·约阿希姆（Thorsten Joachims）。将决斗强盗减少为主要强盗。《国际机器学习大会论文集》，第856-864页，2014b。
[8]	梅耶尔·阿尔沃和菲利普·柳传志（Philip L.H.Yu）。排名数据的统计方法。施普林格，2014年·Zbl 1341.62001号
[9]	Jean-Yves Audibert、S´ebastien Bubeck和R´emi Munos。多武器匪徒的最佳武器识别。2010年学习理论年会论文集。
[10]	朱利安·奥迪弗伦（Julien Audiffren）和利瓦·拉莱沃拉（Liva Ralaivola）。强盗在部分有序的集合上决斗。《神经信息处理系统进展学报》（NIPS），第2129-2138页，2017年。
[11]	彼得·奥尔。利用置信界限进行开采勘探权衡。机器学习研究杂志，3（11月）：397-4222002·Zbl 1084.68543号
[12]	彼得·奥尔、尼科尔·塞萨·比安奇和保罗·菲舍尔。多武器土匪问题的有限时间分析。机器学习，47（2-3）：235-2562002a·Zbl 1012.68093号
[13]	彼得·奥尔（Peter Auer）、尼科尔·塞萨·比安奇（Nicol'o Cesa Bianchi）、约夫·弗伦德（Yoav Freund）和罗伯特·夏皮雷（Robert E.Schapire）。非自愿的多武器强盗问题。SIAM计算机杂志，32（1）：48-772002b·Zbl 1029.68087号
[14]	阿克谢·巴尔苏布拉马尼（Akshay Balsubramani）、佐哈尔·卡宁（Zohar Karnin）、罗伯特·夏皮雷（Robert E.Schapire）和马斯鲁尔·佐吉（Masrour Zoghi）。决斗强盗的悔恨界限取决于实例。《学习理论年度会议论文集》（COLT），第336-360页，2016年。
[15]	G´abor Bart´ok。针对对手的有限部分监控游戏的近最优算法。《学习理论年度会议论文集》（COLT），第696-710页，2013年。
[16]	G´abor Bart´ok、D´avid P´al和Csaba Szepesv´ari。Minimax对随机环境中的有限部分监控游戏感到遗憾。《学习理论年度会议论文集》（COLT），第133-154页，2011年。
[17]	G´abor Bart´ok、Dean P.Foster、D´avid P´al、Alexander Rakhlin和Csaba Szepesv´ari。部分监控–分类、后悔界限和算法。运筹学数学，39（4）：967-9972014·Zbl 1310.91028号
[18]	维克托·本斯（Viktor Bengs）和埃克·H–ullemermier（Eyke H–uller）。预选土匪。《国际机器学习大会论文集》，第778-7872020页。
[19]	Alina Beygelzimer、John Langford、Lihong Li、Lev Reyzin和Robert Schapire。具有监督学习保证的上下文盗贼算法。《国际人工智能与统计会议论文集》，2011年第19-26页。
[20]	拉尔夫·阿兰·布拉德利（Ralph Alan Bradley）和米尔顿·E·特里（Milton E.Terry）。不完全区组设计的秩分析：I.成对比较法。Biometrika，39（3/4）：324-3451952·Zbl 0047.12903号
[21]	费利克斯·勃兰特和费利克斯费舍尔。PageRank作为弱锦标赛解决方案。《互联网与网络经济国际会议论文集》，第300-305页，2007年。
[22]	费利克斯·勃兰特、马库斯·布里尔、保罗·哈伦斯坦和赫夫·穆林。锦标赛解决方案，第57-84页。剑桥大学出版社，2016·Zbl 1448.91101号
[23]	J¨urgen Branke、Stephen E.Chick和Christian Schmidt。选择选择过程。管理科学，53（12）：1916-19322007·Zbl 1232.62042号
[24]	Mark Braverman、Jieming Mao和S.Matthew Weinberg。带噪声比较的选择和分区并行算法。2016年ACM计算理论研讨会论文集，第851-862页·Zbl 1375.68186号
[25]	谢尔盖·布林和劳伦斯·佩奇。对大型超文本网络搜索引擎的剖析。计算机网络，30（1-7）：107-1171998。
[26]	Brian Brost、Yevgeny Seldin、Ingemar J.Cox和Christina Lioma。多燃料土匪及其在在线等级评估中的应用。《ACM信息和知识管理国际会议（CIKM）论文集》，第2161-2166页，2016年。
[27]	Cameron B.Browne、Edward Powley、Daniel Whitehouse、Simon M.Lucas、Peter I.Cowling、Philipp Rohlfshagen、Stephen Tadere、Diego Perez、Spyridon Samothrakis和Simon Colton。蒙特卡罗树搜索方法综述。IEEE游戏中的计算智能和AI汇刊，4（1）：1-432012。
[28]	斯巴斯蒂恩·布贝克和尼科尔·塞萨·比安奇。随机和非随机多武器盗贼问题的遗憾分析。《机器学习基础与趋势》，5（1）：1-1222012年·Zbl 1281.91051号
[29]	R´obert Busa-Fekete和Eyke H¨ullemerier。使用强盗算法进行基于偏好的在线学习的调查。《算法学习理论国际会议论文集》，第18-39页，2014年·Zbl 1432.68380号
[30]	R´obert Busa-Fekete、Bal´azs Sz¨or´enyi、Paul Weng、Weiwei Cheng和Eyke H¨ullemermier。基于噪声偏好的自适应采样的顶部kselection。《机器学习国际会议（ICML）论文集》，第1094-1102页，2013年。
[31]	R´obert Busa-Fekete、Eyke H¨ullemerier和Bal´azs Sz¨or´enyi。使用统计模型的基于偏好的排名启发：马洛斯的案例。机器学习国际会议（ICML）论文集，第1071-1079页，2014a。
[32]	R´obert Busa-Fekete、Bal´azs Sz¨or´enyi和Eyke H¨ullemermier。通过随机配对偏好的自适应采样进行PAC秩启发。《AAAI人工智能会议论文集》，第1701-1707页，2014b。
[33]	R´obert Busa-Fekete、Dimitris Fotakis、Bal´azs Sz¨or´enyi和Manolis Zampetakis。Mallows块模型的优化学习。《学习理论年度会议论文集》（COLT），第529-5322019页。
[34]	奥利维尔·卡普埃（Olivier Capp´e）、奥列琳·加里维尔（Aur´elien Garivier）、奥达里克·安布罗姆·梅拉德（Odarlic-Ambrym Maillard）、雷米·穆诺斯（R´emi Munos）和吉勒斯·斯托尔茨。最优顺序分配的Kullback-Leibler置信上限。《统计年鉴》，41（3）：1516-15412013·Zbl 1293.62161号
[35]	费利佩·卡罗和杰尔·埃米·加里恩。季节性消费品的动态分类和需求学习。管理科学，53（2）：276-2922007·Zbl 1232.91420号
[36]	丹尼尔·卡瓦格纳罗（Daniel R.Cavagnaro）和克林汀·戴维斯·斯托伯（Clintin P.Davis-Stober）。我们的偏好具有传递性，但以不同的方式具有传递性：对选择可变性的分析。决定，1（2）：1022014年。
[37]	尼科尔·塞萨·比安奇（Nicol’o Cesa Bianchi）和卢戈西（G’abor Lugosi）。预测、学习和游戏。剑桥大学出版社，2006年·Zbl 1114.91001号
[38]	尼科尔·塞萨·比安奇（Nicol’o Cesa Bianchi）和卢戈西（G’abor Lugosi）。组合匪徒。《计算机与系统科学杂志》，78（5）：1404-14222012·Zbl 1262.91052号
[39]	Deepayan Chakrabarti、Ravi Kumar、Filip Radlinski和Eli Upfal。致命的多武器强盗。《神经信息处理系统进展论文集》，第273-280页，2008年。
[40]	侯蓬禅、童昭和欧文·金。使用多武器盗贼算法进行可信软件对等评估。《万维网（WWW）国际会议指南汇编》，第899-903页，2016年。
[41]	Olivier Chapelle和Lihong Li.汤普森抽样的实证评估。《第24届神经信息处理系统国际会议论文集》，第2249-2257页，2011年。
[42]	陈邦瑞和彼得·弗雷泽。用依赖的武器与强盗决斗。CoRR，abs/1605.088382016年。
[43]	陈邦瑞和彼得·弗雷泽。带着微弱的遗憾与强盗决斗。《国际机器学习会议（ICML）论文集》，第731-739页，2017年。
[44]	陈寿元、田琳、欧文·金、迈克尔·R·柳和陈伟。多武装匪徒的组合纯粹探索。《神经信息处理系统进展学报》（NIPS），第379-387页，2014年。
[45]	魏晨、杜一翰、黄龙波和赵浩宇。决斗强盗的组合纯粹探索。《机器学习国际会议论文集》，第1531-1541页，2020年。
[46]	Xi Chen、Paul N.Bennett、Kevyn Collins-Thompson和Eric Horvitz。众包环境中的成对排名聚合。《ACM网络搜索和数据挖掘国际会议论文集》，第193-202页，2013年。
[47]	Xi Chen、Yuanzhi Li和Jieming Mao。多项式logit模型下top-k排序的近似实例优化算法。第二十届ACM-SIAM离散算法年会论文集，第2504-2522页。SIAM，2018年·Zbl 1403.68182号
[48]	Yann Chevaleyre、Ulle Endriss、J´erˆome Lang和Nicolas Maudet。计算社会选择简介。《计算机科学理论与实践当前趋势国际会议论文集》（SOFSEM），第51-69页，2007年·Zbl 1131.91316号
[49]	Chung-Cheng Chiu和Stacy Marsella。主观优化。《智能虚拟代理（IVA）国际会议论文集》，第204-211页，2012年。
[50]	哈伊姆·科恩和科比·克拉默。使用共享注释器并行学习多个任务。《神经信息处理系统进展学报》（NIPS），第1170-1178页，2014年。
[51]	威廉·科恩（William W.Cohen）、罗伯特·夏皮雷（Robert E.Schapire）和约拉姆·辛格（Yoram Singer）。学习排序。人工智能研究杂志，10（1）：243-2701999·Zbl 0915.68031号
[52]	阿赫·科普兰（Arhur H.Copeland）。合理的社会福利功能。数学在社会科学中的应用研讨会。密歇根大学，安娜堡，1951年。
[53]	Varsha Dani、Thomas P.Hayes和Sham M.Kakade。强盗反馈下的随机线性优化。《学习理论年度会议论文集》（COLT），第355-366页，2008年。
[54]	Dotan Di Castro、Claudio Gentile和Shie Mannor。有刃的强盗。CoRR，abs/1109.22962011年。
[55]	Miroslav Dud´ık、Katja Hofmann、Robert E.Schapire、Aleksandrs Slivkins和Masrour Zoghi。背景下的决斗强盗。《学习理论年度会议论文集》（COLT），第563-587页，2015年。
[56]	Adil El Mesaoudi-Paul、Eyke H¨ullemermier和R´obert Busa-Fekete。基于噪声排序的排名分布。《机器学习国际会议（ICML）论文集》，第3469-3477页，2018年。
[57]	Adil El Mesaoudi-Paul、Dimitri Weiß、Viktor Bengs、Eyke H¨ullermier和Kevin Tierney。基于池的实时算法配置：预选盗贼方法。国际学习与智能优化会议（LION），第216-232页。斯普林格，2020年。
[58]	Eyal Even-Dar、Shie Mannor和Yishay Mansour。多武装盗贼和马尔可夫决策过程的PAC界。《学习理论年度会议论文集》，第255-270页，2002年·Zbl 1050.68059号
[59]	Eyal Even-Dar、Shie Mannor和Yishay Mansour。多武装盗贼和强化学习问题的行动消除和停止条件。机器学习研究杂志，7:1079-11052006·Zbl 1222.68195号
[60]	Moein Falahatgar、Yi Hao、Alon Orlitsky、Venkatadheeraj Pichapati和Vaishakh Ravindrakumar。在很少假设的情况下进行最大化和排名。《神经信息处理系统进展学报》（NIPS），第7060-70702017a页。
[61]	Moein Falahatgar、Alon Orlitsky、Venkatadheeraj Pichapati和Ananda Theertha Suresh。噪音比较下的最大选择和排名。机器学习国际会议（ICML）论文集，第1088-1096页，2017b。
[62]	Moein Falahatgar、Ayush Jain、Alon Orlitsky、Venkatadheeraj Pichapati和Vaishakh Ravindrakumar。最大化、排名和偏好学习的限制。《机器学习国际会议论文集》，第1426-1435页，2018年。
[63]	乌列尔·菲奇、普拉巴卡尔·拉格万、大卫·佩莱格和埃利·厄普法尔。使用噪声信息进行计算。SIAM计算机杂志，23（5）：1001-10181994·Zbl 0813.68057号
[64]	Steffen Finck、Hans-Georg Beyer和Alexander Melkozerov。噪声优化：ES、EGS、SPSA和IF在噪声领域的理论策略比较。《遗传与进化计算年度会议论文集》（GECCO），第813-8202011页。
[65]	彼得·菲什伯恩（Peter C.Fishburn）。决策的效用理论。纽约：约翰·威利父子出版社，1970年·Zbl 0213.46202号
[66]	亚伯拉罕·弗拉克斯曼（Abraham D.Flaxman）、亚当·托曼·卡莱（Adam Tauman Kalai）和H.布伦丹·麦克马汉（H.Brendan McMahan）。土匪设置中的在线凸优化：没有梯度的梯度下降。2005年ACM-SIAM离散算法（SODA）年度研讨会论文集，第385-394页·Zbl 1297.90117号
[67]	迈克尔·弗利格纳（Michael A.Fligner）和约瑟夫·威尔杜奇（Joseph S.Verducci）。基于距离的排名模型。英国皇家统计学会杂志。B系列（方法学），48（3）：359-3691986·Zbl 0658.62031号
[68]	迈克尔·弗利格纳（Michael A.Fligner）和约瑟夫·威尔杜奇（Joseph S.Verducci）。排名数据的概率模型和统计分析。施普林格，1993年·Zbl 0754.00011号
[69]	Johannes F¨urnkranz和Eyke H¨ullemermier。偏好学习。Springer-Verlag，2011年。
[70]	Pratik Gajane和Tanguy Urvoy。基于实用性的决斗强盗作为部分监控游戏。CoRR，abs/1507.027502015年·Zbl 1407.62297号
[71]	Pratik Gajane、Tanguy Urvoy和Fabrice Cl´ero。针对基于对抗效用的决斗强盗的相对指数加权算法。《机器学习国际会议论文集》（ICML），第218-227页，2015年。
[72]	奥列琳·加里维尔和奥利维尔·卡普。KL-UCB算法用于有界随机土匪及其他情况。《学习理论年度会议论文集》，第359-3762011页。
[73]	马修·格罗夫斯和J¨urgen Branke。顶部κ选择与成对比较。《欧洲运筹学杂志》，274（2）：615-6262019年·Zbl 1407.62065号
[74]	郭胜波（Shengbo Guo）、斯科特·桑纳（Scott Sanner）、托尔·格雷佩尔（Thore Graepel）和沃伊·邦廷（Wray Buntine）。基于分数的贝叶斯技能学习。《欧洲数据库机器学习和知识发现会议论文集》（ECML/PKDD），第106-121页，2012年。
[75]	Bj¨orn Haddenhorst、Eyke H¨ullemermier和Martin Kolb。广义传递性：巴宾顿-史密斯模型中概念与偏好的系统比较。国际近似推理杂志，119:373-4072020·Zbl 1443.91123号
[76]	埃拉德·哈赞。在线凸优化简介。基础与趋势Rin优化，2（3-4）：157-3252016。
[77]	Reinhard Heckel、Max Simchowitz、Kannan Ramchandran和Martin Wainwright。成对比较的近似排名。《国际人工智能与统计会议记录》（AISTATS），第1057-1066页，2018年。
[78]	莱因哈德·赫克尔（Reinhard Heckel）、尼哈尔·沙阿（Nihar Shah）、坎南·拉姆昌德兰（Kannan Ramchandran）和马丁·温赖特（Martin Wainwright）。两两比较得出的有效排名以及参数假设没有帮助的情况。《统计年鉴》，47（6）：3099-31262019年·Zbl 1435.62293号
[79]	查尔斯·A·R·霍尔。算法65：查找。ACM通讯，4（7）：321-3221961。
[80]	查尔斯·A·R·霍尔。快速排序。《计算机杂志》，5（1）：10-151962年·Zbl 0108.13601号
[81]	瓦西利·霍夫丁。有界随机变量和的概率不等式。《美国统计协会杂志》，58（301）：13-301963年·Zbl 0127.10602号
[82]	卡贾·霍夫曼。快速可靠的在线学习为信息检索排名。荷兰信息和知识系统研究院博士论文，Off-Page，阿姆斯特丹，2013年。
[83]	卡贾·霍夫曼（Katja Hofmann）、西蒙·怀特森（Shimon Whiteson）和马尔滕·德·里杰克（Maarten de Rijke）。从点击推断偏好的概率方法。2011年ACM信息和知识管理国际会议（CIKM）论文集，第249-258页。
[84]	卡贾·霍夫曼（Katja Hofmann）、安妮·舒思（Anne Schuth）、西蒙·怀特森（Shimon Whiteson）和马尔滕·德·里杰克（Maarten de Rijke）。重用历史交互数据以更快地进行在线学习，从而获得IR排名。《ACM网络搜索和数据挖掘国际会议论文集》，第183-192页，2013年。
[85]	本田俊雅（Junya Honda）和竹村秋美（Akimichi Takemura）。有界支持模型的渐近最优土匪算法。《学习理论年度会议论文集》（COLT），第67-79页，2010年·Zbl 1237.91037号
[86]	杰弗里·艾弗森（Geoffrey Iverson）和珍妮·克劳德·法尔马涅（Jean-Claude Falmagne）。计量中的统计问题。数学社会科学，10（2）：131-1531985·兹比尔0613.62145
[87]	凯文·杰米森和罗伯特·诺瓦克。使用两两比较进行主动排名。在《神经信息处理系统进展论文集》（NIPS），第2240-22482011页。
[88]	Kevin G.Jamieson、Sumeet Katariya、Atul Deshpande和Robert Nowak。稀疏的决斗强盗。《国际人工智能与统计会议论文集》（AISTATS），2015年。
[89]	托比亚斯·乔彭（Tobias Joppen）、克里斯蒂安·沃思（Christian Wirth）和约翰内斯·冯克兰（Johannes F¨urnkranz）。基于偏好的蒙特卡洛树搜索。德国/奥地利人工智能联合会议（K¨unsliche Intelligenz），第327-340页。施普林格，2018年。
[90]	Adam Kalai和Santosh Vempala。在线决策问题的高效算法。计算机与系统科学杂志，71（3）：291-3072005·Zbl 1094.68112号
[91]	希瓦拉姆·卡利亚纳克里希南（Shivaram Kalyanakrishnan）。不完全表示的序贯决策学习方法。2011年12月，美国德克萨斯州奥斯汀市德克萨斯大学奥斯汀分校博士论文。
[92]	Shivaram Kalyanakrishnan、Ambuj Tewari、Peter Auer和Peter Stone。随机多武装匪徒的PAC子集选择。《机器学习国际会议论文集》，第227-234页，2012年。
[93]	佐哈尔·卡宁。结构化MAB问题的基于验证的解决方案。《神经信息处理系统进展学报》（NIPS），第145-153页，2016年。
[94]	Sumeet Katariya、Branislav Kveton、Csaba Szepesv´ari、Claire Vernade和Zheng Wen。随机等级为1的强盗。《国际人工智能与统计会议记录》（AISTATS），第392-401页，2017年。
[95]	Sumeet Katariya、Lalit Jain、Nandana Sengupta、James Evans和Robert Nowak。用于粗排序的自适应采样。《国际人工智能与统计会议论文集》（AISTATS），第1839-1848页，2018年。
[96]	艾米莉·考夫曼（Emilie Kaufmann）、纳撒尼尔·科尔达（Nathaniel Korda）和雷米·穆诺斯（R’emi Munos）。汤普森抽样：渐近最优有限时间分析。《算法学习理论国际会议论文集》，第199-213页，2012年·Zbl 1386.91055号
[97]	艾米莉·考夫曼（Emilie Kaufmann）、奥利维尔·卡普埃（Olivier Capp´e）和奥雷琳·加里维尔（Aur´elien Garivier）。多武装盗贼模型中最佳武装识别的复杂性。机器学习研究杂志，17（1）：1-422016·Zbl 1360.62433号
[98]	莫里斯·G·肯德尔。等级相关法。哈夫纳出版公司，1955年·兹比尔0066.38203
[99]	克莱尔·凯尼恩·马修和沃伦·舒迪。如何在很少出错的情况下进行排名。《美国计算机学会第三十九届年度计算理论研讨会论文集》，第95-1032007页·Zbl 1232.68181号
[100]	约翰内斯·克什纳（Johannes Kirschner）、托尔·拉蒂莫尔（Tor Lattimore）和安德烈亚斯·克劳斯（Andreas Krause）。线性部分监测的信息定向抽样。《学习理论年度会议论文集》，第2328-2369页，2020年。
[101]	Andras Kocsor、R´obert Busa-Fekete和Sandor Pongor。基于无根二叉树传播的蛋白质分类。《蛋白质与肽快报》，15（5）：428-4342008年。
[102]	普希米特·科利（Pushmet Kohli）、马哈亚尔·萨利克（Mahyar Salek）和格雷格·斯托达德（Greg Stoddard）。一种快速的土匪算法，用于向具有不同口味的用户推荐。《AAAI人工智能会议论文集》，第1135-1141页，2013年。
[103]	小宫山俊培（Junpei Komiyama）、本田俊雅（Junya Honda）、鹿岛久志（Hisashi Kashima）和中川浩史（Hiroshi Nakagawa）。决斗盗贼问题的后悔下界和优化算法。《学习理论年度会议论文集》（COLT），第1141-1154页，2015年。
[104]	小宫山俊培（Junpei Komiyama）、本田俊雅（Junya Honda）和中川浩（Hiroshi Nakagawa）。科普兰决斗强盗问题：后悔下限、最优算法和计算效率高的算法。《机器学习国际会议论文集》（ICML），第1235-1244页，2016年。
[105]	Volodymyr Kuleshov和Doina Precup。多武装盗贼问题的算法。CoRR，abs/1402.60282014年。
[106]	鸠山由纪夫。对不断决斗的土匪进行遗憾分析。《神经信息处理系统进展学报》（NIPS），第1488-1497页，2017年。
[107]	鸠山由纪夫。土匪凸优化算法简介。2018年国际信息理论及其应用研讨会（ISITA），第36-39页。
[108]	李泽良和罗宾斯。渐进有效的自适应分配规则。应用数学进展，6（1）：4-221985·Zbl 0568.62074号
[109]	Tor Lattimore和Csaba Szepesv´ari.Bandit算法。剑桥大学出版社，2020年·Zbl 1439.68002号
[110]	Chang Li、Ilya Markov、Maarten De Rijke和Masrour Zoghi。MergeDTS：一种有效的大规模在线等级评估方法。ACM信息系统交易（TOIS），38（4）：1-282020。
[111]	庄洁琳和吕志仁。有效的同侪分级和对抗土匪的机制。2018年亚洲机器学习会议（ACML），第740-755页。
[112]	罗伯特·邓肯·卢斯。个人选择行为：理论分析。威利，1959年·Zbl 0093.31708号
[113]	科林·马尔洛（Colin L.Mallows）。非完全排名模型。《生物特征》，44（1）：114-1301957·Zbl 0087.34001号
[114]	谢·曼诺（Shie Mannor）和约翰·齐齐克利斯（John N Tsitsiklis）。多武器强盗问题探索的样本复杂性。机器学习研究杂志，5（6月）：623-6482004·Zbl 1222.68099号
[115]	约翰·马登。分析和建模排名数据。查普曼和霍尔，1995年·Zbl 0853.62006号
[116]	奥德·马龙和安德鲁·摩尔。Hoeffing竞赛：加速分类和函数近似的模型选择搜索。《神经信息处理系统进展学报》（NIPS），第59-66页，1994年。
[117]	奥德·马龙和安德鲁·摩尔。竞赛算法：懒惰学习者的模型选择。《人工智能评论》，5（1）：193-2251997。
[118]	卢卡斯·梅斯特尔（Lucas Maystre）和马蒂亚斯·格罗斯格拉泽（Matthias Grossglauser）。整理一下！一种简单有效的主动偏好学习方法。《国际机器学习会议（ICML）论文集》，第2344-2353页，2017年。
[119]	Soheil Mohajer、Changho Suh和Adel Elmahdy。从嘈杂的比较中主动学习顶级知识聚合。《国际机器学习会议（ICML）论文集》，第2488-2497页，2017年。
[120]	赫维·穆林。合作决策公理。剑桥大学出版社，1988年·Zbl 0699.90001号
[121]	Sahand Negahban、Sewoong Oh和Devavrat Shah。成对比较的迭代排序。《神经信息处理系统进展学报》（NIPS），第2483-2491页，2012年·兹比尔1414.91133
[122]	Harrie Oosterhuis、Anne Schuth和Maarten de Rijke。概率多重叶梯度下降。《欧洲信息检索会议记录》（ECIR），第661-6682016页。
[123]	吉列尔莫·欧文。博弈论。学术出版社，1982年·Zbl 0544.90103号
[124]	爱德华·保尔森。从常态总体中选择平均值最大的总体的顺序程序。《数理统计年鉴》，35（1）：174-1801964·Zbl 0136.39404号
[125]	Erol Pek–oz、Sheldon M.Ross和Zhengyu Zhang。决斗强盗问题。《工程和信息科学中的概率》，第1-12页，2020年。
[126]	布鲁诺·佩雷拉、阿尔贝托·尤达、古斯塔沃·佩尼亚、罗德里戈·桑托斯和尼维奥·齐维亚尼。在线学习排名顺序音乐推荐。《第13届ACM推荐系统会议（RecSys）论文集》，第237-245页，2019年。
[127]	罗伯特·普拉克特（Robert L.Plackett）。排列分析。英国皇家统计学会杂志。C辑（应用统计学），24（1）：193-2021975。
[128]	菲利普·拉德林斯基（Filip Radlinski）、马杜·库鲁普（Madhu Kurup）和托尔斯滕·约阿希姆斯（Thorsten Joachims）。点击数据如何反映检索质量？《ACM信息和知识管理国际会议论文集》，第43-52页，2008年。
[129]	Siddartha Y.Ramamohan、Arun Rajkumar和Shivani Agarwal。决斗强盗：超越Condorcet优胜者到一般比赛解决方案。《神经信息处理系统进展学报》（NIPS），第1253-1261页，2016年。
[130]	任文波（Wenbo Ren）、刘佳（Jia Liu）和内斯·什洛夫（Ness Shroff）。样本复杂度上下限，用于噪声比较的准确排名。《神经信息处理系统进展学报》（NeurIPS），第10014-10024页，2019年。
[131]	任文波（Wenbo Ren）、刘佳（Jia Liu）和内斯·什洛夫（Ness Shroff）。从两两比较中选择最佳组合的样本复杂性。《机器学习国际会议论文集》，第8051-80722020页。
[132]	赫伯特·罗宾斯。序贯设计实验的一些方面。美国数学学会公报，58（5）：527-5351952·兹比尔0049.37009
[133]	Aadirupa Saha和Aditya Gopalan。土匪之战。《人工智能不确定性会议论文集》，2018。
[134]	Aadirupa Saha和Aditya Gopalan。具有子级偏好的主动排名。《国际人工智能与统计会议记录》（AISTATS），第3312-3321页，2019a。
[135]	Aadirupa Saha和Aditya Gopalan。组合盗贼与相关反馈。《神经信息处理系统进展》（NeurIPS），第983-9932019b页。
[136]	Aadirupa Saha和Aditya Gopalan。Plackett-Louce模型中的PAC战斗匪徒。《算法学习理论国际会议论文集》，第700-737页，2019c。
[137]	Aadirupa Saha和Aditya Gopalan。从PAC到Plackett-Luce模型中的实例最佳样本复杂性。机器学习国际会议（ICML）论文集，第8367-83762020a页。
[138]	Aadirupa Saha和Aditya Gopalan。具有子集选择的随机效用模型中的最佳项学习。《国际人工智能与统计会议记录》（AISTATS），第4281-42912020b页。
[139]	塞巴斯蒂安·施奈德（Sebastian Schneider）和弗兰兹·库默特（Franz Kummert）。探索人机交互中的体现和决斗强盗学习以适应偏好。2017年IEEE机器人与人类交互通信国际研讨会（RO-MAN）论文集，第1325-1331页。
[140]	安妮·舒思（Anne Schuth）、弗洛特·西茨马（Floor Sietsma）、西蒙·怀特森（Shimon Whiteson）、达米安·莱福蒂尔（Damien Lefortier）和马尔滕·德·里杰克（Maarten de Rijke）。用于快速在线评估的多重比较。《信息和知识管理国际会议记录》，第71-80页，2014年。
[141]	安妮·舒思（Anne Schuth）、罗伯特·扬·布鲁因特斯（Robert-Jan Bruintjes）、弗里特约夫·布·诺特纳（Fritjof Bu¨uttner）、乔斯特·凡·杜恩（Joost van Doorn）、卡拉·格伦兰（Carla Groenland）、哈里·奥斯特胡斯（Harrie Oosterhuis）、康格恩·特朗（Cong-Ngu。在线检索评估的概率多重叶。《国际SIGIR信息检索研究与开发会议论文集》，第955-958页，2015年。
[142]	安妮·舒思（Anne Schuth）、哈里·奥斯特赫斯（Harrie Oosterhuis）、西蒙·怀特森（Shimon Whiteson）和马尔滕·德瑞克（Maarten de Rijke）。多重梯度下降快速在线学习排名。《ACM网络搜索和数据挖掘国际会议论文集》，第457-466页，2016年。
[143]	尼哈尔·沙阿（Nihar Shah）、西瓦拉曼·巴拉克里什南（Sivaraman Balakrishnan）、阿迪蒂亚·冈图博伊纳（Aditya Guntuboyina）和马丁·温赖特（Martin Wainwright）。两两比较的随机传递模型：统计和计算问题。《机器学习国际会议（ICML）论文集》，第11-20页，2016年·Zbl 1364.94253号
[144]	谢·沙列夫·施瓦茨。在线学习和在线凸优化。《机器学习基础与趋势》，4（2）：107-1942012年·Zbl 1253.68190号
[145]	Max Simchowitz、Kevin Jamieson和Benjamin Recht。最好的强盗。《学习理论年度会议论文集》（COLT），第1440-1489页，2016年。
[146]	Artem Sokolov、Stefan Riezler和Tanguy Urvoy。统计机器翻译中用于部分反馈学习的Bandit结构化预测。CoRR，abs/1601.044682016年。
[147]	侯赛因·阿扎里·苏菲亚尼、威廉·陈、大卫·C·帕克斯和夏立荣。秩聚合的广义矩方法。《神经信息处理系统进展学报》（NIPS），第26卷，第2706-2714页，2013年。
[148]	侯赛因·阿扎里·索菲亚尼（Hossein Azari Soufiani）、大卫·帕克斯（David C.Parkes）和夏丽蓉（Lirong Xia）。通过等级打破计算参数排名模型。《机器学习国际会议（ICML）论文集》，第360-368页，2014年。
[149]	Yanan Sui和Joel Burdick。临床在线推荐和分组等级反馈。《2014年ACM推荐系统会议记录》，第289-292页。
[150]	Yanan Sui、Yisong Yue和Joel W.Burdick。相关决斗强盗及其在大型决策空间临床治疗中的应用。《国际人工智能联合会议论文集》（IJCAI），第2793-2799页，2017a。
[151]	隋亚南、庄文森、乔尔·伯迪克和岳一松。武器依赖的多燃料土匪。人工智能不确定性会议论文集，2017b。
[152]	隋亚南、庄文森、乔尔·伯迪克和岳一松。高斯过程分段安全贝叶斯优化。机器学习国际会议（ICML）论文集，第4788-47962018a页。
[153]	Yanan Sui、Masrour Zoghi、Katja Hofmann和Yisong Yue。决斗强盗的进展。国际人工智能联合会议（IJCAI）会议记录，2018b。
[154]	Bal´azs Sz¨or´enyi、R´obert Busa-Fekete、Adil Paul和Eyke H¨ullemermier。Plackett-Luce的在线排名启发：决斗强盗的方法。《神经信息处理系统进展学报》（NIPS），第604-612页，2015a。
[155]	Bal´azs Sz¨or´enyi、R´obert Busa-Fekete、Paul Weng和Eyke H¨ullemermier。定性多武器匪徒：基于数量的方法。《国际机器学习会议（ICML）论文集》，第1660-1668页，2015b。
[156]	威廉·汤普森（William R.Thompson）。考虑到两个样本的证据，一个未知概率超过另一个的可能性。《生物特征》，25（3/4）：285-2941933年·JFM 59.1159.03号文件
[157]	Kenneth E.火车。离散选择方法与仿真。剑桥大学出版社，2009年·Zbl 1269.62073号
[158]	Tanguy Urvoy、Fabrice Clerot、Raphael F´eraud和Sami Naamane。普通勘探和k武装投票土匪。《国际机器学习会议（ICML）论文集》，第91-99页，2013年。
[159]	约翰·冯·诺伊曼（John von Neumann）。Gesellschaftsspiele学院。《数学年鉴》，100（1）：295-3201928年·JFM 54.0543.02型
[160]	吴华森和刘欣。对决斗强盗进行双重汤普森抽样。《神经信息处理系统进展学报》（NIPS），第649-657页，2016年。
[161]	徐丽媛（Liyuan Xu）、本田俊雅（Junya Honda）和杉山正树（Masashi Sugiyama）。用定性反馈与强盗决斗。《AAAI人工智能会议记录》，第5549-5556页，2019年。
[162]	徐一冲（Yichong Xu）、陈曦（Xi Chen）、阿尔蒂·辛格（Aarti Singh）和阿图尔·杜布拉夫斯基（Artur Dubrawski）。决斗和拉扯都会导致土匪脱缰问题。《国际人工智能与统计会议记录》（AISTATS），第2591-2600页，2020年。
[163]	Yisong Yue和Thorsten Joachims。作为决斗强盗问题，交互式优化信息检索系统。《机器学习国际会议论文集》，第1201-1208页，2009年。
[164]	Yisong Yue和Thorsten Joachims。击败卑鄙的强盗。机器学习国际会议（ICML）论文集，第241-248页，2011年。
[165]	Yisong Yue、Josef Broder、Robert Kleinberg和Thorsten Joachims。塞克武装决斗强盗问题。《计算机与系统科学杂志》，78（5）：1538-15562012·Zbl 1283.68181号
[166]	童昭和欧文·金。为在线学习构建可靠的梯度探索排名。《ACM信息与知识管理国际会议（CIKM）论文集》，第1643-1652页，2016年。
[167]	朱利安·齐默特和叶夫根尼·塞尔丁。保理土匪。《神经信息处理系统进展学报》（NIPS），第2835-2844页，2018年。
[168]	朱利安·齐默特和叶夫根尼·塞尔丁。一种针对随机和对抗性盗贼的优化算法。《国际人工智能与统计会议论文集》（AISTATS），第467-4752019页。
[169]	马丁·津科维奇（Martin Zinkevich）。在线凸规划与广义无穷小梯度提升。《国际机器学习会议论文集》，第928-936页，2003年。
[170]	马斯鲁尔·佐吉（Masrour Zoghi）、西蒙·怀特森（Shimon Whiteson）、马尔滕·德·里杰克（Maarten de Rijke）和雷米·穆诺斯（Remi Munos）。有效在线等级评定的相对置信抽样。ACM网络搜索与数据挖掘国际会议论文集，第73-822014a页。
[171]	马斯鲁尔·佐吉（Masrour Zoghi）、西蒙·怀特森（Shimon Whiteson）、雷米·穆诺斯（Remi Munos）和马尔滕·德·里杰克（Maarten de Rijke）。k型武装决斗强盗问题的相对上界。《国际机器学习会议论文集》，第10-182014b页。
[172]	马斯鲁尔·佐吉（Masrour Zoghi）、佐哈尔·卡宁（Zohar Karnin）、西蒙·怀特森（Shimon Whiteson）和马尔滕·德·里杰克（Maarten de Rijke）。科普兰决斗强盗。《神经信息处理系统进展学报》（NIPS），第307-3152015a页。
[173]	马斯鲁尔·佐吉（Masrour Zoghi）、西蒙·怀特森（Shimon Whiteson）和马尔滕·德瑞克（Maarten de Rijke）。Mergerucb：一种大规模在线排名评估方法。《ACM网络搜索和数据挖掘国际会议（WSDM）论文集》，第17-26页，2015b。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
输出	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
作业成本法*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

与决斗强盗进行基于偏好的在线学习：一项调查。（英语） Zbl 07370524号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

与决斗强盗进行基于偏好的在线学习：一项调查。 （英语） Zbl 07370524号

MSC公司：

关键词：

参考文献：

与决斗强盗进行基于偏好的在线学习：一项调查。（英语） Zbl 07370524号