×

基于径向基函数主动偏好学习的全局优化。 (英语) Zbl 07432807号

摘要:本文提出了一种求解优化问题的方法,其中决策者不能评估目标函数,而只能表示一个偏爱例如两个候选决策向量之间的“this is better that”。本文描述的算法旨在通过从过去的采样决策向量和成对偏好中主动学习潜在(未知且可能无法量化)目标函数的替代项,迭代地向决策者建议一个新的比较来达到全局优化。通过线性或二次规划拟合径向基函数替代项,如果可能,满足决策者对现有样本表达的偏好。该代理用于提出一个新的决策向量样本,以根据两个可能的标准与当前最佳候选进行比较:最小化代理和反向加权距离函数的组合,以平衡代理的利用和决策空间的探索,或者使与新的候选者将被优选的概率相关的函数最大化。与基于贝叶斯优化的主动偏好学习相比,我们表明我们的方法具有竞争力,在相同的比较次数内,它通常更接近全局最优,计算量也更轻。本文描述了该算法在解决一组基准全局优化问题、多目标优化以及成本敏感型神经网络分类器优化调整方面的应用,该分类器用于图像目标识别。MATLAB和本文所述算法的Python实现可在http://cse.lab.imtlucca.it/~bemporad/glis(英语).

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abdolshah,M.、Shilton,A.、Rana,S.、Gupta,S.和Venkatesh,S.(2019年)。目标偏好的多目标贝叶斯优化。arXiv:190204228。
[2] Akrour,R.、Schoenauer,M.和Sebag,M.(2012年)。四月:基于主动偏好学习的强化学习。在关于数据库中的机器学习和知识发现的欧洲联合会议上(第116-131页)。施普林格
[3] Akrour,R。;Schoenauer,M。;塞巴格,M。;Souplet,JC,《反馈编程》,机器学习国际会议,321503-1511(2014)
[4] Bemporad,A.(2020年)。通过反向距离加权和径向基函数进行全局优化。计算优化与应用(出版中)。https://arxiv.org/pdf/1906.06498.pdf。
[5] Brochu,E.、de Freitas,N.和Ghosh,A.(2008年)。使用离散选择数据进行主动偏好学习。《神经信息处理系统进展》(第409-416页)。
[6] Brochu,E.、Cora,V.和Freitas,N.D.(2010年)。昂贵成本函数的贝叶斯优化教程,应用于主动用户建模和分层强化学习。arXiv:10122599。
[7] Busa-Fekete,R.、Hüllermier,E.和Mesaoudi-Paul,A.E.(2018年)。与决斗强盗进行基于偏好的在线学习:一项调查。arXiv:180711398。
[8] Chau,B。;科尔林,N。;亨特,L。;沃尔顿,M。;Rushworth,M.,多种选择的最优选择失败背后的神经机制,自然神经科学,17,34663(2014)·doi:10.1038/nn.3649
[9] Chernev,A。;Böckenholt,美国。;Goodman,J.,《选择过载:概念综述和元分析》,《消费者心理学杂志》,25,2,333-358(2015)·doi:10.1016/j.jcps.2014.08.002
[10] Chinchuluun,A。;Pardalos,P.,《多目标优化最新发展概览》,《运筹学年鉴》,154,1,29-50(2007)·Zbl 1146.90060号 ·doi:10.1007/s10479-007-0186-0
[11] Christiano,P.F.、Leike,J.、Brown,T.、Martic,M.、Legg,S.和Amodei,D.(2017年)。从人类偏好中进行深度强化学习。《神经信息处理系统进展》(第4299-4307页)。
[12] Chu,W.和Ghahramani,Z.(2005a)。用于排名的高斯过程的扩展:半监督和主动学习。在NIPS关于学习排名的研讨会上。
[13] Chu,W.和Ghahramani,Z.(2005年b)。使用高斯过程进行偏好学习。第22届机器学习国际会议论文集(第137-144页)。ACM公司
[14] 科恩,W。;夏皮雷,R。;辛格,Y.,《学习排序》,《人工智能研究杂志》,第10期,第243-270页(1999年)·Zbl 0915.68031号 ·doi:10.1613/jair.587
[15] Franc,V.、Zien,A.和Schölkopf,B.(2011年)。支持向量机作为概率模型。在美国华盛顿州贝尔维尤举行的第28届机器学习国际会议论文集(第665-672页)。
[16] Fürnkranz,J。;Hüllermier,E。;Cheng,W。;Park,SH,《基于偏好的强化学习:正式框架和策略迭代算法》,机器学习,89,1-2,123-156(2012)·兹比尔1260.68328 ·doi:10.1007/s10994-012-5313-8
[17] Gervasio,M.T.、Moffitt,M.D.、Pollack,M.E.、Taylor,J.M.和Uribe,T.E.(2005)。主动偏好学习,提供个性化日历安排帮助。第十届智能用户界面国际会议论文集(第90-97页)。
[18] González,J.、Dai,Z.、Damianou,A.和Lawrence,N.D.(2017年)。优先贝叶斯优化。第34届机器学习国际会议论文集(第1282-1291页)。
[19] Gutmann,HM,《用于全局优化的径向基函数法》,《全局优化杂志》,19,3,201-227(2001)·Zbl 0972.90055号 ·doi:10.1023/A:1011255519438
[20] 哈德维,P。;哈,V。;Restificar,A。;盖斯勒,B。;Miyamoto,J.,《通过理论改进激发偏好》,《机器学习研究杂志》,2003年7月4日,317-337页·Zbl 1102.68557号
[21] Har-Peled,S.、Roth,D.和Zimak,D.(2002年)。约束分类:一种新的多类分类和排序方法。神经信息处理系统进展15·Zbl 1024.68081号
[22] Herbrich,R.、Graepel,T.、Bollmann-Sdorra,P.和Obermayer,K.(1998)。监督偏好关系的学习。《Fachgruppentreffens Maschinelles Lernen会议录》(FGML-98)(第43-47页)。
[23] Hüllermier,E。;Fürnkranz,J。;Cheng,W。;Brinker,K.,通过学习两两偏好进行标签排名,人工智能,172,16-17,1897-1916(2008)·Zbl 1184.68403号 ·doi:10.1016/j.artint.2008.08.002
[24] Huyer,W。;Neumaier,A.,通过多级坐标搜索进行全局优化,《全局优化杂志》,14,4,331-355(1999)·Zbl 0956.90045号 ·doi:10.1023/A:1008382309369
[25] 石川,T。;Y.Tsukui。;Matsunami,M.,使用径向基函数和确定性方法进行全局优化的组合方法,IEEE磁学汇刊,35,3,1730-1733(1999)·数字对象标识代码:10.1109/20.767363
[26] Jamil,M。;Yang,XS,全球优化问题基准函数的文献综述,《国际数学建模与数值优化杂志》,4,2,150-194(2013)·兹比尔1280.65053 ·doi:10.1504/IJMMNO.2013.055204
[27] Joachims,T.(2002)。使用点击数据优化搜索引擎。第八届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第133-142页)。
[28] Johnson,S.(2020年)。NLopt非线性优化包。http://github.com/stevengj/nlopt。
[29] Jones,D.,基于响应面的全局优化方法分类,《全局优化杂志》,21,4,345-383(2001)·Zbl 1172.90492号 ·doi:10.1023/A:1012771025575
[30] Jones,D.(2009年)。DIRECT全局优化算法。《优化百科全书》(第725-735页)。
[31] 琼斯,D。;Schonlau先生。;Matthias,W.,《昂贵黑盒函数的高效全局优化》,《全局优化杂志》,13,4,455-492(1998)·Zbl 0917.90270号 ·doi:10.1023/A:1008306431147
[32] Kennedy,J.(2010)。粒子群优化。机器学习百科全书(第760-766页)。
[33] Kingma,D.P.和Ba,J.L.(2015)。亚当:一种随机优化的方法。摘自:美国加利福尼亚州圣地亚哥国际学习代表会议记录。
[34] Komiyama,J.,Honda,J.、Kashima,H.和Nakagawa,H.(2015)。决斗盗贼问题的后悔下界和优化算法。学习理论会议(第1141-1154页)。
[35] Krizhevsky,A.(2009)。从微小图像中学习多层特征。在CIFAR-10(加拿大高等研究院)。http://www.cs.toronto.edu/kriz/cifar.html
[36] Kushner,H.,《在噪声存在下定位任意多峰值曲线最大点的新方法》,《基础工程杂志》,86,1,97-106(1964)·数字对象标识代码:10.1115/1.3653121
[37] Matheron,G.,地质统计学原理,经济地质学,58,8,1246-1266(1963)·doi:10.2113/gsecongeo.58.8.1246
[38] 麦克唐纳。;格兰瑟姆,W。;Tabor,W。;Murphy,M.,使用径向基函数响应面模型的全局和局部优化,应用数学建模,31,10,2095-2110(2007)·Zbl 1162.90562号 ·doi:10.1016/j.apm.2006.08.008
[39] McKay,M。;贝克曼,R。;Conover,W.,在计算机代码输出分析中选择输入变量值的三种方法的比较,Technometrics,21,2239-245(1979)·兹伯利0415.62011
[40] Piga,D。;福吉恩,M。;福尔门汀,S。;Bempoad,A.,数据驱动MPC设计的面向性能的模型学习,IEEE控制系统快报,3,3,577-582(2019)·doi:10.1109/LCSYS.2019.2913347
[41] Pyzer-Knapp,EO,加速药物发现的贝叶斯优化,IBM研究与开发杂志,62,6,2-1(2018)·doi:10.1147/JRD.2018.2881731
[42] 瑞吉斯,RG;Shoemaker,CA,使用径向基函数对昂贵黑箱函数进行约束全局优化,《全局优化杂志》,31,1,153-171(2005)·Zbl 1274.90511号 ·doi:10.1007/s10898-004-0570-0
[43] 里奥斯,L。;Sahinidis,N.,《无导数优化:算法综述和软件实现比较》,《全球优化杂志》,56,3,1247-1293(2013)·Zbl 1272.90116号 ·doi:10.1007/s10898-012-9951-y
[44] Sacks,J.、Welch,W.、Mitchell,T.和Wynn,H.(1989)。计算机实验的设计与分析。收录于:《统计科学》(第409-423页)·Zbl 0955.62619号
[45] Sadigh,D.、Dragan,A.D.、Sastry,S.和Seshia,S.A.(2017年)。基于主动偏好的奖励功能学习。机器人学:科学与系统。
[46] 萨塞纳,M。;Papalambros,P。;Goovaerts,P.,探索约束全局优化的元建模采样标准,工程优化,34,3,263-278(2002)·doi:10.1080/03052150211751
[47] Shepard,D.(1968年)。不规则空间数据的二维插值函数。《ACM全国会议记录》,纽约(第517-524页)。
[48] Simon,H.,理性选择的行为模型,《经济学季刊》,69,1,99-118(1955)·doi:10.2307/1884852
[49] Siroker,D。;Koomen,P.,《A/B测试:将点击转化为客户的最强大方法》(2013年),霍博肯:威利
[50] Stone,M.,统计预测的交叉验证选择和评估,《皇家统计学会期刊:B辑(方法学)》,36,2,111-133(1974)·Zbl 0308.62063号
[51] Sui,Y.和Burdick,J.(2014)。临床在线推荐和分组等级反馈。第八届ACM推荐系统会议记录(第289-292页)。
[52] Sui,Y.、Yue,Y.和Burdick,J.W.(2017)。相关决斗强盗及其在大型决策空间临床治疗中的应用。arXiv:170702375。
[53] Tesauro,G.(1989)。通过比较训练学习专家偏好。《神经信息处理系统的进展》(第99-106页)。
[54] 瑟斯顿,L.,《比较判断法》,《心理学评论》,34,4,273(1927)·doi:10.1037/h0070288
[55] 上野,T。;罗纳,TD;Hou,Z。;沟口,T。;Tsuda,K.,COMBO:材料科学的高效贝叶斯优化库,材料发现,4,18-21(2016)·doi:10.1016/j.md.2016.04.001
[56] 瓦兹,A。;Vicente,L.,用于边界约束全局优化的粒子群模式搜索方法,《全局优化杂志》,39,2,197-219(2007)·Zbl 1180.90252号 ·doi:10.1007/s10898-007-9133-5
[57] Vaz,A.和Vicente,L.(2009年)。PSwarm:线性约束全局无导数优化的混合求解器。优化方法与软件24:669-685;http://www.norg.uminho.pt/aivaz/pswarm/。 ·Zbl 1177.90327号
[58] Wang,J.,人工神经网络与自然神经网络:偏好评估的连接主义范式,决策支持系统,11,5,415-429(1994)·doi:10.1016/0167-9236(94)90016-7
[59] Wilde,N。;Blidaru,A。;史密斯,SL;Kulić,D.,《通过主动偏好学习改进机器人行为的用户规范:框架和评估》,《国际机器人研究杂志》,39,6,651-667(2020)·doi:10.1177/0278364920910802
[60] Wilde,N.、Kulic,D.和Smith,S.L.(2020b)。使用最大遗憾进行主动偏好学习。arXiv:200504067。
[61] Wilson,A.、Fern,A.和Tadepalli,P.(2012)。从轨迹偏好查询中进行策略学习的贝叶斯方法。《神经信息处理系统进展》(第1133-1141页)。
[62] Wu,H.,&Liu,X.(2016)。双重汤普森抽查决斗强盗。《神经信息处理系统进展》(第649-657页)。
[63] Yu,Y.和Joachims,T.(2011年)。击败卑鄙的强盗。《第28届机器学习国际会议论文集》(ICML-11),(第241-248页)。
[64] Yu,Y。;布罗德,J。;Kleinberg,R。;Joachims,T.,《k型武装决斗强盗问题》,《计算机与系统科学杂志》,第78、5、1538-1556页(2012年)·兹比尔1283.68181 ·doi:10.1016/j.jcss.2011.12.028
[65] Zhu,M.、Bemporad,A.和Piga,D.(2020年)。基于偏好的MPC校准。arXiv:200311294。
[66] Zoghi,M.、Whiteson,S.、Munos,R.和Rijke,M.(2014)。k型武装决斗强盗问题的相对上界。在机器学习国际会议上(第10-18页)。
[67] Zoghi,M.、Karnin,Z.S.、Whiteson,S.和De Rijke,M.(2015)。科普兰决斗强盗。《神经信息处理系统进展》(第307-315页)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。