×

优化了一级分类性能。 (英语) Zbl 07624258号

摘要:我们对一类分类进行了彻底的处理,并对五个数据描述符进行了超参数优化:支持向量机(SVM)、最近邻距离(NND)、局部最近邻距离(LNND)、局部异常因子(LOF)和平均局部邻近度(ALP)。SVM和LOF的超参数必须通过交叉验证进行优化,而NND、LNND和ALP允许有效形式的leave-one-out验证和重用单个最近邻查询。我们从50个数据集中抽取246个分类问题,通过实验评估超参数优化的效果。从一系列优化算法中,最近的Malherbe-Powell提案最有效地优化了所有数据描述符的超参数。我们将测试AUROC的增加和过拟合量计算为超参数评估次数的函数。经过50次评估,ALP和SVM显著优于LOF、NND和LNND,LOF和NND优于LNND。ALP和SVM的性能相当,但ALP可以更有效地进行优化,因此是一个很好的默认选择。或者,使用验证AUROC作为ALP或SVM之间的选择标准可以获得最佳的总体结果,而NND是计算要求最低的选项。因此,我们最终在三种选择之间进行了明确的权衡,使从业者能够做出明智的决定。

MSC公司:

68T05年 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿加瓦尔,S。;Sureka,A.,使用基于KNN和SVM的一类分类器检测推特上的在线激进化,ICDCIT 2015:第十一届分布式计算和互联网技术国际会议论文集,431-442(2015),Springer
[2] Antal,M。;Szabó,LZ,移动设备击键动力学认证的一类和两类分类算法评估,CSCS 2015:第20届控制系统和计算机科学国际会议论文集,343-350(2015),IEEE
[3] Ban,T。;Abe,S.,通过一类分类方法实现多类分类器,IJCNN 2006:IEEE神经网络国际联席会议论文集,327-332(2006),IEEE
[4] 贝克尔,J。;Davis,J.,《从正面和未标记数据中学习:一项调查》,机器学习,109,4,719-760(2020)·Zbl 1496.68270号 ·doi:10.1007/s10994-020-05877-5
[5] Benavoli,A。;Corani,G。;Mangili,F.,我们真的应该使用基于平均水平的事后测试吗?,机器学习研究杂志,17,5,152-161(2016)·兹比尔1360.62208
[6] Bergstra,J.、Bardenet,R.、Bengio,Y.、Kégl,B.(2011)。超参数优化算法。收录于:NIPS 2011:第25届神经信息处理系统年会论文集,NIPS,神经信息处理体系进展(第24卷,第2546-2554页)
[7] Bergstra,J。;Bengio,Y.,超参数优化的随机搜索,《机器学习研究杂志》,13,10,281-305(2012)·Zbl 1283.68282号
[8] Betró,B.,全局优化中的贝叶斯方法,《全局优化杂志》,1,1,1-14(1991)·Zbl 0754.90050号 ·doi:10.1007/BF00120661
[9] 布兰克,J。;Deb,K.,Pymoo:Python中的多目标优化,IEEE Access,8,89497-89509(2020)·doi:10.1109/ACCESS.2020.2990567
[10] Breunig,MM;惠普公司Kriegel;Ng、RT;Sander,J.,LOF:识别基于密度的局部异常值,SIGMOD 2000:ACM国际数据管理会议记录,93-104(2000),ACM·doi:10.1145/342009.335388
[11] Brochu,E.,Cora,V.M.,de Freitas,N.(2009年)。昂贵成本函数的贝叶斯优化教程,应用于主动用户建模和分层强化学习。技术代表UBC TR-2009-023,不列颠哥伦比亚大学计算机科学系。检索自http://arxiv.org/abs/10122.599
[12] 科尔特斯,C。;Vapnik,V.,支持向量网络,机器学习,20,3273-297(1995)·Zbl 0831.68098号 ·doi:10.1007/BF00994018
[13] de Ridder,D。;税务,DMJ;Duin,RPW,《一类分类方法的实验比较》,ASCI’98:计算与成像高等学校第四届年会论文集,213-218(1998),ASCI
[14] Demšar,J.,多数据集上分类器的统计比较,机器学习研究杂志,7,1,1-30(2006)·Zbl 1222.68184号
[15] Dua,D.,Graff,C.(2019年)。UCI机器学习库。检索自http://archive.ics.uci.edu/ml
[16] 哈贾吉,B。;Chibani,Y.,用于从文本片段中识别作者的聚类一类分类器的两个组合阶段,模式识别,82147-162(2018)·doi:10.1016/j.patcog.2018.05.001
[17] Holm,S.,《简单顺序拒绝多重试验程序》,《斯堪的纳维亚统计杂志》,6,2,65-70(1979)·Zbl 0402.62058号
[18] 胡克,R。;Jeeves,TA,《数值和统计问题的“直接搜索”解决方案》,ACM杂志,8,2,212-229(1961)·兹比尔0111.12501 ·数字对象标识代码:10.1145/321062.321069
[19] 詹森,JHM;弗莱希,I。;Postma,EO,使用ML和KDD的一类分类器进行异常值检测,ICMLA 2009:第八届机器学习与应用国际会议论文集,147-153(2009),IEEE·doi:10.1109/ICMLA.2009.16
[20] Jones,DR,基于响应面的全局优化方法分类,《全局优化杂志》,21,4,345-383(2001)·Zbl 1172.90492号 ·doi:10.1023/A:1012771025575
[21] King,DE,Dlib-ml:机器学习工具包,《机器学习研究杂志》,10,60,1755-1758(2009)
[22] King,D.E.(2017)。值得使用的全局优化算法。2021年1月6日检索自http://blog.dlib.net/2017/12/a-global-optimization-algorithm-worth.html
[23] 克诺尔,EM;Ng,RT,离群值的统一概念:属性和计算,KDD-97:第三届知识发现和数据挖掘国际会议论文集,219-222(1997),AAAI
[24] 库什纳,HJ,未知时变函数的通用随机模型,数学分析与应用杂志,5,1,150-167(1962)·Zbl 0111.33001号 ·doi:10.1016/0022-247X(62)90011-2
[25] Kushner,HJ,在噪声存在下定位任意多峰值曲线最大点的新方法,基础工程杂志,86,1,97-106(1964)·数字对象标识代码:10.1115/1.3653121
[26] 俄亥俄州伦茨;佩拉尔塔,D。;Cornelis,C.,fuzzy-rough-learn 0.1:使用模糊粗糙集进行机器学习的Python库,IJCRS 2020:国际粗糙集联合会议论文集,491-499(2020),Springer
[27] 俄亥俄州伦茨;佩拉尔塔,D。;Cornelis,C.,Average Localised Proximity:一种新的数据描述符,具有良好的默认单类分类性能,模式识别,118107991(2021)·doi:10.1016/j.patcog.2021.107991
[28] Malherbe,C.,Vayatis,N.(2017年)。Lipschitz函数的全局优化。In:ICML 2017:第34届机器学习国际会议论文集,机器学习研究论文集(第70卷,第2314-2323页)
[29] 内尔德,JA;Mead,R.,函数最小化的单纯形方法,《计算机杂志》,7,4,308-313(1965)·兹比尔0229.65053 ·doi:10.1093/comjnl/7.4.308
[30] Paleyes,A。;普林,M。;Mahsereci,M。;劳伦斯,N。;González,J.,Emukit物理过程仿真,NeurIPS 2019:机器学习和物理科学研讨会(2019),NeurIPS
[31] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;O.格栅。;布隆德尔,M。;普雷滕霍费尔,P。;韦斯,R。;杜堡,V。;范德普拉斯,J。;帕索斯,A。;库纳波,D。;布鲁彻,M。;佩罗,M。;爱沙尼亚公爵夫人。,Scikit-learn:Python中的机器学习,机器学习研究杂志,12,85,2825-2830(2011)·Zbl 1280.68189号
[32] 鲍威尔,M.J.D.(2004)。NEWUOA软件用于无导数的无约束优化。剑桥大学应用数学和理论物理系技术代表NA2004/08。检索自http://www.damtp.cam.ac.uk/user/na/na_papers/NA2004_08.pdf ·Zbl 1108.90005号
[33] 鲍威尔,M.J.D.(2009)。用于无导数约束优化的BOBYQA算法。剑桥大学应用数学和理论物理系技术代表NA2009/06。检索自http://www.damtp.cam.ac.uk/user/na/na_papers/NA2009_06.pdf
[34] 里贝罗,RP;佩雷拉,P。;Gama,J.,《序列异常:铁路行业的研究》,机器学习,105,1,127-153(2016)·doi:10.1007/s10994-016-5584-6
[35] 罗德里格斯-鲁伊斯,J。;马塔·桑切斯,JI;蒙罗伊,R。;O.Loyola-Gonzalez。;López-Cuevas,A.,推特上机器人检测的一类分类方法,计算机与安全,91,101715(2020)·doi:10.1016/j.cose.2020.101715
[36] Rosner,B。;雷杰·格林(RJ Glynn);Lee,MLT,The Wilcoxon signed rank test for pair compariation of clustered data,生物统计学,62,1,185-192(2006)·Zbl 1091.62036号 ·文件编号:10.1111/j.1541-0420.2005.00389.x
[37] 罗素,PJ;Croux,C.,《中值绝对偏差的替代方法》,《美国统计协会杂志》,88,424,1273-1283(1993)·Zbl 0792.62025号 ·doi:10.1080/01621459.1993.10476408
[38] Schölkopf,B.,Platt,J.C.,Shawe-Taylor,J.,Smola,A.J.,Williamson,R.C.(1999)。估计高维分布的支持度。技术代表MSR-TR-99-87,Microsoft Research,华盛顿州雷蒙德·Zbl 1009.62029号
[39] Schölkopf,B。;普拉特,JC;肖-泰勒,J。;AJ斯莫拉;Williamson,RC,估计高维分布的支持,神经计算,13,7,1443-1471(2001)·Zbl 1009.62029号 ·doi:10.1162/089976601750264965
[40] Sokolov,A。;EO保罗;Stuart,JM,肿瘤亚型细胞状态的一类检测,PSB 2016:第21届太平洋生物计算研讨会论文集,405-416(2016),世界科学·数字对象标识代码:10.1142/9789814749411_0037
[41] 斯彭德利,W。;Hext,希腊;Himsworth,FR,优化和进化操作中单纯形设计的顺序应用,技术计量学,4,4,441-461(1962)·Zbl 0121.35603号 ·网址:10.1080/00401706.1962.10490033
[42] Stephenson,W.、Frangella,Z.、Udell,M.、Broderick,T.(2021)。我们能否全局优化交叉验证损失?岭回归中的拟凸性。收录于:NeurIPS 2021:第三十五届神经信息处理系统会议记录,NeurIPS:神经信息处理体系进展(第34卷)
[43] Swersky,L。;马奎斯,HO;桑德,J。;坎佩罗,RJGB;Zimek,A.,《关于异常值检测和一类分类方法的评估》,DSAA 2016:第三届IEEE数据科学和高级分析国际会议论文集,1-10(2016),IEEE
[44] 税务,D.M.J.(2001)。一类分类:在没有反例的情况下进行概念学习。代尔夫特理工大学博士论文
[45] 税务,DMJ;Duin,RPW,使用分类器不稳定性进行离群检测,SSPR/SPR 1998:IAPR模式识别及结构和句法模式识别统计技术联合国际研讨会论文集,593-601(1998),Springer
[46] 税务,DMJ;Duin,RPW,使用支持向量进行数据域描述,ESANN 1999:第七届欧洲人工神经网络研讨会论文集,D-Facto,251-256(1999),ESANN
[47] 税务,DMJ;Duin,RPW,支持向量域描述,模式识别快报,20,11-13,1191-1199(1999)·doi:10.1016/S0167-8655(99)00087-2
[48] 税务,DMJ;Duin,RPW,支持向量数据描述,机器学习,54,1,45-66(2004)·Zbl 1078.68728号 ·doi:10.1023/B:MACH.0000008084.60811.49
[49] Torczon,V.J.(1989)。多向搜索:一种用于并行机的直接搜索算法。莱斯大学博士论文
[50] Vigna,S.(2015)。排名与平局的加权相关指数。摘自:WWW’15:第24届万维网国际会议记录(第1166-1176页)
[51] Virtanen,P.、Gommers,R.、Oliphant,T.E.、Haberland,M.、Reddy,T.、Cournapeau,D.、Burovski,E.、Peterson,P.,Weckesser,W.、Bright,J.、van der Walt,S.J.、Brett,M.,Wilson,J.,Millman,K.J.、Mayorov,N.、Nelson,A.R.J.、Jones,E.、Kern,R.和Larson。E.,…SciPy 1.0贡献者。(2020). SciPy 1.0:Python中科学计算的基本算法。《自然方法》,17(3),261-272。
[52] Wright,M.H.(1995)。直接搜索方法:曾经被鄙视,现在受人尊敬。摘自:《1995年数值分析:第16届邓迪数值分析双年展论文集》,朗曼,皮特曼数学系列研究笔记(第344卷,第191-208页)·Zbl 0844.65057号
[53] Yager,RR,多准则决策中的有序加权平均聚合算子,IEEE系统、人与控制论汇刊,18,1,183-190(1988)·Zbl 0637.90057号 ·doi:10.1109/21.87068
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。