文件Zbl 07624258-zbMATH Open

优化了一级分类性能。（英语） Zbl 07624258号

机器。学习。 111，第8期，2863-2883（2022）.

摘要：我们对一类分类进行了彻底的处理，并对五个数据描述符进行了超参数优化：支持向量机（SVM）、最近邻距离（NND）、局部最近邻距离（LNND）、局部异常因子（LOF）和平均局部邻近度（ALP）。SVM和LOF的超参数必须通过交叉验证进行优化，而NND、LNND和ALP允许有效形式的leave-one-out验证和重用单个最近邻查询。我们从50个数据集中抽取246个分类问题，通过实验评估超参数优化的效果。从一系列优化算法中，最近的Malherbe-Powell提案最有效地优化了所有数据描述符的超参数。我们将测试AUROC的增加和过拟合量计算为超参数评估次数的函数。经过50次评估，ALP和SVM显著优于LOF、NND和LNND，LOF和NND优于LNND。ALP和SVM的性能相当，但ALP可以更有效地进行优化，因此是一个很好的默认选择。或者，使用验证AUROC作为ALP或SVM之间的选择标准可以获得最佳的总体结果，而NND是计算要求最低的选项。因此，我们最终在三种选择之间进行了明确的权衡，使从业者能够做出明智的决定。

MSC公司：

68T05年

人工智能中的学习和自适应系统

关键词：

数据描述符;超参数优化;新奇检测;一级分类;半监督离群点检测

软件：

UCI-毫升;BOBYQA公司;SciPy公司;Scikit公司;开放式基金;皮莫;蟒蛇;NEWUOA公司;Dlib-ml公司;模糊粗糙度;Hyperopt公司

PDF格式 BibTeX公司 XML格式引用

全文： DOI程序 arXiv公司

参考文献：

[1]	阿加瓦尔，S。；Sureka，A.，使用基于KNN和SVM的一类分类器检测推特上的在线激进化，ICDCIT 2015：第十一届分布式计算和互联网技术国际会议论文集，431-442（2015），Springer
[2]	Antal，M。；Szabó，LZ，移动设备击键动力学认证的一类和两类分类算法评估，CSCS 2015：第20届控制系统和计算机科学国际会议论文集，343-350（2015），IEEE
[3]	Ban，T。；Abe，S.，通过一类分类方法实现多类分类器，IJCNN 2006：IEEE神经网络国际联席会议论文集，327-332（2006），IEEE
[4]	贝克尔，J。；Davis，J.，《从正面和未标记数据中学习：一项调查》，机器学习，109，4，719-760（2020）·Zbl 1496.68270号 ·doi:10.1007/s10994-020-05877-5
[5]	Benavoli，A。；Corani，G。；Mangili，F.，我们真的应该使用基于平均水平的事后测试吗？，机器学习研究杂志，17，5，152-161（2016）·兹比尔1360.62208
[6]	Bergstra，J.、Bardenet，R.、Bengio，Y.、Kégl，B.（2011）。超参数优化算法。收录于：NIPS 2011:第25届神经信息处理系统年会论文集，NIPS，神经信息处理体系进展（第24卷，第2546-2554页）
[7]	Bergstra，J。；Bengio，Y.，超参数优化的随机搜索，《机器学习研究杂志》，13，10，281-305（2012）·Zbl 1283.68282号
[8]	Betró，B.，全局优化中的贝叶斯方法，《全局优化杂志》，1，1，1-14（1991）·Zbl 0754.90050号 ·doi:10.1007/BF00120661
[9]	布兰克，J。；Deb，K.，Pymoo:Python中的多目标优化，IEEE Access，8，89497-89509（2020）·doi:10.1109/ACCESS.2020.2990567
[10]	Breunig，MM；惠普公司Kriegel；Ng、RT；Sander，J.，LOF：识别基于密度的局部异常值，SIGMOD 2000：ACM国际数据管理会议记录，93-104（2000），ACM·doi:10.1145/342009.335388
[11]	Brochu，E.，Cora，V.M.，de Freitas，N.（2009年）。昂贵成本函数的贝叶斯优化教程，应用于主动用户建模和分层强化学习。技术代表UBC TR-2009-023，不列颠哥伦比亚大学计算机科学系。检索自http://arxiv.org/abs/10122.599
[12]	科尔特斯，C。；Vapnik，V.，支持向量网络，机器学习，20，3273-297（1995）·Zbl 0831.68098号 ·doi:10.1007/BF00994018
[13]	de Ridder，D。；税务，DMJ；Duin，RPW，《一类分类方法的实验比较》，ASCI’98：计算与成像高等学校第四届年会论文集，213-218（1998），ASCI
[14]	Demšar，J.，多数据集上分类器的统计比较，机器学习研究杂志，7，1，1-30（2006）·Zbl 1222.68184号
[15]	Dua，D.，Graff，C.（2019年）。UCI机器学习库。检索自http://archive.ics.uci.edu/ml
[16]	哈贾吉，B。；Chibani，Y.，用于从文本片段中识别作者的聚类一类分类器的两个组合阶段，模式识别，82147-162（2018）·doi:10.1016/j.patcog.2018.05.001
[17]	Holm，S.，《简单顺序拒绝多重试验程序》，《斯堪的纳维亚统计杂志》，6，2，65-70（1979）·Zbl 0402.62058号
[18]	胡克，R。；Jeeves，TA，《数值和统计问题的“直接搜索”解决方案》，ACM杂志，8，2，212-229（1961）·兹比尔0111.12501 ·数字对象标识代码：10.1145/321062.321069
[19]	詹森，JHM；弗莱希，I。；Postma，EO，使用ML和KDD的一类分类器进行异常值检测，ICMLA 2009：第八届机器学习与应用国际会议论文集，147-153（2009），IEEE·doi:10.1109/ICMLA.2009.16
[20]	Jones，DR，基于响应面的全局优化方法分类，《全局优化杂志》，21，4，345-383（2001）·Zbl 1172.90492号 ·doi:10.1023/A:1012771025575
[21]	King，DE，Dlib-ml:机器学习工具包，《机器学习研究杂志》，10，60，1755-1758（2009）
[22]	King，D.E.（2017）。值得使用的全局优化算法。2021年1月6日检索自http://blog.dlib.net/2017/12/a-global-optimization-algorithm-worth.html
[23]	克诺尔，EM；Ng，RT，离群值的统一概念：属性和计算，KDD-97:第三届知识发现和数据挖掘国际会议论文集，219-222（1997），AAAI
[24]	库什纳，HJ，未知时变函数的通用随机模型，数学分析与应用杂志，5，1，150-167（1962）·Zbl 0111.33001号 ·doi:10.1016/0022-247X（62）90011-2
[25]	Kushner，HJ，在噪声存在下定位任意多峰值曲线最大点的新方法，基础工程杂志，86，1，97-106（1964）·数字对象标识代码：10.1115/1.3653121
[26]	俄亥俄州伦茨；佩拉尔塔，D。；Cornelis，C.，fuzzy-rough-learn 0.1：使用模糊粗糙集进行机器学习的Python库，IJCRS 2020：国际粗糙集联合会议论文集，491-499（2020），Springer
[27]	俄亥俄州伦茨；佩拉尔塔，D。；Cornelis，C.，Average Localised Proximity:一种新的数据描述符，具有良好的默认单类分类性能，模式识别，118107991（2021）·doi:10.1016/j.patcog.2021.107991
[28]	Malherbe，C.，Vayatis，N.（2017年）。Lipschitz函数的全局优化。In:ICML 2017：第34届机器学习国际会议论文集，机器学习研究论文集（第70卷，第2314-2323页）
[29]	内尔德，JA；Mead，R.，函数最小化的单纯形方法，《计算机杂志》，7，4，308-313（1965）·兹比尔0229.65053 ·doi:10.1093/comjnl/7.4.308
[30]	Paleyes，A。；普林，M。；Mahsereci，M。；劳伦斯，N。；González，J.，Emukit物理过程仿真，NeurIPS 2019：机器学习和物理科学研讨会（2019），NeurIPS
[31]	佩德雷戈萨，F。；瓦罗佐，G。；Gramfort，A。；米歇尔，V。；蒂里昂，B。；O.格栅。；布隆德尔，M。；普雷滕霍费尔，P。；韦斯，R。；杜堡，V。；范德普拉斯，J。；帕索斯，A。；库纳波，D。；布鲁彻，M。；佩罗，M。；爱沙尼亚公爵夫人。，Scikit-learn：Python中的机器学习，机器学习研究杂志，12，85，2825-2830（2011）·Zbl 1280.68189号
[32]	鲍威尔，M.J.D.（2004）。NEWUOA软件用于无导数的无约束优化。剑桥大学应用数学和理论物理系技术代表NA2004/08。检索自http://www.damtp.cam.ac.uk/user/na/na_papers/NA2004_08.pdf ·Zbl 1108.90005号
[33]	鲍威尔，M.J.D.（2009）。用于无导数约束优化的BOBYQA算法。剑桥大学应用数学和理论物理系技术代表NA2009/06。检索自http://www.damtp.cam.ac.uk/user/na/na_papers/NA2009_06.pdf
[34]	里贝罗，RP；佩雷拉，P。；Gama，J.，《序列异常：铁路行业的研究》，机器学习，105，1，127-153（2016）·doi:10.1007/s10994-016-5584-6
[35]	罗德里格斯-鲁伊斯，J。；马塔·桑切斯，JI；蒙罗伊，R。；O.Loyola-Gonzalez。；López-Cuevas，A.，推特上机器人检测的一类分类方法，计算机与安全，91，101715（2020）·doi:10.1016/j.cose.2020.101715
[36]	Rosner，B。；雷杰·格林（RJ Glynn）；Lee，MLT，The Wilcoxon signed rank test for pair compariation of clustered data，生物统计学，62，1，185-192（2006）·Zbl 1091.62036号 ·文件编号：10.1111/j.1541-0420.2005.00389.x
[37]	罗素，PJ；Croux，C.，《中值绝对偏差的替代方法》，《美国统计协会杂志》，88，424，1273-1283（1993）·Zbl 0792.62025号 ·doi:10.1080/01621459.1993.10476408
[38]	Schölkopf，B.，Platt，J.C.，Shawe-Taylor，J.，Smola，A.J.，Williamson，R.C.（1999）。估计高维分布的支持度。技术代表MSR-TR-99-87，Microsoft Research，华盛顿州雷蒙德·Zbl 1009.62029号
[39]	Schölkopf，B。；普拉特，JC；肖-泰勒，J。；AJ斯莫拉；Williamson，RC，估计高维分布的支持，神经计算，13，7，1443-1471（2001）·Zbl 1009.62029号 ·doi:10.1162/089976601750264965
[40]	Sokolov，A。；EO保罗；Stuart，JM，肿瘤亚型细胞状态的一类检测，PSB 2016：第21届太平洋生物计算研讨会论文集，405-416（2016），世界科学·数字对象标识代码：10.1142/9789814749411_0037
[41]	斯彭德利，W。；Hext，希腊；Himsworth，FR，优化和进化操作中单纯形设计的顺序应用，技术计量学，4，4，441-461（1962）·Zbl 0121.35603号 ·网址：10.1080/00401706.1962.10490033
[42]	Stephenson，W.、Frangella，Z.、Udell，M.、Broderick，T.（2021）。我们能否全局优化交叉验证损失？岭回归中的拟凸性。收录于：NeurIPS 2021:第三十五届神经信息处理系统会议记录，NeurIPS:神经信息处理体系进展（第34卷）
[43]	Swersky，L。；马奎斯，HO；桑德，J。；坎佩罗，RJGB；Zimek，A.，《关于异常值检测和一类分类方法的评估》，DSAA 2016：第三届IEEE数据科学和高级分析国际会议论文集，1-10（2016），IEEE
[44]	税务，D.M.J.（2001）。一类分类：在没有反例的情况下进行概念学习。代尔夫特理工大学博士论文
[45]	税务，DMJ；Duin，RPW，使用分类器不稳定性进行离群检测，SSPR/SPR 1998:IAPR模式识别及结构和句法模式识别统计技术联合国际研讨会论文集，593-601（1998），Springer
[46]	税务，DMJ；Duin，RPW，使用支持向量进行数据域描述，ESANN 1999:第七届欧洲人工神经网络研讨会论文集，D-Facto，251-256（1999），ESANN
[47]	税务，DMJ；Duin，RPW，支持向量域描述，模式识别快报，20，11-13，1191-1199（1999）·doi:10.1016/S0167-8655（99）00087-2
[48]	税务，DMJ；Duin，RPW，支持向量数据描述，机器学习，54，1，45-66（2004）·Zbl 1078.68728号 ·doi:10.1023/B:MACH.0000008084.60811.49
[49]	Torczon，V.J.（1989）。多向搜索：一种用于并行机的直接搜索算法。莱斯大学博士论文
[50]	Vigna，S.（2015）。排名与平局的加权相关指数。摘自：WWW’15：第24届万维网国际会议记录（第1166-1176页）
[51]	Virtanen，P.、Gommers，R.、Oliphant，T.E.、Haberland，M.、Reddy，T.、Cournapeau，D.、Burovski，E.、Peterson，P.，Weckesser，W.、Bright，J.、van der Walt，S.J.、Brett，M.，Wilson，J.，Millman，K.J.、Mayorov，N.、Nelson，A.R.J.、Jones，E.、Kern，R.和Larson。E.，…SciPy 1.0贡献者。(2020). SciPy 1.0：Python中科学计算的基本算法。《自然方法》，17（3），261-272。
[52]	Wright，M.H.（1995）。直接搜索方法：曾经被鄙视，现在受人尊敬。摘自：《1995年数值分析：第16届邓迪数值分析双年展论文集》，朗曼，皮特曼数学系列研究笔记（第344卷，第191-208页）·Zbl 0844.65057号
[53]	Yager，RR，多准则决策中的有序加权平均聚合算子，IEEE系统、人与控制论汇刊，18，1，183-190（1988）·Zbl 0637.90057号 ·doi:10.1109/21.87068

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：书本；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	括号

示例

领域

操作员

优化了一级分类性能。（英语） Zbl 07624258号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

优化了一级分类性能。 （英语） Zbl 07624258号

MSC公司：

关键词：

软件：

参考文献：

优化了一级分类性能。（英语） Zbl 07624258号