阿拉勒·拉兹姆乔;Petros公司的Xanthopoulos;郑其鹏Phil 混合在线环境中分类的功能重要性排序。 (英语) 兹比尔1493.68316 安·Oper。研究。 276,编号1-2,315-330(2019). 摘要:在线学习是机器学习的一个不断发展的分支,在许多领域都有应用。该领域研究较少的主题之一是开发在线特征重要性排名策略。本文提出了两种在分类任务中对特征进行增量排序的方法。我们的排名策略是基于对分类结果对个体特征的敏感性的测量。这两种方法适用于不同类型的分类环境,具有离散、连续和混合特征类型,且具有最小的先验假设。第二种方法是对原始方法的修改,旨在处理概念漂移,同时避免繁琐的计算。概念漂移被描述为在许多在线学习任务(如在线营销分析)中发生的学习特征的突然或缓慢变化。如果排名不适应,在这段时间内,这些变化将使排名过时。此外,我们研究了在线环境中用于特征约简的不同特征选择方案,以有效地从分类模型中删除无关特征。最后,我们给出了实验结果,验证了我们的方法相对于当前可用的在线特征排序算法的有效性。 MSC公司: 68T05型 人工智能中的学习和自适应系统 68周27 在线算法;流式算法 关键词:特征排序;在线学习;随机梯度下降;混合特征空间 软件:减压阀F;UCI-毫升;Scikit公司;农业部 PDF格式BibTeX公司 XML格式引用 \textit{A.Razmjoo}等人,Ann.Oper。第276号决议,第1--2号,第315-330号(2019年;Zbl 1493.68316) 全文: 内政部 参考文献: [1] Anguita,D.、Ghio,A.、Oneto,L.、Parra Perez,X.和Reyes Ortiz,J.L.(2013)。使用智能手机进行人类活动识别的公共域数据集。第21届欧洲人工神经网络、计算智能和机器学习国际研讨会论文集(第437-442页)。 [2] Bi,J.、Bennett,K.、Embrechts,M.、Breeman,C.和Song,M.(2003)。通过稀疏支持向量机进行降维。机器学习研究杂志,3(3月),1229-1243·Zbl 1102.68531号 [3] Bifet,A.、Holmes,G.、Kirkby,R.和Pfahringer,B.(2010年)。Moa:大量在线分析。机器学习研究杂志,1601-1604年5月11日。 [4] Bolon Canedo,V.、Fernández-Francos,D.、Petero Barral,D.、Alonso Betanzos,A.、Guijarro Berdiñas,B.和Sánchez Maroño,N.(2016)。在线特征选择和分类的统一管道。应用专家系统,55,532-545。 [5] Carvalho,V.R.&Cohen,W.W.(2006)。单程在线学习:性能、投票方案和在线功能选择。第十二届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第548-553页)。ACM公司。 [6] Cohen,L.、Avrahami-Bakish,G.、Last,M.、Kandel,A.和Kipersztok,O.(2008)。传感器网络中非平稳数据流的实时数据挖掘。信息融合,9(3),344-353。 [7] Crammer,K.、Dekel,O.、Keshet,J.、Shalev-Shwartz,S.和Singer,Y.(2006年)。在线被动攻击算法。机器学习研究杂志,7(3月),551-585·Zbl 1222.68177号 [8] Czitrom,V.(1999)。一次一个因素与设计实验。《美国统计学家》,53(2),126-131。 [9] Dash,M.和Liu,H.(1997)。用于分类的功能选择。智能数据分析,1(1-4),131-156。 [10] Duda,R.O.、Hart,P.E.和Stork,D.G.(1973年)。模式分类。纽约:Wiley·Zbl 0277.68056号 [11] Fan,Y.-J.和Chaovalitwingse,W.A.(2010年)。优化特征选择以改进医疗诊断。《运筹学年鉴》,174(1),169-183·兹比尔1185.90154 [12] Finch,T.(2009)。加权平均值和方差的增量计算,第4卷,第11-15页。剑桥大学 [13] Gaber,M.M.、Zaslavsky,A.和Krishnaswamy,S.(2005年)。挖掘数据流:综述。ACM Sigmod记录,34(2),18-26。 [14] Guyon,I.和Elisseeff,A.(2003)。变量和特征选择简介。机器学习研究杂志,31157-1182·兹比尔1102.68556 [15] Guyon,I.、Weston,J.、Barnhill,S.和Vapnik,V.(2002)。使用支持向量机进行癌症分类的基因选择。机器学习,46(1-3),389-422·Zbl 0998.68111号 [16] Hoffman,J.、Rodner,E.、Donahue,J.,Darrell,T.和Saenko,K.(2013年)。有效学习域内非变图像表示。arXiv预印本arXiv:1301.3224。 [17] Katakis,I。;Tsoumakas,G。;弗拉哈瓦斯,I。;Bozanis,P.(编辑);Houstis,EN(编辑),《增量特征选择在文本数据流分类中的作用》,338-348(2005),柏林 [18] Le Thi,H.A.和Nguyen,M.C.(2017年)。基于DCA的多类支持向量机特征选择算法。《运筹学年鉴》,249(1-2),273-300·Zbl 1404.68111号 [19] Lichman,M.(2013)。UCI机器学习库。 [20] Lin,Y.、Guo,H.和Hu,J.(2013)。一种基于svm的股市趋势预测方法。2013年国际神经网络联合会议(IJCNN)(第1-7页)。电气与电子工程师协会。 [21] Liu,H.和Setiono,R.(1995)。Chi2:数字属性的特征选择和离散化。ICTAI(第388-391页)。 [22] Liu,Y.,Li,H.,Peng,G.,Lv,B.,&Zhang,C.(2015)。在线买家细分和促销策略选择:来自中国电子商务市场的证据。《运筹学年鉴》,233(1),263-279·Zbl 1325.90021号 [23] Nair,B.B.、Mohandas,V.和Sakthivel,N.(2010年)。一个用于股市趋势预测的决策树-粗糙集混合系统。国际计算机应用杂志,6(9),1-6。 [24] Nguyen,H-L;伍恩,Y-K;Ng、W-K;Wan,L。;Tan,PN(编辑);Chawla,S.(编辑);Ho,CK(编辑);Bailey,J.(编辑),数据流中特征漂移的异构集成,1-12(2012),柏林 [25] Pedregosa,F.、Varoqueux,G.、Gramfort,A.、Michel,V.、Thirion,B.、Grisel,O.等人(2011年)。Scikit-learn:Python中的机器学习。机器学习研究杂志,12,2825-2830·Zbl 1280.68189号 [26] Perkins,S.&Theiler,J.(2003)。使用嫁接进行在线特征选择。ICML(第592-599页)。 [27] Quinlan,J.R.(1986)。决策树的归纳。机器学习,1(1),81-106。 [28] Quinlan,J.R.(2014)。C4.5:机器学习程序。纽约:爱思唯尔出版社。 [29] Ramírez-Galego,S.、Krawczyk,B.、García,S.,Woźniak,M.和Herrera,F.(2017)。数据流挖掘中的数据预处理综述:现状和未来方向。神经计算,239,39-57。 [30] Razmjoo,A.、Xanthopoulos,P.和Zheng,Q.P.(2017)。基于敏感性分析的在线特征重要性排序。应用专家系统,85,397-406。 [31] Robnik-Šikonja,M.和Kononenko,I.(2003)。救济和相关的理论和实证分析。机器学习,53(1-2),23-69·Zbl 1076.68065号 [32] Saltelli,A.和Annoni,P.(2010年)。如何避免敷衍了事的敏感性分析。环境建模与软件,25(12),1508-1517。 [33] Sayed-Mouchaweh,M.(2016)。从动态环境中的数据流中学习。柏林:斯普林格。 [34] Seref,O.,Fan,Y.-J.,Borenstein,E.,&Chaovalitwingse,W.A.(2018年)。离散k中值聚类的信息论特征选择。运筹学年鉴,263(1-2),93-118·Zbl 1478.62176号 [35] Shen,K.-Q.,Ong,C.-J.,Li,X.-P.,&Wilder-Smith,E.P.(2008)。通过svm概率输出的敏感性分析进行特征选择。机器学习,70(1),1-20·兹比尔1470.68175 [36] Thomopoulos,N.T.(2012年)。蒙特卡罗模拟的要点:建立模拟模型的统计方法。柏林:斯普林格。 [37] Tsymbal,A.(2004)。概念漂移问题:定义和相关工作。都柏林:都柏林三一学院计算机科学系。 [38] Wang,J.,Wang,M.,Li,P.,Liu,L.,Zhao,Z.,Hu,X.等(2015)。在线特征选择与组结构分析。IEEE知识与数据工程汇刊,27(11),3029-3041。 [39] Wang,J.、Zhao,P.、Hoi,S.C.和Jin,R.(2014)。在线特征选择及其应用。IEEE知识与数据工程汇刊,26(3),698-710。 [40] Wold,S.、Esbensen,K.和Geladi,P.(1987)。主成分分析。化学计量学和智能实验室系统,2(1-3),37-52。 [41] Yu,L.和Liu,H.(2003)。高维数据的特征选择:一种基于相关性的快速滤波解决方案。第20届机器学习国际会议论文集(ICML-03)(第856-863页)。 [42] Zaharia,M.、Das,T.、Li,H.、Hunter,T.,Shenker,S.和Stoica,I.(2013)。离散流:大规模容错流计算。第二十四届ACM操作系统原理研讨会论文集(第423-438页)。ACM公司。 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。