×

混合在线环境中分类的功能重要性排序。 (英语) Zbl 1493.68316号

摘要:在线学习是机器学习的一个不断发展的分支,在许多领域都有应用。该领域研究较少的主题之一是开发在线特征重要性排名策略。本文提出了两种在分类任务中对特征进行增量排序的方法。我们的排名策略是基于对分类结果对个体特征的敏感性的测量。这两种方法适用于不同类型的分类环境,具有离散、连续和混合特征类型,且具有最小的先验假设。第二种方法是对原始方法的修改,旨在处理概念漂移,同时避免繁琐的计算。概念漂移被描述为在许多在线学习任务(如在线营销分析)中发生的学习特征的突然或缓慢变化。如果排名不适应,在这段时间内,这些变化将使排名过时。此外,我们研究了在线环境中用于特征约简的不同特征选择方案,以有效地从分类模型中删除无关特征。最后,我们给出了实验结果,验证了我们的方法相对于当前可用的在线特征排序算法的有效性。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68周27 在线算法;流式算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Anguita,D.、Ghio,A.、Oneto,L.、Parra Perez,X.和Reyes Ortiz,J.L.(2013)。使用智能手机进行人类活动识别的公共域数据集。第21届欧洲人工神经网络、计算智能和机器学习国际研讨会论文集(第437-442页)。
[2] Bi,J.、Bennett,K.、Embrechts,M.、Breeman,C.和Song,M.(2003)。通过稀疏支持向量机进行降维。机器学习研究杂志,3(3月),1229-1243·Zbl 1102.68531号
[3] Bifet,A.、Holmes,G.、Kirkby,R.和Pfahringer,B.(2010年)。Moa:大量在线分析。机器学习研究杂志,1601-1604年5月11日。
[4] Bolon-Canedo,V.、Fernández-Francos,D.、Peteiro-Barral,D.、Alonso-Betanzos,A.、Guijarro-Berdiñas,B.和Sánchez-Maroño,N.(2016)。在线特征选择和分类的统一管道。应用专家系统,55,532-545。
[5] Carvalho,V.R.&Cohen,W.W.(2006)。单程在线学习:性能、投票方案和在线功能选择。第十二届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第548-553页)。ACM。
[6] Cohen,L.、Avrahami Bakish,G.、Last,M.、Kandel,A.和Kipersztok,O.(2008)。传感器网络中非平稳数据流的实时数据挖掘。信息融合,9(3),344-353。
[7] Crammer,K.、Dekel,O.、Keshet,J.、Shalev-Shwartz,S.和Singer,Y.(2006年)。在线被动攻击算法。机器学习研究杂志,7(3月),551-585·Zbl 1222.68177号
[8] Czitrom,V.(1999)。一次一个因素与设计实验。《美国统计学家》,53(2),126-131。
[9] Dash,M.和Liu,H.(1997年)。用于分类的特征选择。智能数据分析,1(1-4),131-156。
[10] Duda,R.O.、Hart,P.E.和Stork,D.G.(1973年)。模式分类。纽约:Wiley·Zbl 0277.68056号
[11] Fan,Y.-J.和Chaovalitwingse,W.A.(2010年)。优化特征选择以改进医疗诊断。《运筹学年鉴》,174(1),169-183·Zbl 1185.90154号
[12] Finch,T.(2009)。加权平均值和方差的增量计算,第4卷,第11-15页。剑桥大学
[13] Gaber,M.M.、Zaslavsky,A.和Krishnaswamy,S.(2005年)。挖掘数据流:综述。ACM Sigmod记录,34(2),18-26。
[14] Guyon,I.和Elisseeff,A.(2003)。变量和特征选择简介。机器学习研究杂志,31157-1182·兹比尔1102.68556
[15] Guyon,I.、Weston,J.、Barnhill,S.和Vapnik,V.(2002)。使用支持向量机进行癌症分类的基因选择。机器学习,46(1-3),389-422·Zbl 0998.68111号
[16] Hoffman,J.、Rodner,E.、Donahue,J.,Darrell,T.和Saenko,K.(2013年)。有效学习域内非变图像表示。arXiv预打印arXiv:1301.3224。
[17] Katakis,I。;Tsoumakas,G。;弗拉哈瓦斯,I。;Bozanis,P.(编辑);Houstis,EN(编辑),《增量特征选择在文本数据流分类中的作用》,338-348(2005),柏林
[18] Le Thi,H.A.和Nguyen,M.C.(2017年)。基于DCA的多类支持向量机特征选择算法。《运筹学年鉴》,249(1-2),273-300·Zbl 1404.68111号
[19] Lichman,M.(2013)。UCI机器学习库。
[20] Lin,Y.、Guo,H.和Hu,J.(2013)。一种基于svm的股市趋势预测方法。2013年国际神经网络联合会议(IJCNN)(第1-7页)。电气与电子工程师协会。
[21] Liu,H.和Setiono,R.(1995)。Chi2:数字属性的特征选择和离散化。ICTAI(第388-391页)。
[22] Liu,Y.,Li,H.,Peng,G.,Lv,B.,&Zhang,C.(2015)。在线买家细分和促销策略选择:来自中国电子商务市场的证据。《运筹学年鉴》,233(1),263-279·Zbl 1325.90021号
[23] Nair,B.B.、Mohandas,V.和Sakthivel,N.(2010年)。一个用于股市趋势预测的决策树-粗糙集混合系统。国际计算机应用杂志,6(9),1-6。
[24] Nguyen,H-L;Woon,Y-K;Ng、W-K;Wan,L。;Tan,PN(编辑);Chawla,S.(编辑);Ho,CK(编辑);Bailey,J.(编辑),数据流中特征漂移的异构集成,1-12(2012),柏林
[25] Pedregosa,F.、Varoqueux,G.、Gramfort,A.、Michel,V.、Thirion,B.、Grisel,O.等人(2011年)。Scikit-learn:Python中的机器学习。机器学习研究杂志,12,2825-2830·Zbl 1280.68189号
[26] Perkins,S.&Theiler,J.(2003)。使用嫁接进行在线特征选择。ICML(第592-599页)。
[27] Quinlan,J.R.(1986)。决策树的归纳。机器学习,1(1),81-106。
[28] 昆兰,J.R.(2014)。C4.5:机器学习程序。纽约:爱思唯尔出版社。
[29] Ramírez-Galego,S.、Krawczyk,B.、García,S.,Woźniak,M.和Herrera,F.(2017)。数据流挖掘中的数据预处理综述:现状和未来方向。神经计算,239,39-57。
[30] Razmjoo,A.、Xanthopoulos,P.和Zheng,Q.P.(2017)。基于敏感性分析的在线特征重要性排序。应用专家系统,85,397-406。
[31] Robnik-Šikonja,M.和Kononenko,I.(2003年)。救济和相关的理论和实证分析。机器学习,53(1-2),23-69·Zbl 1076.68065号
[32] Saltelli,A.和Annoni,P.(2010年)。如何避免敷衍了事的敏感性分析。环境建模与软件,25(12),1508-1517。
[33] Sayed-Mouchaweh,M.(2016)。从动态环境中的数据流中学习。柏林:斯普林格。
[34] Seref,O.、Fan,Y.-J、Borenstein,E.和Chaovaltwongse,W.A.(2018)。离散k中值聚类的信息论特征选择。运筹学年鉴,263(1-2),93-118·Zbl 1478.62176号
[35] Shen,K.-Q.,Ong,C.-J.,Li,X.-P.,&Wilder-Smith,E.P.(2008)。通过svm概率输出的敏感性分析进行特征选择。机器学习,70(1),1-20·Zbl 1470.68175号
[36] Thomopoulos,N.T.(2012年)。蒙特卡罗模拟的要点:建立模拟模型的统计方法。柏林:斯普林格。
[37] Tsymbal,A.(2004)。概念漂移问题:定义和相关工作。都柏林:都柏林三一学院计算机科学系。
[38] Wang,J.,Wang,M.,Li,P.,Liu,L.,Zhao,Z.,Hu,X.等(2015)。在线特征选择与组结构分析。IEEE知识与数据工程汇刊,27(11),3029-3041。
[39] Wang,J.、Zhao,P.、Hoi,S.C.和Jin,R.(2014)。在线特征选择及其应用。IEEE知识与数据工程汇刊,26(3),698-710。
[40] Wold,S.、Esbensen,K.和Geladi,P.(1987)。主成分分析。化学计量学和智能实验室系统,2(1-3),37-52。
[41] Yu,L.和Liu,H.(2003)。高维数据的特征选择:一种基于相关性的快速滤波解决方案。第20届机器学习国际会议论文集(ICML-03)(第856-863页)。
[42] Zaharia,M.、Das,T.、Li,H.、Hunter,T.,Shenker,S.和Stoica,I.(2013)。离散流:大规模容错流计算。第二十四届ACM操作系统原理研讨会论文集(第423-438页)。ACM。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。