×

具有测量误差的数字数据的成本敏感特征选择。 (英语) Zbl 1267.68199号

摘要:特征选择是数据挖掘应用程序中的一个基本过程,因为它降低了模型的复杂性。然而,具有各种类型成本的特征选择仍然是一个新的研究课题。本文研究了具有测量误差的数值数据的成本敏感特征选择问题。本文的主要贡献有四个方面。首先,建立一个新的数据模型来解决测试成本和误分类成本以及错误边界。它与现有模型的主要区别在于误差边界。其次,构造了一个具有正态分布测量误差的基于覆盖的粗糙集模型。使用此模型,覆盖物是根据数据构建的,而不是由用户分配的。第三,在该模型上定义了一个新的成本敏感特征选择问题。它比现有的特征选择问题更现实。第四,提出了回溯算法和启发式算法来处理新问题。实验结果表明了回溯算法修剪技术的有效性和启发式算法的有效性。这项研究是朝着成本敏感学习的实际应用迈出的一步。

MSC公司:

68T05年 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] P.Lanzi,“用遗传算法进行快速特征选择:一种滤波方法”,《IEEE进化计算国际会议论文集》,1997年。
[2] T.L.B.Tseng和C.C Huang,“基于粗糙集的客户关系管理特征选择方法”,《Omega》,第35卷,第4期,第365-383页,2007年。
[3] N.Zhong、J.Z.Dong和S.Ohsuga,“使用粗糙集和启发式进行特征选择”,《智能信息系统杂志》,第16卷,第3期,第199-214页,2001年·Zbl 0994.68149号 ·doi:10.1023/A:101129601502
[4] H.Liu和H.Motoda,《知识发现和数据挖掘的特征选择》,第454卷,Springer出版社,1998年·Zbl 0908.68127号
[5] Y.Weiss、Y.Elovici和L.Rokach,“使用直方图的CASH算法-敏感属性选择”,《信息科学》,第222卷,第247-268页,2013年·doi:10.1016/j.ins.2011.01.035
[6] C.Elkan,“成本敏感学习的基础”,载于《第七届国际人工智能联合会议论文集》,2001年·Zbl 0979.03023号
[7] W.Fan、S.Stolfo、J.Zhang和P.Chan,“Adacost:错误分类成本敏感性提升”,载于1999年第16届国际机器学习会议论文集。
[8] E.B.Hunt、J.Marin和P.J.Stone,《归纳实验》,学术出版社,美国纽约州纽约市,1966年。
[9] M.Pazzani、C.Merz、P.M.K.Ali、T.Hume和C.Brunk,“减少误分类成本”,《第十一届国际机器学习会议论文集》(ICML'94),摩根·考夫曼,1994年。
[10] G.Fumera和F.Roli,“支持向量机中的成本敏感学习”,载于《VIII Convergno Associazione Italiana per L’Intelligenza Artificiale》,2002年·Zbl 1064.68585号
[11] C.X.Ling、Q.Yang、J.N.Wang和S.C.Zhang,“最小成本的决策树”,《第21届机器学习国际会议论文集》,2004年。
[12] R.Greiner、A.J.Grove和D.Roth,“学习成本敏感的主动分类器”,《人工智能》,第139卷,第2期,第137-174页,2002年·doi:10.1016/S0004-3702(02)00209-6
[13] S.Ji和L.Carin,“成本敏感特征获取和分类”,模式识别,第40卷,第1474-1485页,2007年·Zbl 1113.68085号 ·doi:10.1016/j.patcog.2006.11.008
[14] N.Lavrac、D.Gamberger和P.Turney,“将成本敏感特征缩减应用于混合遗传算法”,载于《第七届算法学习理论国际研讨会论文集》(ALT'96),1996年·兹比尔1184.68407 ·doi:10.1007/3-540-61863-5_40
[15] F.Min、H.P.He、Y.H.Qian和W.Zhu,“测试-敏感属性约简”,《信息科学》,第181卷,第4928-4942页,2011年。
[16] R.Susmaga,“最小成本削减的计算”,《智能系统基础》,Z.Ras和A.Skowron,编辑,《计算机科学讲义》第1609卷,第448-456页,施普林格,德国柏林,1999年。
[17] F.Min和W.Zhu,“通过回溯减少最小成本属性”,载于《数据库理论与应用国际会议论文集》,FGIT-DTA/BSBT第258卷,CCIS,2011年。
[18] F.Min和Q.Liu,“测试-敏感决策系统的层次模型”,《信息科学》,第179卷,第14期,第2442-2452页,2009年·Zbl 1192.68651号 ·doi:10.1016/j.ins.2009.03.007
[19] P.Turny,“成本敏感分类:混合遗传决策树归纳算法的实证评估”,《人工智能研究杂志》,第2卷,第1期,第369-409页,1994年。
[20] D.Marginantu,“成本敏感学习方法”,2001年。
[21] S.Norton,“生成更好的决策树”,载于1989年第11届国际人工智能联合会议论文集·Zbl 0709.68085号
[22] M.Nüñez,“决策树归纳中背景知识的使用”,机器学习,第6卷,第3期,第231-250页,1991年。
[23] M.Tan,“分类知识的成本敏感学习及其在机器人学中的应用”,《机器学习》,第13卷,第1期,第7-33页,1993年。
[24] N.Johnson和S.Kotz,《连续分配》,John Wiley,美国纽约州纽约市·Zbl 0213.21101号
[25] R.A.Johnson和D.W.Wichern,《应用多元统计分析》,第4卷,Prentice Hall,Englewood Cliffs,美国新泽西州,第3版,1992年·Zbl 0745.62050号
[26] F.Min、W.Zhu、H.Zhao、G.Y.Pan、J.B.Liu和Z.L.Xu,“Coser:成本敏感粗糙集”,2012年,http://grc.fjzs.edu.cn/fmin/。
[27] 姚永元,“粒度计算的分区模型”,《粗糙集学报》,第3100卷,第232-253页,2004年·Zbl 1104.68776号 ·doi:10.1007/b98175
[28] H.Zhao、F.Min和W.Zhu,“具有正态分布测量误差的数据的测试-敏感属性约简”,《工程中的数学问题》,2013年第卷,文章编号946070,12页,2013年·Zbl 1299.62002号 ·doi:10.1155/2013/946070
[29] T.Y.Lin,“二元关系上的粒度计算——冲突分析和中国墙安全政策”,载于《计算中的粗糙集和当前趋势》,第2475卷,《人工智能讲义》,2002年。
[30] T.Y.Lin,“颗粒计算结构、表示和应用”,载于《人工智能讲义》,第2639卷,2003年。
[31] L.Ma,“关于某些类型的邻域相关覆盖粗糙集”,《国际近似推理杂志》,第53卷,第6期,第901-911页,2012年·Zbl 1246.03068号 ·doi:10.1016/j.ijar.2012.03.004
[32] H.Zhao、F.Min和W.Zhu,“基于邻域粗糙集的测试-敏感属性约简”,《IEEE粒度计算国际会议论文集》,2011年。
[33] W.Zhu,“基于关系的广义粗糙集”,《信息科学》,第177卷,第22期,第4997-5011页,2007年·Zbl 1129.68088号 ·doi:10.1016/j.ins.2007.05.037
[34] 朱伟(W.Zhu)和王凤英(F.-Y.Wang),“覆盖广义粗糙集的约简和公理化”,《信息科学》,第152卷,第217-230页,2003年·兹比尔1069.68613 ·doi:10.1016/S0020-0255(03)00056-2
[35] F.Min和W.Zhu,“具有误差范围和测试成本的数据属性约简”,《信息科学》,第211卷,第48-67页,2012年·兹比尔1250.68227 ·doi:10.1016/j.ins.2012.04.031
[36] Z.Zhou和X.Liu,“用解决类不平衡问题的方法训练成本敏感的神经网络”,IEEE知识与数据工程汇刊,第18卷,第1期,第63-772006页。
[37] H.Zhao、F.Min和W.Zhu,“数值数据最小成本特征选择的回溯方法”,《信息与计算科学杂志》。新闻界。
[38] M.Kukar和I.Kononenko,“神经网络的成本敏感学习”,《第13届欧洲人工智能会议论文集》(ECAI'98),英国奇切斯特John Wiley&Sons出版社,1998年·兹比尔1014.68805
[39] J.Lan、M.Hu、E.Patuwo和G.Zhang,“错误分类成本和组大小不等的神经网络分类器的研究”,《决策支持系统》,第48卷,第4期,第582-591页,2010年。
[40] P.Turney,“归纳概念学习中的成本类型”,载于《ICML-2000成本敏感学习研讨会论文集》,2000年。
[41] S.Viaene和G.Dedene,“重新审视成本敏感学习和决策”,《欧洲运筹学杂志》,第166卷,第1期,第212-220页,2005年·Zbl 1066.90537号 ·doi:10.1016/j.ejor.2004.03.031
[42] Z.Pawlak,“粗糙集”,《国际计算机和信息科学杂志》,第11卷,第5期,第341-356页,1982年·Zbl 0501.68053号 ·doi:10.1007/BF01001956
[43] J.Błaszczynski、S.Greco、R.S \322»owiáski和M.Szel\cag,“单调变量一致性粗糙集方法”,《国际近似推理杂志》,第50卷,第7期,第979-999页,2009年·Zbl 1191.68673号 ·doi:10.1016/j.ijar.2009.02.011
[44] Z.Bonikowski、E.Bryniarski和U.Wybraniec-Skardowska,“粗糙集理论中的扩展和意图”,《信息科学》,第107卷,第1-4期,第149-167页,1998年·Zbl 0934.03069号 ·doi:10.1016/S0020-0255(97)10046-9
[45] M.Inuiguchi、Y.Yoshioka和Y.Kusunoki,“基于变决策优势的粗糙集方法和属性约简”,《国际近似推理杂志》,第50卷,第8期,第1199-1214页,2009年·Zbl 1191.68681号 ·doi:10.1016/j.ijar.2009.02.003
[46] Y.Kudo、T.Murai和S.Akama,“基于粒度的演绎、归纳和诱拐框架”,《国际近似推理杂志》,第50卷,第8期,第1215-1226页,2009年·Zbl 1191.68686号 ·doi:10.1016/j.ijar.2009.06.002
[47] J.A.PomykałA,“近似空间中的近似运算”,《波兰科学院公报:数学》,第35卷,第9-10期,第653-6621987页·Zbl 0642.54002号
[48] 姚永元,“粗糙集理论的构造和代数方法”,《信息科学》,第109卷,第1-4期,第21-47页,1998年·Zbl 0934.03071号 ·doi:10.1016/S0020-0255(98)00012-7
[49] 姚永元,“概率粗糙集近似”,《近似推理杂志》,第49卷,第2期,第255-271页,2008年·Zbl 1191.68702号
[50] W.Zakowski,“空间中的近似(u,\pi)”,《数学演示》,第16卷,第40期,第761-769页,1983年·Zbl 0553.04002号
[51] 朱伟,“覆盖粗糙集中基本概念之间的关系”,《信息科学》,第179卷,第14期,第2478-2486页,2009年·Zbl 1178.68579号 ·doi:10.1016/j.ins.2009.02.013
[52] W.Zhu和F.Wang,“关于基于覆盖的粗糙集的三种类型”,IEEE知识与数据工程汇刊,第19卷,第8期,第1131-1144页,2007年。
[53] S.Calegari和D.Ciucci,“应用于本体的粒度计算”,《国际近似推理杂志》,第51卷,第4期,第391-4092010页·Zbl 1205.68394号 ·doi:10.1016/j.ijar.2009.11.006
[54] W.Zhu和F.Wang,“冲突分析中基于覆盖的粒度计算”,《情报与安全信息学》,第566-5712006页。
[55] 维基百科,网址:http://www.wikipedia.org/。
[56] Z.Pawlak,《粗糙集:数据推理的理论方面》,Kluwer学术出版社,美国马萨诸塞州波士顿,1991年·Zbl 0758.68054号
[57] M.Dash和H.Liu,“分类的特征选择”,《智能数据分析》,第1卷,第1-4期,第131-156页,1997年。
[58] X.Wang、J.Yang、X.Teng、W.Xia和R.Jensen,“基于粗糙集和粒子群优化的特征选择”,《模式识别快报》,第28卷,第4期,第459-471页,2007年。
[59] W.Siedlecki和J.Sklansky,“大规模特征选择的遗传算法注释”,《模式识别快报》,第10卷,第5期,第335-347页,1989年·Zbl 0942.68690号 ·doi:10.1016/0167-8655(89)90037-8
[60] C.L.Blake和C.J.Merz,“机器学习数据库的UCI存储库”,1998年,网址:http://www.ics.uci.edu/mlearn/mlrepository.html。
[61] 刘庆华,李凤,李凤敏,叶美华,杨国伟,“基于新条件信息熵的高效约简算法”,《控制与决策》,第20卷,第8期,第878-882页,2005年(中文)·Zbl 1115.68519号
[62] A.Skowron和C.Rauszer,“信息系统中的区分矩阵和功能”,《智能决策支持》,1992年。
[63] G.Wang,“决策表的属性核心”,载于《粗糙集与当前计算趋势学报》,计算机科学讲义第2475卷,2002年·Zbl 1013.68571号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。