×

提高特征选择过程对多维诅咒效应导致的失败的抵抗力。 (英语) Zbl 1218.62065号

摘要:机器学习中特征选择的目的是至少两倍地节省测量获取成本,减少维数灾难的负面影响,目的是提高模型的准确性和分类器对先前未知数据的分类率。然而,最近的研究表明,特征选择过程本身也会受到维度诅咒的负面影响;特征选择方法可能容易过拟合或执行不稳定。这样的结果不太可能很好地推广,由此产生的识别系统可能无法实现预期的性能。因此,在许多任务中,至关重要的是采用额外的机制,使特征选择过程更加稳定,并抵抗维数诅咒效应。我们讨论了三种不同的方法来减少这个问题。我们提出了一种适用于各种特征选择方法的算法扩展,能够减少对特定训练数据和特定准则函数属性的过度特征子集依赖。此外,我们讨论了标准集合的概念,其中各种标准对特征的包含/移除进行投票,并提供了特征选择混合的一般定义,旨在结合从属标准和独立标准的优点。通过实例说明了提出的观点,并给出了总结性建议。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
68吨10 模式识别、语音识别
62G99型 非参数推理
68T05型 人工智能中的学习和自适应系统
65C60个 统计中的计算问题(MSC2010)
PDF格式BibTeX公司 XML格式引用
全文: 欧洲DML 链接

参考文献:

[1] Brown,G.:信息论特征选择的新视角。程序。AISTATS’09,JMLR:W&CP 5(2009),第49-56页。
[2] Chang,Ch.-Ch.,Lin,Ch.-J.:LIBSVM:支持向量机库,2001年。
[3] Das,S.:用于特征选择的过滤器、包装器和基于增强的混合。程序。第18届机器学习国际会议(ICML'01),摩根考夫曼出版社,2001年,第74-81页。
[4] Dash,M.,Choi,K.,Scheuermann,P.,Liu,H.:聚类的特征选择-过滤解决方案。程序。2002年IEEE数据挖掘国际会议(ICDM’02),第00卷,IEEE Comp。Soc.2002,第115页。
[5] Devijver,P.A.,Kittler,J.:模式识别:统计方法。普伦蒂斯·霍尔1982·Zbl 0542.68071号
[6] Dutta,D.,Guha,R.,Wild,D.,Chen,T.:集合特征选择:多个qsar模型的一致描述符子集。化学杂志。信息模型。43(2007),3,第989-997页。
[7] C.Emmanuilidis:神经模糊建模中用于特征选择的多准则遗传算法。国际。神经网络会议,1999年第6卷,第4387-4392页。
[8] Frank,A.,Asuncion,A.:哈什(0x3185490)。UCI机器学习库,2010年。
[9] Gheyas,I.A.,Smith,L.S.:大维域中的特征子集选择。模式识别43(2010),1,5-13·Zbl 1192.68574号 ·doi:10.1016/j.patcog.2009.06.009
[10] Glover,F.W.,Kochenberger,G.A.:元启发式手册。国际。序列号。运营商。研究与管理科学5,Springer 2003·兹比尔1058.90002 ·doi:10.1007/b101874
[11] Günter,S.,Bunke,H.:手写单词记录中集成方法的评估。基于特征选择。程序。ICPR’04,IEEE组件。Soc.2004,第388-392页。
[12] Guyon,I.,Elisseeff,A.:变量和特征选择的介绍。J.马赫。学习。第3号决议(2003年),1157-1182·Zbl 1102.68556号 ·doi:10.1162/153244303322753616
[13] Guyon,I.、Gunn,S.、Nikravesh,M.、Zadeh,L.A.:特征提取-基础和应用。模糊与软补偿研究。207《物理》,斯普林格出版社,2006年·Zbl 1114.68059号 ·doi:10.1007/978-3-540-35488-8
[14] 何丁锦:构建决策森林的随机子空间方法。IEEE传输。帕米20(1998),832-844·数字对象标识代码:10.1109/34.709601
[15] Hussein,F.,Ward,R.,Kharma,N.:特征选择和加权的遗传算法,综述和研究。程序。第6届ICDAR,第00卷,IEEE Comp。Soc.2001,第1240-1244页。
[16] Jensen,R.:使用ACO执行特征选择。研究计算。情报34,Springer 2006,第45-73页。
[17] 变量和特征选择的特殊问题。机器学习研究杂志,2003
[18] Kalousis,A.,Prados,J.,Hilario,M.:特征选择算法的稳定性:高维空间研究。知识通知。系统12(2007),195-116·doi:10.1007/s10115-006-0040-8
[19] Kittler,J.,Hatef,M.,Duin,R.P.W.,Matas,J.:关于组合量词。IEEE传输。PAMI 20(1998),3226-239·doi:10.1109/34.667881
[20] Kohavi,R.,John,G.H.:特征子集选择的包装器。人工智能97(1997),1-2273-324·Zbl 0904.68143号 ·doi:10.1016/S0004-3702(97)00043-X
[21] Kononenko,I.:估计属性:RELIEF的分析和扩展。程序。ECML-94,Springer 1994,第171-182页。
[22] Kuncheva,L.I.:特征选择的稳定性指数。程序。第25届国际会计准则委员会。2007年《国际会计准则汇编》,2007年ACTA Pr.,第390-395页。
[23] Lai,C.,Reinders,M.J.T.,Wessels,L.:多元特征选择的随机子空间方法。模式识别信函。27 (2006), 10, 1067-1076. ·doi:10.1016/j.patrec.2005.12.018
[24] Liu,H.,Motoda,H.:知识发现和数据挖掘的特征选择。Kluwer学术出版社,1998年·兹比尔0908.68127
[25] Liu,H.,Yu,L.:面向分类和聚类的集成特征选择算法。IEEE Trans。KDE 17(2005),4491-502。
[26] Nakariyakul,S.,Casasent,D.P.:用于选择最佳特征的自适应分支定界算法。模式识别信函。28 (2007), 12, 1415-1427. ·doi:10.1016/j.patrec.2007.02.015
[27] Nakariyakul,S.,Casasent,D.P.:特征子集选择浮动搜索算法的改进。模式识别42(2009),9,1932-1940·Zbl 1178.68503号 ·doi:10.1016/j.patcog.2008.11.018
[28] Novovičová,J.,Pudil,P.,Kittler,J.:多模态类密度的基于散度的特征选择。IEEE传输。PAMI 18(1996),2218-223·doi:10.1109/34.481557
[29] Pudil,P.,Novovičová,J.,Choakjarernwanit,N.,Kittler,J.:基于特殊类型有限混合类密度近似的特征选择。模式识别28(1995),9,1389-1398·doi:10.1016/0031-3203(94)00009-B
[30] Pudil,P.,Novovičová,J.,Kittler,J.:特征选择中的浮动搜索方法。模式识别信函。15 (1994), 11, 1119-1125. ·doi:10.1016/0167-8655(94)90127-9
[31] 萨·劳迪斯。J.:功能过度选择。程序。S+SSPR,计算机课堂讲稿。科学。4109,Springer 2006,第622-631页。
[32] al.,V.C.Raykar等人:贝叶斯多实例学习:自动特征选择和归纳迁移。程序。ICML’08,ACM 2008,第808-815页。
[33] Reunanen,J.:确定最佳特征子集大小的陷阱。程序。第四国际。帕特研讨会。《信息系统记录》(PRIS 2004),第176-185页。
[34] Reunanen,J.:对特征选择好处的偏见较小。统计和优化。展望研讨会,SLSFS,计算机讲义。科学。3940,Springer 2006,第198-208页。
[35] Saeys,Y.,Inza,I.,Larrañaga,P.:生物信息学中特征选择技术综述。生物信息学23(2007),192507-2517·doi:10.1093/bioinformatics/btm344
[36] Salappa,A.,Doumpos,M.,Zopounidis,C.:分类问题中的特征选择算法:实验评估。优化。方法软件22(2007),1199-212·兹比尔1116.62069 ·网址:10.1080/10556780600881910
[37] Sebastiani,F.:自动文本分类中的机器学习。ACM计算。调查34(2002),1,1-47·doi:10.1145/505282.505283
[38] Sebban,M.,Nock,R.:一种利用信息理论进行特征选择的混合过滤器/包装器方法。模式识别35(2002),835-846·Zbl 0997.68115号 ·doi:10.1016/S0031-3203(01)00084-X
[39] Somol,P.、Grim,J.、Pudil,P.:特征选择中的标准集合。程序。MCS,计算机课堂讲稿。科学。5519,Springer 2009,第304-313页。
[40] Somol,P.,Grim,J.,Pudil,P.:特征选择方法中脆弱特征子集偏好的问题和算法解决方案的建议。ICPR 2010。IEEE组件。Soc.2010年。
[41] Somol,P.,Novovičová,J.,Pudil,P.:统计特征选择中的灵活混合顺序浮动搜索。程序。S+SSPR,计算机课堂讲稿。科学。4109,Springer 2006,第632-639页。
[42] Somol,P.,Novovičová,J.:评估优化特征子集基数的特征选择器的稳定性。程序。S+SSPR,计算机课堂讲稿。科学。5342 Springer 2008,第956-966页。
[43] Somol,P.,Novovičová,J.,Grim,J..,Pudil,P.:特征选择的动态振荡搜索算法。2008年国际比较项目报告。IEEE组件。Soc.2008年·Zbl 1029.68606号
[44] Somol,P.,Novovičová,J.,Pudil,P.:通过杂交提高序列特征选择方法的性能。程序。第六届IASTED国际计算机科学与工程进展会议。ACTA出版社,2010年·Zbl 1029.68606号
[45] Somol,P.,Pudil,P.:特征选择的振荡搜索算法。ICPR 2000,IEEE组件。Soc.02(2000),406-409。
[46] Somol,P.,Pudil,P,Kittler,J.:最佳特征选择的快速分支定界算法。IEEE传输。关于PAMI 26(2004),7900-912·doi:10.1109/TPAMI.2004.28
[47] Sun,Y.:特征加权的迭代RELIEF:算法、理论和应用。IEEE传输。PAMI 29(2007),61035-1051·doi:10.1109/TPAMI.2007.1093
[48] al,M.-A.Tahir等人:使用混合禁忌搜索/k近邻分类器同时进行特征选择和特征加权。帕特。表彰信。28 (2007), 4, 438-446. ·doi:10.1016/j.patrec.2006.08.016
[49] Whitney,A.W.:非参数测量选择的直接方法。IEEE传输。计算。20 (1971), 9, 1100-1103. ·Zbl 0227.68047号 ·doi:10.1109/T-C.1971.223410
[50] Yang,Y.,Pedersen,J.O.:文本分类中特征选择的比较研究。程序。第14国际。机器学习会议(ICML’97),Morgan Kaufmann 1997,第412-420页。
[51] Yu,L.,Liu,H.:高维数据的特征选择:基于快速相关性的滤波解决方案。程序。第20届国际。机器学习会议(ICML-03),第20卷,Morgan Kaufmann 2003,第856-863页。
[52] Zhu,Z.,Ong,Y.S.,Dash,M.:使用模因框架的包装过滤器特征选择算法。IEEE Trans。Systems Man Cybernet。,B部分37(2007),1,70·doi:10.1109/TSMCB.2006.883267
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。