×

使用收缩估计器进行有效的特征选择。 (英语) Zbl 1472.68156号

机器。学习。 108,编号8-9,1261-1286(2019); 更正同上109,第8号,1565-1567(2020)。
摘要:信息论特征选择方法通过估计要捕获的互信息项来量化每个特征的重要性:相关性、冗余性和互补性。这些术语通常是通过最大似然法进行估计的,而如何使用收缩法则是一个尚未开发的研究领域。我们的工作为信息论术语的数据有效性估计提出了一种新的收缩方法。小样本行为使其特别适合于估计具有大量类别(箱)的离散分布。使用我们的新估计器,我们导出了一个生成特征选择标准的框架,该标准捕获任何高阶特征交互以实现冗余和互补。我们对来自不同来源的数据集进行了全面的实证研究,并使用了各种评估措施。我们的第一个发现是,基于收缩的方法取得了更好的结果,同时它们与基于简单最大似然的方法保持相同的计算成本。此外,在我们的框架下,我们推导出了高效的新型高阶准则,在各种任务中都优于最先进的方法。

MSC公司:

68T05型 人工智能中的学习和自适应系统
2007年6月62日 岭回归;收缩估计器(拉索)
68页30 编码和信息理论(压缩、压缩、通信模型、编码方案等)(计算机科学方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿格雷斯蒂,A.,分类数据分析(2013),纽约:威利,纽约·Zbl 1281.62022号
[2] 阿格雷斯蒂,A。;Hitchcock,DB,分类数据分析的贝叶斯推断,统计方法与应用,14,3,297-330(2005)·Zbl 1124.62307号 ·doi:10.1007/s10260-005-0121-y
[3] Aliferis,CF;Statnikov,A。;沙马尔迪诺斯一世。;马尼,S。;Koutsoukos,XD,《用于因果发现和分类特征选择的局部因果和马尔可夫覆盖归纳——第一部分:算法和实证评估》,《机器学习研究杂志》(JMLR),11,171-234(2010)·Zbl 1242.68197号
[4] 阿彻,E。;公园,IM;Pillow,JW,离散数据互信息的贝叶斯和准贝叶斯估计,熵,15,5,1738-1755(2013)·Zbl 1296.62054号 ·doi:10.3390/e15051738
[5] A.巴布。;她,Y。;丁·L。;Gramajo,G.,《计算机视觉和大数据学习的退火特征选择》,IEEE模式分析和机器智能汇刊(PAMI),39,2,272-286(2017)·doi:10.1109/TPAMI.2016.2544315
[6] Battiti,R.,在监督神经网络学习中使用互信息选择特征,IEEE神经网络汇刊,5,4,537-550(1994)·doi:10.1109/72.298224
[7] 波隆-卡内多,V。;Sánchez-Marono,N。;Alonso-Betanzos,A。;贝尼特斯,JM;Herrera,F.,《微阵列数据集和应用特征选择方法综述》,信息科学,282111-135(2014)·doi:10.1016/j.ins.2014.05.042
[8] Brillinger,DR,《使用相互信息的一些数据分析》,《巴西概率统计杂志》,第18期,第163-182页(2004年)·Zbl 1272.62007年
[9] 布朗,G。;波科克,A。;赵明杰;Lujan,M.,《条件似然最大化:信息理论特征选择的统一框架》,《机器学习研究杂志》(Journal of Machine Learning Research,JMLR),13,27-66(2012)·Zbl 1283.68283号
[10] 英国石油公司卡林;Louis,TA,Bayes和经验Bayes方法用于数据分析(2008),Boca Raton:Chapman&Hall,Boca Raton·Zbl 0871.62012号
[11] 盖子,TM;JA Thomas,《信息理论的要素》(2006),纽约:威利出版社,纽约·Zbl 1140.94001号
[12] Efron,B.,《大尺度推断:估计、测试和预测的经验贝叶斯方法》(2012),剑桥:剑桥大学出版社,剑桥·Zbl 1256.62007年
[13] Fleuret,F.,带条件互信息的快速二进制特征选择,机器学习研究杂志(JMLR),51531-1555(2004)·兹比尔1222.68200
[14] Forman,G.,《文本分类特征选择度量的广泛实证研究》,《机器学习研究杂志》(JMLR),3月3日,1289-1305(2003)·Zbl 1102.68553号
[15] Friedman,JH,正则化判别分析,美国统计协会杂志,84,405,165-175(1989)·doi:10.1080/01621459.1989.10478752
[16] 盖恩,I。;Elisseeff,A.,《变量和特征选择简介》,《机器学习研究杂志》(JMLR),31157-1182(2003)·Zbl 1102.68556号
[17] Hausser,J。;Strimmer,K.,熵推断和james-stein估计,及其在非线性基因关联网络中的应用,机器学习研究杂志(JMLR),101469-1484(2009)·Zbl 1235.62006号
[18] Hutter,M.(2002年)。相互信息的分发。T.G.Dietterich、S.Becker和Z.Ghahramani(编辑),《神经信息处理系统进展》(NIPS)(第399-406页)。麻省理工学院出版社。
[19] Jakulin,A.(2005)。基于属性交互的机器学习。斯洛文尼亚卢布尔雅那大学博士论文。
[20] James,W.和Stein,C.(1961年)。二次损失估算。在《伯克利第四届数理统计与概率研讨会论文集》第1卷:对统计学理论的贡献(第361-379页)。加利福尼亚大学出版社·Zbl 1281.62026号
[21] O.莱多特。;Wolf,M.,《股票收益协方差矩阵的改进估计及其在投资组合选择中的应用》,《实证金融杂志》,2003年第10期,第5期,第603-621页·doi:10.1016/S0927-5398(03)00007-0
[22] David D.Lewis(1992年)。用于文本分类的特征选择和特征提取。演讲与自然语言研讨会论文集。
[23] Lin,D.和Tang,X.(2006)。条件infomax学习:一个用于特征提取和融合的集成框架。欧洲计算机视觉会议
[24] Liu,H.和Ditzler,G.(2017)。联合互信息特征选择的快速信息理论近似。IJCNN(第4610-4617页)。
[25] Llinares-López,F.、Sugiyama,M.、Papathonos,L.和Borgwardt,K.(2015)。通过置换测试快速且内存高效的重要模式挖掘。第21届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第725-734页)。ACM公司。
[26] Meyer,P.E.和Bontempi,G.(2006年)。在癌症分类中使用变量互补进行特征选择。在作品中介绍了进化算法的应用。
[27] 梅耶,体育;Schretter,C。;Bontempi,G.,使用可变互补性的微阵列数据中的信息论特征选择,IEEE信号处理选定主题期刊,2,3,261-274(2008)·doi:10.1109/JSTSP.2008.923858
[28] Nemenman,I.、Shafee,F.和Bialek,W.(2002年)。熵和推理,重温。T.G.Dietterich、S.Becker和Z.Ghahramani(编辑),《神经信息处理系统进展》(NIPS)(第471-478页)。麻省理工学院出版社。
[29] Paninski,L.,熵和互信息的估计,神经计算,15,6,1191-1253(2003)·Zbl 1052.62003年 ·doi:10.1162/089976603321780272
[30] Papaxantos,L.、Llinares-López,F.、Bodenham,D.和Borgwardt,K.(2016)。在类别协变量存在的情况下发现显著的特征组合。D.D.Lee、M.Sugiyama、U.V.Luxburg、I.Guyon和R.Garnett(编辑),《神经信息处理系统的进展》(第2279-2287页)。Curran Associates公司。
[31] 彭,H。;长,F。;Ding,C.,基于最大依赖性、最大相关性和最小冗余度的互信息标准的特征选择,IEEE模式分析和机器智能汇刊(PAMI),27,8,1226-1238(2005)·doi:10.1109/TPAMI.2005.159
[32] Schäfer,J。;斯特里默,K.,《大规模协方差矩阵估计的收缩方法及其对功能基因组学的影响》,《遗传学和分子生物学中的统计应用》,4,1,1175-1189(2005)·doi:10.2202/1544-6115.1175
[33] Scutari,M。;Brogini,A.,带置换测试的贝叶斯网络结构学习,《统计学中的通信——理论和方法》,41,16-17,3233-3243(2012)·Zbl 1296.62044号 ·doi:10.1080/03610926.2011.593284
[34] 塞奇迪斯,K。;Brown,G.,《半监督特征选择的简单策略》,机器学习,107,2,357-395(2018)·Zbl 1457.68239号 ·doi:10.1007/s10994-017-5648-2
[35] 塞奇迪斯,K。;斯佩林,M。;佩特里克,ES;Lujn,M。;Brown,G.,《处理未充分报告的变量:信息论解决方案》,《国际近似推理杂志》,85,159-177(2017)·Zbl 1429.62052号 ·doi:10.1016/j.ijar.2017.04.002
[36] Sechidis,K。;Papangelou,K。;梅特卡夫,PD;Svensson博士。;韦瑟尔,J。;Brown,G.,《区分预测性和预测性生物标志物:信息论方法》,生物信息学,1,12(2018)
[37] 斯特尔,R。;Kurths,J。;Daub,C。;韦斯,J。;Selbig,J.,《相互信息:检测和评估变量之间的相关性》,生物信息学,18,Suppl 2,S231-S240(2002)·doi:10.1093/bioinformatics/18.suppl_2.S231
[38] Terada,A。;冈田Hatakeyama,M。;Tsuda,K。;Sese,J.,组合规则的统计意义,《美国国家科学院学报》,110,32,12996-13001(2013)·Zbl 1292.92013年 ·doi:10.1073/pnas.1302233110
[39] 维加拉,JR;Estévez,PA,基于互信息的特征选择方法综述,神经计算与应用,24,1,175-186(2014)·doi:10.1007/s00521-013-1368-0
[40] 维恩,西北部;周,S。;Chan,J。;Bailey,J.,《高阶相关性能否改善基于互信息的特征选择?》?,模式识别,53,46-58(2016)·Zbl 1412.68194号 ·doi:10.1016/j.patcog.2015.11.007
[41] Yang,H.H.和Moody,J.(1999)。数据可视化和特征选择:非高斯数据的新算法。S.A.Solla、T.K.Leen和K.Müller(编辑),《神经信息处理系统(NIPS)进展》(第687-693页)。麻省理工学院出版社。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。