罗比·波利卡尔;约瑟夫·德帕斯夸尔;侯赛因·赛义德·穆罕默德;加文·布朗;Ludmilla I·Kuncheva。 学习(^{++})。MF:针对缺失特征问题的随机子空间方法。 (英语) Zbl 1209.68480号 模式识别 43,第11期,3817-3832(2010). 摘要:我们介绍Learn\({++}\)。MF是一种基于分类器集成的算法,它使用随机子空间选择来解决监督分类中的缺失特征问题。与大多数公认的方法不同,Learn\({++}\)。MF不会用估计值替换缺失值,因此不需要对基础数据分布进行特定假设。相反,它训练一组分类器,每个分类器都基于可用特征的随机子集。缺失值的实例由训练数据不包含缺失特征的分类器的多数投票进行分类。我们展示了Learn\({++}\)。MF可以容纳大量丢失的数据,随着丢失数据量的增加,性能只会逐渐下降。我们还分析了随机特征子集的基数和集合大小对算法性能的影响。最后,我们讨论了该方法最有效的条件。 引用于6文件 MSC公司: 68吨10 模式识别、语音识别 关键词:缺少数据;缺少的功能;分类器集成;随机子空间 软件:学习++。MF公司;学习++。数控;RegEM公司;阿达·布斯特。MH公司;UCI-毫升 PDF格式BibTeX公司 XML格式引用 \textit{R.Polikar}等人,模式识别43,No.11,3817--3832(2010;Zbl 1209.68480) 全文: 内政部 参考文献: [1] H.Schöner,《使用真实数据集:使用大型不完整和异构数据集进行预处理和预测》,柏林技术大学博士论文,2004年。;H.Schöner,《使用真实数据集:使用大型不完整和异构数据集进行预处理和预测》,柏林技术大学博士论文,2004年。 [2] Little,J.J.A。;鲁宾,D.B.,《缺失数据的统计分析》(2002年),威利出版社:威利纽约·Zbl 1011.62004号 [3] K.L.Wagstaff,V.G.Laidler,《充分利用缺失值:天文学中部分数据的对象聚类》,《天文学数据分析软件和系统XIV》,ASP会议系列,第30卷,2005年,第2.1.25页。;K.L.Wagstaff,V.G.Laidler,《充分利用缺失值:天文学中部分数据的对象聚类》,《天文数据分析软件和系统XIV》,ASP会议系列,第30卷,2005年,第2.1.25页。 [4] 莫林,R.L。;Raeside,D.E.,对缺失数据模式识别的距离加权K近邻分类的重新评估,IEEE系统、人与控制论汇刊,11,241-243(1981) [5] Farhangfar,A。;库根,L。;Dy,J.,缺失值插补对离散数据分类误差的影响,模式识别,41,3692-3705(2008)·兹比尔1173.68479 [6] Howell,D.,《缺失数据的处理》,载于《SAGE社会科学方法手册》(William;Turner,Stephen P.,Outhwaite(2007),SAGE:SAGE London,UK),208-224 [7] 秦,Y。;Zhang,S.,缺失数据的两个数据集之间差异的经验似然置信区间,模式识别快报,29803-812(2008) [8] Little,R.J.A.,《不完全数据判别分析的一致回归方法》,《美国统计协会杂志》,73319-322(1978) [9] 莫里斯,A.C。;库克,M.P。;Green,P.D.,数据分类中缺失特征问题的一些解决方案,应用于抗噪ASR,IEEE声学、语音和信号处理国际会议(ICASSP 98),2737-740(1998) [10] Tresp,V。;Neuneier,R。;Ahmad,S.,《监督学习中处理缺失数据的有效方法》,神经信息处理系统,7689-696(1995) [11] 拉莫尼,M。;Sebastiani,P.,《缺失数据的稳健学习》,机器学习,V45,147-170(2001)·Zbl 1007.68154号 [12] Dempster,A.P。;新墨西哥州莱尔德。;Rubin,D.B.,《通过EM算法从不完整数据中获取最大似然》,《皇家统计学会杂志》,39,1-38(1977)·Zbl 0364.62022号 [13] M.I.乔丹。;Jacobs,R.A.,专家和EM算法的层次混合,神经计算,6181-214(1994) [14] 麦克拉克伦,G.J。;Krishnan,T.,《EM算法和扩展》(1992),威利出版社:威利纽约 [15] David,W.,《关于不完全数据的分类》,IEEE模式分析和机器智能汇刊,29427-436(2007) [16] Di Zio,M。;瓜内拉,美国。;Luzi,O.,通过有限高斯混合模型进行插补,计算统计和数据分析,515305-5316(2007)·Zbl 1445.62021号 [17] 古普塔,A。;Lam,M.,具有缺失值的泛化的权重衰减反向传播,运筹学年鉴,78,165-187(1998)·Zbl 0897.62133号 [18] Yoon,S.Y。;Lee,S.Y.,前馈神经网络的不完全数据训练算法,《神经处理快报》,10171-179(1999) [19] Nowicki,R.,《缺失数据分类的粗糙神经模糊结构》,IEEE系统、人与控制论汇刊,B部分,39,1334-1347(2009) [20] Bogdan,G.,处理模式识别问题中缺失值输入的神经模糊方法,国际近似推理杂志,30,149-179(2002)·Zbl 1033.68093号 [21] 林,C.-P。;Leong,J.-H。;Kuan,M.-M.,用于缺失特征的模式分类任务的混合神经网络系统,IEEE模式分析和机器智能汇刊,27648-653(2005) [22] Melville,P.,具有缺失和噪声数据的集成实验,多分类器系统国际研讨会(MCS 2004),计算机科学讲义,3077,293-302(2004) [23] Juszczak,P。;Duin,R.P.W.,结合一类分类器对缺失数据进行分类,In:多分类器系统国际研讨会论文集(MCS 2004),307792-101(2004) [24] 阿克塞拉,M。;Laaksonen,J.,使用错误多样性选择委员会分类器成员,模式识别,39,608-623(2006)·兹比尔1122.68516 [25] Banfield,R.E.,《集合多样性测度及其在细化中的应用》,《信息融合》,第6期,第49-62页(2005年) [26] Brown,G.,《多样性创造方法:调查和分类》,信息融合,6,5-20(2005) [27] Hadjitodorov,S.T。;Kuncheva,L.I。;Todorova,L.P.,为更好的集群群提供适度多样性,信息融合,7264-275(2006) [28] Hansen,L.K。;Salamon,P.,神经网络集成,IEEE模式分析和机器智能汇刊,1993-1001(1990) [29] Schapire,R.E.,《弱可学习性的力量》,机器学习,5197-227(1990) [30] Wolpert,D.H.,叠加泛化,神经网络,5241-259(1992) [31] Ho,T.K。;赫尔,J.J。;Srihari,S.N.,多分类器系统中的决策组合,IEEE模式分析和机器智能汇刊,16,66-75(1994) [32] Breiman,L.,打包预测,机器学习,24123-140(1996)·Zbl 0858.68080号 [33] 弗伦德,Y。;Schapire,R.E.,《在线学习的决策理论推广及其在助推中的应用》,《计算机与系统科学杂志》,55,119-139(1997)·Zbl 0880.68103号 [34] Kuncheva,L.I.,《组合模式分类器、方法和算法》(2005),Wiley Interscience:Wiley Interscience纽约 [35] Polikar,R.,《决策中基于集成的系统》,IEEE电路与系统杂志,6,21-45(2006) [36] Polikar,R.,《计算智能中的自举技术》,IEEE Signal Processing Magazine,2459-72(2007) [37] Ho,T.K.,构建决策森林的随机子空间方法,IEEE模式分析和机器智能汇刊,20832-844(1998) [38] 斯科里奇纳,M。;Duin,R.,在特征选择中组合特征子集,165-175(2005) [39] 斯科里奇纳,M。;Duin,R.,Bagging和冗余特征空间的随机子空间方法,多分类器系统(MCS 2001),计算机科学讲义,2096,1-10(2001)·Zbl 0980.68604号 [40] N.Rooney等人,《技术报告:回归集合的随机子空间》,2004年。;N.Rooney等人,《技术报告:回归系综的随机子空间》,2004年。 [41] Tsymbal,A。;Pechenizkiy,M。;坎宁安,P.,《集成特征选择搜索策略的多样性》,信息融合,683-98(2005) [42] Polikar,R.,(Learn^{+}):监督神经网络的增量学习算法,IEEE系统、人与控制论汇刊第C部分:应用与评论,31497-508(2001) [43] 医学博士Muhlbaier。;Topalis,A。;Polikar,R.(学习^{++})。NC:将分类器集成与动态加权咨询和注释相结合,以实现新类的高效增量学习,IEEE神经网络汇刊,20,152-168(2009) [44] 夏普,P.K。;Solly,R.J.,《处理基于神经网络的诊断系统中的缺失值》,神经计算与应用,373-77(1995) [45] DePasquale,J。;Polikar,R.,《基于集合的缺失特征数据分类的随机特征子集选择》,载于:《第七届多分类器系统国际研讨会论文集》,《计算机科学讲义》,4472251-260(2007) [46] A.Asuncion,D.J.Newman,in:加州大学欧文分校信息与计算机科学学院计算机学习数据库UCI Repository of machine learning database at Irvine CA,University of Information and Computer Science,Irvine,在线获取:<http://archive.ics.uci.edu/ml/index.html; A.Asuncion,D.J.Newman,in:加州大学欧文分校信息与计算机科学学院计算机学习数据库UCI Repository of machine learning database at Irvine CA,University of Information and Computer Science,Irvine,在线获取:<http://archive.ics.uci.edu/ml/index.html [47] Schneider,T.,《不完整气候数据的分析:平均值和协方差矩阵的估计以及缺失值的插补》,《气候杂志》,第14期,第853-871页(2001年) [48] R.Polikar、J.Depasquale、Full(学习^{+})http://users.rowan.edu/~polikar/研究/学习++。MF.html;R.Polikar、J.Depasquale、Full(学习^{+})http://users.rowan.edu/~polikar/研究/学习++。MF.html文件 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。