伊莫拉·K·福多。;钱德里卡·卡马特 降维技术和弯曲双星系的分类。 (英语) Zbl 1011.62006年 计算。统计数据分析。 41,第1期,91-122(2002). 摘要:随着数据挖掘在海量数据集分析中获得认可,人们越来越清楚,需要的算法不仅可以处理海量数据,还可以处理高维数据。当特征数量达到数百甚至数千个时,某些模式识别算法可能会变得难以计算,而如果特征之间存在较大的相关性,其他算法可能会崩溃。这些问题的一个常见解决方案是降低维数,要么与模式识别算法结合使用,要么独立于模式识别算法。我们描述了如何将降维技术应用于特定的数据挖掘应用程序,即具有弯曲双形态的放射星系的分类。我们讨论了一些统计和探索性数据分析方法,以减少特征数量,以及决策树和广义线性模型分类器性能的后续改进。我们表明,仔细提取和选择特征对于数据挖掘技术的成功应用是必要的。 引用于8文件 MSC公司: 2007年6月62日 数据分析(统计)(MSC2010) 85A35型 统计天文学 62H30型 分类和区分;聚类分析(统计方面) 62页99 统计学的应用 68单位99 计算方法和应用 第62页,第35页 统计学在物理学中的应用 关键词:数据挖掘;探索性数据分析;特征选择;维;减少;分类;决策树;广义线性模型 软件:4.5条 PDF格式BibTeX公司 XML格式引用 \textit{I.K.Fodor}和\textit{C.Kamath},计算。统计数据分析。41,第1号,91-122(2002;Zbl 1011.62006) 全文: 内政部 参考文献: [1] 贝克尔,R。;怀特,R。;Helfand,D.:第一次测量无线电天空20厘米处的模糊图像。天体物理学。J.450,559-577(1995) [2] 布拉德利,P。;Mangasarian,O。;西街:通过数学编程进行特征选择。信息J.计算。10209-217(1998年)·Zbl 1034.90529号 [3] 布雷曼,L。;弗里德曼,J。;Olshen,R。;Stone,C.:分类和回归树。(1984) ·Zbl 0541.62042号 [4] 伯尔,M。;Asker,L。;Smyth,P。;法耶兹,美国。;佩罗纳,P。;Crumpler,L。;奥贝尔:学会识别金星上的火山。马赫学习30,165-195(1998) [5] Chernoff,H.:使用面以图形方式表示k维空间中的点。J.阿默尔。统计师。协会68,361-368(1973) [6] Dobson,A.:广义线性模型简介。(1990年)·Zbl 0727.62074号 [7] Donoho,D.,2000年。高维数据分析:维度的诅咒和祝福。http://www-stat.stanford.edu/donoho/讲座/AMS2000/AMS2000.html。 [8] 法耶兹,美国。;Piatetsky-Shapiro,G。;Smyth,P.:从大量数据中提取有用知识的KDD过程。ACM委员会,特殊问题数据挖掘39,27-34(1996) [9] 福多,I。;坎图·帕斯,E。;卡马特,C。;Tang,N.:发现弯曲的双射电星系:数据挖掘中的一个案例研究。计算。科学。统计32,37-47(2000) [10] 加赫根,M。;Wachowicz,M.H。;Rhyne,T.M.:地理可视化与数据库和地理计算中的知识发现的集成。制图地理信息。科学。28,第1期,第29-44页(2001年) [11] Hoaglin,D.,Moesteller,F.,Tukey,J.,1983年。了解稳健和探索性数据分析。概率与数理统计中的威利级数·Zbl 0599.62007号 [12] Inselberg,A.,Dimsdale,B.,1990年。平行坐标:可视化多维几何体的工具。摘自:IEEE第一届可视化会议记录,第361-378页。 [13] Jolliffe,I.:主成分分析。(1986年)·Zbl 0584.62009号 [14] Kamath,C.,2001年。Sapphire:大型数据挖掘和模式识别网站。http://www.llnl.gov/casc/sapphire/。 [15] 卡马特,C。;Musick,R.:通过细粒度并行进行可扩展数据挖掘:现在和未来。分布式和并行知识发现的进展,29-77(2000) [16] 卡马特,C。;Cantu-Paz,E。;福多,I。;唐,N.:在第一次调查中寻找弯曲的双星系。科学和工程应用数据挖掘(2001年) [17] Kohavi,R。;John,G.:包装方法。特征提取、构造和选择:数据挖掘视角(1998) [18] 兰利,P。;Simon,H.A.:机器学习和规则归纳的应用。Comm.ACM 38,No.11,55-64(1995) [19] Lehár,J。;Buchalter,A。;麦克马洪,R.G。;Kochanek,C.S。;Muxlow,T.:对引力透镜射电波瓣的有效搜索。天体物理学。J.547,60-76(2001) [20] Mardia,K。;Kent,J。;Bibby,J.:多元分析。(1995) ·Zbl 0432.62029号 [21] Mccullagh,P。;Nelder,J.:广义线性模型。(1989) ·Zbl 0744.62098号 [22] Murthy,K.V.S.,1997年。从数据中生成更好的决策树。博士论文,约翰霍普金斯大学出版社。 [23] Quinlan,J.:决策树的归纳。马赫学习181-106(1986) [24] 昆兰,J.:C4.5:机器学习程序。(1993) [25] Seber,G.,1977年。线性回归分析。概率与数理统计中的威利级数·Zbl 0354.62055号 [26] Splus,2000年。S-PLUS 6.0 for UNIX用户手册。华盛顿州西雅图MathSoft公司数据分析部。 [27] Tukey,J.:探索性数据分析。(1977) ·Zbl 0409.62003号 [28] 怀特,R。;贝克尔,R。;Helfand,D。;Gregg,M.:来自FIRST调查的1.4ghz无线电源目录。天体物理学。J.475,479-493(1997) [29] Witten,I。;Frank,E.:数据挖掘:使用Java实现的实用机器学习工具和技术。(1999) 此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。