×

降维技术和弯曲双星系的分类。 (英语) Zbl 1011.62006年

摘要:随着数据挖掘在海量数据集分析中获得认可,人们越来越清楚,需要的算法不仅可以处理海量数据,还可以处理高维数据。当特征数量达到数百甚至数千个时,某些模式识别算法可能会变得难以计算,而如果特征之间存在较大的相关性,其他算法可能会崩溃。这些问题的一个常见解决方案是降低维数,要么与模式识别算法结合使用,要么独立于模式识别算法。
我们描述了如何将降维技术应用于特定的数据挖掘应用程序,即具有弯曲双形态的放射星系的分类。我们讨论了一些统计和探索性数据分析方法,以减少特征数量,以及决策树和广义线性模型分类器性能的后续改进。我们表明,仔细提取和选择特征对于数据挖掘技术的成功应用是必要的。

MSC公司:

2007年6月62日 数据分析(统计)(MSC2010)
85A35型 统计天文学
62H30型 分类和区分;聚类分析(统计方面)
62页99 统计学的应用
68单位99 计算方法和应用
第62页,第35页 统计学在物理学中的应用

软件:

4.5条
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 贝克尔,R。;怀特,R。;Helfand,D.:第一次测量无线电天空20厘米处的模糊图像。天体物理学。J.450,559-577(1995)
[2] 布拉德利,P。;Mangasarian,O。;西街:通过数学编程进行特征选择。信息J.计算。10209-217(1998年)·Zbl 1034.90529号
[3] 布雷曼,L。;弗里德曼,J。;Olshen,R。;Stone,C.:分类和回归树。(1984) ·Zbl 0541.62042号
[4] 伯尔,M。;Asker,L。;Smyth,P。;法耶兹,美国。;佩罗纳,P。;Crumpler,L。;奥贝尔:学会识别金星上的火山。马赫学习30,165-195(1998)
[5] Chernoff,H.:使用面以图形方式表示k维空间中的点。J.阿默尔。统计师。协会68,361-368(1973)
[6] Dobson,A.:广义线性模型简介。(1990年)·Zbl 0727.62074号
[7] Donoho,D.,2000年。高维数据分析:维度的诅咒和祝福。http://www-stat.stanford.edu/donoho/讲座/AMS2000/AMS2000.html。
[8] 法耶兹,美国。;Piatetsky-Shapiro,G。;Smyth,P.:从大量数据中提取有用知识的KDD过程。ACM委员会,特殊问题数据挖掘39,27-34(1996)
[9] 福多,I。;坎图·帕斯,E。;卡马特,C。;Tang,N.:发现弯曲的双射电星系:数据挖掘中的一个案例研究。计算。科学。统计32,37-47(2000)
[10] 加赫根,M。;Wachowicz,M.H。;Rhyne,T.M.:地理可视化与数据库和地理计算中的知识发现的集成。制图地理信息。科学。28,第1期,第29-44页(2001年)
[11] Hoaglin,D.,Moesteller,F.,Tukey,J.,1983年。了解稳健和探索性数据分析。概率与数理统计中的威利级数·Zbl 0599.62007号
[12] Inselberg,A.,Dimsdale,B.,1990年。平行坐标:可视化多维几何体的工具。摘自:IEEE第一届可视化会议记录,第361-378页。
[13] Jolliffe,I.:主成分分析。(1986年)·Zbl 0584.62009号
[14] Kamath,C.,2001年。Sapphire:大型数据挖掘和模式识别网站。http://www.llnl.gov/casc/sapphire/。
[15] 卡马特,C。;Musick,R.:通过细粒度并行进行可扩展数据挖掘:现在和未来。分布式和并行知识发现的进展,29-77(2000)
[16] 卡马特,C。;Cantu-Paz,E。;福多,I。;唐,N.:在第一次调查中寻找弯曲的双星系。科学和工程应用数据挖掘(2001年)
[17] Kohavi,R。;John,G.:包装方法。特征提取、构造和选择:数据挖掘视角(1998)
[18] 兰利,P。;Simon,H.A.:机器学习和规则归纳的应用。Comm.ACM 38,No.11,55-64(1995)
[19] Lehár,J。;Buchalter,A。;麦克马洪,R.G。;Kochanek,C.S。;Muxlow,T.:对引力透镜射电波瓣的有效搜索。天体物理学。J.547,60-76(2001)
[20] Mardia,K。;Kent,J。;Bibby,J.:多元分析。(1995) ·Zbl 0432.62029号
[21] Mccullagh,P。;Nelder,J.:广义线性模型。(1989) ·Zbl 0744.62098号
[22] Murthy,K.V.S.,1997年。从数据中生成更好的决策树。博士论文,约翰霍普金斯大学出版社。
[23] Quinlan,J.:决策树的归纳。马赫学习181-106(1986)
[24] 昆兰,J.:C4.5:机器学习程序。(1993)
[25] Seber,G.,1977年。线性回归分析。概率与数理统计中的威利级数·Zbl 0354.62055号
[26] Splus,2000年。S-PLUS 6.0 for UNIX用户手册。华盛顿州西雅图MathSoft公司数据分析部。
[27] Tukey,J.:探索性数据分析。(1977) ·Zbl 0409.62003号
[28] 怀特,R。;贝克尔,R。;Helfand,D。;Gregg,M.:来自FIRST调查的1.4ghz无线电源目录。天体物理学。J.475,479-493(1997)
[29] Witten,I。;Frank,E.:数据挖掘:使用Java实现的实用机器学习工具和技术。(1999)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。