×

用于分析高维数据结构的引导投影。 (英语) Zbl 07498988号

摘要:提出了一种称为引导投影的强大数据转换方法,为揭示噪声变量存在下高维数据的组结构创造了新的可能性。使用投影到一个由少量观测值选择跨越的空间上,可以基于正交距离和分数距离测量其他观测值与选择的相似性。观测值从选择中迭代交换,创建一个非随机的投影序列,我们称之为引导投影。传统的投影追踪方法通常识别低维投影,揭示数据中包含的一些有趣的特征,与之相反,引导投影生成一系列投影,不仅作为诊断图的基础,而且作为直接调查数据中群体结构的基础。基于模拟数据,我们确定了与常用数据转换方法相比,引导投影的优势和局限性。通过将其应用于实际数据集,我们进一步展示了转换的相关性。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abdi,H。;William,L.,主成分分析,计算统计,2443-459(2010)
[2] Achlioptas,D.,《面向数据库的随机投影:Johnson-Lindenstraus与二进制硬币》,《计算机与系统科学杂志》,66,671-687(2003)·Zbl 1054.68040号
[3] Altman,N.,《核与最近邻非参数回归导论》,美国统计学家,46175-185(1992)
[4] 贝克,F.B。;Hubert,L.J.,《衡量层次聚类分析的力量》,《美国统计协会杂志》,70,31-38(1975)·兹比尔0311.62029
[5] 科伊夫曼,R.R。;Lafon,S.,扩散图,应用和计算谐波分析,21,5-30(2006)·Zbl 1095.68094号
[6] 库克,D。;Buja,A。;Cabrera,J.,基于正交函数展开的投影寻踪指数,计算与图形统计杂志,2225-250(1993)
[7] 库克,D。;Buja,A。;Cabrera,J。;Hurley,C.,Grand Tour and Projection Pursuit,《计算与图形统计杂志》,4155-172(1995)
[8] De Leeuw,J.,《非线性主成分分析、数据可视化和描述的历史》(2011年)
[9] Desgraupes,B.,聚类指数,1,34(2013),巴黎大学Ouest-Lab ModalX
[10] ---,clusterCrit:计算聚类验证指标。(2016)
[11] Filzmoser,P。;Maronna,R。;Werner,M.,《高维离群识别、计算统计与数据分析》,第52期,1694-1711页(2008年)·Zbl 1452.62370号
[12] 弗里德曼,J.H。;Tukey,J.W.,探索性数据分析的投影追踪算法,IEEE计算机汇刊,c-23881-890(1974)·Zbl 0284.68079号
[13] Gattone,S.A。;Rocci,R.,《简化子空间上的聚类曲线》,《计算与图形统计杂志》,21,361-379(2012)
[14] Gorban,A.N。;Kégl,B。;Wunsch,D.C。;Zinovyev,A.Y.,《数据可视化和降维的主要流形》,58(2008),德国柏林:施普林格,德国柏林·Zbl 1125.68003号
[15] 盖恩,I。;Elisseeff,A.,《变量和特征选择导论》,《机器学习研究杂志》,31157-1182(2003)·Zbl 1102.68556号
[16] 休伯特,L。;Schultz,J.,作为一般数据分析策略的二次分配,英国数学与统计心理学杂志,29190-241(1976)·Zbl 0356.92027号
[17] 休伯特,M。;卢梭,P。;Branden,K.,ROBPCA:稳健主成分分析的新方法,技术计量学,47,64-79(2005)
[18] 休伯特,M。;Van Driessen,K.,《快速稳健判别分析,计算统计与数据分析》,45,301-320(2004)·Zbl 1429.62247号
[19] 洪,Y.C。;Tseng,N.-F.,在验证两组因果关系中提取信息变量,计算统计学,281151-1167(2003)·Zbl 1305.65046号
[20] 伊利斯,I。;Wilhelm,A.,《基于投影的大型高维数据集分区》,《计算与图形统计学杂志》,19474-492(2010)
[21] 拉森,B。;Aone,C.,《使用线性时间文档聚类的快速有效文本挖掘》,第五届ACM SIGKDD知识发现和数据挖掘国际会议论文集,16-22(1999),ACM
[22] Lee,E。;Cook,D.,《大p小n数据的投影寻踪指数,统计与计算》,10381-392(2010)
[23] 李,P。;哈斯蒂·T·J。;Church,K.W.,《非常稀疏随机投影》,第十二届ACM SIGKDD知识发现和数据挖掘国际会议论文集,287-296(2006),ACM
[24] 马泰,A。;Provost,S.B.,《随机变量中的二次型:理论与应用》(1992),纽约:Marcel Dekker公司,纽约·Zbl 0792.62045号
[25] Pomerantsev,A.L.,《用投影方法导出的多元分类的可接受范围》,《化学计量学杂志》,22,601-609(2008)
[26] 邱伟。;Joe,H.,clusterGeneration:随机聚类生成(具有特定分离度)(2015)
[27] Rousseeuw,P.J.,《剪影:聚类分析解释和验证的图形辅助》,《计算与应用数学杂志》,20,53-65(1987)·Zbl 0636.62059号
[28] Serneels,S。;克罗克斯,C。;Filzmoser,P。;Van Espen,P.J.,部分稳健M-回归,化学计量学和智能实验室系统,79,55-64(2005)
[29] Ward Jr,J.H.,优化目标函数的分层分组,《美国统计协会杂志》,58236-244(1963)
[30] Wickham,H。;库克,D。;霍夫曼,H。;Buja,A.等人,《Tourr:用投影探索多元数据的R包》,《统计软件杂志》,第40期,第1-18页(2011年)
[31] Witten,D.M。;Tibshirani,R。;Hastie,T.,《惩罚矩阵分解及其在稀疏主成分和典型相关分析中的应用》,生物统计学,10,515-534(2009)·Zbl 1437.62658号
[32] 邹,H。;Hastie,T.,《通过弹性网进行正则化和变量选择》,《皇家统计学会期刊:B辑(统计方法)》,67,301-320(2005)·Zbl 1069.62054号
[33] 邹,H。;哈斯蒂,T。;Tibshirani,R.,《稀疏主成分分析》,《计算与图形统计杂志》,第15期,第265-286页(2006年)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。