文件Zbl 07498988-zbMATH Open

托马斯·奥尔特纳;彼得·菲兹莫瑟;梅亚·罗姆;克里斯蒂安·布雷特内德;萨尔卡·布罗迪诺娃

用于分析高维数据结构的引导投影。（英语） Zbl 07498988号

J.计算。图表。斯达。 27，第4号，750-762（2018）.

摘要：提出了一种称为引导投影的强大数据转换方法，为揭示噪声变量存在下高维数据的组结构创造了新的可能性。使用投影到一个由少量观测值选择跨越的空间上，可以基于正交距离和分数距离测量其他观测值与选择的相似性。观测值从选择中迭代交换，创建一个非随机的投影序列，我们称之为引导投影。传统的投影追踪方法通常识别低维投影，揭示数据中包含的一些有趣的特征，与之相反，引导投影生成一系列投影，不仅作为诊断图的基础，而且作为直接调查数据中群体结构的基础。基于模拟数据，我们确定了与常用数据转换方法相比，引导投影的优势和局限性。通过将其应用于实际数据集，我们进一步展示了转换的相关性。

引用于1文件

MSC公司：

62至XX

统计

关键词：

数据转换;诊断图;尺寸缩减;信息变量

软件：

剪影;ROBPCA公司;项目管理局;旅游者;集群临界值

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

OA许可证

参考文献：

[1]	Abdi，H。；William，L.，主成分分析，计算统计，2443-459（2010）
[2]	Achlioptas，D.，《面向数据库的随机投影：Johnson-Lindenstraus与二进制硬币》，《计算机与系统科学杂志》，66，671-687（2003）·Zbl 1054.68040号
[3]	Altman，N.，《核与最近邻非参数回归导论》，美国统计学家，46175-185（1992）
[4]	贝克，F.B。；Hubert，L.J.，《衡量层次聚类分析的力量》，《美国统计协会杂志》，70，31-38（1975）·兹比尔0311.62029
[5]	科伊夫曼，R.R。；Lafon，S.，扩散图，应用和计算谐波分析，21，5-30（2006）·Zbl 1095.68094号
[6]	库克，D。；Buja，A。；Cabrera，J.，基于正交函数展开的投影寻踪指数，计算与图形统计杂志，2225-250（1993）
[7]	库克，D。；Buja，A。；Cabrera，J。；Hurley，C.，Grand Tour and Projection Pursuit，《计算与图形统计杂志》，4155-172（1995）
[8]	De Leeuw，J.，《非线性主成分分析、数据可视化和描述的历史》（2011年）
[9]	Desgraupes，B.，聚类指数，1，34（2013），巴黎大学Ouest-Lab ModalX
[10]	---，clusterCrit：计算聚类验证指标。(2016)
[11]	Filzmoser，P。；Maronna，R。；Werner，M.，《高维离群识别、计算统计与数据分析》，第52期，1694-1711页（2008年）·Zbl 1452.62370号
[12]	弗里德曼，J.H。；Tukey，J.W.，探索性数据分析的投影追踪算法，IEEE计算机汇刊，c-23881-890（1974）·Zbl 0284.68079号
[13]	Gattone，S.A。；Rocci，R.，《简化子空间上的聚类曲线》，《计算与图形统计杂志》，21，361-379（2012）
[14]	Gorban，A.N。；Kégl，B。；Wunsch，D.C。；Zinovyev，A.Y.，《数据可视化和降维的主要流形》，58（2008），德国柏林：施普林格，德国柏林·Zbl 1125.68003号
[15]	盖恩，I。；Elisseeff，A.，《变量和特征选择导论》，《机器学习研究杂志》，31157-1182（2003）·Zbl 1102.68556号
[16]	休伯特，L。；Schultz，J.，作为一般数据分析策略的二次分配，英国数学与统计心理学杂志，29190-241（1976）·Zbl 0356.92027号
[17]	休伯特，M。；卢梭，P。；Branden，K.，ROBPCA：稳健主成分分析的新方法，技术计量学，47，64-79（2005）
[18]	休伯特，M。；Van Driessen，K.，《快速稳健判别分析，计算统计与数据分析》，45，301-320（2004）·Zbl 1429.62247号
[19]	洪，Y.C。；Tseng，N.-F.，在验证两组因果关系中提取信息变量，计算统计学，281151-1167（2003）·Zbl 1305.65046号
[20]	伊利斯，I。；Wilhelm，A.，《基于投影的大型高维数据集分区》，《计算与图形统计学杂志》，19474-492（2010）
[21]	拉森，B。；Aone，C.，《使用线性时间文档聚类的快速有效文本挖掘》，第五届ACM SIGKDD知识发现和数据挖掘国际会议论文集，16-22（1999），ACM
[22]	Lee，E。；Cook，D.，《大p小n数据的投影寻踪指数，统计与计算》，10381-392（2010）
[23]	李，P。；哈斯蒂·T·J。；Church，K.W.，《非常稀疏随机投影》，第十二届ACM SIGKDD知识发现和数据挖掘国际会议论文集，287-296（2006），ACM
[24]	马泰，A。；Provost，S.B.，《随机变量中的二次型：理论与应用》（1992），纽约：Marcel Dekker公司，纽约·Zbl 0792.62045号
[25]	Pomerantsev，A.L.，《用投影方法导出的多元分类的可接受范围》，《化学计量学杂志》，22，601-609（2008）
[26]	邱伟。；Joe，H.，clusterGeneration：随机聚类生成（具有特定分离度）（2015）
[27]	Rousseeuw，P.J.，《剪影：聚类分析解释和验证的图形辅助》，《计算与应用数学杂志》，20，53-65（1987）·Zbl 0636.62059号
[28]	Serneels，S。；克罗克斯，C。；Filzmoser，P。；Van Espen，P.J.，部分稳健M-回归，化学计量学和智能实验室系统，79，55-64（2005）
[29]	Ward Jr，J.H.，优化目标函数的分层分组，《美国统计协会杂志》，58236-244（1963）
[30]	Wickham，H。；库克，D。；霍夫曼，H。；Buja，A.等人，《Tourr:用投影探索多元数据的R包》，《统计软件杂志》，第40期，第1-18页（2011年）
[31]	Witten，D.M。；Tibshirani，R。；Hastie，T.，《惩罚矩阵分解及其在稀疏主成分和典型相关分析中的应用》，生物统计学，10，515-534（2009）·Zbl 1437.62658号
[32]	邹，H。；Hastie，T.，《通过弹性网进行正则化和变量选择》，《皇家统计学会期刊：B辑（统计方法）》，67，301-320（2005）·Zbl 1069.62054号
[33]	邹，H。；哈斯蒂，T。；Tibshirani，R.，《稀疏主成分分析》，《计算与图形统计杂志》，第15期，第265-286页（2006年）

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b：book；一：图书文章）

一&b	逻辑和
一\|b	逻辑或
!ab公司	逻辑不
作业成本法*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

用于分析高维数据结构的引导投影。（英语） Zbl 07498988号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

用于分析高维数据结构的引导投影。 （英语） Zbl 07498988号

MSC公司：

关键词：

软件：

参考文献：

用于分析高维数据结构的引导投影。（英语） Zbl 07498988号