×

使用可视化统计推断更好地理解高维、低样本数据中的随机类分离。 (英语) 兹比尔1317.65046

摘要:统计图形在探索性数据分析、模型检查和诊断中发挥着重要作用。对于高维数据,这通常意味着绘制低维投影,例如,在分类任务中,投影追踪用于查找揭示标记组之间差异的低维投影。在许多当代数据集中,与变量的数量相比,观测值的数量相对较少,这被称为高维低样本量(HDLSS)问题。本文探讨了视觉推理在理解HDLSS数据的低维图片中的应用。视觉推断有助于量化图形结果的重要性。这种方法可能有助于在数据分析社区中扩大对HDLSS数据相关问题的理解。方法是用一篇发表的论文中的数据来说明的,该论文错误地发现了微阵列数据中的实际分离,并用亚马逊的Mechanical Turk进行了模拟研究。

MSC公司:

62-08 统计问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
62A09号 统计学中的图形方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 亚马逊(2010)机械土耳其。http://aws.amazon.com/mturk/ ·Zbl 1236.62065号
[2] Buja A,Wolgang R(2005)《同时性校准:应用于函数估计和函数数据的同时推断的(重新)采样方法》。技术代表。http://stat.wharton.upenn.edu/buja/PAPERS/paper-sim.pdf
[3] Buja A、Cook D、Hofmann H、Lawrence M、Lee E、Swayne D、Wickham H(2009)探索性数据分析和模型诊断的统计推断。R Soc Philoso Trans A 367(1906):4361-4383·Zbl 1185.62085号 ·doi:10.1098/rsta.2009.0120
[4] Comon P(1994)独立成分分析:一个新概念?Sig工艺36(3):287-314·Zbl 0791.62004号 ·doi:10.1016/0165-1684(94)90029-9
[5] Donoho D,Jin J(2008)《更高的批评阈值:有用特征稀少且较弱时的最优特征选择》。美国国家科学院院刊105:14790-14795·Zbl 1357.62212号 ·doi:10.1073/pnas.0807471105
[6] Donoho D,Jin J(2009)通过较高的批评阈值进行特征选择,获得最佳相图。菲洛斯Trans R Soc A 367:4449-4470·兹比尔1185.62113 ·doi:10.1098/rsta.2009.0129
[7] Dudoit S,Fridland J,Speed T(2002)使用基因表达数据进行肿瘤分类的鉴别方法比较。美国统计协会杂志97(457):77-87·Zbl 1073.62576号 ·doi:10.1198/016214502753479248
[8] Friedman JH,Tukey JW(1974)探索性数据分析的投影寻踪算法。IEEE传输计算c-23:881-890·Zbl 0284.68079号 ·doi:10.1109/T-C.1974.224051
[9] Hall P、Marron J、Neeman A(2005)高维低样本数据的几何表示。J R统计Soc B 67:427-444·兹比尔1069.62097 ·doi:10.1111/j.1467-9868.2005.00510.x
[10] Hennig C(2014)fpc:灵活的聚类程序。http://CRAN.R-project.org/package=fpc。R软件包版本2.1-7·Zbl 0595.62059号
[11] Huber PJ(1985)投影追踪。安统计13:435-475·Zbl 0595.62059号 ·doi:10.1214/aos/1176349519
[12] Johnson RA,Wichern DW(2002)应用多元统计分析,第5版。普伦蒂斯·霍尔,恩格尔伍德悬崖
[13] Jung S,Sen A,Marron JS(2012)PCA高维、低样本量渐近的边界行为。多变量分析杂志109:190-203·Zbl 1241.62100号 ·doi:10.1016/j.jmva.2012.03.005
[14] Lee EK,Cook D(2010)大p小n数据的投影寻踪指数。统计计算20(3):381-392·doi:10.1007/s11222-009-9131-1
[15] Majumder M、Hofmann H、Cook D(2013)《应用于线性模型的可视化统计推断验证》。美国统计协会杂志108(503):942-956·Zbl 06224978号 ·doi:10.1080/01621459.2013.808157
[16] Marron JS、Todd MJ、Ahn J(2007),距离加权歧视。美国统计学会杂志480:1267-1271·Zbl 1332.62213号 ·doi:10.1198/0162145000001120
[17] R核心团队(2013)R:统计计算的语言和环境。R统计计算基金会,维也纳。网址:http://www.R-project.org/
[18] Ripley BD(1996)模式识别和神经网络。剑桥大学出版社,纽约·Zbl 0853.62046号 ·doi:10.1017/CBO9780511812651
[19] Roweis S,Saul L(2000)局部线性嵌入的非线性降维。科学290:2323-2326·doi:10.126/科学290.5500.2323
[20] Roy Chowdhury N、Cook D、Hofmann H、Majumder M(2012)《沃尔多在哪里:近距离观察阵容》。爱荷华州立大学统计系技术代表2。http://www.stat.iastate.edu/preprint/articles/2012-02.pdf ·Zbl 1228.62079号
[21] Toth A、Varala K、Newman T、Miguez F、Hutchison S、Willoughby D、Simons J、Egholm M、Hunt J、Hudson M、Robinson G(2007),黄蜂基因表达支持母性行为和优生优育之间的进化联系。科学318:441-444·doi:10.1212/科学1146647
[22] Toth A,Varala K,Henshaw M,Rodriguez Zas S,Hudson M,Robinson G(2010)纸黄蜂的大脑转录组分析确定了与社会昆虫谱系中的行为相关的基因。Proc R Soc生物科学B 277:2139-2148·doi:10.1098/rspb.2010.0090
[23] Wickham H(2009)ggplot2:用于数据分析的优雅图形。纽约州施普林格。http://had.co.nz/ggplot2/book ·Zbl 1170.62004号
[24] Wickham H、Cook D、Hofmann H、Buja A(2011年),tourr:用预测探索多元数据的R包。J Stat Softw杂志40(2):1-18。http://www.jstatsoft.org/v40/i02/ ·Zbl 1185.62113号
[25] Witten D,Tibshirani R(2011)使用Fisher线性判别法进行惩罚分类。J R Stat Soc Ser B(统计方法)73(5):753-772·Zbl 1228.62079号 ·doi:10.1111/j.1467-9868.2011.00783.x
[26] Yata K,Aoshima M(2011)高维、低样本数据的有效主成分分析,通过几何表示降低噪声。多变量分析杂志105:193-215·Zbl 1236.62065号 ·doi:10.1016/j.jmva.2011.09.002
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。