×

高维、低样本量部分标记数据的显著性分析。 (英语) Zbl 1341.62184号

摘要:分类和聚类都是统计学习中的重要课题。这里的一个自然问题是,预定义的类是否真的彼此不同,或者集群是否真的存在。具体来说,我们可能有兴趣了解由某些类标签定义的两个类(当提供时),或由聚类算法标记的两个簇(当未提供类标签时)是否来自相同的底层分布。尽管对于高维、低样本数据来说,这两个问题都是具有挑战性的,但最近这两个方面都有了一些发展。然而,当手动在观测值上放置标签的成本很高时,通常只有一小部分类标签可用。在本文中,我们提出了一种对此类数据进行显著性分析的方法,即部分标记数据。我们的方法利用了整个数据,并试图测试类差异,就好像所有标签都被观察到了一样。综合仿真研究表明,与忽略标签信息的测试方法相比,我们的方法在保持尺寸不变的同时提供了更大的功能。研究了该方法的理论性质,重点是高维、低样本设置。我们的模拟示例有助于理解从标记数据中提取的信息何时以及如何有效。一个实际数据示例进一步说明了该方法的实用性。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62H15型 多元分析中的假设检验
68T05型 人工智能中的学习和自适应系统
62E20型 统计学中的渐近分布理论
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 安,J。;Marron,J。;穆勒,K。;Chi,Y.,高维、低样本几何表征在温和条件下仍然有效,Biometrika,94760(2007)·Zbl 1135.62039号
[2] Bai,Z。;Saranadasa,H.,《高维效应:以两样本问题为例》,Statist。Sinica,6311-330(1996)·Zbl 0848.62030号
[3] 巴塔查吉,A。;Richards,W.G。;斯汤顿,J。;李,C。;蒙蒂,S。;瓦萨,P。;拉德,C。;Beheshti,J。;布埃诺,R。;Gillette,M.,通过mRNA表达谱对人类肺癌进行分类揭示了不同的腺癌亚类,Proc。国家。阿卡德。科学。,98, 13790-13795 (2001)
[4] Chandriani,S。;Frengen,E。;Cowling,V.H。;Pendergrass,S.A。;佩罗,C.M。;Whitfield,M.L。;Cole,M.D.,核心MYC基因表达特征在基底样乳腺癌中显著,但仅部分与核心血清反应重叠,PLoS One,4,e6693(2009)
[5] 沙佩尔,O。;Schölkopf,B。;Zien,A.,《半监督学习》(2006),麻省理工学院出版社:麻省理学院出版社剑桥
[6] 陈,S。;Qin,Y.,高维数据的双样本检验及其在基因集测试中的应用,Ann.Statist。,38, 808-835 (2010) ·Zbl 1183.62095号
[8] 科尔特斯,C。;Vapnik,V.,支持向量网络,马赫。学习。,20, 273-297 (1995) ·Zbl 0831.68098号
[9] Dempster,A.P.,《两个高多元小样本分离的显著性检验》,《生物统计学》,16,41-50(1960)·Zbl 0218.62065号
[10] 风扇,C。;哦,D.S。;韦塞尔斯,L。;魏格特,B。;Nuyten,D.S。;诺贝尔文学奖。;范特维尔,L.J。;Perou,C.M.,乳腺癌基因表达预测因子之间的一致性,新英格兰。《医学杂志》,355,560-569(2006)
[11] 霍尔,P。;Marron,J.S。;Neeman,A.,《高维低样本数据的几何表示》,J.R.Stat.Soc.Ser。B统计方法。,67, 427-444 (2005) ·Zbl 1069.62097号
[12] 黄,H。;刘,Y。;袁,M。;Marron,J.,《使用软阈值进行聚类的统计意义》,J.Compute。图表。统计人员。,24, 4, 975-993 (2015)
[13] Jung,S。;Marron,J.,高维、低样本量背景下的主成分分析一致性,Ann.Statist。,37, 4104-4130 (2009) ·Zbl 1191.62108号
[14] Jung,S。;森,A。;Marron,J.,PCA高维、低样本量渐近的边界行为,J.多元分析。,109, 190-203 (2012) ·Zbl 1241.62100号
[15] 土地,W.H。;马,X。;巴恩斯,E。;乔,X。;海涅,J。;Masters,T。;Park,J.W.,用于乳腺癌早期筛查的PNN/GRNN集成处理器设计,Procedia Compute。科学。,12, 438-443 (2012)
[16] 刘,Y。;Hayes,D.N。;诺贝尔,A。;Marron,J.,高维低样本数据聚类的统计意义,J.Amer。统计师。协会,103(2008)·Zbl 1205.62079号
[18] Mai,Q。;邹,H。;Yuan,M.,超高维稀疏判别分析的直接方法,Biometrika,99,29-42(2012)·Zbl 1437.62550号
[19] Marron,J。;托德,M。;Ahn,J.,距离加权歧视,J.Amer。统计师。协会,102,1267-1271(2007)·Zbl 1332.62213号
[20] 麦克拉克伦,G。;Peel,D.,有限混合模型(2004),John Wiley&Sons
[21] McShane,L.M。;医学博士拉德马赫。;弗赖德林,B。;Yu,R。;Li,M.-C。;Simon,R.,《评估微阵列数据分析中观察到的聚类模式再现性的方法》,生物信息学,181462-1469(2002)
[22] 乔,X。;Zhang,L.,距离加权支持向量机,Stat.Interface,8,331-345(2015)·Zbl 1405.62083号
[23] 乔,X。;Zhang,L.,柔性高维分类机及其渐近性质,J.Mach。学习。第16号决议,1547-1572(2016)·Zbl 1351.68229号
[24] 乔,X。;张,H。;刘,Y。;托德,M。;Marron,J.,加权距离加权判别及其渐近性质,J.Amer。统计师。协会,105401-414(2010)·Zbl 1397.62227号
[25] Sarle,W。;Kuo,A.-H.,《MODECLUS程序》,SAS技术报告P-256(1993),SAS研究所:北卡罗来纳州SAS研究所Cary
[26] 谢弗,J.D。;Park,J.W。;巴恩斯,E。;卢奇。;乔,X。;邓,Y。;李毅。;Land,W.H.,GRNN集成分类器,仅使用人口统计学和TNM特征预测肺癌,Procedia Compute。科学。,12, 450-455 (2012)
[27] Schott,J.,单向MANOVA的一些高维测试,J.多元分析。,98, 1825-1839 (2007) ·Zbl 1130.62058号
[28] Srivastava,M.,《分析高维数据的多元理论》,日本统计学家J。《社会学杂志》,37,53-86(2007)·Zbl 1140.62047号
[29] Srivastava,M.S。;Du,M.,《观测值少于维数的平均向量检验》,《多元分析杂志》。,99, 386-402 (2008) ·Zbl 1148.62042号
[30] Srivastava,M.S。;Fujikoshi,Y.,《观察值少于维度的多元方差分析》,J.Multivariate Anal。,97, 1927-1940 (2006) ·Zbl 1101.62051号
[31] 铃木,R。;Shimodaira,H.,Pvclust:评估层次聚类不确定性的R包,生物信息学,221540-1542(2006)
[32] Tibshirani,R。;Walther,G.,《预测强度的聚类验证》,J.Compute。图表。统计人员。,14, 511-528 (2005)
[33] Vapnik,V.,《统计学习理论的本质》(1995),斯普林格出版社·Zbl 0833.62008号
[34] Vapnik,V.,《统计学习理论》(1998),威利·Zbl 0935.62007号
[35] Verhaak,R.G。;霍德利,K.A。;Purdom,E。;王,V。;齐,Y。;医学博士威尔克森。;Miller,C.R。;丁·L。;Golub,T。;Mesirov,J.P.,综合基因组分析确定以PDGFRA、IDH1、EGFR和NF1异常为特征的胶质母细胞瘤的临床相关亚型,癌细胞,17,98-110(2010)
[36] Wagstaff,K。;Cardie,C。;罗杰斯,S。;Schrödl,S.,带背景知识的约束k-means聚类,(ICML,第1卷(2001)),577-584
[37] Wang,J。;Shen,X.,大容量半监督学习,J.马赫。学习。第8号决议,1867-1891(2007)·Zbl 1222.68329号
[38] Wang,J。;沈,X。;Pan,W.,《关于转导支持向量机》,康特姆。数学。,443, 7-20 (2007) ·Zbl 1147.68657号
[39] Wang,J。;沈,X。;Pan,W.,《关于有效的大幅度半监督学习:方法和理论》,J.Mach。学习。决议,10719-742(2009)·Zbl 1235.68203号
[40] Wei,S。;Lee,C。;Wichers,L。;李·G。;Marron,J.,《高维假设检验的方向投影置换》,J.Compute。图表。统计师。(2015),(即将出版)
[41] Wichers,L。;Lee,C。;科斯塔·D·。;Watkinson,P。;Marron,J.,《评估颗粒物时间生理反应的功能数据分析方法》,技术代表,技术代表5(2007),北卡罗来纳大学教堂山分校:北卡罗来那大学教堂山学院统计与运营研究系
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。