×

通过惩罚概率主成分分析探索维度学习。 (英语) Zbl 07677416号

小结:建立数据的低维表示导致高效的数据学习策略。在许多情况下,需要根据数据明确说明和估计缩减的维度。我们将有限样本中的维数估计作为一个约束优化问题进行研究,其中估计维数是概率主成分分析框架内惩罚轮廓似然准则的最大值。与其他需要“最优”惩罚调整参数的惩罚最大化问题不同,我们提出了一种数据平均程序,其中估计的维数在一系列合理的惩罚参数中成为最有利的选择。将所提出的启发式方法与模拟中的大量替代标准进行了比较,并将其应用于基因表达数据。大量的仿真研究表明,没有一种方法能够统一地支配另一种方法,并强调了特定学科知识在选择维度学习统计方法时的重要性。我们的应用结果还表明,基因表达数据的内在维度高于先前认为的。总的来说,我们提出的启发式方法取得了很好的平衡,是模型假设适度偏离时的选择方法。

MSC公司:

62至XX 统计

软件:

spcov公司
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Pearson,K.,Liii。在最接近空间点系的直线和平面上,Lond Edib Dublin Philos Mag J Sci,2,11,559-572(1901)
[2] Hotelling,H。;科茨,S。;约翰逊,NL,《统计学的突破,两组变量之间的关系》,162-190(1992),纽约(NY):施普林格,纽约(纽约)
[3] Hotelling,H.,《将复杂的统计变量分析为主要成分》,《教育心理学杂志》,24,6,417(1933)
[4] DJ Bartholomew,《潜在变量模型和因子分析》(1987),纽约:牛津大学出版社,纽约·Zbl 0664.62057号
[5] 印第安纳州约翰斯通。,关于主成分分析中最大特征值的分布,Ann Stat,29(2),295-327(2001)·Zbl 1016.62078号
[6] Jolliffe,IT.,主成分分析,111-149(2002),纽约(NY):纽约州斯普林格(Springer,NY)·Zbl 1011.62064号
[7] 苏格兰皇家银行卡特尔。,因子数的筛选试验,多元行为研究,1,2,245-276(1966)
[8] 朱,M。;Ghodsi,A.,通过使用剖面似然从碎石图中自动选择尺寸,《计算统计数据分析》,51,2,918-930(2006)·兹比尔1157.62429
[9] Bartlett,MS.,关于各种近似乘数的注释,J R Stat Soc,16,2,296-298(1954)·Zbl 0057.35404号
[10] Lawley,D.,协方差和相关矩阵潜在根的显著性检验,生物特征,43,1-2,128-136(1956)·Zbl 0070.37603号
[11] O.莱多特。;Wolf,M.,《与样本量相比,维数较大时协方差矩阵的一些假设检验》,Ann Stat,30,4,1081-1102(200208)·Zbl 1029.62049号 ·doi:10.1214操作系统/1031689018
[12] Schott,JR.,协方差矩阵最小特征值相等性的高维检验,《多元分析杂志》,97,4,827-843(2006)·Zbl 1086.62072号
[13] Forzani,L.公司。;Gieco,A。;Tolmasky,C.,高维和超高维局部球度的似然比检验,《多元分析杂志》,159,附录C,18-38(2017)·Zbl 1368.62148号
[14] Choi,Y。;泰勒,J。;Tibshirani,R.,《选择主成分的数量:噪声矩阵真实秩的估计》,Ann Stat,45,6,2590-2617(2017)·Zbl 1394.62073号
[15] 马尔迪亚,K。;Kent,J。;Bibby,J.,多元分析(1979),伦敦;纽约:学术出版社,伦敦;纽约·Zbl 0432.62029号
[16] Josse,J。;Husson,F.,使用交叉验证近似值选择主成分分析中的成分数量,《计算统计数据分析》,56,6,1869-1879(2012)·Zbl 1243.62082号
[17] 加维什,M。;DL.多诺霍。,奇异值的最佳硬阈值为\(####\),IEEE Trans-Inf Theory,60,8,5040-5053(2014)·Zbl 1360.94071号
[18] Bai,BYJ;Ng,S.,《确定近似因子模型中的因子数》,《计量经济学》,70,1,191-221(2002)·兹比尔1103.91399
[19] Passmier,D。;李,Z。;Yao,J.,关于高维概率主成分分析中噪声方差的估计,J R Stat Soc,79,1,51-67(2017)·Zbl 1414.62218号
[20] 小费,ME;Bishop,CM.,概率主成分分析,J R Stat Soc,61,3,611-622(1999)·Zbl 0924.62068号
[21] CM.Bishop,Bayesian PCA,高级神经信息处理系统,11382-388(1999)
[22] Hoff,PD,奇异值分解的模型平均和维数选择,J Amer Statist Assoc,102,478,674-685(2007)·Zbl 1172.62318号
[23] 明卡,TP。;Dietterich,T。;贝克尔,S。;Ghahramani,Z.,《神经信息处理系统的进展14:2001年会议论文集,PCA维度的自动选择》,598-604(2001),剑桥(马萨诸塞州):麻省理工学院出版社,剑桥(MA)
[24] Bishop,CM.,《变化主成分》(1999年)
[25] 南岛中岛。;富冈,R。;杉山,M。;佩雷拉,F。;CJ,Burges;Bottou,L.,《神经信息处理系统进展》,25,通过变分贝叶斯主成分分析进行完美维恢复,971-979(2012),剑桥(MA):麻省理工学院出版社,剑桥(MA)
[26] Bouveyron,C,Latouche,P,Mattei,PA。贝叶斯主成分分析的精确维数选择。arXiv预打印arXiv:170302834。2017年·Zbl 1442.62135号
[27] 哥伦比亚特区霍伊尔。,高维数据和小样本尺寸的自动PCA尺寸选择,J Mach Learn Res,9273-2759(2008)·Zbl 1225.68186号
[28] Sobczyk,P。;博格丹,M。;Josse,J.,使用惩罚半积分似然进行主成分分析的贝叶斯维数缩减,《计算图统计杂志》,26,4,826-839(2017)
[29] Tibshirani,R.,《通过套索进行回归收缩和选择》,J R Stat Soc,58,1,267-288(1996)·Zbl 0850.62538号
[30] 邹,H。;哈斯蒂,T。;Tibshirani,R.,稀疏主成分分析,计算机图统计杂志,15,2265-286(2006)
[31] Bien,J。;Tibshirani,RJ.,协方差矩阵的稀疏估计,Biometrika,98,4,807-820(2011)·Zbl 1228.62063号
[32] Wang,H。;李,B。;Leng,C.,具有发散参数数的收缩率调谐参数选择,J R Stat Soc,71,3,671-683(2009)·Zbl 1250.62036号 ·文件编号:10.1111/j.1467-9868.2008.00693.x
[33] 卡斯,RE;Raftery,AE.,Bayes factors,J Amer Statist Assoc,90,430,773-795(1995)·Zbl 0846.62028号
[34] Berthet,Q。;Rigollet,P.,高维稀疏主成分的最优检测,Ann Stat,41,4,1780-1815(2013)·Zbl 1277.62155号
[35] 埃弗森,R。;Roberts,S.,从有限的噪声数据推断协方差矩阵的特征值,IEEE Trans-Signal Process,48,7,2083-2091(2000)·Zbl 0992.94006号
[36] Rajan,J。;Rayner,P.,使用贝叶斯方法的奇异值分解和离散Karhunen-Loeve变换的模型阶数选择,IEEE Proc-Vis图像信号处理,144,2,116-123(1997)
[37] 伊林,A。;Raiko,T.,存在缺失值时主成分分析的实用方法,J Mach Learn Res,11957-2000(2010)·Zbl 1242.62047号
[38] Passmier,D。;Yao,J.,在高维情况下估计可能相等的峰值数量,《多元分析杂志》,127173-183(2014)·Zbl 1293.62044号
[39] 卢克,M。;卡普什斯基,M。;Nikkilä,J.,《人类基因表达的全球地图》,《国家生物技术》,第28、4、322-324页(2010年)
[40] Heimberg,G。;巴特纳加,R。;El-Samad,H.,基因表达数据的低维性使得能够从浅层测序中准确提取转录程序,Cell Syst,2,4,239-250(2016)
[41] Lenz,M。;米勒,FJ;Zenke,M.,主成分分析和基因表达微阵列数据的低内在维度报告,科学代表,6,1,1-11(2016)
[42] 丁,J。;Condon,A。;Shah,SP.,用深度生成模型对单细胞转录组数据进行可解释的降维,Nat Commun,9,1,1-13(2018)
[43] 罗斯,DT;谢尔夫,美国。;艾森,MB,人类癌症细胞系基因表达模式的系统性变化,《国家遗传学》,24,3,227-235(2000)
[44] 刘,H。;D’Andrade,P。;Fulmer-Smentek,S.,《NCI-60与药物活性整合的mRNA和microRNA表达谱》,Mol Cancer Ther,9,5,1080-1091(2010)
[45] 苏,AI;厨师,MP;Ching,KA,人类和小鼠转录组的大规模分析,美国国家科学院院刊,99,7,4465-4470(2002)
[46] de Torrenté,L。;齐默尔曼,S。;铃木,M.,《基因表达分布的形状很重要:合并分布形状如何改进癌症转录组数据的解释》,BMC Bioninform,21,21,1-18(2020)
[47] 马尔科,NF;Weil,RJ.,非高斯分布影响人类癌症基因组中表达模式的识别、功能注释和前瞻性分类,PLoS ONE,7,10,e46935(2012)
[48] JH小沃德。,分层分组优化目标函数,J Amer Statist Assoc,58,301,236-244(1963)
[49] 休伯特,L。;Arabie,P.,比较分区,J Classif,2,1,193-218(1985)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。