×

奇异值分解和非负矩阵分解的双交叉验证。 (英语) Zbl 1166.62047号

摘要:本文提出了一种用于选择外积模型秩的双交叉验证(BCV)形式,特别是奇异值分解(SVD)和非负矩阵分解(NMF)。我们没有遗漏数据矩阵的一组行,而是遗漏了一组行和一组列,然后通过对保留数据的低秩操作预测遗漏的条目。我们证明了一个自洽结果,将预测误差表示为低阶近似的残差。随机矩阵理论和一些经验结果表明,较小的保持集会导致过拟合,而较大的保持集则更容易出现填充不足。在模拟示例中,我们发现省略一半行和一半列的方法表现良好。

MSC公司:

62H25个 因子分析和主成分;对应分析
15B52号 随机矩阵(代数方面)
62H10型 统计的多元分布
62E20型 统计学中的渐近分布理论
65C60个 统计中的计算问题(MSC2010)

软件:

插补
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Akaike,H.(1974年)。统计模型识别的新视角。IEEE传输。自动化。控制。19 716-723. ·Zbl 0314.62039号 ·doi:10.1109/TAC.1974.1100705
[2] Alter,O.、Brown,P.O.和Botstein,D.(2000)。用于全基因组表达数据处理和建模的奇异值分解。程序。美国国家科学院。科学。美国97 10101-10106。
[3] Bai,J.(2003)。大维度因子模型的推理理论。《计量经济学》71 135-171·Zbl 1136.62354号 ·数字对象标识代码:10.1111/1468-0262.00392
[4] Bai,J.和Ng,S.(2002年)。确定近似因子模型中的因子数量。《计量经济学》70 191-221·Zbl 1103.91399号 ·数字对象标识代码:10.1111/1468-0262.00273
[5] Baik,J.和Silverstein,J.W.(2004年)。加标总体模型的大样本协方差矩阵的特征值。《多元分析杂志》。97 1382-1408. ·Zbl 1220.15011号 ·doi:10.1016/j.jmva.2005.08.003
[6] Ben-Israel,A.和Greville,T.N.E.(2003)。广义逆:理论与应用,第二版,Springer,纽约·Zbl 1026.15004号
[7] Besse,P.和Ferré,L.(1993)。通过对主要成分的分析,验证其有效性。统计应用评论41 71-76·Zbl 0972.62511号
[8] dos S.Dias,C.T.和Krzanowski,W.J.(2003)。加性主效应和乘法交互模型中的模型选择和交叉验证。作物科学43 865-873。
[9] Eastment,H.T.和Krzanowski,W.J.(1982)。主成分分析中成分数量的交叉验证选择。技术计量学24 73-77·doi:10.1080/00401706.1982.10487712
[10] Eckart,C.和Young,G.(1936年)。一个矩阵与另一个低阶矩阵的近似。《心理测量学》1 211-218·JFM 62.1075.02标准
[11] Gabriel,K.(2002年)。Le biplot-outil d'exploration de données多维菌。法国统计学会期刊143 5-55。
[12] Golub,G.H.和Van Loan,C.F.(1996年)。矩阵计算,第三版,约翰霍普金斯大学出版社,马里兰州巴尔的摩·Zbl 0865.65009号
[13] Hansen,P.C.(1987)。截断SVD作为正则化方法。位27 534-553·Zbl 0633.65041号 ·doi:10.1007/BF01937276
[14] Hartigan,J.(1975)。聚类算法。纽约威利·Zbl 0372.62040号
[15] Hoff,P.D.(2007)。奇异值分解的模型平均和维数选择。J.Amer。统计师。协会102 674-685·Zbl 1172.62318号 ·doi:10.19198/0162114506000001310
[16] Holmes-Junca,S.(1985)。这些信息用于评估联合国顾问分析服装的相关性。蒙彼利埃大学博士论文2。
[17] Jackson,D.A.(1993)。主成分分析中的停止规则:启发式和统计方法的比较。生态学(达勒姆)74 2204-2214。
[18] Johnstone,I.(2001)。关于主成分分析中最大特征值的分布。安。统计师。29 295-327. ·Zbl 1016.62078号 ·doi:10.1214/aos/1009210544
[19] Jolliffe,I.T.(2002)。主成分分析,第二版,Springer,纽约·Zbl 1011.62064号
[20] Juverla,M.、Lehtinen,K.和Paatero,P.(1994年)。正矩阵分解在指纹星云分子线光谱分析中的应用。云、核心和低质量恒星65 176-180。
[21] Kolda,T.G.和O’Leary,D.P.(1998年)。信息检索中潜在语义索引的半离散矩阵分解。ACM信息系统交易16 322-346。
[22] Laurberg,H.、Christensen,M.G.、Plumbley,M.D.、Hansen,L.K.和Jensen,S.H.(2008)。正数据定理:关于NMF的唯一性。2008年计算智能与神经科学。
[23] Lazzeroni,L.和Owen,A.(2002年)。基因表达数据的格子模型。统计师。中国24 61-86·Zbl 1004.62084号
[24] Lee,D.D.和Seung,H.S.(1999年)。通过非负矩阵分解学习对象的各个部分。自然401 788-791·Zbl 1055.81054号 ·doi:10.1142/S0217732304015300
[25] Louwerse,D.J.、Smiled,A.K.和Kiers,H.A.L.(1999)。多路组件模型的交叉验证。化学计量学杂志13 491-510。
[26] Mardia,K.V.、Kent,J.T.和Bibby,J.M.(1979年)。多元分析。伦敦学术出版社·Zbl 0432.62029号
[27] McCullagh,P.(2000)。重新采样和可交换阵列。伯努利6 285-301·兹比尔0976.62035 ·doi:10.2307/3318577
[28] Minka,T.P.(2000)。PCA维度的自动选择。在NIPS 2000 598-604中。
[29] Muirhead,R.(1982)。多元统计理论方面。纽约威利·Zbl 0556.62028号
[30] Oba,S.、Sato,M.、Takemasa,I.、Monden,M.,Matsubara,K.和Ishii,S.(2003)。基因表达谱分析的贝叶斯缺失值估计方法。生物信息学19 2088-2096。
[31] Onatski,A.(2007)。弱因子和i.i.d.高斯噪声下大因子模型主成分估计的渐近性。哥伦比亚大学技术报告。
[32] Owen,A.B.(2007年)。鸽子洞引导程序。Ann.应用。统计师。1 386-411. ·Zbl 1126.62027号 ·doi:10.1214/07-AOAS122
[33] 波特,M.(1980)。后缀剥离算法。程序14 130-137。
[34] Rodwell,G.、Sonu,R.、Zahn,J.M.、Lund,J.、Wilhelmy,J.,Wang,L.、Xiao,W.、Mindrinos,M.、Crane,E.、Segal,E.、Myers,B.、Davis,R..、Higgins,J、Owen,A.B.和Kim,S.K.(2004)。人类肾脏衰老的转录谱。PLOS生物学2 2191-2201。
[35] Schwarz,G.(1978年)。估算模型的维度。安。统计师。6 461-464. ·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[36] Shao,J.(1997)。线性模型选择的渐近理论。统计师。Sinica 7 221-264号·Zbl 1003.62527号
[37] Soshnikov,A.(2001年)。关于某些抽样协方差中最大特征值分布的普适性的注记。J.统计。物理学。108 5-6. ·Zbl 1018.62042号 ·doi:10.1023/A:1019739414239
[38] 田毅(2004)。关于矩阵乘积的Moore-Penrose逆的混合型逆序律。国际数学杂志。数学。科学。2004 3103-3116. ·兹比尔1075.15011 ·doi:10.115/S0161171204301183
[39] Troyanskaya,O.、Cantor,M.、Sherlock,G.、Brown,P.、Hastie,T.、Tibshirani,R.、Botstein,D.和Altman,R.B.(2001)。DNA微阵列缺失值估计方法。生物信息学17 520-525。
[40] Wold,H.(1966年)。用迭代最小二乘法进行非线性估计。统计研究论文:J.Neyman的Festschrift(F.N.David编辑)411-444。纽约威利·Zbl 0161.15901号
[41] Wold,S.(1978年)。因子和主成分模型中成分数量的交叉验证估计。技术计量学20 397-405·Zbl 0403.62032号 ·doi:10.2307/1267639
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。