×

改进数据分析的CUR矩阵分解。 (英语) 兹比尔1202.68480

概要:主成分分析和更一般地说,奇异值分解是基本的数据分析工具,它们用重要性递减的正交或不相关向量序列表示数据矩阵。不幸的是,由于这些向量是所有数据点的线性组合,因此很难根据生成数据的数据和过程来解释这些向量。在本文中,我们开发了CUR矩阵分解以改进数据分析。CUR分解是低秩矩阵分解,它明确表示为数据矩阵的少量实际列和/或实际行。因为它们是由实际数据元素构成的,CUR分解可由数据提取领域的从业人员解释(在原始数据的范围内)。我们提出了一种算法,该算法优先选择具有高“统计杠杆”的列和行,因此,在非常精确的统计意义上,对数据矩阵的最佳低秩拟合施加过大的“影响”,我们在最坏情况分析中获得了改进的相对误差和常数近似保证,而不是先前工作中更粗糙的附加误差保证。此外,由于构造涉及使用自然且广泛研究的统计解释计算量,我们可以利用诊断回归分析的思想,将这些矩阵分解用于探索性数据分析。

MSC公司:

68瓦20 随机算法
65英尺15英寸 矩阵特征值和特征向量的数值计算
68周25 近似算法

软件:

算法844
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Cho,分子细胞2(1),第65页–(1998)·doi:10.1016/S1097-2765(00)80114-8
[2] 数字数学83第313页–(1999)·Zbl 0957.65031号 ·doi:10.1007/s002110050451
[3] 线性代数及其应用261 pp 1–(1997)·Zbl 0877.65021号 ·doi:10.1016/S0024-3795(96)00301-1
[4] CONTEMP MATH 280第47页–(2001)·doi:10.1090/conm/280/4620
[5] J ACM 51第1025页–(2004)·Zbl 1125.65005号 ·数字对象标识代码:10.1145/1039488.1039494
[6] SIAM J COMPUT 36第184页–(2006)·Zbl 1111.68149号 ·doi:10.1137/S0097539704442702
[7] 基因组研究17(1)第96页–(2007)·doi:10.101克/克5741407
[8] SIAM J矩阵分析应用程序30第844页–(2008年)·Zbl 1183.68738号 ·数字对象标识码:10.1137/07070471X
[9] 《美国统计学家》第32页第17页–(1978)
[10] 第1页379页–(1986年)·doi:10.1214/ss/1177013622
[11] 美国统计学家35页234–(1981)
[12] 《美国信息科学学会杂志》41页391页–(1990)·doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9
[13] PNAS 101(补充1)第5214页–(2004)·doi:10.1073/pnas.0400341101
[14] Alter,美国国家科学院院刊97(18)第10101页-(2000)·doi:10.1073/pnas.97.18.10101
[15] PNAS 97(15)第8409页–(2000)·doi:10.1073/pnas.150242097
[16] 尼尔森,《柳叶刀》359(9314)第1301页–(2002)·doi:10.1016/S0140-6736(02)08270-3
[17] AM J POLITICAL SCI 35第228页–(1991)·doi:10.2307/211445
[18] PNAS 102(20)第7057页–(2005)·doi:10.1073/pnas.0500191102
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。