×

在次二次时间内检测稀疏协方差矩阵的大条目。 (英语) Zbl 1386.94037号

摘要:(p)维随机变量的协方差矩阵是数据分析中的一个基本量。给定\(n\)i.i.d.观测值,它通常由样本协方差矩阵估计,计算成本为\(O(np^2)\)运算。当\(n,p\)较大时,此计算速度可能会非常慢。此外,在一些现代应用中,人口矩阵几乎是稀疏的,只有少数几个大条目值得关注。这引发了以下问题:假设协方差矩阵近似稀疏,那么在不显式计算其所有(p^2)项的情况下,是否可以更快地检测到其大条目,比如在次二次时间内?本文提出并从理论上分析了两种随机算法,它们仅使用(O(np,,text{poly},log p)运算检测近似稀疏样本协方差矩阵的大条目。此外,假设总体矩阵的稀疏性,我们导出了样本协方差矩阵满足近似稀疏性要求的关于潜在随机变量和样本数的充分条件。最后,我们通过几个仿真来说明我们的算法的性能。

MSC公司:

94甲12 信号理论(表征、重建、滤波等)
94甲13 信息与通信理论中的探测理论
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Akavia,A.,通过欺骗算术级数的确定性稀疏傅立叶近似,393,(2010)
[2] Arya,S。;Mount,D.M。;内塔尼亚胡,新南威尔士州。;西尔弗曼,R。;Wu,A.Y.,固定维近似最近邻搜索的优化算法,J.ACM,45,923,(1998)·Zbl 1065.68650号 ·数字对象标识代码:10.1145/293347.293348
[3] Bayardo,R.J。;马云(Ma,Y.)。;Srikant,R.,扩大所有配对相似性搜索,140,(2007)
[4] Bentley,J.L.,用于关联搜索的多维二叉搜索树,Commun。ACM,18517(1975)·Zbl 0306.68061号 ·doi:10.1145/361002.361007
[5] Bickel,P.J。;Levina,E.,通过阈值进行协方差正则化,Ann.Statist。,2604, (2008) ·Zbl 1196.62062号
[6] Bien,J。;Tibshirani,R.J.,协方差矩阵的稀疏估计,生物统计学,98,820,(2011)·Zbl 1228.62063号 ·doi:10.1093/biomet/asr054
[7] 伯恩鲍姆,A。;Nadler,B.(2012)
[8] Boucheron,S。;卢戈西,G。;Massart,P.,《集中不等式:独立性的非渐近理论》(2013)·Zbl 1279.60005号
[9] Butte,A.J。;Tamayo,P。;斯隆,D。;Golub,T.R。;Kohane,I.S.,《利用相关网络发现RNA表达和化疗敏感性之间的功能关系》,Proc。国家。阿卡德。科学。,97, 12186, (2000) ·doi:10.1073/pnas.2203922197
[10] 蔡,T。;Liu,W.,稀疏协方差矩阵估计的自适应阈值,J.Amer。统计师。协会,106,684,(2011)·Zbl 1232.62086号 ·doi:10.1198/jasa.2011.tm10560
[11] Charikar,M.S.,取整算法的相似性估计技术,388,(2002)·Zbl 1192.68226号
[12] 南部乔杜里。;德顿,M。;Richardson,T.S.,带零协方差矩阵的估计,生物特征,94,216,(2007)·Zbl 1143.62032号 ·doi:10.1093/biomet/asm007
[13] 科廷,R.R。;克莱恩,J.R。;矿渣,N.P。;3月,W.B。;公羊,P。;北美梅塔。;灰色。,A.G.,Mlpack:一个可扩展的c++机器学习库,J.Mach。学习。决议,14805,(2013)·Zbl 1307.68066号
[14] Dasarathy,G。;沙阿·P。;Bhaskar,B.N。;Nowak,R.(2013)
[15] 数据员,M。;Immorlica,N。;Indyk,P.公司。;Mirrorkni,V.S.,基于p-稳定分布的局部敏感散列方案,262,(2004)·Zbl 1373.68193号
[16] 德里尼亚斯,P。;Kannan,R。;Mahoney,M.W.,矩阵i的快速蒙特卡罗算法:近似矩阵乘法,SIAM J.Compute。,36, 157, (2006) ·Zbl 1111.68147号 ·doi:10.1137/S0097539704442684
[17] Dubiner,M.,统计高维最近邻问题的桶编码和信息理论,IEEE Trans。通知。理论,56,4179,(2010)·Zbl 1368.68209号 ·doi:10.1109/TIT.2010.2050814
[18] El Karoui,N.,大维稀疏协方差矩阵的算子范数一致估计,Ann.Statist。,362756(2008a)·Zbl 1196.62064号 ·doi:10.1214/07-AOS559
[19] El Karoui,N.,使用随机矩阵理论对大维协方差矩阵进行谱估计,Ann.Statist。,2790(2008b)
[20] A.C.吉尔伯特。;Guha,S。;Indyk,P。;Muthukrishnan,S。;Strauss,M.,通过采样的近最优稀疏傅里叶表示,161,(2002)·Zbl 1192.94078号
[21] Har-Peled,S。;Indyk,P。;Motwani,R.,《近似最近邻:消除维度诅咒》,理论计算。,8, 350, (2012) ·Zbl 1278.68344号 ·doi:10.4086/toc
[22] Hassanieh,H。;Indyk,P。;卡塔比博士。;Price,E.,几乎最优稀疏傅里叶变换,578,(2012)·Zbl 1286.94046号
[23] Iwen,M.A.,组合亚线性时间傅里叶算法,Found。计算。数学。,10, 338, (2010) ·Zbl 1230.65145号 ·doi:10.1007/s10208-009-9057-1
[24] 医学硕士Iwen。;Spencer,C.V.,关于压缩感知和矩阵乘法复杂性的注释,Inform。过程。莱特。,109, 471, (2009) ·Zbl 1215.68284号 ·doi:10.1016/j.ipl.2009年9月01日
[25] 约翰斯通,I.M。;Lu,A.Y.,《关于高维主成分分析的一致性和稀疏性》,J.Amer。统计师。协会,104,693,(2009)·Zbl 1388.62174号 ·doi:10.1198/jasa.2009.0121
[26] 琼斯,P.W。;奥西波夫,A。;Rokhlin,V.,一种随机近似最近邻算法,应用。计算。哈蒙。分析。,34, 444, (2013) ·Zbl 1262.68188号 ·doi:10.1016/j.acha.2012.07.003
[27] Laurent,B。;Massart,P.,通过模型选择估计二次函数,Ann.Statist。,28, 1338, (2000) ·Zbl 1105.62328号 ·doi:10.1214操作系统/1015957395
[28] Pagh,R.,压缩矩阵乘法,ACM Trans。计算。理论(TOCT),5,9,(2013)·Zbl 1322.65055号
[29] 公羊,P。;Gray,A.G.,使用锥树进行最大内部产品搜索,939,(2012)
[30] Rudelson,M。;Vershynin,R.(2013)
[31] 沙赫纳罗维奇,G。;Indyk,P。;Darrell,T.,《学习与视觉中的近邻方法:理论与实践》,(2006年)
[32] Shrivastava,A。;Li,P.,亚线性时间最大内积搜索的非对称lsh(ALSH),2329,(2014)
[33] Shrivastava,A。;Li,P.,用于最大内积搜索(mips)的改进非对称局部敏感哈希(alsh),(2015)
[34] 斯莱尼,M。;Casey,M.,用于查找最近邻居的局部敏感散列,IEEE信号处理。杂志,25131,(2008)·doi:10.1109/MSP.2007.914237
[35] Valiant,G.,《寻找次二次时间的相关性及其在学习平价和最近对问题中的应用》,J.ACM,62,13,(2015)·Zbl 1333.68235号 ·doi:10.1145/2772377
[36] Valiant,L.G.,《神经网络中的功能》,39,(1988)
[37] Vershynin,R.(2010年)
[38] Williams,V.V.,《矩阵乘法比科珀斯米特·温诺格拉德更快》,898,(2012)·Zbl 1286.65056号
[39] Wimalajeewa,T。;Eldar,Y.C。;瓦什尼,P.K.(2013)
[40] 肖,C。;Wang,W。;林,X。;Yu,J.X。;Wang,G.,用于近重复检测的高效相似性连接,ACM Trans。数据库系统。,36, 15, (2011) ·doi:10.1145/2000824
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。