×

具有可控稀疏模式的二进制随机投影。 (英语) Zbl 1513.68056号

摘要:随机投影通常用于将高维向量投影到低维空间,同时大致保持它们的成对距离。它已成为各种数据处理任务中的强大工具,并吸引了大量研究兴趣。部分受神经科学最新发现的启发,本文研究了使用具有可控稀疏模式的二进制矩阵的随机投影问题。具体来说,我们提出了两种适用于一般数据向量的稀疏二进制投影模型。与传统的具有密集投影矩阵的随机投影模型相比,我们提出的模型具有显著的计算优势,因为它们具有稀疏结构,并且提高了经验评估的准确性。

MSC公司:

68T09号 数据分析和大数据的计算方面
15立方厘米 布尔矩阵和阿达玛矩阵

软件:

RCV1型;手套
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 约翰逊,W。;Lindenstrauss,J.,Lipschitz映射到Hilbert空间的扩展,Contemp。数学。,26, 189-206, 1 (1984) ·Zbl 0539.46017号
[2] Vempala,S.:《随机投影法》,第65卷。美国数学学会(2005)·Zbl 1048.68131号
[3] Kanerva,P.,Kristoferson,J.,Holst,A.:潜在语义分析文本样本的随机索引。摘自:认知科学学会年会论文集,第22卷(2000)
[4] Bingham,E.,Mannila,H.:降维中的随机投影:图像和文本数据的应用。摘自:第七届ACM SIGKDD知识发现和数据挖掘国际会议记录,第245-250页(2001)
[5] Manning,C.,Raghavan,P.,Schütze,H.:信息检索导论。剑桥大学出版社(2008)·Zbl 1160.68008号
[6] Leskovec,J.,Rajaraman,A。,Ullman,J.:海量数据集的挖掘。剑桥大学出版社(2020)
[7] Achlioptas,D.,数据库友好型随机投影:Johnson Lindenstrauss与二进制硬币,J.Comput。系统。科学。,66, 4, 671-687 (2003) ·Zbl 1054.68040号 ·doi:10.1016/S0022-0000(03)00025-4
[8] Dasgupta,A.,Kumar,R.,Sarlós,T.:稀疏Johnson-Lindenstraus变换。摘自:第42届ACM计算理论研讨会论文集,第341-350页(2010)·Zbl 1293.68140号
[9] 凯恩,D。;Nelson,J.,Sparser Johnson-Lindenstraus transforms,J.ACM,61,1,1-23(2014)·Zbl 1295.68134号 ·数字对象标识代码:10.1145/2559902
[10] 达斯古普塔,S。;史蒂文斯,C。;Navlakha,S.,《基本计算问题的神经算法》,《科学》,3586364793-796(2017)·Zbl 1403.68184号 ·doi:10.1212/科学.aam9868
[11] 林,A。;Bygrave,A。;DeCalignon,A。;Lee,T。;Miesenböck,G.,蘑菇体内稀疏、去相关的气味编码增强了习得的气味辨别能力,《自然神经科学》。,17, 4, 559 (2014) ·doi:10.1038/nn.3660
[12] 郑,Z。;Lauritzen,S。;Perlman,E。;Robinson,C.,成年果蝇大脑的完整电子显微镜体积,Cell,174,3,730-743(2018)·doi:10.1016/j.cell.2018.06.019
[13] Allen-Zhu,Z。;Gelashvili,R。;米卡利,S。;Shavit,N.,《稀疏符号一致Johnson-Lindenstraus矩阵:基于神经科学约束的压缩》,Proc。国家。阿卡德。科学。,111, 47, 16872-16876 (2014) ·doi:10.1073/pnas.1419100111
[14] Larsen,K.,Nelson,J.:Johnson-Lindenstraus引理的最优性。2017年IEEE第58届计算机科学基础年会,第633-638页。IEEE(2017)
[15] Li,P.,Hastie,T.,Church,K.:非常稀疏的随机投影。摘自:第十二届ACM SIGKDD知识发现和数据挖掘国际会议记录,第287-296页(2006)
[16] Bourgain,J。;德克森,S。;Nelson,J.,《欧几里德空间稀疏降维统一理论》,Geom。功能。分析。,25, 4, 1009-1088 (2015) ·Zbl 1341.46007号 ·doi:10.1007/s00039-015-0332-9
[17] Ailon,N。;Chazelle,B.,《快速Johnson-Lindenstraus变换和近似最近邻》,SIAM J.Compute。,39, 1, 302-322 (2009) ·Zbl 1185.68327号 ·doi:10.1137/060673096
[18] Jagadeesan,M.:了解稀疏JL用于特性哈希。摘自:《神经信息处理系统进展》,第15177-15187页(2019年)
[19] 奥尔森,S。;班达瓦特,V。;Wilson,R.,《嗅觉群体编码的划分标准化》,《神经元》,66,2,287-299(2010)·doi:10.1016/j.neuron.2010.04.009
[20] Papadopoulou,M。;卡西纳,S。;Nowotny,T。;Laurent,G.,《宽域中间神经元对气味稀疏编码的归一化》,《科学》,332,6030,721-725(2011)·数字对象标识代码:10.1126/science.1201835
[21] Stevens,C.,《苍蝇的鼻子告诉苍蝇的大脑是什么》,Proc。国家。阿卡德。科学。,112, 30, 9460-9465 (2015) ·doi:10.1073/pnas.1510103112文件
[22] Li,W.:在稀疏二进制投影中建模赢家-全胜竞争。摘自:《数据库中的机器学习和知识发现》,第456-472页。施普林格,商会(2021)
[23] Li,W.,Mao,J.,Zhang,Y.,Cui,S.:通过最佳稀疏提升进行快速相似性搜索。摘自:《神经信息处理系统进展》,第176-184页(2018年)
[24] 马,C.,顾,C.,李,W.,崔,S.:基于稀疏二值投影的大尺度图像检索。摘自:第43届国际ACM SIGIR信息检索研究与开发会议记录,第1817-1820页(2020年)
[25] Bennett,G.,独立随机变量之和的概率不等式,美国统计协会,57,297,33-45(1962)·Zbl 0104.11905号 ·doi:10.1080/01621459.1962.10482149
[26] Boucheron,S.,Lugosi,G.,Massart,P.:集中不等式:独立的非渐近理论。牛津大学出版社(2013)·Zbl 1279.60005号
[27] Pennington,J.,Socher,R.,Manning,C.:GlobVe:单词表示的全局向量。摘自:《2014年自然语言处理实证方法会议论文集》,第1532-1543页(2014)
[28] 俄勒冈州Russakovsky。;邓,J。;Su,H.,Imagenet大规模视觉识别挑战,国际计算机杂志。视觉。,115, 3, 211-252 (2015) ·doi:10.1007/s11263-015-0816-y
[29] 刘易斯,D。;Yang,Y。;Rose,T。;Li,F.,RCV1:文本分类研究的新基准集合,J.Mach。学习。研究,5361-397(2004)
[30] Lehmann,E.,Romano,J.:检验统计假设。斯普林格(2006)·兹比尔1076.62018
[31] 安多尼,A。;Indyk,P.,高维近邻问题的近最优散列算法,Commun。ACM,51,1,117-122(2008)·doi:10.145/1327452.1327494
[32] Rachkovskij,D.,使用随机二进制矩阵的矢量数据转换,Cybern。系统。分析。,50, 6, 960-968 (2014) ·Zbl 1323.93067号 ·doi:10.1007/s10559-014-9687-4
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。