×

用于实向量快速相似性搜索的索引结构。二、。 (英语。俄文原件) Zbl 1392.68176号

赛博。系统。分析。 54,第2号,320-335(2018); 翻译自Kibern。修女。分析。2018年第2期,162-181(2018)。
摘要:这篇调查文章考虑了用于实值向量表示的对象的快速相似性搜索的索引结构。考虑了精确和快速但近似相似搜索的结构。主要介绍了基于区域划分(包括层次结构)和邻近图的索引结构。还讨论了利用初始数据的变换加速相似性搜索。概述了包括最近提出的算法在内的具体算法的思想。讨论并比较了在所考虑类型的索引结构中以及在保持相似性散列的基础上加速相似性搜索的方法。
第一部分见[作者,《网络系统分析》54,第1期,152-164(2018;兹比尔1390.68249); 翻译自Kibern。修女。分析。2018年,第1期,168-183(2018)]。

MSC公司:

第68页,共15页 数据库理论
68第05页 数据结构
68页第10页 搜索和排序
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Rachkovskij,DA,实值向量快速相似性搜索的索引结构。一、 控制论与系统分析,54,152-164,(2018)·Zbl 1390.68249号 ·doi:10.1007/s10559-018-0016-1
[2] 盖德,V;Gunther,O,多维访问方法,ACM Compute。调查。,30, 170-231, (1998) ·doi:10.1145/280277.280279
[3] 博姆,C;Berchtold,S;Keim,DA,《在高维空间中搜索:提高多媒体数据库性能的索引结构》,ACM Compute。调查。,33, 322-373, (2001) ·数字对象标识代码:10.1145/502807.502809
[4] H.Samet,《多维和度量数据结构基础》,Morgan Kaufmann,旧金山(2006)·Zbl 1139.68022号
[5] Rachkovskij,DA,用于快速距离和相似性估计的实值嵌入和草图,控制论和系统分析,52,967-988,(2016)·Zbl 1359.62261号 ·数字对象标识码:10.1007/s10559-016-9899-x
[6] Rachkovskij,DA,用于快速距离和相似性估计的二进制向量,控制论和系统分析,53,138-156,(2017)·兹比尔1366.93641 ·数字对象标识代码:10.1007/s10559-017-9914-x
[7] Rachkovskij,DA,用于快速相似性搜索的基于距离的索引结构,控制论和系统分析,53636-658,(2017)·Zbl 1392.68175号 ·doi:10.1007/s10559-017-9966-y
[8] Rachkovskij,DA,二进制向量快速相似性搜索的索引结构,控制论和系统分析,53,799-820,(2017)·Zbl 1392.68174号 ·数字对象标识代码:10.1007/s10559-017-9983-x
[9] A.Andoni和P.Indyk,“高维空间中的最近邻”,摘自:《离散和计算几何手册》,第43章,第3版,CRC出版社,美国博卡拉顿(2017),第1135-1155页。
[10] M.Patella和P.Ciaccia,“近似相似性搜索:一个多方面的问题”,《离散算法》,第7卷,第1期,36-48页(2009年)·Zbl 1162.68010号
[11] 穆贾,M;Lowe,DG,高维数据的可扩展最近邻算法,IEEE TPAMI,36,2227-2240,(2014)·doi:10.1109/TPAMI.2014.2321376
[12] Arya,S;底座,D;内塔尼亚胡,N;西尔弗曼,R;Wu,A,一种近似最近邻搜索固定维数的优化算法,ACM杂志,45891-923,(1998)·Zbl 1065.68650号 ·数字对象标识代码:10.1145/293347.293348
[13] JK弗里德曼;宾利,JL;Finkel,RA,在对数期望时间内寻找最佳匹配的算法,ACM Tran。数学软件,3209-226,(1977)·Zbl 0364.68037号 ·数字对象标识代码:10.1145/355744.355745
[14] R.Weber、H.Schek和S.Blott,“高维空间中相似性搜索方法的定量分析和性能研究”,摘自:Proc。VLDB’98(1998),第194-205页。
[15] S.Arya和D.M.Mount,“固定维中的近似最近邻查询”,摘自:Proc。SODA’93(1993),第271-280页·Zbl 0801.68161号
[16] T.Liu、A.W.Moore、A.Gray和K.Yang,“实用近似最近邻算法的研究”,摘自:Proc。NIPS’04(2004),第825-832页。
[17] Lee,DT;Wong,CK,多维二叉树和平衡四叉树中区域和部分区域搜索的最坏情况分析,信息学报,9,23-29,(1977)·Zbl 0349.68016号 ·doi:10.1007/BF00263763
[18] A.Guttman,“R-树:用于空间搜索的动态索引结构”,载于:Proc。ACM SIGMOD ICMD’84(1984),第47-57页·兹比尔1117.68065
[19] B.U.Pagel、F.Korn和C.Faloutsos,“使用多重分形维数消除维数诅咒”,摘自:Proc。ICDE'00(2000),第589-598页。
[20] D.A.White和R.Jain,“与SS-树的相似索引”,摘自:Proc。ICDE’96(1996),第516-523页。
[21] S.M.Omohundro,《五种Balltree构造算法》,ICSI TR-89-063(1989)。
[22] N.Katayama和S.Satoh,“SR-树:高维最近邻查询的索引结构”,见:Proc。ACM SIGMOD ICMD’97(1997),第369-380页。
[23] L.Arge、M.de Berg、H.J.Haverkort和K.Yi,“优先级R-树:一个实际有效且最坏情况下最优的R-树”,ACM Trans。《算法》,第4卷,第1期,9:1-9:30(2008)·Zbl 1445.68060号
[24] 达斯古普塔,S;Sinha,K,最近邻搜索的随机分区树,Algorithmica,72,237-263,(2015)·Zbl 1311.68148号 ·doi:10.1007/s00453-014-9885-5
[25] P.Yianilos,“局部解除最近邻搜索的维数诅咒”,摘自:Proc。SODA’00(2000),第361-370页·Zbl 0953.65041号
[26] C.Silpa-Anan和R.Hartley,“优化kd-trees以实现快速图像描述符匹配”,摘自:Proc。CVPR’08(2008),第1-8页。
[27] S.Dasgupta和Y.Freund,“随机投影树和低维流形”,摘自:Proc。STOC'08(2008),第537-546页·Zbl 1231.68114号
[28] Allen-Zhu,Z;Gelashvili,R;米卡利,S;Shavit,N,稀疏符号一致Johnson-Lindenstraus矩阵:基于神经科学约束的压缩,PNAS,111,16872-16876,(2014)·doi:10.1073/pnas.1419100111
[29] Rachkovskij,DA,《用随机二进制投影形成反映相似性的二进制向量》,控制论与系统分析,51,313-323,(2015)·Zbl 1317.93233号 ·doi:10.1007/s10559-015-9723-z
[30] M.Jagadeesan,稀疏的简单分析,符号一致性JL。arXiv:1708.02966。2017年8月9日。
[31] 达斯古普塔,S;史蒂文斯,CF;Navlakha,S,基本计算问题的神经算法,科学,358793-796,(2017)·Zbl 1403.68184号 ·doi:10.1212/科学.aam9868
[32] Sinha,K,使用随机分区树的简单变体进行快速L1-形式最近邻搜索,《Procedia Computer Science》,53,64-73,(2015)·doi:10.1016/j.procs.2015.07.280
[33] 王,J;王,N;贾,Y;李,J;曾,G;查,H;Hua,X-S,用于近似最近邻搜索的三元投影树,IEEE Trans。帕米,36,388-403,(2014)·doi:10.1109/TPAMI.2013.125
[34] S.Vempala,“随机定向k-d树适应内在维度”,摘自:Proc。FSTTCS’12(2012),第48-57页·Zbl 1354.68067号
[35] J.B.MacQueen,“多元观测分类和分析的一些方法”,摘自:Proc。MSP’67(1967),第281-297页·Zbl 0214.46201号
[36] 灰色,RM;Neuhoff,DL,量化,IEEE Trans。IT,442325-2384,(1998)·Zbl 1016.94016号 ·doi:10.1109/18.720541
[37] R.Xu和D.Wunsch,“聚类算法综述”,IEEE TNN,第16卷,645-678(2005)。
[38] AC法布雷加斯;Gerardo,BD;Tanguilig,BT,kmeans算法的增强初始质心,信息技术与计算机科学国际期刊,9,26-33,(2017)·doi:10.5815/ijitcs.2017.01.04
[39] 考尔,H;Verma,P,聚类算法的比较weka分析,《国际信息技术与计算机科学杂志》,9,56-67,(2017)·doi:10.5815/ijitcs.2017.08.07
[40] 韩国福冈;Narendra,PM,计算k近邻的分支定界算法,IEEE Trans。计算。,C-24750-753(1975)·Zbl 0307.68069号 ·doi:10.1109/T-C.1975.224297
[41] D.Nister和H.Stewenius,“词汇树的可伸缩识别”,摘自:Proc。CVPR'06(2006),第2161-2168页。
[42] Pham,T-A,用于特征索引的成对优化聚类树,计算机视觉和图像理解,154,35-47,(2017)·doi:10.1016/j.cviu.2016.07.011
[43] D.Zhang、G.Yang、Y.Hu、Z.Jin、D.Cai和X.He,“结合数据结构和散列的统一近似最近邻搜索方案”,见:Proc。IJCAI’13(2013),第681-687页。
[44] Sproull,RF,在k维树中对最近邻搜索的改进,算法,6579-589,(1991)·Zbl 0726.68023号 ·doi:10.1007/BF01759061
[45] McNames,J,基于主轴搜索树的快速最近邻算法,IEEE Trans。PAMI,23964-976,(2001)·doi:10.1109/34.955110
[46] N.Verma、S.Kpotufe和S.Dasgupta,“哪些空间分区树适应内在维度?”。UAI’09(2009),第565-574页。
[47] P.Ram和A.G.Gray,“使用哪个空间分区树进行搜索?”。NIPS’13(2013),第656-654页。
[48] P.Ram、D.Lee和A.G.Gray,“通过最大边缘树在时间预算上进行最近邻搜索”,摘自:Proc。ICDM’12(2012),第1011-1022页。
[49] B.McFee和G.Lanckriet,“使用空间树进行大规模音乐相似性搜索”,摘自:Proc。ISMIR’11(2011),第55-60页·Zbl 1280.68181号
[50] Har-Peled,S;Indyk,P;Motwani,R,《近似最近邻:消除维度诅咒》,理论计算。,8, 321-350, (2012) ·Zbl 1278.68344号 ·doi:10.4086/toc.2012.v008a014
[51] 琼斯,普华永道;奥西波夫,A;Rokhlin,V,《随机近似最近邻算法》,应用和计算谐波分析,34415-444,(2013)·Zbl 1262.68188号 ·doi:10.1016/j.acha.2012.07.003
[52] Y.Avrithis、I.Z.Emiris和G.Samaras,“高维视觉相似性搜索:k-d广义随机化森林”,摘自:Proc。CGI’16(2016),第25-28页。
[53] V.Hyvönen、T.Pitkänen,S.Tasoulis、E.Jääsaari、R.Tuomainen、L.Wang、J.Corander和T.Roos,“通过稀疏随机投影和投票进行快速最近邻搜索”,摘自:Proc。BigData’16(2016),第881-888页。
[54] 拉马斯瓦米,S;Rose,K,高维索引的自适应簇距离边界,IEEE Trans。KDE上,23815-830,(2011)
[55] X.Wang,“使用k-均值聚类和三角形不等式进行高维搜索的快速精确k-最近邻算法”,in:Proc。ICNN’11(2011),第1293-1299页。
[56] H.Hong、G.Juan和W.Ben,“一种用于高维索引的基于自适应聚类距离定界的改进KNN算法”,发表于:Proc。GCIS’12(2012),第213-217页。
[57] 冯,X;崔,J;刘,Y;Li,H,高维空间中基于聚类的最近邻搜索的有效优化,多媒体系统,23,139-153,(2017)·doi:10.1007/s00530-014-0444-3
[58] L.Liu、F.Fenghong Xiang、J.Mao和M.Zhang,“基于超平面树结构的高维索引算法”,摘自:Proc。IEEE ICIA’15(2015),第2730-2733页。
[59] H.Jegou、M.Douze和C.Schmid,“最近邻搜索的产品量化”,IEEE Trans。PAMI,第33卷,第1期,117-128(2011年)。
[60] R.Tavenard、H.Jegou和L.Amsaleg,“在大规模图像搜索中平衡聚类以减少响应时间的可变性”,载于:Proc。CBMI’11(2011),第19-24页。
[61] A.Babenko和V.Lempitsky,“反向多指数”,IEEE Trans。PAMI,第37卷,第6期,1247-1260(2015)。
[62] M.Iwamura、T.Sato和K.Kise,“为快速近似最近邻搜索选择最近邻候选的最有效方法是什么?”。ICCV’13(2013),第3535-3542页。
[63] J.P.Heo、Z.Lin、X.Shen、J.Brandt和S.E.Yoon,“k近邻搜索的残差距离估计器短名单选择”,摘自:Proc。CVPR’16(2016),第2009-2017页。
[64] Pauleve,L;杰古,H;Amsaleg,L,Locality-sensitive hashing:比较hash函数类型和查询机制,Pattern Recognition Letters,311348-1358,(2010)·doi:10.1016/j.patrec.2010.04.004
[65] Y.Xia、K.He、F.Wen和J.Sun,“联合倒置索引”,摘自:Proc。ICCV’13(2013),第3416-3423页。
[66] J.Philbin、O.Chum、M.Isard、J.Sivic和A.Zisserman,“大词汇表和快速空间匹配的对象检索”,摘自:Proc。CVPR’07(2007),第1-8页。
[67] 胡,Z;Bodyanskiy,YV;俄克拉荷马州蒂什琴科;Samitova,VO,基于隶属度和似然函数共享的有序尺度上的模糊聚类数据,国际智能系统与应用杂志,9,1-9,(2017)·doi:10.5815/ijisa.2017.02.01
[68] 胡,Z;Bodyanskiy,YV;俄克拉荷马州蒂什琴科;Samitova,VO,基于频率原型和差异度量的分类数据阵列的可能性模糊聚类,国际智能系统与应用杂志,9,55-61,(2017)·doi:10.5815/ijisa.2017.05.07
[69] 胡,Z;博丹斯基,YV;俄克拉荷马州蒂什琴科;Tkachov,VM,忽略观测的模糊聚类数据阵列,Int.J.智能系统与应用,9,24-32,(2017)·doi:10.5815/ijisa.2017.06.03
[70] Jain,A;Mehar,P;Buksh,B,《利用相关聚类概念进行聚类的进展——一项调查》,《国际工程发展与研究杂志》,4,1002-1005,(2016)
[71] Jain,A;Tyagi,S,基于优先级的相关聚类新方法,《国际信息技术与计算机科学杂志》,9,71-79,(2017)·doi:10.5815/ijitcs.2017.03.08
[72] J.Wang、H.T.Shen、J.Song和J.Ji,Hashing for Similarity Search:一项调查。arXiv:14082.927。2014年8月13日。
[73] J.Wang、W.Liu、S.Kumar和S.-F.Chang,“学习散列索引大数据:调查”,Proc。IEEE,第104卷,第1期,34-57(2016)。
[74] J.Wang、T.Zhang、J.Song、N.Sebe和H.T.Shen,《关于学习散列的调查》。IEEE传输。帕米。内政部:https://doi.org/10.1109/TPAMI.2017.2699960。 ·Zbl 1390.68249号
[75] L.Gao、J.Song、X.Liu、J.邵、J.Liu和J.绍,“学习高维多媒体数据:最新技术”,多媒体系统,1-11(2015)。
[76] Comer,D,无处不在的B树,ACM计算。调查。,11, 121-138, (1979) ·Zbl 0419.68034号 ·数字对象标识代码:10.1145/356770.356776
[77] S.Berchtold、C.Bohm和H.-P.Kriegel,《金字塔技术:打破维度诅咒》,摘自:Proc。SIGMOD’98(1998),第142-153页。
[78] 贾加迪什,HV;不列颠哥伦比亚省乌伊;Tan,吉隆坡;余,C;Zhang,R,Idistance:一种基于B+树的自适应最近邻索引方法,ACM TODS,30364-397,(2005)·数字对象标识代码:10.1145/1071610.1071612
[79] 劳德,JK;King,PJH,使用Hilbert空间填充曲线查询索引的多维数据,ACM SIGMOD记录,30,19-24,(2001)·doi:10.1145/373626.373678
[80] S.Liao、M.Lopez和S.Leutenger,“利用空间填充曲线进行高维相似性搜索”,摘自:Proc。ICDE'01(2001),第615-622页。
[81] G.Mainar-Ruiz和J.Perez-Cortes,“使用单个填充曲线和数据点的多重表示进行近似最近邻搜索”,摘自:Proc。ICPR’06,第2卷(2006年),第502-505页。
[82] 太阳,Y;王,W;秦,J;张,Y;Lin,X,SRS:用小索引求解高维欧氏空间中的c近似最近邻查询,Proc。VLDB捐赠,8,1-12,(2014)·doi:10.14778/2735461.2735462
[83] E.Anagostopoulos、I.Z.Emiris和I.Psarros,《带松弛的随机嵌入》和《高维近似最近邻》。arXiv:1412.1683。2016年12月3日。
[84] G.Avarikioti、I.Z.Emiris、I.Psarros和G.Samaras,高维实用线性空间近似近邻。arXiv:1612.07405。2016年12月22日·Zbl 1392.68174号
[85] R.Donaldson、A.Gupta、Y.Plan和T.Reimer,《为商业搜索引擎设计的随机映射》。arXiv:1507.05929。2015年7月21日·Zbl 0307.68069号
[86] 陆军部Rachkovskij;IS米苏诺;Slipchenko,SV,构建二进制稀疏向量表示的随机投影方法,控制论与系统分析,48,146-156,(2012)·Zbl 1276.68144号 ·doi:10.1007/s10559-012-9384-0
[87] S.Ferdowsi、S.Voloshynovskiy、D.Kostadinov和T.Holotyak,“使用稀疏三元代码在高维特征空间中快速识别内容”,摘自:Proc。WIFS’16(2016),第1-6页。
[88] I.S.Misuno、D.A.Rachkovskij、S.V.Slipchenko和A.M.Sokolov,“借助向量表示搜索文本信息”,《程序设计问题》,第4期,第50-59页(2005年)。
[89] V.I.Gritsenko、D.A.Rachkovskij、A.A.Frolov、R.Gayler、D.Kleyko和E.Osipov,“神经分布式自联想记忆:一项调查”,《控制论与计算机工程》,第2期(188),第5-35页(2017年)。
[90] P.Indyk、J.Matousek和A.Sidiropoulos,“有限度量空间的低直径嵌入”,见:《离散和计算几何手册》,第8章,第3版,CRC出版社,美国博卡拉顿(2017),第211-231页。
[91] S.Fortune,“Voronoi图和Delaunay三角剖分”,收录于:《离散和计算几何手册》,第27章,第3版,CRC出版社,美国博卡拉顿(2017),第705-721页。
[92] T.Sebastian和B.Kimia,“大型数据库中基于度量的形状检索”,摘自:Proc。ICPR’02,第3卷(2002),第291-296页。
[93] J.Chen、H.Fang和Y.Saad,“通过递归Lanczos二分法快速构建高维数据的近似knn图”,《MLR杂志》,第10卷,1989-2012(2009)·Zbl 1235.68137号
[94] J.Wang、J.Waing、G.Zeng、Z.Tu、R.Gan和S.Li,“视觉描述符的可缩放k-NN图构造”,摘自:Proc。CVPR’12(2012),第1106-1113页。
[95] Y.-M.Zhang、K.Huang、G.Geng和C.-L.Liu,“使用位置敏感散列快速构建knn图”,摘自:Proc。ECMLPKDD’13(2013),第660-674页。
[96] J.Tang、J.Liu、M.Zhang和Q.Mei,“可视化大规模高维数据”,摘自:Proc。WWW’16(2016),第287-297页·Zbl 1317.93233号
[97] C.Fu和D.Cai,Efanna:一种基于kNN图的快速近似最近邻搜索算法。arXiv:1609.07228。2016年12月3日。
[98] W.Dong、M.Charikar和K.Li,“通用相似性度量的有效K-最近邻图构造”,摘自:Proc。WWW’11(2011),第577-586页。
[99] 赵伟林,杨建中,邓春华,基于kNN图的可伸缩最近邻搜索。arXiv:1701.08475。2017年2月3日·Zbl 0364.68037号
[100] W.Li、Y.Zhang、Y.Sun、W.Wang、W.Zhang和X.Lin,高维数据的近似最近邻搜索——实验、分析和改进。arXiv:1610.02455。2016年10月8日·Zbl 1065.68650号
[101] J.Johnson、M.Douze和H.Jegou,《使用GPU进行十亿级相似性搜索》。arXiv:1702.08734。2017年2月28日。
[102] D.C.Anastasiu和G.Karypis,“L2knng:用l2-形式修剪快速精确k最近邻图的构造”,收录于:Proc。CIKM’15(2015),第791-800页。
[103] A.Boutet、A.M.Kermarrec、N.Mittal和F.Taiani,“在稀疏世界中做好准备:kNN图构造的案例”,摘自:Proc。ICDE’16(2016),第241-252页。
[104] Y.Wang、A.Shrivastava和J.Ryu,FLASH:随机算法在CPU-GPU上加速,用于超高维相似性搜索。arXiv:1709.01190。2017年9月4日·Zbl 1366.93641号
[105] J.Wang和S.Li,“用于大规模索引的查询驱动迭代邻域图搜索”,摘自:Proc。MM’12(2012),第179-188页·Zbl 1359.62261号
[106] 金,Z;张,D;胡,Y;林,S;蔡,D;He,X,通过迭代最近邻展开快速准确散列,IEEE Trans。控制论,44,2167-2177,(2014)·doi:10.1109/TCYB.2014.2302018
[107] J.Wang、J.Wan、G.Zeng、R.Gan、S.Li和B.Guo,“使用笛卡尔连接进行快速邻域图搜索”,载于:多媒体数据挖掘和分析,Springer,Cham(2015),第397-417页。
[108] B.Neyshabur和N.Srebro,“关于内部产品搜索的对称和非对称LSH”,摘自:Proc。ICML’15(2015),第1926-1934页。
[109] A.Ponomarenko、N.Avrelin、B.Naidan和L.Boytsov,“近似最近邻搜索数据结构的比较分析”,载于:Proc。《数据分析》14(2014),第125-130页·兹比尔1311.68148
[110] B.Naidan、L.Boytsov和E.Nyberg,“置换搜索方法是有效的,但更快的搜索是可能的”,Proc。VLDB捐赠,第8卷,第12期,1618-1629(2015)。
[111] 于。A.Malkov和D.A.Yashunin,使用分层可导航小世界图的高效且稳健的近似最近邻搜索。arXiv:1603.09320。2016年5月21日。
[112] M.Aumuller、E.Bernhardsson和A.Faithfull,“ANN-Benchmarks:近似最近邻算法的基准测试工具”,摘自:Proc。SISAP’17(2017),第34-49页。
[113] 弗洛洛夫,AA;拉奇科夫斯基,DA;Husek,D,《关于willshaw样自联想记忆的信息特征》,《神经网络世界》,第12期,第141-157页,(2002年)
[114] 弗洛洛夫,AA;Husek,D;Rachkovskij,DA,在联想记忆中搜索相似二进制向量的时间,控制论与系统分析,42615-623,(2006)·Zbl 1117.68065号 ·doi:10.1007/s10559-006-0098-z
[115] 萨拉瓦蒂,AH;KR库马尔;Shokrollahi,A,具有指数模式检索能力和迭代学习的非二进制联想存储器,IEEE TNNLS,25,557-570,(2014)
[116] A.Mazumdar和A.S.Rawat,“使用字典学习和扩展解码的联想记忆”,摘自:Proc。AAAI’17(2017),第267-273页·Zbl 0349.68016号
[117] D.Ferro、V.Gripon和X.Jiang,“使用二进制神经网络进行最近邻搜索”,摘自:Proc。IJCNN’16(2016),第5106-5112页。
[118] A.Ischen、T.Furon、V.Gripon、M.Rabbat和H.Jegou,“高维空间相似性搜索的记忆向量”,IEEE Trans。《大数据》(2017)。内政部:https://doi.org/10.109/TBDATA.2017.2677964。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。