×

用Minkowski距离描述向量空间数据库中高效相似性搜索的最优支点。 (英语) 兹比尔1427.68065

摘要:基于数据透视的检索算法通常用于解决许多应用领域中的相似性查询,例如多媒体检索、生物医学数据库、时间序列和计算机视觉。通过正确选择能够将数据库元素缩小到只与查询相关的数据透视集,可以显著提高基于数据透视的索引算法的查询性能。虽然文献中的许多其他方法依赖于实证研究或直观观察和假设来实现有效的支点策略,但本文使用形式化的数学方法来解决这个问题。我们在研究中得出结论,具有L^p度量的向量数据库中的最优枢轴集是由这些度量定义的球面表面上均匀分布的点集。为了使研究在数学上易于处理,假设数据库中的数据分布均匀,使我们能够从纯粹的几何角度概述问题。然后,我们给出了实验结果,证明了将我们的特征应用于度量空间中的实际数据库时的有用性。我们的技术优于文献中的同类技术。然而,我们并没有提出一种新的枢轴选择技术,而是提出了专门用于证明这种表征有用性的实验。

MSC公司:

第68页,共15页 数据库理论
68第20页 信息存储和数据检索
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 马里兰州斯科沃尔佐娃。;巴斯金,I.I。;斯坦凯维奇,I.V。;Palyulin,V.A。;Zefirov,N.S.,《分子相似性》。1.图相似性度量集的分析描述,J.Chem。Inf.计算。科学。,38, 5, 785-790 (1998)
[2] Emmert-Streib,F。;Dehmer,M。;石毅,图匹配、网络比对和网络比较五十年,信息科学。,346-347, 180-197 (2016) ·Zbl 1398.68393号
[3] 比克斯,C。;尤萨尔,M.S。;Seidl,T.,签名二次型距离,2010年美国计算机学会图像和视频检索国际会议论文集,CIVR’10,438-445(2010),美国计算机学会:美国计算机学会纽约,纽约,美国
[4] Faloutsos,C。;巴伯,R。;弗利克纳,M。;哈夫纳,J。;Niblack,W。;佩特科维奇,D。;Equitz,W.,《通过图像内容进行高效查询》,J.Intell。信息系统。,3, 3-4, 231-262 (1994)
[5] 塞德尔,T。;Kriegel,H.-P.,《大型多媒体数据库中高效的用户自适应相似性搜索》,《第二十届超大数据库国际会议论文集》,VLDB’97,506-515(1997),Morgan Kaufmann Publishers Inc.:Morgan Koufmann-Publishers Inc.San Francisco,CA,USA
[6] Rubner,Y。;托马西,C。;Guibas,L.J.,《推土机距离作为图像检索的度量标准》,国际计算机杂志。视觉。,40, 2, 99-121 (2000) ·Zbl 1012.68705号
[7] 查韦斯。;纳瓦罗,G。;Baeza-Yates,R。;Marroquin,J.L.,在度量空间中搜索,ACM计算。调查。,33, 3, 273-321 (2001)
[8] Zezula,P。;阿马托,G。;多纳尔,V。;Batko,M.,《相似性搜索:度量空间方法》,《数据库系统进展》,32(2006),施普林格出版社·Zbl 1119.68062号
[9] Hjaltason,G.R。;Samet,H.,度量空间中的索引驱动相似性搜索(调查文章),ACM Trans。数据库系统。,28, 4, 517-580 (2003)
[10] Samet,H.,《多维和度量数据结构基础》(The Foundations of Multimensional and Metric Data Structures)(The Morgan Kaufmann Series in Computer Graphics and Geometric Modeling)(2005),摩根考夫曼出版社:摩根考夫文出版社,美国加利福尼亚州旧金山
[11] Uhlmann,J.K.,《用度量树满足一般邻近性/相似性查询》,Inf.Process。莱特。,40, 4, 175-179 (1991) ·Zbl 0748.68088号
[12] Burkhard,W.A。;Keller,R.M.,《最佳匹配文件搜索的一些方法》,Commun。ACM,16,4,230-236(1973)·Zbl 0269.68062号
[13] Dehne,F。;Noltemeier,H.,句法和结构模式识别,185-194(1988),Springer-Verrag纽约公司:Springer-Verlag纽约公司,美国纽约州纽约市
[14] Ciaccia,P。;帕特拉,M。;Zezula,P.,M树:度量空间中相似性搜索的一种有效访问方法,第二十届超大数据库国际会议论文集,VLDB’97,426-435(1997),Morgan Kaufmann Publishers Inc.:Morgan Koufmann-Publishers Inc.San Francisco,CA,USA
[15] Navarro,G.,通过空间近似在度量空间中搜索,VLDB J.,11,1,28-46(2002)
[16] Brin,S.,《大度量空间中的近邻搜索》,《第二十届超大数据库国际会议论文集》,VLDB’95,574-584(1995),Morgan Kaufmann Publishers Inc.:Morgan Koufmann-Publishers Inc.San Francisco,CA,USA
[17] Baeza-Yates,R。;Cunto,W。;美国曼伯。;Wu,S.,使用固定查询树的邻近匹配,(Crochemore,M.;Gusfield,D.,组合模式匹配。组合模式匹配,计算机科学讲义,807(1994),Springer Berlin Heidelberg),198-212
[18] 查韦斯,E。;Marroquin,J。;Navarro,G.,《固定查询数组:用于邻近搜索的快速经济数据结构》,Multimed。工具应用。,14, 2, 113-135 (2001) ·Zbl 1035.68578号
[19] Yianilos,P.N.,《一般度量空间中最近邻搜索的数据结构和算法》,第四届ACM-SIAM离散算法年会论文集,SODA’93,311-321(1993),工业和应用数学学会:工业与应用数学学会,美国宾夕法尼亚州费城·兹比尔0801.68037
[20] 博兹卡亚,T。;Ozsoyoglu,M.,高维度量空间的基于距离的索引,1997年ACM SIGMOD国际数据管理会议论文集,SIGMOD'97,357-368(1997),ACM:美国纽约州纽约市ACM
[21] Vidal,E.,在(近似)恒定平均时间内查找最近邻居的算法,模式识别。莱特。,4, 3, 145-157 (1986)
[22] Micó,M.L。;Oncina,J。;Vidal,E.,具有线性预处理时间和内存要求的最邻近近似和消除搜索算法(AESA)的新版本,模式识别。莱特。,15, 1, 9-17 (1994)
[23] 米科,L。;Oncina,J。;Carrasco,R.C.,度量空间中的一个快速分支和定界最近邻分类器,模式识别。莱特。,17, 7, 731-739 (1996)
[24] Figueroa,K。;查韦斯,E。;纳瓦罗,G。;Paredes,R.,《加快度量空间中的空间近似搜索》,J.Exp.Algorithmics,14,6:3.6-6:3.21(2010)·Zbl 1284.68665号
[25] Socoro,R。;米科,L。;Oncina,J.,《度量空间基于枢轴的快速索引算法》,模式识别。莱特。,32, 11, 1511-1516 (2011)
[26] 法拉戈,A。;Linder,T。;Lugosi,G.,《不同空间中的快速近邻搜索》,IEEE Trans。模式分析。机器。整数。,15, 9, 957-962 (1993)
[27] 巴斯托斯,B。;纳瓦罗,G。;查韦斯,E.,度量空间中邻近搜索的枢轴选择技术,模式识别。莱特。,41, 9, 2357-2366 (2003) ·Zbl 1047.68037号
[28] 佩德雷拉,O。;Brisaboa,N.R.,度量空间中用于相似性搜索的稀疏枢轴的空间选择,第三十三届计算机科学理论与实践当前趋势会议论文集,SOFSEM’07,434-445(2007),Springer-Verlag:Springer-Verlag Berlin,Heidelberg·Zbl 1131.68437号
[29] 巴斯托斯,B。;佩德雷拉,O。;Brisaboa,N.,《相似性搜索的动态枢轴选择技术》,《第一届相似性搜索与应用国际研讨会论文集》(SISAP 2008),105-112(2008),IEEE计算机学会:IEEE计算机协会,美国华盛顿特区
[30] Van Leuken,R.H。;Veltkamp,R.C.,为相似性索引选择有利对象,ACM Trans。Multimed公司。计算。Commun公司。申请。,7, 3, 16:1-16:18 (2011)
[31] Celik,C.,《度量空间中相似性查询的优先有利点结构》,《第一届欧亚信息与通信技术会议论文集》,欧亚ICT’02,256-263(2002),Springer-Verlag:Springer-Verlag London,UK·Zbl 1025.68525号
[32] 特雷纳,C。;Filho,R.F。;Traina,A.J。;维埃拉,M.R。;Faloutsos,C.,《通用访问方法的全系列:提高相似性搜索效率的简单有效方法》,VLDB J.,16,4,483-505(2007)
[33] Hjaltason,G.R。;Samet,H.,多媒体数据库中的增量相似性搜索,马里兰州大学计算机科学系TR-4199(2000),College Park,Md。
[34] Yianilos,P.N.,排除中间有利点森林进行最近邻搜索,1999年DIMACS实施挑战会议记录,ALENEX'99(1999)
[35] 查韦斯,E。;Marroquin,J.L。;Baeza-Yates,R.,《意大利面:度量空间中基于数组的相似性查询算法》,《字符串处理和信息检索研讨会论文集与群件国际研讨会》,SPIRE’99,38(1999),IEEE计算机学会:IEEE计算机协会,美国华盛顿特区
[36] E.W.Weisstein,《圆-圆交集》(MathWorld.A Wolfram Web Resource)http://mathworld.wolfram.com/Circle-CircleIntersection.html; E.W.Weisstein,《圆-圆交集》(MathWorld.A Wolfram Web Resource)http://mathworld.wolfram.com/Circle-CircleIntersection.html
[37] Lagarias,J.C。;Reeds,J.A。;Wright,M.H。;Wright,P.E.,低维Nelder-Mead单纯形方法的收敛性,SIAM J.Optim。,9, 112-147 (1998) ·Zbl 1005.90056号
[38] Swann,W.H.,直接搜索方法(Murray,W.,无约束优化的数值方法(1972),学术出版社:纽约学术出版社),13-28
[39] Tóth,L.,关于点集确定的距离之和,《数学学报》。阿卡德。科学。挂。,7, 3-4, 397-401 (1956) ·兹伯利0072.38604
[40] Vleugels,J。;Veltkamp,R.C.,通过有利对象进行高效图像检索。,模式识别。,35, 1, 69-80 (2002) ·Zbl 0988.68067号
[41] Shapiro,M.,《最佳匹配文件搜索中参考点的选择》,Commun。ACM,20,5,339-343(1977)
[42] 博兹卡亚,T。;Ozsoyoglu,M.,为相似性搜索查询索引大度量空间,ACM Trans。数据库系统。,24, 3, 361-404 (1999)
[43] Vleugels,J。;Veltkamp,R.C.,通过有利物体进行高效图像检索,第三届视觉信息和信息系统国际会议论文集,Visual’99575-584(1999),施普林格出版社:施普林格出版社,英国伦敦
[44] Filho,R.F.S。;Traina,A.J.M。;小C.T。;Faloutsos,C.,《没有眼泪的相似性搜索:通用访问方法的全系列》(Georgakopoulos,D.;Buchmann,A.,《2001年IEEE国际数据工程会议论文集》(ICDE)(2001),IEEE计算机学会),623-630
[45] Hjaltason,G.R。;Samet,H.,度量空间中相似性搜索嵌入方法的特性,IEEE Trans。模式分析。机器。整数。,25, 5, 530-549 (2003)
[46] 布洛特,S。;Weber,R.,《用于高维向量空间相似性搜索的简单向量近似文件》,技术代表,信息系统研究所(1997年),ETH:ETH苏黎世,瑞士
[47] Korn,F。;佩格尔,B.-U。;Faloutsos,C.,《关于“维度诅咒”和“自相似祝福”》。,IEEE传输。知识。数据工程,13,1,96-111(2001)
[48] 沈洪涛。;周,X。;Zhou,A.,高维索引的自适应动态降维方法,VLDB J.,16,2,219-234(2007)
[49] K.Bache,M.Lichman,UCI机器学习库,2013年。http://archive.ics.uci.edu/ml; K.Bache,M.Lichman,UCI机器学习库,2013年。http://archive.ics.uci.edu/ml
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。