×

双树快速精确最大核搜索。 (英文) Zbl 07260396号

摘要:最大内核搜索的问题随处可见:给定一个查询点\(p_q\)、一组引用对象\(S_r\)和一些内核\(\mathcal{K}\),查找\(arg\,max_{p_r\ in S_r}\mathcal{K}(p_q,p_r)\)。由于内核的广泛适用性,Max-kernel搜索无处不在,并出现在无数科学领域。一些领域包括图像匹配、信息检索、生物信息学、相似性搜索和协同过滤(仅举几个例子)。然而,目前还没有一种通用技术可以有效地解决最大核搜索问题。本文提出了一种称为单树FastMKS它返回单个查询点在可证明的\(O(\log N)\)时间内的最大内核解(其中\(N\)是引用对象的数量),以及双树算法(双树FastMKS)这对于具有多个查询点的max-kernel搜索非常有用。如果查询点集的大小为(O(N)),则该算法在可证明的时间内返回一个解,这明显优于线性扫描解;这些界限取决于数据的膨胀常数。这些算法适用于抽象对象,因为不要需要显式表示内核空间中的点。各种数据集的经验结果表明,在某些情况下,速度加快了五个数量级。此外,我们给出了FastMKS算法的近似扩展,可以实现进一步的加速。

MSC公司:

62至XX 统计
68倍 计算机科学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] C.Leslie、E.Eskin和W.S.Noble,光谱核:支持向量机蛋白质分类的字符串核,《太平洋生物计算研讨会论文集》,2002年,564-575。
[2] K.M.Borgwardt、C.S.Ong、S.Sch¨onauer、S.V.N.Vishwanathan、A.J.Smola和H.P.Kriegel,通过图形核预测蛋白质功能,生物信息学21(增刊1)(2005年),i47-i56。
[3] K.M¨uller、A.Smola、G.R¨atsch、B.Sch¨olkopf、J.Kohlmorgen和V.Vapnik,用支持向量机预测时间序列,第七届人工神经网络国际会议论文集(ICANN’97),1997,999-1004。
[4] M.Klaas、M.Briers、N.de Freitas、A.Doucet、S.Maskell和D.Lang,《快速粒子平滑:如果我有一百万个粒子》,载于《第23届国际机器学习会议论文集》(ICML'06),美国计算机学会,纽约州纽约市,2006年,481-488。
[5] Y.Koren、R.M.Bell和C.Volinsky,推荐系统的矩阵分解技术,IEEE Comput 42(8)(2009),30-37。
[6] G.Dror、N.Koenigstein、Y.Koren和M.Weimer,《雅虎!音乐数据集和KDD-Cup’11,J Machine Learn Res 18(2012),8-18。
[7] S.F.Altschul、W.Gish、W.Miller、E.W.Myers和D.J.Lipman,基本局部比对搜索工具,《分子生物学杂志》215(3)(1990),403-410。
[8] T.F.Smith和M.S.Waterman,《常见分子子序列的识别》,《分子生物学杂志》147(1)(1981年),195-197年。
[9] V.J.Hodge和J.Austin,《标准拼写检查算法和新型二进制神经方法的比较》,IEEE Trans Knowledge and Data Engineering 15(5)(2003),1073-1081。
[10] K.Fukunaga和P.M.Nagendra,计算K近邻的分支定界算法,IEEE Trans Compute 100(7)(1975),750-753·兹比尔0307.68069
[11] J.L.Bentley,用于关联搜索的多维二叉搜索树,Commun ACM 18(9)(1975),509-517·Zbl 0306.68061号
[12] J.K.Uhlmann,用度量树满足一般邻近性/相似性查询,信息处理快报40(4)(1991),175-179·Zbl 0748.68088号
[13] T.Liu、A.W.Moore、K.Yang和A.G.Gray,《实用近似最近邻算法的研究》,《神经信息处理系统进展》18(NIPS’04),2004年,825-832。
[14] P.Ram、D.Lee、H.Ouyang和A.G.Gray,《秩近似最近邻搜索:在高维中保持意义和速度》,《高级神经信息处理系统》22(NIPS’09)22(2010),1536-1544。
[15] M.Muja和D.G.Lowe,具有自动算法配置的快速近似最近邻,计算机视觉理论与应用国际会议(VISAPP),2009年。
[16] S.Arya、D.M.Mount、N.S.Netanyahu、R.Silverman和A.Y.Wu,固定维近似最近邻搜索的最优算法,JACM 45(6)(1998),891-923·Zbl 1065.68650号
[17] K.L.Clarkson,度量空间中的最近邻查询,离散计算几何22(1)(1999),63-93·Zbl 0994.54501号
[18] R.Krauthgamer和J.R.Lee,《导航网:邻近搜索的简单算法》,载于第十五届ACM-SIAM离散算法年会论文集(SODA'04),2004年,798-807·Zbl 1318.68071号
[19] K.L.Clarkson,最近邻搜索和度量空间维数。最近邻学习和视觉方法:理论与实践2006,15-59。
[20] R.R.Curtin、P.Ram和A.G.Gray,《快速精确最大核搜索》。在SIAM国际数据挖掘会议(SDM’13)上,2013年,1-9。
[21] A.Rahimi和B.Recht,《大型内核机的随机特征》,《高级神经信息处理系统》20(NIPS’07)20(2008),1177-1184。
[22] P.Kar和H.Karnick,点积核的随机特征图,《第22届国际人工智能与统计会议论文集》(AISTATS’12),第22卷,2012年,583-591。
[23] A.Gionis、P.Indyk和R.Motwani,通过散列进行高维相似性搜索,《第二十五届超大数据库国际会议论文集》(VLDB’99),第99卷,1999年,第518-529页。
[24] M.S.Charikar,取整算法的相似性估计技术,第34届ACM计算理论年会论文集(STOC'02),2002,380-388·Zbl 1192.68226号
[25] B.Kulis和K.Grauman,可缩放图像搜索的内核化局部敏感哈希,第12届IEEE国际计算机视觉会议(ICCV'09)论文集,2009年。
[26] P.Ram和A.G.Gray,使用锥树进行最大内部产品搜索,载于第18届ACM SIGKDD国际知识发现和数据挖掘会议(KDD’12),2012年,931-939。
[27] L.Cayton,Bregman发散的快速最近邻检索,《第25届机器学习国际会议论文集》(ICML’08),2008年,第112-119页。
[28] R.A.Finkel和J.L.Bentley,《四叉树:复合键检索的数据结构》,《信息学报》4(1)(1974),1-9·Zbl 0278.68030号
[29] J.H.Friedman、J.L.Bentley和R.A.Finkel,在对数预期时间内寻找最佳匹配的算法,ACM Trans Math Softw 3(3)(1977),209-226·Zbl 0364.68037号
[30] J.L.Bentley和J.H.Friedman,范围搜索的数据结构,ACM Comput Surv,11(4)(1979),397-409。
[31] J.L.Bentley和J.H.Friedman,坐标空间中构造最小生成树的快速算法,IEEE Trans Compute 100(2)(1978),97-105·Zbl 0369.68027号
[32] R.R.Curtin,W.B.March,P.Ram,D.V.Anderson,A.G.Gray,and C.L.Isbell Jr,《树无关双树算法》,《第三十届机器学习国际会议论文集》(ICML’13),2013年。
[33] C.L.Jackins和S.L.Tanimoto,十进制树及其在表示三维对象中的应用,计算图形图像处理14(3)(1980),249-270。
[34] P.N.Yianilos,《一般度量空间中最近邻搜索的数据结构和算法》,载于《第四届ACM-SIAM离散算法年度研讨会论文集》(SODA'93),工业与应用数学学会,1993311-321·Zbl 0801.68037号
[35] S.Dasgupta和Y.Freund,随机投影树和低维流形,第40届ACM计算理论研讨会论文集(STOC’08),2008,537-546·Zbl 1231.68114号
[36] A.Beygelzimer、S.M.Kakade和J.Langford,《为最近的邻居覆盖树木》,载于《第23届国际机器学习会议论文集》(ICML'06),2006年,97-104。
[37] D.Lee和A.G.Gray,《快速高斯求和:理论和实验》,载于《第二十二届人工智能不确定性会议论文集》(UAI'06),2006年。
[38] Y.Shen、A.Y.Ng和M.Seeger,使用kd-trees的快速高斯过程回归,高级神经信息处理系统18(NIPS’05)(2006),1225-1232。
[39] W.L.G.Koontz、P.M.Narendra和K.Fukunaga,分支定界聚类算法。IEEE Trans-Comput 100(9)(1975),908-915·Zbl 0308.68039号
[40] P.M.Narendra和K.Fukunaga,特征子集选择的分支定界算法,IEEE Trans Compute 100(9)(1977),917-922·Zbl 0363.68059号
[41] A.W.Moore,使用多分辨率kd-trees的基于EM的快速混合模型聚类,高级神经信息处理系统11(NIPS’98)11(1999),543-549。
[42] A.G.Gray和A.W.Moore,统计学习中的“N-Body”问题。高级神经信息处理系统14(NIPS’01)4(2002),521-527。
[43] A.G.Gray和A.W.Moore,《非参数密度估计:朝向计算可处理性》,SIAM国际数据挖掘会议(SDM’03),2003年,203-211年。
[44] M.P.Holmes、A.G.Gray和C.L.Isbell Jr,《QUICSVD:使用余弦树的快速奇异值分解》,《神经信息处理系统进展》(NIPS’08),第21卷,2009年,673-680页。
[45] W.B.March、A.J.Connolly和A.G.Gray,《综合n点相关估计的快速算法》,载于《第18届ACM SIGKDD知识发现和数据挖掘国际会议论文集》(KDD’12),2012年,1478-1486。
[46] P.Wang、D.Lee、A.G.Gray和J.M.Rehg,《快速均值偏移与精确稳定收敛》,载于《人工智能与统计研讨会》(AISTATS’07),2007年。
[47] D.Lee、R.W.Vuduc和A.G.Gray,通用维机器学习的分布式内核求和框架,SIAM国际数据挖掘会议(SDM’12),2012,391-402。
[48] D.Lee和A.G.Gray,《使用蒙特卡罗多极子方法的快速高维核求和》,《高级神经信息处理系统》21(NIPS’08),21(2009)。
[49] W.B.March、P.Ram和A.G.Gray,《快速欧几里得最小生成树:算法、分析和应用》,载于第16届ACM SIGKDD知识发现和数据挖掘国际会议论文集(KDD’10),2010603-612。
[50] P.Ram、D.Lee、W.B.March和A.G.Gray,成对统计问题的线性时间算法,《高级神经信息处理系统》22(NIPS’09)23(2010),1527-1535。
[51] D.R.Karger和M.Ruhl,《在生长受限指标中寻找最近邻》,第三十四届ACM计算理论研讨会论文集(STOC'02),。ACM(2002),第741-750页·Zbl 1192.68750号
[52] J.McNames,基于主轴搜索树的快速最近邻算法,IEEE Trans-Pattern Analysis Machine Intell 23(9)(2001),964-976。
[53] F.P.Preparia和M.I.Shamos,《计算几何:导论》。施普林格,纽约,纽约,美国·Zbl 0759.68037号
[54] A.W.Moore,《锚层次:使用三角形不等式生存高维数据》,载于《第十六届人工智能不确定性会议论文集》(UAI’00),摩根考夫曼出版社,马萨诸塞州伯灵顿,美国,2000年,397-405。
[55] A.Beygelzimer、S.M.Kakade和J.C.Langford,《为最近的邻居覆盖树木》(较长版本)。纸张URL网址:http://hunch.net/~jl/projects/cover_tree/paper/paper.pdf[上次访问时间:2014年3月10日]。
[56] R.R.Curtin,J.R.Cline,N.P.Slagle,W.B.March,P.Ram,N.A.Mehta,A.G.Gray,MLPACK:一个可扩展的C++机器学习库,J machine Learn Res 14(2013),801-805·Zbl 1307.68066号
[57] Y.LeCun、C.Cortes和C.J.C.Burges,MNIST数据集,2000年。http://yann.lecun.com/exdb/mnist/。
[58] K.Bache和M.Lichman,UCI机器学习库,2013年,http://archive.ics.uci.edu/ml。
[59] J.Bennett和S.Lanning,网飞奖,《KDD杯和工作坊论文集》,2007,3-6。
[60] R.Lupton、J.E.Gunn、Z.Ivezic、G.R.Knapp、S.Kent和N.Yasuda,SDSS成像管道,Astron数据分析软件系统X 238(2001),269-278。
[61] S.Kim、F.Li、G.Lebanon和I.Essa,《超越情感:人类情感的多样性》,载于《第23届人工智能与统计国际会议论文集》(AISTATS’13),2013年,第360-369页。
[62] A.Torralba、R.Fergus和W.T.Freeman,《8000万微小图像:非参数对象和场景识别的大型数据集》,IEEE Trans-Pattern Anal Machine Intell 30(11)(2008),1958-1970年。
[63] W.R.Pearson和D.J.Lipman,生物序列比较的改进工具,《美国国家科学院院刊》85(8)(1988),2444-2448。
[64] L.Cayton,加速多核系统上的最近邻搜索,《IEEE第26届国际并行和分布式处理研讨会论文集》(IPDPS’12),2012,402-413。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。