×

彩色范围查询和文档检索。 (英语) Zbl 1292.68045号

摘要:彩色范围查询是计算几何和数据库研究领域的一个研究热点,在过去的十年中,它在信息检索中得到了令人兴奋的应用。在本文中,我们为三个重要的一维有色范围查询(有色范围列表、有色范围顶部(k)查询和有色范围计数)提供了改进的时间和空间边界,从而为一般序列集合上的各种文档检索问题提供了新的边界。彩色范围列表是对颜色序列(S[1,n]\)进行预处理的问题,因此,在给定间隔([i,i+\ell-1]\)后,我们将在(S[i,i+\ell-1)中列出不同的颜色。彩色范围顶部-(k)查询会询问间隔中最常见的颜色。彩色范围计数要求间隔中不同颜色的数量。
我们首先描述了一个框架,其中包含了几乎所有关于彩色范围列表和文档列表的最新结果,它为这些问题建议了新的数据结构组合。例如,我们给出了第一个压缩数据结构(使用\(nH_k(S)+o(n\log\sigma)\)位,用于任何\。我们还为文档列表提供了一种有效的数据结构,其大小是以文档库的k阶熵为界的。然后我们展示了如何将(近似)有色top-\(k)查询简化为子序列上的(近似)范围模式查询,从而为该问题提供了第一个有效的数据结构。最后,我们展示了修改后的小波树如何使用(nH_0(S)+mathcal O(n)+O(nH_0(S))位支持彩色范围计数,并在(mathcal 0(log\ell))时间内回答查询。据我们所知,这是第一个查询时间只依赖于\(\ell\)而不依赖\(n\)的数据结构。我们还展示了如何使数据结构动态化。

MSC公司:

68第20页 信息存储和数据检索
68第05页 数据结构

软件:

巴特里西亚
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Apostolico,A.,《子词树的无数优点》,(单词组合算法(1985),Springer-Verlag),85-96·兹比尔0572.68067
[2] Baeza-Yates,R.,web查询挖掘的应用,(第27届欧洲国际关系研究会议论文集(2005),施普林格),7-22
[3] Baeza-Yates,R。;里贝罗,B.,《现代信息检索》(1999),艾迪森·韦斯利
[4] 巴贝,J。;Gagie,T。;纳瓦罗,G。;Nekrich,Y.,压缩秩/选择的字母分割与应用,(第21届国际算法与计算研讨会论文集(2010),Springer),315-326·Zbl 1310.68060号
[5] 巴贝,J。;他,M。;蒙罗,J.I。;Rao,S.S.,字符串、二元关系和多标记树的简洁索引,(第18届离散算法研讨会论文集(2007),SIAM),680-689·Zbl 1302.68097号
[6] Belazzougui,D。;Navarro,G.,《改进全文文档检索的压缩索引》(2011年第18届字符串处理和信息检索研讨会论文集,施普林格),386-397
[7] Belazzougui,D。;Navarro,G.,代表序列的新下限和上限,(第20届欧洲算法研讨会论文集。第20届年度欧洲算法研讨会文献集,LNCS,第7501卷(2012),Springer),181-192·Zbl 1365.68260号
[8] Bille,P。;朗道,G.M。;Raman,R。;Sadakane,K。;Satti,S.R。;Weimann,O.,语法压缩字符串的随机访问,(第22届离散算法研讨会论文集(2011),SIAM),373-389·Zbl 1375.68229号
[9] Bozanis,P。;北卡罗来纳州基齐奥斯。;马克里斯,C。;Tsakalidis,A.K.,广义交叉搜索问题的新上界,(第22届算法、语言和编程国际学术讨论会论文集(1995),Springer),464-474·Zbl 1412.68287号
[10] 布罗达尔,G.S。;格菲勒,B。;约根森,A.G。;Sanders,P.,《朝向最佳范围中值》,理论计算机科学,4122588-2601(2011)·Zbl 1220.68052号
[11] 卡尔森,S。;蒙罗,J.I。;Poblete,P.V.,具有恒定插入时间的隐式二项式队列,(第一届斯堪的纳维亚算法理论研讨会论文集(1988),Springer),1-13·Zbl 0651.68037号
[12] Chan,T。;Durocher,S。;拉森,K.G。;莫里森,J。;Wilkinson,B.T.,数组中距离模式查询的线性空间数据结构,(第29届计算机科学理论方面研讨会论文集。第29届计算科学理论方面会议论文集,Leibnitz Zentrum für Informatik(2012)),290-301·Zbl 1245.68071号
[13] Culppeper,J.S。;纳瓦罗,G。;Puglishi,S.J。;Turpin,A.,《通用文本数据库中排名靠前的文档搜索》(第18届欧洲算法研讨会论文集(2010年),施普林格出版社),194-205年·Zbl 1287.68035号
[14] 费拉吉纳,P。;Manzini,G。;梅基宁,V。;Navarro,G.,序列和全文索引的压缩表示,ACM算法事务,3(2007),第20条·Zbl 1321.68263号
[15] 费拉吉纳,P。;文丘里尼,R.,实现熵界的字符串的简单存储方案,理论计算机科学,371115-121(2007)·Zbl 1110.68029号
[16] Fischer,J.,最小范围查询的最佳简洁性,(第九届拉丁美洲理论信息学研讨会论文集(2010),Springer),158-169·Zbl 1283.68141号
[17] 费舍尔,J。;Heun,V.,RMQ信息的一种新的简洁表示法和增强后缀数组的改进,(第一届组合数学、算法、概率和实验方法研讨会论文集(2007),Springer),459-470·Zbl 1176.68058号
[18] Gabow,H.N。;Bentley,J.L。;Tarjan,R.E.,《几何问题的缩放和相关技术》,(第16届计算理论研讨会论文集(1984),ACM),135-143
[19] Gagie,T。;Kärkkäinen,J.,《计算压缩字符串中的颜色》(第22届组合模式匹配年度研讨会论文集(2011年),施普林格出版社),197-207年·Zbl 1339.68331号
[20] Gagie,T。;纳瓦罗,G。;Puglisi,S.J.,彩色范围查询和文档检索,(2010年第17届字符串处理和信息检索研讨会论文集,施普林格),67-81
[21] Gagie,T。;纳瓦罗,G。;Puglisi,S.J.,《小波树新算法及其在信息检索中的应用》,《理论计算机科学》,426-427,25-41(2012)·Zbl 1243.68161号
[22] 加吉,T。;Puglishi,S.J。;Turpin,A.,《范围分位数查询:小波树的另一个优点》(第16届字符串处理和信息检索研讨会论文集(2009),Springer),1-6
[23] Golynski,A.,排名和选择指数的最佳下界,理论计算机科学,387348-359(2007)·Zbl 1144.68016号
[24] 戈尔林斯基,A。;Raman,R。;Rao,S.,关于简洁数据结构的冗余,(第11届斯堪的纳维亚算法理论研讨会论文集(2008),Springer),148-159·Zbl 1155.68374号
[25] González,R。;Navarro,G.,带快速定位的压缩文本索引,(第18届组合模式匹配研讨会论文集(2007),Springer),216-227·Zbl 1138.68415号
[26] 格雷夫,M。;约根森,A.G。;Larsen,K.D。;Truelsen,J.,《距离模式的细胞探针下限和近似值》,(第37届算法、语言和编程国际学术讨论会论文集(2010),施普林格),605-616·Zbl 1288.68046号
[27] 格罗西,R。;古普塔,A。;Vitter,J.S.,高阶熵压缩文本索引,(第14届离散算法研讨会论文集(2003),SIAM),636-645·Zbl 1092.68584号
[28] 格罗西,R。;奥兰迪,A。;Raman,R.,简洁字符串索引的最佳权衡,(第37届算法、语言和编程国际学术讨论会论文集(2010),Springer),678-689·Zbl 1288.68047号
[29] 他,M。;Munro,I.,动态字符串的简洁表示,(第17届字符串处理和信息检索国际研讨会论文集(2010),Springer),334-346
[30] 尊敬的W。;沙阿·R。;Wu,S.,检索最常见文档的有效索引,(第16届字符串处理和信息检索研讨会论文集(2009),Springer),182-193
[31] 尊敬的W.K。;沙阿·R。;Thankachan,S.V.,《面向顶级文档检索的最佳时空索引》,(第23届组合模式匹配研讨会论文集(2012),Springer),173-184·Zbl 1358.68092号
[32] 尊敬的W.K。;沙阿·R。;Vitter,J.,顶字符串检索问题的空间效率框架,(第50届计算机科学基础研讨会论文集(2009),IEEE),713-722·Zbl 1292.68182号
[33] 伊利亚斯,I.F。;贝斯卡莱斯,G。;Soliman,M.A.,《关系数据库系统中顶级(K)查询处理技术的调查》,ACM Computing Surveys,40(2008)
[34] Janardan,R。;Lopez,M.A.,广义交叉搜索问题,国际计算几何与应用杂志,3,39-69(1993)·Zbl 0777.68078号
[35] 卡普兰,H。;鲁宾,N。;谢里尔,M。;Verbin,E.,高效有色正交范围计数,SIAM计算杂志,38,982-1011(2008)·Zbl 1187.68172号
[36] 卡宾斯基,M。;Nekrich,Y.,文档检索中的顶(K)颜色查询,(第22届离散算法研讨会论文集(2011),SIAM),401-411·兹比尔1373.68197
[37] Lai,Y.K。;Poon,C.K。;Shi,B.,《近似彩色范围和点封闭查询》,《离散算法杂志》,第6420-432页(2008年)·Zbl 1160.68352号
[38] 梅基宁,V。;Navarro,G.,基于运行长度编码的简洁后缀数组,《北欧计算杂志》,12,40-66(2005)·Zbl 1085.68031号
[39] 梅基宁,V。;Navarro,G.,隐式压缩增强与自我索引应用,(第14届字符串处理和信息检索研讨会论文集(2007),Springer),229-241
[40] 梅基宁,V。;纳瓦罗,G.,Rank and select reviewed and extended,《理论计算机科学》,387332-347(2007)·Zbl 1144.68023号
[41] 美国曼伯。;Myers,G.,《后缀数组:在线字符串搜索的新方法》,SIAM计算机杂志,22935-948(1993)·Zbl 0784.68027号
[42] Manzini,G.,《Burrows-Wheeler变换的分析》,美国医学会杂志,48,407-430(2001)·Zbl 1323.68262号
[43] 马蒂亚斯,Y。;Muthukrishnan,S。;南卡罗来纳州萨赫纳尔普。;Ziv,J.,《扩展后缀树及其应用》(第六届欧洲算法研讨会论文集(1998年),施普林格出版社),67-78
[44] Milidiú,R.L。;Laber,E.S.,《限制长度受限前缀码的低效性》,《算法》,31,513-529(2001)·Zbl 1012.94008号
[45] Morrison,D.R.,PATRICIA-检索字母数字编码信息的实用算法,ACM杂志,15(1968)
[46] Munro,I.,Tables,(第16届软件技术和理论计算机科学基础会议论文集(1996),Springer),37-42
[47] Muthkrishnan,S.,文档检索问题的有效算法,(第13届离散算法研讨会论文集(2002),SIAM),657-666·Zbl 1093.68588号
[48] 纳瓦罗,G。;Mäkinen,V.,压缩全文索引,ACM计算调查,39(2007)·Zbl 1321.68263号
[49] 纳瓦罗,G。;Nekrich,Y.,最优时间和线性空间中的Top-\(k\)文档检索,(第22届离散算法研讨会论文集(2012),SIAM),1066-1077·Zbl 1422.68063号
[50] 纳瓦罗,G。;Puglishi,S.J。;Valenzuela,D.,实用压缩文档检索,(第十届实验算法国际研讨会论文集(2011),Springer),193-205
[51] Okanohara博士。;Sadakane,K.,实用熵压缩秩/选择词典,(算法工程与实验研讨会论文集(2007),SIAM)·Zbl 1428.68134号
[52] 彼得森,H。;Grabowski,S.,恒定时间和次二次空间中的范围模式和范围中值查询,《信息处理快报》,109225-228(2009)·Zbl 1191.68343号
[53] Raman,R。;拉曼,V。;Rao,S.,《简明可索引字典及其在编码(k)元树和多集上的应用》,(第13届离散算法研讨会论文集(2002),SIAM),233-242·Zbl 1093.68582号
[54] Sadakane,K.,压缩后缀数组的新文本索引功能,《算法杂志》,48,294-313(2003)·Zbl 1100.68563号
[55] Sadakane,K.,《灵活文本检索系统的简洁数据结构》,《离散算法杂志》,5,12-22(2007)·Zbl 1137.68360号
[56] Sadakane,K。;Navarro,G.,全功能简洁树,(第21届ACM-SIAM离散算法年会论文集(2010),SIAM),134-149·Zbl 1288.05046号
[57] 瓦利马基,N。;Mäkinen,V.,文档检索的空间效率算法,(第18届组合模式匹配研讨会论文集(2007),Springer),205-215·Zbl 1138.68401号
[58] Weiner,P.,线性模式匹配算法,(第14届IEEE交换与自动机理论研讨会论文集(1973),IEEE),1-11
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。