×

为灵活的文本检索系统提供简洁的数据结构。 (英语) Zbl 1137.68360号

摘要:我们为支持文档列表查询和基于文档tf*idf(term frequency times inverse document frequence)分数排序查询的文本检索系统提出了简洁的数据结构。针对这些问题的传统数据结构仅支持对某些预定关键字的查询。最近,Muthukrishnan提出了一种数据结构,用于以数据结构大小为代价列出任意模式的文档查询。对于计算tf*idf分数,还没有针对任意模式的有效数据结构。我们的新数据结构使用较小的空间支持这些查询。对于任何0(<varepsilon\leqsleat\)1,空格仅为压缩文档大小的\(2/\varepsilen\)倍加上长度为\(n\)的文档集合的\(10n\)位。这比前面的(O(n\log n)位数据结构小得多。查询时间为\(O(m+q\log^\varepsilon)\),用于列出和计算包含给定长度模式\(m\)的所有\(q\)文档的tf*idf分数。我们的数据结构非常灵活,支持对任意模式的查询。

MSC公司:

68第05页 数据结构
68第20页 信息存储和数据检索
68吨10 模式识别、语音识别
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] S.Muthukrishnan,文档检索问题的高效算法,收录于:Proc。ACM-SIAM SODA,2002年,第657-666页;S.Muthukrishnan,文档检索问题的高效算法,收录于:Proc。ACM-SIAM SODA,2002年,第657-666页·兹比尔1093.68588
[2] Blumer,A。;布鲁默,J。;Haussler,D。;麦康奈尔,R。;Ehrenfeucht,A.,《高效文本检索和分析的完全倒置文件》,《ACM杂志》,34,3578-595(1987)·Zbl 1433.68118号
[3] 格罗西,R。;Vitter,J.S.,压缩后缀数组和后缀树及其在文本索引和字符串匹配中的应用,SIAM计算杂志,35,2,378-407(2005)·Zbl 1092.68115号
[4] R.Grossi,A.Gupta,J.S.Vitter,压缩后缀数组的高阶熵分析,收录于:DIMACS网络与应用数据压缩研讨会,2003年,第841-850页;R.Grossi,A.Gupta,J.S.Vitter,压缩后缀数组的高阶熵分析,收录于:DIMACS网络和应用数据压缩研讨会,2003年,第841-850页·Zbl 1092.68584号
[5] K.Sadakane,简明表述生命周期计划; K.Sadakane,对生命周期计划·Zbl 1093.68578号
[6] Sadakane,K.,压缩后缀数组的新文本索引功能,《算法杂志》,48,2,294-313(2003)·Zbl 1100.68563号
[7] 费拉吉纳,P。;Manzini,G.,压缩文本索引,ACM杂志,52,4,552-581(2005)·Zbl 1323.68261号
[8] Salton,G。;Wong,A。;Yang,C.S.,自动索引的向量空间模型,ACM通信,18,11,613-620(1975)·Zbl 0313.68082号
[9] 美国曼伯。;Myers,G.,《后缀数组:在线字符串搜索的新方法》,SIAM计算机杂志,22,5,935-948(1993)·Zbl 0784.68027号
[10] P.Weiner,线性模式匹配算法,摘自:第14届IEEE交换与自动机理论研讨会论文集,1973年,第1-11页;P.Weiner,线性模式匹配算法,摘自:第14届IEEE交换与自动机理论研讨会论文集,1973年,第1-11页
[11] M.Farach,大字母的最佳后缀树构造,收录于:第38届IEEE Symp。《计算机科学基础》,1997年,第137-143页;M.Farach,大字母的最佳后缀树构造,收录于:第38届IEEE Symp。《计算机科学基础》,1997年,第137-143页
[12] Gusfield,D.,《字符串、树和序列的算法》(1997),剑桥大学出版社·Zbl 0934.68103号
[13] 蒙罗,J.I。;Raman,V.,平衡括号和静态树的简洁表示,SIAM计算杂志,31,3,762-776(2001)·Zbl 1017.68037号
[14] 蒙罗,J.I。;拉曼,V。;Rao,S.S.,高效空间后缀树,《算法杂志》,39,2,205-222(2001)·Zbl 0977.68069号
[15] 费拉吉纳,P。;Manzini,G。;Mäkinen等人。;Navarro,G.,序列的简洁表示(2004年8月),技术报告TR/DCC-2004-5,智利大学计算机科学系
[16] 本德,M。;Farach-Colton,M.,《重新审视生命周期评价问题》(The LCA problem reviewed),(《拉丁语学报》,《拉丁语汇编》,《计算机科学讲义》,第1776卷(2000年),施普林格出版社),88-94·Zbl 0959.68133号
[17] R.Raman、V.Raman和S.S.Rao,《简明可索引词典及其编码应用》(k);R.Raman、V.Raman和S.S.Rao,《简明可索引词典及其编码应用》·Zbl 1093.68582号
[18] A.Andersson,T.Hagerup,S.Nilsson,R.Raman,线性时间排序?,in:ACM计算理论研讨会,1995年,第427-436页;A.Andersson,T.Hagerup,S.Nilsson,R.Raman,《线性时间中的排序?》?,1995年美国计算机学会计算理论研讨会,第427-436页·Zbl 0968.68509号
[19] Hui,L.,颜色集大小问题及其在字符串匹配中的应用,(第三届组合模式匹配年度研讨会(CPM'92)论文集。程序。第三届组合模式匹配年度研讨会(CPM'92),计算机科学讲稿,第644卷(1992),施普林格出版社,227-240
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。