跳到主要内容
10.1145/1529282.1529669acm会议文章/章节视图摘要出版物页面会议记录会议集合
研究论文

超大文本的快速容错搜索

出版:2009年3月8日 出版历史

摘要

我们考虑以下拼写变体聚类问题:给定一个不同单词的列表,称为词典,计算(可能重叠)相互拼写变体的单词簇。此问题自然会在以下类型的容错全文搜索上下文中出现:对于给定的查询,不仅返回与查询词完全匹配的文档,还返回与它们的拼写变体匹配的文档。这与众所周知的“你的意思是:…?”网络搜索引擎功能相反,其中错误容限位于查询一侧,而不是文档一侧。
我们将大量关于近似字符串搜索和拼写更正技术的文献中的各种观点结合到一种新的拼写变体聚类算法中,该算法在时间和空间上都是准确且高效的。我们最大的词典包含大约1000万个单词,在一台标准PC上大约16分钟就可以用10 MB的额外空间进行处理。这比以前最好的方案在运行时间上高出两倍,在空间使用上高出十倍。我们已经将我们的算法集成到CompleteSearch引擎中,以实现容错搜索,而不会在索引大小和查询处理时间上出现明显的放大。

工具书类

[1]
H.巴斯特和I.韦伯。键入更少,查找更多:使用简洁的索引快速自动完成搜索。2006年SIGIR, 2006.
[2]
R.J.Bayardo、Y.Ma和R.Srikant。扩大所有配对的相似性搜索。2007年WWW,第131-140页,2007年。
[3]
E.Brill和R.C.Moore。一种改进的噪声信道拼写校正误差模型。ACL'00号, 2000.
[4]
S.Chaudhuri、V.Ganti和R.Kaushik。数据清理中用于相似性联接的基本运算符。2006年ICDE,第5页,2006年。
[5]
X.L.川晓,王伟,J.X.Yu。有效的相似性连接用于近重复检测。WWW 2008, 2008.
[6]
E.Cohen、M.Datar、S.Fujiwara、A.Gionis、P.Indyk、R.Motwani、J.D.Ullman和C.Yang。在不支持修剪的情况下查找有趣的关联。ICDE'00系列,第489页,2000年。
[7]
D.C.Comeau和W.J.Wilbur。在没有字典的情况下进行非单词识别或拼写检查。JASIST公司, 55:169--177, 2004.
[8]
H.达利安尼斯。评估搜索引擎中的拼写支持。NLDB'02年,第183-190页,2002年。
[9]
K.Figueroa、E.Chávez、G.Navarro和R.Paredes。度量空间中邻近搜索的最小代价。WEA公司,第279--290页,2006年。
[10]
K.Kukich。自动更正文本中单词的技术。ACM计算。Surv公司。, 24:377--439, 1992.
[11]
S.Mihov和K.U.Schulz。在大型词典中进行快速近似搜索。计算。语言学家。,第451-477页,2004年。
[12]
R.Muth和U.Manber。近似多字符串搜索。96年CPM,第75-86页,1996年。
[13]
G.Navarro和R.Baeza-yates。在度量空间中搜索。ACM计算。Surv公司。,第273--321页,2001年。
[14]
J.J.Pollock和A.Zamora。科学和学术文本中的自动拼写更正。Commun公司。ACM 27、4(4月),第358-368页,1984年。
[15]
E.S.Ristad和P.N.Yianilos。学习字符串编辑距离。IEEE模式分析和机器智能汇刊, 20:522--532, 1998.
[16]
E.Sutinen和J.Tarhio。用近似匹配的q样本进行过滤。96年CPM,第50-63页,1996年。
[17]
B.S.T.Bocek,E.Hunt。大型词典中的快速相似性搜索。技术报告,苏黎世大学信息学系,2007年。
[18]
K.Taghva、J.Borsack和A.Condit。用于自动校正ocr输出的专家系统。SPIE公司,第270--278页,1994年。
[19]
K.Taghva、J.Borsack和A.Condit。将概率IR应用于OCR文本的结果。信息检索的研究与发展,第202-211页,1994年。
[20]
K.Taghva、J.Borsack和A.Condit。ocr错误对使用向量空间模型进行排名和反馈的影响。信息处理。管理。, 32:317--327, 1996.
[21]
J.Zobel和P.W.Dart。在大型词典中查找近似匹配。软件-实践和经验, 25:331--345, 1995.

引用人

查看全部

建议

评论

信息和贡献者

问询处

发布于

封面图片ACM会议
SAC'09:2009年ACM应用计算研讨会论文集
2009年3月
2347页
十亿英镑:9781605581668
内政部:10.1145/1529282
如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布、在服务器上发布或重新分发到列表,需要事先获得特定许可和/或收取费用。从请求权限[电子邮件保护]

赞助商

出版商

计算机协会

美国纽约州纽约市

出版历史

出版:2009年3月8日

权限

请求对此文章的权限。

检查更新

作者标记

  1. 近似字符串匹配
  2. 容错搜索
  3. 拼写变体

限定符

  • 研究文章

会议

SAC09标准
主办单位:
SAC09:2009年ACM应用计算研讨会
2009年3月8日至2008年3月12日
夏威夷,火奴鲁鲁

验收费率

6669份提交文件的总体接受率为1650,25%

贡献者

其他指标

文献计量学和引文

文献计量学

文章指标

  • 下载次数(过去12个月)1
  • 下载次数(最近6周)1
反映截至2024年9月17日的下载量

其他指标

引文

引用人

查看全部

视图选项

获取访问权限

登录选项

完全访问权限

查看选项

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用联机查看电子阅读器.

电子阅读器

媒体

数字

其他

桌子

分享

分享

共享此出版物链接

在社交媒体上分享