{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{“日期部分”:[[2024,4,30]],“日期时间”:“2024-04-30T11:14:33Z”,“时间戳”:1714475673123},“引用-计数”:67,“发布者”:“计算机协会(ACM)”,“问题”:“2”,“内容域”:{:“域”:[“dl.ACM.org”],“交叉标记限制”:真},“short-container-title”:[“ACM事务信息系统”],“published-print”:{“日期部分”:[[2013,5]]},“摘要”:“我们考虑大型文本集合中的模糊全文搜索问题,即全文搜索,它对查询端和文档端的错误都具有鲁棒性。标准的倒排索引技术对于普通全文搜索非常有效,但即使在中等大小的文本集合(超过10GB的文本)上,模糊全文搜索也无法实现交互式查询时间(低于100毫秒)。我们提出了新的预处理技术,可以在大型文本集合(100GB的文本,由一台机器提供服务)上实现交互式查询时间。我们考虑两种相似性度量,一种是查询项与集合中的类似项匹配(例如,算法与算法匹配,反之亦然),另一种是搜索项与集合内具有类似前缀的项匹配(如,alori匹配算法)。当我们想在每次击键后立即显示结果时(键入时搜索),后者很重要。所有算法都已完全集成到CompleteSearch引擎中<\/jats:p>“,”DOI“:”10.1145\/2457465.2457470“,”type“:”journal-article“,”created“:{”date-parts“:[[2013,5,21]],”date-time“:”2013-05-21T12:33:56Z“,”timestamp“:1369139636000},”page“:“1-59”,“update-policy”:“http://\/dx.DOI.org\/10.1145\/crossmark-policy”,“source”:”Crossref“,”is-referenced-by-count“:5,“标题”:[“大型文本集合中的高效模糊搜索“],”前缀“:”10.1145“,”卷“:”31“,”作者“:[{”给定“:”Hannah“,”家族“:”Bast“,”sequence“:”first“,“affiliation”:[{“name”:“Albert Ludwigs University,Freiburg,Germany”}]},{”给出“:”Marjan“,”家庭“:”Celikik“,”序列“:”additional“,”affiliance“:[}”name“:”Albert Ludwigs University,Freiburg,Germany“}]}],“member”:“320”,“published-online”:{“date-parts”:[[2013,5,17]]},“reference”:[{“key”:“e_1_1_1”,“doi-asserted-by”:“publisher”,“doi”:“10.1007\/9780-27801-6_30”},{“密钥”:“e_1_2_1_2_”,“volume-title”:“字符串处理和信息检索国际研讨会论文集(SPIRE'98)”,“作者”:“Baeza-Yates R.”},{“key”:“e_1_2_1_3_1”,“volume-title”:“字符串处理与信息检索研讨会论文集和群件国际研讨会(SPIRE'99)”,”作者“:”Baeza-Ayes R.A.“},”{“密钥”:“d_2_4_1”doi-asserted-by“:”publisher“,”doi“:”10.1007\/978-3-540-30192-9_58“},{“key”:“e_1_1_5_1”,“doi-assert-by”:“publisher”,”doi:“10.1145\/1645953.1646272”},“key“:”e_1_i_1_6_1“,doi-asserted-by“:”publisher“,”doi“:”10.1145\/1242572.1242591“},{“key”:“e_1_2_1_8_1”,“doi-asserted-by”:“publisher”,”doi“:”10.5555\/3127091.3127105“}、{“key”:”e_1_i_1_9_1“,”doi-assert-by“:”publisher“,“doi”:“10.1145\/2009916.2010023”},“key“:507518“},{”key“:”e_1_2_1_11_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145\/1963190.1963191“},{“key”:“e_1_2_1_12_1”,“doi-asserted-by”:“publisher”,”doi“:“10.1016\/0306-4573(82)90004-8”},“key“:”e_1_i_13_1“,”doi-assert-by“:”publisher“,/14011890.1401995“},{”key“:”e_1_2_1_15_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145\/1529282.1529669“},{“key”:“e_1_2_1_16_1”,“doi-asserted-by”:“publisher”,”doi“:“10.1109\/ICDE.2006.9”},“key“:”e_1_i_1_17_1“,”doi-assert-by“:”publisher“,8“},{”键“:”e_1_2_1_19_1“,”doi-asserted-by“:”出版商“,”doi“:”10.1145\/1007352.1007374“},{“key”:“e_1_2_1_20_1”,“doi-asserted-by”:“publisher”,”doi“:“10.1145\/127741.1277953”},“{”key“:”e_1_cu1_21_1“,”doi-assert-by“:”publisher“,“doi”:“10.145\/253495.253521”}、{“密钥”:“e_1_2_1_22_22_1”、“卷时间”:“第十一届ACM-SIAM离散算法研讨会论文集(SODA'00)”,“作者”:“Demaine e.D.”},{“key“:”e_1_2_1_23_1“,”doi断言“:”publisher“,”doi“:”10.1109\/69.298177“},{”key“:”e_1_1_24_1“,”doi断言“:”publisher“,”doi“:”10.1145\/127741.1277833“},{”key“:”e_1_2_25_1“,”doi断言“:”publisher“,”doi“:”10.1007\/11764298_26“},{”key“:”e_1_1_26_1“,”doi断言“:”publisher“,“doi”:“10.1145\/127741.1277821”},{“键”:“e_1_2_1_27_1“,“volume-title”:“第27届超大数据库国际会议论文集(VLDB'01)”,“author”:“Gravano L.”},{“key”:“e_1_i_1_28_1”,“doi-asserted-by”:“publisher”,”doi“:“10.1002\/asi.10268”}、{“key”:“e_1_1_29_1”、“doi-ASerted-by-by”:“publisher”,“doi”:“10.1109\/JRPROC.1952.273898”},{,“key“:”e_1_2_1_30_1“,”doi-asserted-by“:”publisher“,”DOI“:”10.1145\/361932.361940“},{“key”:“e_1_2_1_31_1”,“DOI-asserted-by”:“publisher”,”DOI:“10.1145\/1526709.1526760”},“{”key“:”e_1_i_1_32_32_1“,“doiasserted-byJokinen P.和Ukkonen E。\1991年。静态文本中近似字符串匹配的两种算法。在的会议记录中。第二届计算机科学数学基础年度研讨会。P.Jokinen和E.Ukkonen编辑。计算机科学课堂讲稿第520 240-248卷。Jokinen P.和Ukkonen E.,1991年。静态文本中近似字符串匹配的两种算法。在的会议记录中。第二届计算机科学数学基础年会。P.Jokinen和E.Ukkonen编辑,《计算机科学讲义》第520 240-248卷。“,”DOI“:”10.1007\/3-540-54345-7_67“},{“key”:“E_1_2_1_33_1”,“volume-title”:“第27届超大型数据库国际会议(VLDB'01)论文集”,“author”:“Kahveci T.”},“key“:”E_2_134_1“,”DOI-asserted-by“:”publisher“,“DOI”:“10.1145\/2009916.2010026“},{“key”:“e_1_2_1_35_1”,“首页”:“707”,“article-title”:“能够更正删除、插入和反转的二进制代码”,“volume”:”10“,“author”:“Levenshtein V.I.”,”year“:”1966“,”journal-title“:”Sov.Phys.Dokl.“}ICDE.2008.4497434“},{“键”:”e_1_2_1_37_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145\/2348283.2348333”},{“key”:“e_1_i_1_38_1”,“doi-assert-by”:“publisher”,”doi“:”10.3115\/1220175.1220304“},”{“密钥”:“e_1_2_1_39_1”、“doi-sserted-by”:“publishers”,“doi:”10.1109\/18.165464“}”,{”key“:”e_2__1_40_1“”,”doi-as serted-by“:”publisher“,”doi“:”10.1145\/167088.167172“},{”key“:”e_1_2_1_41_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145\/1458082.1458145”},{“key”:“e_1_i_1_42_1”,“doi-assert-by”:“publisher”,”doi“:”10.1162\/089120142544938“},”{“密钥”:“e_1_2_1_43_1”、“doi-aserted-by”:“publishers”,“doi:”10.1145\/358728.358752“}”,{”key“:”e_2__1_44_1“”,“doi-asserted-by”:“crossref”,“非结构化”:“Muth R.和Manber U。\1996年。近似多字符串搜索。《组合模式匹配会议论文集》(CPM'96)。D.S.Hirschberg和E.W.Myers编辑,计算机科学系列讲座笔记,第1075卷,施普林格75-86页。Muth R.和Manber U.,1996年。近似多字符串搜索。《组合模式匹配会议论文集》(CPM'96)。D.S.Hirschberg和E.W.Myers编辑,计算机科学系列讲座笔记,第1075卷,Springer 75-86。“,“DOI”:“10.1007\/3-540-61258-0_7”},{“key”:“E_1_2_1_45_1”,“DOI-asserted-by”:“crossref”,”非结构化“:”Myers E.W.1994。近似关键字搜索的次线性算法。算法V12 4 345--374。Myers E.W.1994年。近似关键字搜索的次线性算法。算法V12 4 345--374.“,”DOI“:”10.1007\/BF01185432“},{”key“:”e_1_1_46_1“,”DOI-asserted-by“:”publisher“,“DOI”:“10.1145\/316542.316550”},“key”:“e_1_i_1_47_1”,“DOI-assert-by”:“publisher”,”DOI:“10.1145\/375360.375365“article-title”:“近似字符串匹配的索引方法”,“volume”:“24“,“作者”:“Navarro G.”,“年份”:“2000年”,“新闻标题”:“IEEE数据工程公告”。“},{”key“:”e_1_1_49_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1007\/978-3642-03784-9_21”},“key”:“e_1_i_1_50_1”,“doi-assert-by”:“publisher”,”doi“:”10.1016\/0022-2836(70)90057-4“}”,{“},{”key“:”e_1_1_52_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1073\/pnas.69.1.4”},}“key“:”e_1_1_53_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145\/564376.564416”},{“key”:“e_2_1_54_1”,“doi-assert-by”:“publisher”,”doi“:”10.1007\/s10032-0082-8“},”{“密钥”:“e_1_2_1_55_1”、“doi-ssertd-by”:“publisher”,“doi:”10.1137\/0126070“,”doi-asserted-by“:”publisher“,”doi“:”10.1109\/CIT.2005.23“},{”key“:”e_1_2_1_57_1“,“doi-asserted-by”:“publisher”,“doi”:“10.1145\/1772690.1772782”},{“key”:“e_1_i_1_58_1”,《volume-title》:“第三届欧洲算法年会论文集(ESA'95)”,“author”:“Sutinen e.”}、{“key”:“e_1_2_1_59_1”、“volume-title”:“第七届组合模式匹配年会论文”,“作者”:“Sutinen E.“},{”key“:”E_1_1_60_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1016\/S0019-9958(85)80046-2”},“key”:“E_2_1_61_1”,“doi-assert-by”:“publisher”,”doi“:”10.5555\/647813.738278“}”,{755“},{”键“:”E_1_2_1_63_1“,”doi-asserted-by“:”出版商“,”doi“:”10.1016\/0306-4573(83)90022-5“},{“key”:“e_1_1_64_1”,“doi-asserted-by”:“publisher”、“doi”:“10.1145\/135239.135244”}、{“密钥”:“e_1_2_1_65_1”、”doi-assert-by“:”publisher“,”doi“:”10.14778\/1453856.1453957/2000824.2000825“},{”key“:”e_1_2_1_67_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1002\\/spe.44380250307“}”],“容器标题”:[“ACM信息系统事务”],“原始标题”:[],“语言”:“en”,“链接”:[{“URL”:“https:\/\/dl.ACM.org/doi\/pdf\/10.1145\/245745.2457470”,“内容类型”:“未指定”,“内容版本”:“vor”,“预期应用程序”:“相似性检查”}],“存放”:{“日期部分”:[[2022,12,30]],“date-time“:”2022-12-30T07:48:01Z“,”timestamp“:1672386481000},”score“:1,”resource“:{“primary”:{”URL“:”https:\/\/dl.acm.org\/doi\/10.1145\/2457465.2457470“}},“subtitle”:[],“shorttitle”:[],“issued”:{“date-parts”:[[2013,5]]},‘references-count’:67,‘journal-issue’:{‘issue’:“2”,“pub”lished-print“:{“date-parts”:[[2013,5]]}},“alternative-id”:[“10.1145\/2457465.2457470“],“URL”:“http://\/dx.doi.org\/10.1145\/2457542.2457470”,“关系”:{},“ISSN”:[“1046-8188”,“1558-2868”],“ISSN-type”:[{“value”:“1046-81”,“type”:“print”},{“value”:“1558-28”,“类型”:“electronic”}],“subject”:【】,“published”:{“date-parts”:【2013】5]]},“断言”:[{“value”:“2011-12-01”,“order”:0,“name”:“received”,“label”:“收到“,”组“:{“name”:“publication_history”,“label”:“publication history”}},{“value”:“2013-02-01”,“order”:1,“name”:“accepted”,“标签”:“accepted(接受)”,“group”:{”name“:”publication_history“,”label“:”publication-history“},”value“2013-05-17”,“订单”:2,“name(名称):”published“,”table“:”published“,”group“name“:“publication_histories”,“table”:“”出版历史“}}]}}