跳到主要内容
研究论文

TREC集合的潜在语义索引(LSI)失败

出版:2011年3月31日 出版历史
  • 获取引文提醒
  • 摘要

    潜在语义索引(LSI)的目的是揭示术语、隐藏概念和文档之间的关系。LSI使用称为奇异值分解(SVD)的矩阵分解技术。在本文中,我们将LSI应用于标准基准集合。我们发现,LSI对TREC 2、7、8和2004集合的检索准确性较差。我们认为负面结果是稳健的,因为我们尝试了比以往任何工作更多的LSI变体。首先,我们表明,使用Okapi BM25权重作为文档中的术语可以提高LSI的性能。其次,我们推导了新的评分方法,这些方法在LSI框架中实现了查询扩展和评分正则化的思想。第三,我们展示了如何将BM25方法与LSI方法相结合。所有提出的方法都在上述四个TREC集合上进行了实验评估。实验表明,LSI的新变体改进了以前的LSI方法。然而,与BM25相比,使用LSI的任何方法都无法实现检索精度的有价值的改进。

    工具书类

    [1]
    Armstrong,T.G.、Moffat,A.、Webber,W.和Zobel,J.(2009年)。没有累积的改进:自1998年以来的特别检索结果。第18届ACM信息和知识管理会议(CIKM)会议记录,第601-610页。
    [2]
    Bradford,R.B.(2008)。大规模潜在语义索引应用所需维度的实证研究。第17届ACM信息和知识管理会议(CIKM)会议记录,第153-162页。
    [3]
    Buckley,C.和Voorhees,E.M.(2000年)。评价评价指标的稳定性。在第23届ACM信息检索研究与开发会议(SIGIR)的会议记录中,第33-40页。
    [4]
    Deerwester,S.、Dumais,S.T.、Furnas,G.W.、Landauer,T.K.和Harshman,R.(1990)。通过潜在语义分析进行索引。美国信息科学学会杂志,41(6):391-407。
    [5]
    Diaz,F.(2005)。规范即席检索分数。在第14届ACM信息和知识管理会议(CIKM)的会议记录中,第672-679页。
    [6]
    Dumais,S.T.(1995)。潜在语义索引(LSI):TREC-3报告。第三届文本检索会议概述,第219-230页。
    [7]
    Husbands,P.、Simon,H.D.和Ding,C.H.Q.(2005)。术语范数分布及其对潜在语义索引的影响。信息处理与管理,41(4):777--787。
    [8]
    Jiang,F.和Littman,M.L.(2000)。基于向量的信息检索中的近似维数均衡。第17届国际机器学习会议(ICML)论文集,423-430页。
    [9]
    Kjems,U.、Hansen,L.K.、Strother,S.C.等人(2001年)。不适定数据集的广义奇异值分解。《神经信息处理系统进展》(NIPS),第549-555页。
    [10]
    Kontostathis,A.(2007年)。潜在语义索引(LSI)的基本维度。第40届夏威夷国际系统科学会议(HICSS)论文集,第73-80页。IEEE计算机学会。
    [11]
    Ounis,I.、Amati,G.、Plachouras,V.、He,B.、Macdonald,C.和Lioma,C.(2006)。Terrier:一个高性能和可扩展的信息检索平台。《第29届ACM信息检索研究与开发会议(SIGIR)论文集》,第18-24页。
    [12]
    Robertson,S.E.和Walker,S.(1994年)。概率加权检索中2-Poisson模型的一些简单有效近似。在第17届ACM信息检索研究与开发会议(SIGIR)的会议记录中,第232-241页。
    [13]
    Vogt,C.C.和Cottrell,G.W.(1999)。通过分数的线性组合进行融合。信息检索,1(3):151--173。
    [14]
    Webber,W.、Moffat,A.和Zobel,J.(2008年)。检索系统集合间比较的评分标准化。在第31届ACM信息检索研究与开发会议(SIGIR)的会议记录中,第51-58页。
    [15]
    Yan,J.、Yan,S.、Liu,N.和Chen,Z.(2009)。可扩展潜在语义索引的直接特征选择。《SIAM国际数据挖掘会议记录》,第1159-1170页。

    引用人

    查看全部

    建议

    评论

    信息和贡献者

    问询处

    发布于

    封面图片ACM SIGKDD探索新闻稿
    ACM SIGKDD探索新闻稿 第12卷第2期
    2010年12月
    98页
    ISSN公司:1931-0145
    EISSN公司:1931-0153
    内政部:10.1145/1964897
    期刊目录

    出版商

    计算机协会

    美国纽约州纽约市

    出版历史

    出版:2011年3月31日
    在SIGKDD中发布体积12,问题2

    检查更新

    限定符

    • 研究文章

    贡献者

    其他指标

    文献计量学和引文

    文献计量学

    文章指标

    • 下载量(最近12个月)9
    • 下载次数(最近6周)1

    其他指标

    引文

    引用人

    查看全部
    • (2023)质量缺陷修复推荐的层次拓扑建模方法2023年IEEE软件分析、进化和再工程国际会议(SANER)10.1109/SANER56733.2023.00014号(37-48)在线发布日期:2023年3月
    • (2023)信息检索:最新进展及展望IEEE接入10.1109/通道2023.329577611(76581-76604)在线发布日期:2023年
    • (2022)信息检索表征方法的概念框架ACM SIGIR论坛10.1145/3527546.352755255:2(1-29)在线发布日期:2022年3月17日
    • (2022)第一阶段检索的语义模型综述美国计算机学会信息系统汇刊10.1145/348625040:4(1-42)在线发布日期:2022年3月24日
    • (2020)基于结构和内容分析的XML文档语义相似度2020年第四届计算机科学与智能控制国际研讨会论文集10.1145/3440084.3441185(1-9)在线发布日期:2020年11月17日
    • (2020)基于查询软件上下文分析的相关性排序信息检索的进展10.1007/978-3-030-45439-5_30(446-460)在线发布日期:2020年4月14日
    • (2019)基于混合词嵌入的职位描述匹配简历检索系统计算机语音与语言2016年10月10日/j.csl.2019.01.00356:C(73-79)在线发布日期:2019年7月1日
    • (2018)基于内容的图像检索中的向量空间模型自适应和伪相关反馈多媒体工具和应用程序2007年10月17日/11042-017-4463-x77:5(5475-5501)在线发布日期:2018年3月1日
    • (2017)信息检索中的神经文本嵌入第十届ACM网络搜索和数据挖掘国际会议论文集10.1145/3018661.3022755(813-814)在线发布日期:2017年2月2日
    • (2017)一种新的图像检索向量空间模型Procedia计算机科学2016年10月10日/j.procs.2017.08.202112:C(771-779)在线发布日期:2017年9月1日
    • 显示更多引用者

    视图选项

    获取访问权限

    登录选项

    完全访问权限

    查看选项

    PDF格式

    以PDF文件查看或下载。

    PDF格式

    电子阅读器

    使用联机查看电子阅读器.

    电子阅读器

    媒体

    数字

    其他

    桌子

    分享

    分享

    共享此出版物链接

    在社交媒体上分享