计算机应用››2016,第36卷››问题(9): 2526-2530.内政部:10.11772/j.issn.1001-9081.2016.09.2526

• 人工智能 • 上一篇   下一篇

基于语义向量表示的查询扩展方法

李岩1,张博文1,郝红卫2  

  1. 1北京科技大学 计算机与通信工程学院, 北京 100083;
    2中国科学院 自动化研究所, 北京 100190
  • 收稿日期:2016-03-18 修回日期:2016-04-23 出版日期:2016-09-10 发布日期:2016-09-08
  • 通讯作者:李岩
  • 作者简介:李岩(1987-),男,黑龙江牡丹江人,博士研究生,主要研究方向:信息检索、深度学习;张博文(1992-),男,北京人,博士研究生,主要研究方向:信息检索;郝红卫(1967-),男,河北永年人,教授,博士,主要研究方向:模式识别、机器学习。
  • 基金资助:
    国家自然科学基金资助项目(U1135005)

使用语义向量表示的查询扩展

李燕1,张伯温1,郝宏伟2  

  1. 1.北京科技大学计算机与通信工程学院,北京100083,中国;
    2.中国科学院自动化研究所,北京100190
  • 收到:2016-03-18 修订过的:2016-04-23 在线:2016-09-10 出版:2016-09-08
  • 支持单位:
    这项工作得到了国家自然科学基金(U1135005)的部分资助。

摘要:针对传统查询扩展方法在专业领域中扩展词与原始查询之间缺乏语义关联的问题,提出一种基于语义向量表示的查询扩展方法。首先,构建了一个语义向量表示模型,通过对语料库中词的上下文语义进行学习,得到词的语义向量表示;其次,根据词语义向量表示,计算词之间的语义相似度;然后,选取与查询中词汇的语义最相似的词作为查询的扩展词,扩展原始查询语句;最后,基于提出的查询扩展方法构建了生物医学文档检索系统,针对基于维基百科或WordNet公司的传统查询扩展方法和生物ASQ 2014-2015参加竞赛的系统进行对比实验和显著性差异指标分析。实验结果表明,基于语义向量表示查询扩展的检索方法所得到结果优于传统查询扩展方法的结果,平均准确率至少提高了1个百分点,在与竞赛系统的对比中,系统的效果均有显著性提高。

关键词: 查询扩展, 语义表示学习, 生物医学文档, 信息检索, 自然语言处理

摘要:针对专业领域中使用的传统查询扩展存在扩展项与原始查询之间缺乏语义关系的问题,提出了一种基于语义向量表示的查询扩展方法。首先,设计了一个语义向量表示模型,从语料库中的上下文中学习单词的语义向量表示。然后,通过语义表示计算单词之间的相似度。然后,从语料库中选择最相似的词作为扩展词,以丰富查询。最后,基于这种扩展方法构建了一个生物医学文献检索系统,并与基于维基百科或WordNet的传统查询扩展方法以及BioASQ参与者进行了比较,并进行了显著性差异分析。对比实验结果表明,基于语义向量表示的查询扩展方法优于基线,平均精度提高至少一个百分点;此外,搜索系统的表现明显优于BioASQ参与者。

关键词: 查询扩展, 语义表征学习, 生物医学文件, 信息检索, 自然语言处理

中图分类号: