跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
AMIA年度研讨会。2009; 2009: 396–400.
2009年11月14日在线发布。
预防性维修识别码:项目经理2815412
PMID:20351887

查找PubMed的查询建议

摘要

PubMed用户通常会在检索与其信息需求相关的文档之前反复修改其查询(搜索词)。为了帮助用户重新设置查询,我们报告了PubMed中名为Related queries的新组件的实现和使用分析,该组件自动生成查询建议以响应原始用户的输入。该方法基于查询日志分析,重点是查找包含初始用户搜索词的热门查询,目的是帮助用户更准确地描述其信息需求。自2009年1月起,这项工作已纳入PubMed。使用点击数据进行的自动评估表明,每天新功能的使用频率都在显示时的6%到10%之间,这表明它很快成为PubMed中的一个流行新功能。

介绍

PubMed是国家医学图书馆(NLM)维护的一个文献搜索系统,每天有数百万用户广泛访问该系统以获取生物医学信息1然而,由于大量且快速增长的文献,在PubMed中检索相关信息的过程具有挑战性。给定用户对PubMed的查询,返回的平均引用数超过100002虽然一般来说,用户对较新的出版物比旧的出版物更感兴趣,但PubMed的默认排序算法(逆时间顺序)使得用户很难检索到与他们的信息需求最相关但没有返回到顶部位置的引文。另一个困难是,用户的初始查询可能不是对其信息需求的完美描述。事实上,我们自己的分析表明,查询修改/重新制定是用户搜索历史中最常见的行为。鉴于PubMed搜索面临的挑战,确定了一项信息需求,以帮助用户重新定义其查询。

从每天向数百万PubMed用户显示建议的实际应用程序的角度来看,生成的查询建议需要满足以下要求:a)它们与用户输入高度相关;b) 它们大多没有错误。也就是说,在这个应用程序中,我们更关心的是高精度,而不是召回;和c)它们类似于真实的用户查询。

为此,我们建议在包含当前搜索词的最流行PubMed查询中确定查询建议。这对应于一种特定类型的查询修改:规范(相对于用户输入的特异性增加)。例如,乳腺癌(在本文中,查询以SimSun字体突出显示)是一个比癌症更具体的查询。虽然可以通过多种方式修改查询3,提供更精确的查询不仅可以缩短检索列表的大小,还可以提前返回更多相关文档。

目前,这项工作的结果在PubMed中作为一个新组件实现,称为相关查询。如果可用,它会显示在搜索结果页面的标题“也尝试一下”,以及对PubMed数据库的其他更改,作为更大努力的一部分,以充分发挥NLM维护的不同Web服务的潜力。

相关工作

自动查找查询建议是信息检索领域一个众所周知的重要问题。该问题的大多数现有解决方案包括两个来源的查询修改或扩展技术:a)查询日志或b)基于(伪)相关性反馈检索的文档。

查询日志包含真实用户搜索习惯的丰富信息。Jones等人(2006)建议基于Web日志中观察到的典型修改生成高度相关的查询替换3最近,Shi和Yang(2007)提出了一种使用关联规则基于以前提交的查询日志挖掘相关查询的方法4.

另一种查找查询建议的方法是通过初始检索结果的子集。通过使用用户点击数据作为(伪)相关性反馈,这些检索到的文档中的术语被视为与用户搜索意图相关,并且可以通过各种方法与用户输入查询相关联。对此方法进行了大量工作5.

在生物医学领域,查询扩展技术的研究与我们的工作密切相关。例如,默认情况下,PubMed使用一个称为自动术语映射(ATM)的过程,该过程将用户的搜索术语与预先索引的术语列表进行比较和映射。查询扩展技术也在TREC基因组学领域得到了广泛研究6.

方法

如所示图1,我们系统的总体架构由三个独立的组件组成。首先,我们处理原始PubMed日志并收集所有用户查询,然后丢弃作者姓名等有问题的查询。第二步涉及聚合不同的查询并调整查询频率。最后,我们根据频率对查询建议进行排序,然后返回并显示最前面的k个排名建议。

保存图片、插图等的外部文件。对象名为amia-f2009-396f1.jpg

生成查询建议的步骤。

1.收款用户查询

我们在这一步的目标是计算查询频率:不同用户输入特定查询的次数。在系统开发期间,我们收集了30天的PubMed日志样本。PubMed日志的基本单位是用户会话,其中记录特定用户在指定时间段内访问期间的不同事务(例如搜索)。在我们的数据中,单用户会话的最长时间跨度是一天。为了消除个人偏见,用户会话中的每个唯一查询只统计一次,尽管同一用户可能重复输入查询。

作为检索MEDLINE文章的主要网关,PubMed每天处理大约200万个用户查询。如之前的研究所示1,相当多的查询存在问题,因此它们不适合生成高质量的查询建议:

  • 拼写错误的查询(例如diebetes)
  • 没有结果的查询(例如盐性铁疹)
  • 带有不规则字符(例如外来字符)的查询

我们自己的经验和之前的研究都表明,这三个类的查询占总查询的20%以上。

此外,由于我们的目标是查找包含用户搜索词的一般有用查询,因此我们放弃了以下类别的查询:

  • 单项查询(例如癌症)
  • 查询书目信息(例如Smith M)
  • 带有搜索标记的查询(例如Smith[au])
  • 查询长度≥70个字符

单项查询无法用于我们的目的,因此将其删除。在大多数情况下,带有书目信息的查询代表了用户搜索特定MEDLINE引文的需求。这种查询有时称为航海的1事实上,它们占了PubMed查询的很大一部分。为了满足这些需求,PubMed已经实现了两个独立的功能:一个是引文匹配器,另一个是引用传感器。因此,本文不考虑它们。实际上,如果一个查询包含一个可识别的作者姓名,那么它将从进一步的分析中删除。

在PubMed中,用户可以在搜索词后附加标签,以便搜索特定的索引字段。例如,gene[au]只检索将gene作为作者名称而不是标题或摘要中的文本词的文章。过滤此类查询是因为:a)最常用的标签通常与书目搜索相关(例如,[au]表示搜索作者姓名);b) PubMed用户很少使用搜索标签;和c)默认情况下,PubMed通过其自动术语映射(ATM)过程自动标记用户查询。

最后,据报道PubMed查询的平均长度为三个术语1,2,其中术语定义为由空格分隔的字符序列。在这方面,很长的查询可能没有什么意义。因此,当我们希望查询建议类似于真实用户查询时,会对它们进行过滤。

2.聚合查询并调整查询频率

处理原始日志并收集合格的用户查询后,将获得可能的建议列表。我们按查询频率对该列表进行排序。一些最常见的术语是:乳腺癌;多发性硬化;肺癌;干细胞;干细胞;和心肌梗死。

对于30天的PubMed日志,我们的列表包含大约1400万个独特的查询。与之前提交给AltaVista的查询分析一致7,我们发现大多数唯一查询只出现了几次:一次(83.2%),两次(10.6%);三次(2.9%);四倍(1.2%);五倍或五倍以上(2.1%)。为了使查询建议最有用且质量高,我们根据经验决定只使用在预定时间段内至少发生五次的查询。

在从列表中删除不太频繁的查询(出现次数少于五次)后,我们进一步调整查询的频率,将其在较长查询中的出现次数考虑在内。例如,我们将乳腺癌治疗的频率与乳腺癌的频率相加。表1显示了这样一个例子,在调整步骤后,乳腺癌的发病率显著增加(从6479增加到7689:增加了18.7%)。随后,我们使用调整后的频率重新评价我们的建议列表。

表1

考虑到乳腺癌的发生后,在较长的查询中嵌入频率调整的示例。

查询频率
乳腺癌(调整前)6479年
三重负极乳腺癌224
乳腺癌筛选205
男性的乳腺癌205
发炎的乳腺癌205
乳腺癌治疗202
乳腺癌干细胞169
乳腺癌(调整后)7,689

调整查询频率还包括合并具有微小差异的查询的步骤。例如,以下五个查询与单个信息需求基本相同,尽管它们在字符串上存在差异:

  • 乳腺癌干细胞
  • 乳腺癌干细胞
  • 乳腺癌与干细胞
  • 干细胞乳腺癌
  • 干细胞乳腺癌

因此,我们通过删除布尔运算符和停止词来修改它们;词干;和切换语序。在所有类似的查询中,我们保留最频繁的一个,并从列表中删除其他查询。此外,我们更新了保留的频率。

3.生成排名建议列表

最后一步涉及生成成对的相关查询:q个q个j哪里q个j是用户输入查询的查询建议q个.

对于每个查询q个j在上面获得的建议列表中,我们生成了相应的q个选择长度从1到词条数减1的短语。这与之前研究中使用的方法类似8以查询乳腺癌干细胞为例,我们将生成以下内容q个:

  • 乳房
  • 癌症
  • 细胞
  • 乳腺癌
  • 癌干
  • 干细胞
  • 乳腺癌干
  • 肿瘤干细胞

如果用户键入任何上述查询(例如乳腺癌),则可能会建议使用乳腺癌干细胞。在运行时,顶部k个按频率排序的建议将返回并显示给用户。

查询建议结果

如前所述,只有一小部分查询在三十天内在查询日志中发生五次或五次以上。因此,为了增加查询建议的数量,我们扩展了查询日志收集的天数。在当前的实现中,查询建议是基于180天的查询日志生成的。

在180天的时间里,我们的方法产生了大约200万条建议(q个j)用于120万个唯一查询(q个). 对于每个查询q个,建议数量从1到10不等,平均1.7条建议。由于只有一小部分(~5%)的查询具有5个以上的建议,因此我们设置k=5。也就是说,PubMed只返回并显示前5个建议。

图2显示查询的分布(q个)就长度(术语数量)而言。可以看出,大多数查询都是两个单词的查询(例如乳腺癌)。这表明我们的方法针对的是短查询,而不是长查询。根据图2,包含四个或更多术语的查询占总查询的不到10%。这确实是设计的,因为我们主要针对长度小于平均值(3个术语)的查询,我们假设长查询代表用户的特定搜索意图。因此,需要的帮助更少。

保存图片、插图等的外部文件。对象名为amia-f2009-396f2.jpg

查询的分布(q个)根据长度(术语数量)。

评估和使用分析

我们的方法目前集成在PubMed中,作为相关查询在“Also try”下,它会在结果页面的右上角显示查询建议(如果可用)。图3显示了查询p53的前五个建议:p53突变;p53凋亡;p53基因mdm2;p53综述;和p53癌。

保存图片、插图等的外部文件。对象名为amia-f2009-396f3.jpg

PubMed的屏幕截图,其中显示了示例查询p53的查询建议。

在PubMed向所有用户发布新功能之前,我们对质量控制和系统优化进行了两项分析:首先,我们随机选择100个查询及其相应的建议进行人工检查。在这个过程中,我们试图将有问题的查询数量限制在5%以下。尽管我们在数据清理步骤中做出了努力(详见方法部分),但仍然存在一些有问题的建议,例如作者姓名(altschul lipman)和类似建议(响应中介崩溃1 vs.响应中介崩溃-1)。

其次,使用点击数据评估相关查询功能,这是一种无偏见的自动检索性能评估方法92008年9月至2009年1月期间,新功能向5%的PubMed用户(随机选择)发布,并记录了相应的使用情况。根据记录的使用情况,我们可以计算点击率(CTR),一种广泛使用的衡量在线广告成功与否的指标。在相关查询的上下文中,CTR的计算方法是建议查询的总点击次数除以查询建议的显示次数。如所示图4,查询建议的CTR始终在6%到10%之间,平均为7.9%。尽管CTR没有绝对的黄金标准,但2%的CTR通常被认为在网络广告中非常成功10这意味着PubMed用户会高度单击“相关查询”功能。此外,在MEDLINE检索环境中,7.9%的CTR也将相关查询排名高于许多其他新的PubMed功能(例如最近的活动)。

保存图片、插图等的外部文件。对象名为amia-f2009-396f4.jpg

2008年9月8日至2009年3月8日期间相关查询的点击率(CTR)。2009年1月26日,PubMed向100%的用户发布了新功能。

自2009年1月26日起,所有PubMed用户都可以使用这一新功能。从那时起,我们一直在监控其每日CTR。在四十二天期间(从2009年1月26日至2009年8月3日),平均CTR为6.6%。CTR从7.9%(5%的用户)下降到6.6%(100%的用户)具有统计意义,部分原因是在测试阶段,我们在随机选择的5%用户(我们研究所的所有用户)的基础上增加了少量额外用户,在此期间,为了评估目的,经常在内部单击新功能。此外,我们的内部记录显示,在相关查询功能投入生产的同一天,PubMed网站上还有一系列其他更改(例如,“Also Try”下面的其他功能)正在生效。这些更改可能会影响用户的注意力,并随后导致相关查询的CTR发生变化。

除了CTR之外,我们还测量了用户输入时触发和显示查询建议的时间百分比。在所有用户都可以使用“Also Try”功能(在测试阶段不适用)后的第一个三十天内,我们对此进行了监控。平均而言,17.5%的用户请求每天都会触发查询建议的显示。加上点击率和每日请求总数,PubMed中每个工作日显示的查询建议大约有20000次点击。

讨论和结论

通过利用查询日志中的丰富信息,我们开发了一个实用的应用程序,以根据PubMed中最流行的查询提供查询建议。使用分析表明,这样一个新功能被PubMed用户高度点击,使用这些建议的查询可以提供比用户初始搜索更精确的结果。

即使有很好的相关查询源,我们仍然偶尔会发现一些不好的建议,例如作者姓名。未来,我们计划在收集步骤中进一步清理此类数据。此外,我们正在将查询建议从规范扩展到许多其他类型的查询修改,例如泛化和同义词替换。除了提高覆盖率外,在用户在PubMed中找不到或几乎找不到相关信息的情况下,这些服务也是有希望的。

致谢

这项研究得到了美国国立卫生研究院国家医学图书馆校内研究项目的支持。作者感谢David J.Lipman的宝贵讨论。

工具书类

1Herskovic JR、Tanaka LY、Hersh W、Bernstam EV。PubMed生命中的一天:典型一天的查询日志分析。美国医学信息协会。2007年3月至4月;14(2):212–20. [PMC免费文章][公共医学][谷歌学者]
2Islamaj-Dogan R、Neveol A、Murray GC、Lu Z。通过日志分析了解PubMed用户搜索行为提交日期:2009年[PMC免费文章][公共医学]
三。Jones R,Rey B,Madani O,Greiner W.生成查询替换。第十五届万维网国际会议记录;苏格兰爱丁堡:ACM;2006[谷歌学者]
4Shi XD,Yang CC。使用改进的关联规则挖掘模型从web搜索引擎查询日志中挖掘相关查询。美国信息科学与技术学会杂志。2007年10月;58(12):1871–83. [谷歌学者]
5Manning CD、Raghavan P、Schtze H。信息检索导论。剑桥大学出版社;2008[谷歌学者]
6Hersh WR、Bhupatiraju RT、Ross L、Roberts P、Cohen AM、Kraemer DF。加强对书目的访问:TREC 2004基因组追踪。J生物合成Discov Collab。2006年;1:3. [PMC免费文章][公共医学][谷歌学者]
7Silverstein C、Marais H、Henzinger M、Moricz M。一个非常大的网络搜索引擎查询日志的分析。SIGIR论坛。1999;33(1):6–12. [谷歌学者]
8卡夫R,Zien J。第13届万维网国际会议记录。美国纽约州纽约市:ACM;2004.挖掘锚文本以优化查询。[谷歌学者]
9Joachims T.使用点击数据评估检索性能。收录人:Franke J、Nakhaeizadeh G、Renz I,编辑。文本挖掘:Physica Verlag;2003[谷歌学者]
10Lee Sherman博士。横幅广告:衡量效果并优化布局。互动营销杂志。2001;15(2):60–4. [谷歌学者]

文章来自AMIA年度研讨会会议记录由以下人员提供美国医学信息学协会