跳到主要内容

基因查询检索

摘要

背景

MEDLINE中用于基因查询的文档检索的准确性对于生物信息学的许多应用至关重要。我们探索了五种基于信息检索的方法来对PubMed基因查询检索到的人类基因组文档进行排序。其目的是在检索列表中对相关文档进行更高的排名。我们解决了由于基因命名法的模糊性而面临的特殊挑战:涉及多个基因的基因术语、也是英语单词的基因术语以及具有其他生物学意义的基因术语。

结果

我们的两个基准排名策略在性能上非常相似。我们三个基于LocusLink的策略中有两个提供了显著的改进。即使在基因术语存在歧义的情况下,这些方法也能很好地工作。与我们的两个基线策略相比,我们的最佳排名策略在三种不同类型的模糊性上有了显著改善(根据基线的不同,改善幅度分别为15.9%至17.7%和11.7%至13.3%)。对于大多数基因,最佳排名查询是根据LocusLink(现在的Entrez-Gene)摘要和产品信息以及基因名称和别名构建的。对于其他人来说,基因名称和别名就足够了。我们还提出了一种方法,可以成功预测给定基因的这两个排名查询中哪一个更合适。

结论

我们探讨了不同的后检索策略对PubMed针对人类基因查询返回的文档排名的影响。我们已经成功地应用了其中一些策略来提高相关文档在检索集中的排名。即使遇到各种各样的歧义,这也是正确的。我们认为在PubMed搜索结果中应用我们的策略将非常有用,因为这些搜索结果并不是按相关性排序的。对于检索大量文档的查询尤其如此。

背景

本研究的重点是从MEDLINE检索基因查询的问题。检索关于基因的正确文档集的能力是生物信息学中快速增长的各种基于文本的解决方案的基础。最终目标是否是自动识别基因-疾病关系[1]或提取与特定疾病(如癌症)相关的药物和基因的相关信息[2],准确识别关联的文档集是很重要的。基因查询的有效检索与使用MEDLINE分析DNA微阵列和寡核苷酸阵列实验生成的基因簇的扩展研究尤其相关[7]. 单阵列实验通常涉及数千个基因,通常是全基因组范围的。这使得对数组表达式数据的分析非常具有挑战性。一些研究人员提出了使用每个基因的MEDLINE数据的技术。例如Chaussabel和Sher[7]补体基因表达聚类分析,根据基因的文献资料对基因进行聚类。Kankar等人[5]对基因文献中的MeSH术语进行统计评估,以确定不同重要性水平的基因簇的局部特征。雷恩和加纳[6]利用文献共现性来评估基因簇的内聚性。当然,这种一次分析数百个基因的方法,关键取决于其底层文档检索功能的准确性。

基因查询检索的一个重要方面是与基因名称相关的模糊性,这使得检索具有挑战性,也因此很有趣[8]. 关于这种基因名称模糊现象的研究有相当大的一部分,并且在不断增加[913]特别强调消歧策略的设计和测试。Weeber等人[11]研究了LocusLink(LL)基因名称中的各种歧义,如同义词和同音异义词。他们还使用Schwartz和Hearst扩展算法自动创建一个基因消歧测试集合。Tuason等人[12]研究了四种生物(小鼠、果蝇、蠕虫和酵母)基因名称的歧义。它们可以识别所有有机体、每个有机体内部以及通用英语单词的歧义。

在文献中可以找到各种消歧方法。Liu等人[14]使用两阶段无监督方法自动训练和构建歧义生物医学术语的词义分类器。Podowski等人[15]使用有监督的方法将其对应的LocusLink ID分配给MEDLINE摘要中的每个基因名。他们为使用LocusLink和SWISPROT记录中的MEDLINE引文训练的每个LocusLinkID创建了模型。Koike和Takagi[16]Seki和Mostafa使用启发式构建的基因名称和基因家族名称词典[17]探索了概率方法。最近,Schijvenaars等人[18]使用了一种方法,包括对不同意义的基因进行同义词表和参考描述,后者是根据代表性文件或OMIM构建的。他们的基因符号、名称等同义词库是根据OMIM和LocusLink等五个公共数据库建立的。

如前所述,我们的方法是从检索观点。KDD 2002挑战杯等活动[19],BioCreAtIvE挑战[20]和TREC基因组学[21]提供相关研究。然而,我们的研究在目标和实验设计上都是不同的。在2002年的KDD中,尽管一项任务是按照需要策划的概率对论文进行排序和检索,但实验条件与我们的实验条件有很大不同。例如,该系列从FlyBase域“清理”的全文论文不到1100篇。在BioCreAtIvE 2004研讨会的子任务2.3中,参与者被要求“提供十种蛋白质,与注释相关的文章”,以及与GO注释相关的信息[22]. 在此,《生物化学杂志》(Journal of Biological Chemistry)上的全文文章也仅限于212篇。此外,如组织者所述,由于“参与者人数有限”等原因,未对子任务的结果进行评估。

在2003年TREC基因组学追踪中,一项任务是从525938条MEDLINE记录中检索50个基因主题[23]. 2004年TREC基因组学跟踪也有一个检索任务,有50个查询,但这次代表了更广泛的生物信息学查询[24]例如,探索基因与疾病之间关系的查询。我们的努力与这两项TREC努力不同。虽然我们使用的数据集包含460万条MEDLINE记录,主要是根据TREC 2004数据集构建的,但我们关注的是更大的(接近9400个查询)和不同的查询集(关注的是基因查询)。我们使用与TREC 2003相似但不完全相同的策略来识别金标准相关文件。我们的方法识别的相关文档数量是原来的两倍多。除了实验设计上的差异外,我们的检索目标更直接地关系到生物科学家使用基于MEDLINE的证据来分析涉及数千个基因的基于阵列的表达数据的需求。

与基因串歧义识别和解决的广泛研究相比,很少有研究将重点放在评估MEDLINE文件的有效性上检索使用基因查询。消除歧义的重点是特定文档中基因串的个别出现。然而,尽管消歧策略可以正确地确定给定的模糊字符串代表感兴趣的基因,但文档可能仍然不相关。例如,如果只在外围环境中提及该基因,就可能发生这种情况。另一方面,根据定义,检索与相关性有关。从长远来看,在处理基因时,结合检索研究和消歧研究的优势可能是有益的。本文的重点是检索。对于我们样本中的每个基因,我们从PubMed检索到的一组文档开始,目的是使用信息检索研究中的排名方法来改进这组文档。

PubMed是MEDLINE的公共接口,提供了在布尔框架内设计的一系列复杂的搜索功能。然而,对检索到的一组文档进行排序的主要选项是按时间顺序排列的。换句话说,PubMed查询将MEDLINE集合分为两组:一组满足查询,另一组不满足查询。然后,前者按时间顺序显示给用户。PubMed检索的集合中没有“灰色阴影”。根据文档的相关性潜力对其进行排名可能会有很大的好处,尤其是当检索到大量文档时——许多基因查询都是如此。因此,我们的目标是探索有效的战略排名PubMed检索到的文档。我们从一个基线排序策略开始,该策略仅使用提交给PubMed.的原始基因查询中的术语。然后,我们探索了各种其他排序策略,假设不同水平的基因领域知识。我们还研究了模糊性对性能的影响。

在最近的研究中,Chen等人[13]对基因名称进行了迄今为止最广泛的研究。他们探索了21个物种,研究了不同模糊度的分布,包括本研究中研究的模糊度。例如,他们发现,尽管他们的基因集只有0.57%由具有英语含义的基因组成(在老鼠数据集的上下文中),但他们检索到了另外233%的基因文档“实例”,其中大多数是不正确的。我们提供逻辑上互补的研究,尽管研究的重点是单个基因组的基因。我们对人类基因的检索有效性及其固有的命名模糊性进行了系统研究。具体而言,我们提出了三个主要实验,共涉及9390个基因(从LocusLink(LL)中鉴定出具有已知功能的人类基因)。每个实验都探索了一个或多个排序查询应用于从MEDLINE检索的基因查询文档集的有效性。我们的目标是在检索集中对相关文档的排名高于非相关文档。

结果和讨论

对于每个基因,我们通过搜索取自LL的OFFICIAL_gene_NAME、OFFICIAL_SYMBOL和ALIAS_SYMBOL字段的别名的析取,从MEDLINE检索文档。检索的文档仅限于MEDLINE的一个子集(接近460万条记录),主要由2004年TREC基因组数据集组成[24]. 44%的基因查询检索到100个或更多文档,而近25%检索到500个或更多的文档。相关文档(我们的金标准)是从每个基因LL记录中的PMID和GRIF字段中提取的。在TREC 2003中,仅使用LL的GRIF字段就50个基因主题确定了金标准文档。已注意到该相关性信息库不完整[23]. 对于我们收集的9390个查询,我们从PMID和GRIF字段中提取的策略确定了黄金标准判断数(47639)是单独使用GRIF(21517)的两倍多。我们发现,76%的主题通过LL识别了五个或更少的相关文档。这表明,确保基因查询检索的准确性是一项挑战,用户可能会从按相关性潜力排序的检索集中受益。对于给定的基因,我们使用基本的tf*idf策略计算一组术语向量以进行术语加权。为每个检索到的MEDLINE记录和每个排名查询计算术语向量。计算[0,1]中的余弦相似性分数,用于每个排序查询向量–检索到的文档向量对。给定一个排序查询,检索到的文档按与查询的余弦相似性排序。排名集合仅限于排名靠前的10000个文档。我们认为,用户不太可能想要更大的检索集。我们使用平均精度(AP)衡量排名质量[24]. AP是在排名文档列表中每个相关文档的位置计算的精度分数的平均值。例如,给定一个排名列表,其中3个金标准文档位于第2、5和7位,AP是精度分数(0.5、0.4、0.43)的平均值,等于0.44。由于AP对每个相关文档的排名敏感,我们还计算了排名前5的文档的(标准化)精度(NTop5P=Top5P/max_Top5P)。Top5P是排名前5的相关文档数除以5。由于某些查询的相关文档少于5个,因此包含了规范化因子。例如,如果一个基因只有3个金标准文档,那么max_Top5P为0.6。如果对于此类查询,所有3个相关文档都位于前5位,则NTop5P=0.6/0.6=1。相反,如果前5名中只有2名,则NTop5P=0.4/0.6=0.63。对于至少包含5个相关文档的查询,NTop5P与Top5P相同。

对各主题的得分进行平均,得出平均AP(MAP)和平均NTop5P。AP是我们的主要衡量标准。我们比较了五种文档排名策略。B1和B2是基准策略。S、 P和SP是从LL构建的。

  1. 1

    基线1(B1):此排名查询与PubMed查询(基因名称和别名)相同,没有析取运算符。

  2. 2

    基线2(B2):我们在B1排名查询中添加了术语“基因”、“遗传学”、“基因组”和“致癌基因”。在这里,我们希望引导排名有利于整个遗传学领域的文档。这个查询部分是由“查询区域”的概念驱动的[25].

  3. 三。

    总结(S):我们在B1中添加基因LL记录的SUMMARY字段。例如,该字段描述了基因的功能、结构和相关的表型信息。它是使用各种来源的数据生成的[26].

  4. 4

    产品(P):我们在B1查询中添加LL中的PRODUCT、PREFERRED_PRODUCT、ALIAS_PROT字段。

  5. 5

    总结+产品(SP):LL摘要和产品信息都添加到B1排名查询中。

不幸的是,并非我们库中的所有9390个基因都同时具有LL中的摘要字段和产品字段。4647个基因的子集既有摘要又有产物(用于出口1);4195的不同子集没有摘要(在导出2中使用),而完整集在导出3中使用。

排名结果(实验1)

我们首先使用4647个既有摘要字段又有产品字段的基因来比较我们的五种排名策略。1显示了地图每个策略的得分以及95%的置信区间。我们发现,通用查询(B2)在性能上与B1没有太大区别。但S和SP与B1相比有14%的显著增益,与B2相比有12%的显著增益。此外,S和SP的95%置信区间与B1和B2的置信区间不重叠,表明差异在0.05显著性水平上具有统计学意义。即使与B1相比,P也很弱,尽管当添加到S中时不会影响性能(S和SP显示出几乎相同的结果)。2显示了每个策略对应的NTop5P平均得分。我们再次发现,S和SP与B1和B2在0.05显著性水平上存在显著差异。与B1和B2相比,改善幅度分别约为10.4%和8%。

图1
图1

排名策略绩效(MAP)该图显示了在4647个基因的集合上不同策略的平均AP得分(具有95%置信区间),LL中可获得这些基因的摘要和产物。

图2
图2

排名策略的表现(NTop5P)图中显示了4647个基因组中不同策略的平均NTop5P得分(95%置信区间),LL中提供了这些基因的摘要和乘积。

有关更详细的分析,请参见图显示AP分数的差异图,其中差异是根据B1计算的。这些基因被分布到由B1 AP评分定义的10个仓中。我们看到,随着B1绩效下降到约0.7以下,其他排名策略通常会变得越来越有利。事实上,最好的策略是,从第四个箱子到右边,SP收益率从0.06增加到0.14。根据基线平均值进行评估,这个bin范围显示出显著改善,涵盖3297/4647(71%)个基因。我们再次看到P是无效的。

图3
图3

平均精确度差异:B1 AP结合的基因基因分布在B1 AP评分定义的10个箱子中。除了最右边的箱子有617个基因外,每个箱子都有450个基因。箱子中基因的平均B1得分显示在X轴的方括号中。Y轴表示给定策略和B1之间AP的平均差异。因此,例如,对于距离原点最近的箱子,其平均B1得分为1.0,B2会降低性能。平均来说,它使AP下降了0.06。X轴下方的横线表示排名的负面影响,上方的横线则表示正面影响。条形图的高度表示性能的改善/下降程度。

4显示了NTop5P分数的差异图。根据相应的B1得分再次进行装箱。我们看到,随着基准绩效下降到0.7以下,其他排名策略显示出积极的影响。SP是最好的,从垃圾箱5起平均增加0.02至0.3。在这里,P也表现不好。

图4
图4

NTop5精确度的差异:B1 NTop5P结合的基因。这些基因通过B1 NTop5P评分进行装箱。除了最右边的箱子有617个基因外,每个箱子都有450个基因。每个箱子的B1 NTop5P平均得分显示在X轴的方括号中。Y轴表示给定策略和B1之间NTop5P的平均差异。X轴以下的横线表示性能下降,而X轴以上的横线则表示性能提高。改善/下降的程度由钢筋的高度表示。

总的来说,我们的最佳策略SP和S比B2做得好得多。对于SP,AP(从4号料位开始)的改善百分比为11.6%,NTop5P(从5号料位)为7.9%。因此,我们的基因特定策略比通用排名策略表现更好。毫不奇怪,我们发现当B1性能已经相当合理时,很难进行改进。我们现在面临的问题是,给定一个基因查询,我们能否预测其B1性能是否足够?换言之,我们能否确定SP排名将产生改进的基因?我们在论文后面再回到这个问题。

不明确基因的结果

最近研究的一个重要重点是探索和理解基因术语的歧义程度和多样性。因此,我们检查了我们在被模糊术语引用的特定基因中的排名策略的优点。我们探讨了三种歧义。这些并不相互排斥,因为给定的基因搜索术语可能在不止一个方面是模糊的。我们提醒读者基因与其组成基因术语(搜索术语)之间的区别。歧义是在搜索词级别确定的。如果一个基因的搜索词中至少有一个不明确,则认为该基因不明确。

不同的基因-相同的基因术语

基因术语有时指多个基因。例如,基因术语弗拉普指小鼠基因和大鼠基因。另一个例子是亚太地区1,是人类基因的搜索词,也是老鼠基因的别名Nudt2号机组这类歧义已被多项研究所研究[12,13]. 对于4647个基因搜索中的每个词,我们计算出现该词的LL记录数。(计数仅限于出现在OFFICIAL_GENE_NAME、OFFICIAL_SYMBOL和ALIAS_SYMBOL字段中,并且与记录中指示的物种无关)。出现在1个以上LL记录中的基因项被认为是不明确的。带有这样一个搜索词的基因被认为是模糊的。根据这一标准,4647个基因中的2516个(54%)被标记为不明确。这些2516个基因的结果如图所示5&6在“重复基因”下。我们发现,与B2(B1)相比,SP和S仍然是最好的,MAP提高了13.3%(15.9%)和12.8%(15.4%),平均NTop5P提高了9.2%(12.9%)和9.1%(12.7%)。由于95%置信区间没有重叠,两种策略的改善在0.05显著性水平上具有统计学意义。

图5
图5

具有模糊基因的表现(MAP)图中显示了在LL(DG)、一般英语意义(ENG)和其他生物意义(BIO)中有重复记录的基因的每种策略的MAP得分(95%置信区间)。

图6
图6

含模糊基因的性能(NTop5P)图中显示了在LL(DG)、一般英语意义(ENG)和其他生物意义(BIO)中有重复记录的基因的每个策略的平均NTop5P得分(95%置信区间)。

具有英语语言意义的基因术语

第二种歧义是基因术语(通常是基因符号,如GAB,澳大利亚酒吧)也有一般的英语语言含义。我们通过简单的WordNet查找来识别这些术语[27]. 我们排除了含义包含诸如基因、基因组、酶、氨基酸等词的情况,这些词指向与遗传学相关的含义。我们数据库中4647个基因中有446个(9.6%)至少有一个基因术语具有一般英语含义。该子集的结果如图所示5&6在“English Genes”下面。在这方面,S战略处于领先地位,尤其是在NTop5P中。相对于B2(B1),MAP提高13.6%(19%),NTop5P提高13.7%(24.5%)。除MAP w.r.t.B2外,所有改善在统计学上均为0.05。SP的表现也很好。然而,MAP和平均NTop5P的差异在0.05水平上一般不具有统计学意义。

MEDLINE中具有其他含义的基因术语

还有一些具有其他生物学意义的基因术语[13]. 例如,基因术语ACR公司有许多不同的生物医学含义,包括白蛋白/肌酐比值,获得性细胞抵抗急慢性比率.含义如下异常宇宙射线也出现在MEDLINE中。我们寻找的正确基因含义是顶体酶。其他研究人员也在这方面进行了探索,尤其是在扩大缩写的背景下[28,29]. 特别是施瓦茨和赫斯特[30]发布了一种算法,允许人们识别显示为A类(B类)在文本中,其中A类是一个缩写,并且B类是其对应的长形式。我们选择此算法而不是其他算法[28,29]因为它的简单性和速度。它的有效性也与大多数其他方法相当[30].

我们通过Schwartz和Hearst算法处理每个基因的检索文档,寻找该基因搜索中每个词的可能扩展。2277/4647个基因(47.8%)至少有1个组分基因项,鉴定出1个以上的长型。这些被认为是模棱两可的。这种方法并非没有局限性,因为算法依赖于A(B)文本中的结构A类表示基因项和B类正确识别为可能的扩展。2277个基因的这一子集的结果如图中的“生物基因”所示5&6SP策略(S为等效值)使MAP提高11.7%(17.5%),平均NTop5P提高9.7%(17.2%),而B2(B1)则有所提高。这些数字还表明,在0.05显著性水平上,这些改进是显著的。我们还估计程度基因层面的模糊性,我们称之为二义性 生物 对于基因G公司定义如下:

二义性 生物 (G公司) = 0,如果|扩张( )| = 1, n个

二义性 生物 (G公司) = ∑n个|扩张( )|否则

其中|膨胀( )|是基因项的长形式数 通过算法和 ,在是PubMed查询中的基因G搜索词。

7描述了这种模糊性估计(仅限于模糊性得分>1的基因)与AP排名策略性能之间的关系。我们观察到,SP策略的所有存储箱都有9.2%到25.8%的改进,其中9个存储箱的改进幅度大于10%。

图7
图7

平均精确度差异(AP):基因被 二义性 生物 分数图中描述了二义性 生物 得分(>1),并根据AP对战略绩效进行排名。基因沿X轴由它们的二义性 生物 分数。除了最右边的一个外,所有的箱子都有220个基因。最右边的箱子里有297个基因。X轴下方括号中的数字表示平均值二义性 生物 每个箱子的得分。图中的方括号中显示了每个箱子的B1 AP平均得分。Y轴描述了每个策略和B1之间的性能差异。X轴上方的条形表示性能有所提高,而X轴下方的条形表示性能下降。

歧义分析总结

在三种歧义类型中,有两种类型的歧义,SP在MAP和NTop5P中显著优于B1和B2。ENG在MAP和NTop5P中的得分似乎都落后。当我们考虑MAP时,DG似乎更容易适应。我们注意到,这些模糊性之间存在基因集重叠。ENG和BIO中有411个基因,ENG和DG中有361个,DG和BIO有1948个。例如,92.2%和80.9%的ENG基因也分别属于BIO和DG类别;18.1%和70.3%的BIO基因也存在于ENG和DG中。

性能与检索集大小

8是一个用于AP探索与检索集大小的关系的二进制差异图。我们从先前的IR研究中得知,随着检索集大小的增加,精度往往会下降。我们在基线得分方面观察到了相同的趋势。有趣的是,相对于B1和B2,我们的S和SP策略都提供了显著的好处。尽管随着检索的文档越来越多,改进变得越来越难实现,但这些改进对于所有垃圾箱来说仍然很重要。当检索到100个或更多文档时,SP的最小改进是13.3%。当平均检索集大小最大时,AP的改进为18.1%。B2明显落后于S和SP。

图8
图8

平均精度差异(AP):按检索文档数分类的基因图中显示了检索到的集合大小与AP方面的排名策略性能之间的关系。根据检索到的文档数量,基因被分为大小相等的组。除最后一个外,每个箱子都有450个基因。最后一个箱子由617个基因组成。括号中显示了每个箱子的平均检索集大小,方括号中显示每个箱子的B1平均AP。

不含LL摘要的排名结果(实验2)

我们现在关注的是在LocusLink中没有摘要字段的4195个基因(在9390个基因中)。我们可以使用其他策略对这些基因的文档进行排序吗?我们确实有B2排名查询(在基因名称中添加了一些域名信息)。但是,有没有更有效的通用的问题,也许是一个更好地代表了关于基因的总结性陈述?为了探索这一点,我们采用M(M)从4647个基因(出口1)可用的摘要字段中找出最常见的单词(删除非索引词后),并形成一个通用查询。与B2一样,添加了基因名称,从而为每个基因定制排名查询。M(M)是一个需要设置的参数,我们将4195个基因的数据集随机划分为1000个用于训练的基因和3195个用于测试的基因的训练集。训练集用于找到M(M)其变化范围为5至50步(5步),100至500步(50步)。不幸的是,除了B2策略之外,我们的自动通用策略没有一个能够提高性能。(因此图9这表明本实验的结果,只包括训练期间M=5的最佳通用策略)。因此,我们只在3195个基因的测试集上尝试B1和B2策略。请注意,PubMed仅按时间顺序排列,因此,相比之下,我们的B1和B2绩效(按相关性潜力排列)本身就是有价值的。

图9
图9

遗传排序策略在训练集(1000个基因)和测试集(3195个基因)上的表现图中显示了我们的通用排名策略B1和B2在训练和测试集上的MAP得分(95%置信区间)。M(M)是所选排名靠前的术语数。因为M=5是我们最好的通用排名策略,所以我们只展示了该策略的性能。

预测B1性能

现在我们回到讨论实验1结果时没有回答的问题。对于给定的基因,我们能预测其B1性能吗?在图中观察当B1绩效高于约0.7时,我们的S和SP排名策略会降低绩效。如果我们能够以合理的准确性提前识别此类情况,那么我们就可以避免不恰当地使用SP或S排名策略。我们检查了基因主题的四个特征(DG、ENG、BIO和N:检索的文档数),以查看它们是否可以用于预测B1性能。我们首先查看4647个基因组的相关性(数据转换后的皮尔逊相关性)(表1). 在计算这些值之前,因为二义性 生物 N是倾斜的,我们对这些值应用对数变换(ln(1+x))。转换后的值称为N'和Bio'。注意,ENG和DG都是二进制值。如果该基因至少有一个英文搜索词,则ENG的搜索结果为1,否则为0。同样,至少有一个术语与另一个基因共享的基因,DG的值为1,否则为0。N'与B1评分相关性最强,其次是BIO'。因此,N’最有可能预测得分。选择N'后,BIO'作为特征是多余的,因为它与N'有很强的相关性。类似地,考虑到N’与ENG或DG之间的观测相关性,我们也不考虑这两个模糊特性用于预测。此外,仅使用N'的一个优点是它易于理解和测量(与歧义生物得分)。因此,我们用一个自变量(N')使用以下等式运行一个简单的最小二乘回归模型:

表1相关系数。该表显示了不同类型歧义之间的相关性强度和检索到的文档数量,以及它们与B1 AP评分的相关性。

得分=β0+β1.N’号+

哪里β1是系数,β o个 是一个常量,并且误差项。2详细说明了回归结果。系数在非常小的情况下非常重要此外,该模型功能强大,调整后的R平方为0.257。因此,我们可以有效地预测B1 AP评分。

表2回归结果。使用检索集的大小作为预测变量预测B1 AP评分的回归结果。

为了测试这个校准模型,我们利用基因集合中的自然分裂。在实验1的4647个基因集上建立了回归模型。我们使用4195个非重叠、自然保留的基因集(那些没有摘要和产品信息的基因)作为测试集。我们特别感兴趣的是预测每个测试基因的B1评分是否可能高于0.7。从图中注意,如果B1 AP得分约为0.7或更高,最好不要进行任何其他类型的排名。在测试集中,有1498/4195(35.7%)个基因B1得分>0.7。所有基因得分≤0.7的默认(多数)决定的精确度为0.643。相比之下,应用于测试数据的回归结果的准确度为0.716,提高了11.4%。这些令人鼓舞的结果表明,只要给定检索集的大小,就可以预测B1的性能水平。这些结论将在未来的研究中进一步验证。

整体战略的结果(实验3)

结合到目前为止获得的结果,我们针对任意基因提出的总体策略是使用SP对其检索集进行排序。下一个选择是按S策略排名。如果总结不可用,则我们使用B2策略进行排名。以数字表示1011“B2+SP+S”显示了该组合策略在9390个全组基因上的MAP和NTop5P得分(4647个有摘要和乘积,4195个没有摘要,548个基因只有摘要)。与我们的两个基线策略相比,我们发现两个绩效衡量指标在统计学上都有显著改善(在0.05显著性水平上)。请注意,由于PubMed仅按时间顺序排列,我们的B1结果本身就是一种贡献。鉴于在我们的数据集中,已知相关的检索文档不到7%,因此排名目标具有挑战性。此外,使用我们的组合策略,我们能够将排名提高6.5%至7.5%,即使我们收集的大约一半基因(截至目前)在LL中没有摘要信息。随着这一信息在LL/Enterez Gene中的积累,我们期望我们的整体表现会有所改善。作为对我们整体策略的改进,我们可以使用回归模型的结果来确定优先按B1排序的基因。这种改进将在未来的研究中进行测试。

图10
图10

9390个基因(MAP)组合策略的性能此图显示了我们的组合策略(B2+S+SP)、B1和B2在全组9390个基因上的MAP得分(95%置信区间)。

图11
图11

9390个基因(NTop5P)组合策略的性能此图显示了我们的组合策略(B2+S+SP)、B1和B2在全组9390个基因上的平均NTop5P得分(95%置信区间)。

结论

我们探讨了五种不同的PubMed检索后人类基因查询排名策略的相对有效性。我们的结论是,结合LocusLink摘要和产品信息(或只是摘要)以及基因名称和别名可以有效地对检索到的文档进行排序。这一结论与其他研究一致,在这些研究中,一些形式的精心策划的知识被用于提高绩效,例如小池和高木的工作[16]. 我们的网站上提供了每个基因的文档排名列表[31].

有趣的是,使用没有摘要的产品名称是无效的。这可能是因为产品名称更容易模棱两可。我们发现,在缺少摘要信息的情况下,我们手动设计的针对遗传领域并结合基因名称的通用查询是最好的。我们无法自动构建更有效的“通用”查询。

我们的LocusLink策略比基线更有效,即使在面临模糊性时也是如此。英语歧义问题是最具挑战性的,幸运的是也是最不普遍的。最后,检索到的集合大小可以为我们提供一种预测B2策略最适合处理哪些基因的方法。这也可能是基因查询清晰度分数的基础,类似于[32]. 我们观察到存在B1 AP评分非常低(<0.2)的基因,这些基因使用我们的方法未被确定为具有任何模糊性。要么我们的歧义检测方法不充分,要么还有其他方面阻碍了检索。我们计划探索其他检测方法,如[13].

对于任何成功的方法来说,健壮是很重要的。在我们的上下文中,健壮性的一个标准是,即使金标准文档的数量发生变化,S和SP仍然是相对最佳的策略。为了测试这一方面,我们使用最新的LocusLink文件(2005年8月)中的相关性判断重复了五种排名策略的测试。我们对2003年(在前面章节中报告的实验中使用)和2005年的LocusLink文件中常见的4641个人类基因进行了研究,这些基因都有摘要和产品信息。2005年的LocusLink文件为我们提供了45728个相关性判断,而2003年的版本为29730个。因此,我们现在的相关性判断数量是现在的1.5倍多。重要的是要声明,每个基因的检索集与以前保持一致。这是两组实验之间的唯一区别,即我们现在的相关性判断数量是现在的1.5倍。数字1213使用两个相关判断集展示我们的5种策略在4641个基因上的表现。我们发现,就MAP和平均NTop5P得分而言,我们的策略的相对顺序仍然成立,其中S和SP表现最好。与之前一样,S和SP相对于基线策略的改善在0.05水平上具有统计学意义。我们还进行了一项小型专家用户评估研究。我们随机选择了34个基因主题,并将B2和SP策略检索到的每个主题的排名前15的文档汇总在一起。然后,我们将不同的主题随机分配给我们的三位专家,让他们判断文件的相关性。我们发现SP和B2在NTop5P方面的差异为10%。这与其他实验的结果类似。

图12
图12

不同黄金标准集上排名策略(MAP)的表现此图显示了4641个基因的每种策略的MAP得分(95%置信区间),这些基因的摘要和产品在两个版本的LL中可用。图的左半部分显示了使用来自2003 LL文件的相关性判断的性能,而右半部分显示了使用来自2005 LL文件的相关性判断的性能。

图13
图13

不同黄金标准集上排名策略(NTop5P)的表现此图显示了4641个基因的每种策略的平均NTop5P得分(95%置信区间),在两个版本的LL中都可以获得这些基因的摘要和乘积。图的左半部显示了使用2003 LL文件中的相关性判断的性能,而右半部显示的是使用2005 LL文件中相关性判断的绩效。

对误差可能原因的分析提出了一些有趣的观察结果。我们观察到SP策略失败的三个可能原因。首先,有没有摘要的相关文档。SP倾向于使用带有摘要的文档(因为更多的单词可能会与来自LocusLink的摘要共享)。例如,基因A2M型(LLID 2)有一个黄金标准文件(PMID 1707161),没有摘要。B2排名第5位,SP排名第180位。在我们的数据集中,25%具有摘要的金标准实例位于排名前5的文档中(针对SP),而没有摘要的金标实例的相应百分比仅为15%(也针对SP)。另一个可能的错误原因是文档中的主题不同。由于SP策略由LocusLink摘要主导,因此该策略倾向于反映类似主题的文档。对于主题不匹配的错误示例,基因PMID为9116026的金标准文档欧洲标准化委员会(LLID 1059)谈到了分离一种新的人类同源基因,而LL摘要主要是描述该基因的功能。本文件按SP排名第17位,按B2排名第2位。第三个可能导致错误的原因是,一些文件中提到了正确的基因,但在另一种生物的背景下,其排名很高。例如,对于胃泌素基因(LLID 2520),排名前10的文件中有6份(包括排名最靠前的文件)与人类无关。这些都不是基因的黄金标准。处理这个问题的一种方法可能是只考虑那些分配了MeSH术语“人类”(在“有机体”语义类别下)的文档。虽然这些观察结果远未得出结论,但为我们今后进行更严格的误差分析指明了方向。

我们只使用传统的tf*idf向量和余弦相似性,故意使排名模型保持简单。这使我们能够在本研究中关注其他维度。显然,可以尝试检索模型,例如有或无反馈的语言模型。在TREC数据集取得了令人鼓舞的结果后,我们现在将考虑完整的MEDLINE数据库。我们还计划研究其他基因组的基因。我们还将探索其他基因描述来源,如OMIM。这些可能为没有LL/Entrez基因摘要的基因提供了有趣的途径。

方法

基因查询和文档

我们从12385个已知功能的人类基因开始,从LocusLink(LL)鉴定1LL是一个手动管理的数据库,包含有关基因的各种信息,如名称、符号和指向相关文档的指针。对于每个基因,我们使用NCBI网站上的ESearch实用程序搜索MEDLINE[33]. 我们的搜索策略是将来自LL的OFFICIAL_gene_NAME、OFFICIAL_SYMBOL和ALIAS_SYMBOL字段的基因别名分离。例如,搜索带有官方名称的基因α-1-B糖蛋白是“A1BG或A1B或ABG或GAB或α-1-B糖蛋白”。相关文件(我们的黄金标准)是通过提取每个基因的LL记录(PMID和GRIF字段)中识别的文件来识别的。这些领域中列出的文件通常由人类馆长和索引员识别(具有主题专业知识)。

为了最小化NCBI服务器上的负载,考虑到我们的大量查询,我们将实验限制在2004年3TREC基因组数据集上[24]其中包含近460万条MEDLINE记录。该子集是MEDLINE完整数据库的最近三分之一(约1994年至2003年)。当局限于该数据集时,12385个原始基因主题中的9390个主题中至少有1个检索到相关文档。这些数据集总共检索到45216725条记录(平均值=4815)。对TREC数据集进行的一项修改是添加检索到但尚未出现的相关文档(5516个相关文档)。在修改后的TREC数据集中检索到4111272条唯一记录(460万条),用于至少一个基因查询。9390个基因及其相关数据构成了我们实验的基础。

给出了检索到的文档集大小和相关文档集大小的分布。观察到,44%的主题检索100个或更多文档,而近25%检索500个或更多的文档。同时,76%的主题有五个或更少的相关文档。

表3检索和相关文档的分布(9390个基因)主题定义为基因查询。因此,在表中,5270个基因查询检索到0到100个文档,7101个基因查询在LocusLink中识别出1到5个相关文档。

排名系统

我们使用Lemur 3.1版[34]安装在具有2 GB RAM的系统上,运行Redhat Linux 9.0。Lemur是由卡内基·梅隆大学和马萨诸塞大学的研究人员开发的用于语言建模和信息检索相关任务的工具包。对于给定的基因,其检索到的文档和排名查询首先由术语向量表示,其中术语权重使用基本的tf*idf(术语频率*反向文档频率)策略进行。这些向量是用狐猴构建的。使用了571个常用英语单词(如“A”、“are”、“the”)的非索引字表,并对单词进行词干处理。在查询向量和文档向量之间计算[0,1]中的余弦相似性分数。给定一个排序查询和一组检索到的基因文档,文档根据其与查询向量的余弦相似性得分进行排序。排名集合仅限于排名靠前的10000个文档。我们认为,用户不太可能想要更大的检索集。为了索引文档,我们使用标题、摘要、MeSH(医学主题标题)和RN(化学名称)字段。

可利用性

一个基于web的系统提供了检索和排序文档集的访问权,用于基因查询,可在(网址:http://sulu.info-science.uiowa.edu/genedocs).

注释

1下载日期2003年10月2日。我们注意到,LocusLink现在是NCBI的Entrez基因的一部分。重要的是,本研究中使用的LocusLink字段仍然可以通过Entrez Gene获得。

工具书类

  1. Adamic LA、Wilkinson D、Huberman BA、Adar E:一种基于文献的鉴定基因与疾病联系的方法。 第一届IEEE计算机学会生物信息学会议记录2002, 109–117.

    第章 谷歌学者 

  2. Rindflesch TC、Tanabe L、Weinstein JN、Hunter L:EDGAR:从生物医学文献中提取药物、基因和关系。 太平洋生物计算研讨会论文集2000, 517–528.

    谷歌学者 

  3. Shatkay H、Edwards S、Wilbur WJ、Boguski M:基因、主题和微阵列:使用信息检索进行大规模基因分析。 第八届分子生物学智能系统国际会议论文集2000, 317–328.

    谷歌学者 

  4. Raychaudhuri S,奥特曼RB:一种基于文献的方法,用于评估基因组的功能一致性。 生物信息学2003,19(3):396–401.

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  5. Kankar P、Adak S、Sarkar A、Murari K、Sharma G:MedMesh摘要生成器:基因簇的文本挖掘。 第二届SIAM国际数据挖掘会议记录2002, 548–565.

    谷歌学者 

  6. 雷恩·JD,加纳人力资源部:共享关系分析:对文学衍生关系网络中的集合内聚性和共性进行排序。 生物信息学2004,20(2):191–198.

    第条 中国科学院 公共医学 谷歌学者 

  7. Chaussabel D,Sher A:通过文献分析挖掘微阵列表达数据。 基因组生物学2002,(10) :1–0055。

    第条 谷歌学者 

  8. Hirschman L、Morgan AA、Yeh AS:Rutabaga的任何其他名称:提取生物名称。 J生物识别信息2002,35(4):247–259.

    第条 中国科学院 公共医学 谷歌学者 

  9. Tanabe LK、Wilbur WJ:在全文文章中标记基因和蛋白质名称。 生物医学领域自然语言处理研讨会论文集2002, 9–13.

    第章 谷歌学者 

  10. Morgan A、Hirschman L、Yeh A、Colosimo M:使用FlyBase资源提取基因名称。 ACL 2003生物医学自然语言处理研讨会会议记录2003年,1-8。

    第章 谷歌学者 

  11. Weeber M、Schijvenaars BJA、van Mulligen EM、Mons B、Jelier R、van der Eijk C、Kors JA:LocusLink和MEDLINE中人类基因符号的模糊性:创建清单和消歧测试集合。 AMIA研讨会会议记录2003, 704–708.

    谷歌学者 

  12. Tuason O、Chen L、Liu H、Blake JA、Friedman C:生物命名:词汇知识和歧义的来源。 太平洋生物计算研讨会论文集2004, 238–249.

    谷歌学者 

  13. Chen L、Liu H、Friedman C:真核生物命名的基因名称模糊性。 生物信息学2005,21(2):248–256.

    第条 公共医学 谷歌学者 

  14. Liu H、Lussier YA、Friedman C:消除生物医学叙事文本中模糊生物医学术语的歧义:一种无监督的方法。 生物医学信息学杂志2001,34(4):249–261.

    第条 中国科学院 公共医学 谷歌学者 

  15. Podowski RM、Cleary JG、Goncharoff NT、Amoutzias G、Hayes WS:Suregene是一个可扩展的系统,用于自动消除基因和蛋白质名称的术语歧义。 生物信息学与计算生物学杂志2005,(3):743–770.

    第条 中国科学院 公共医学 谷歌学者 

  16. Koike A、Takagi T:生物医学文献中的基因/蛋白质/姓氏识别。 HLT-NAACL 2004研讨会论文集:BioLINK链接生物文献、本体论和数据库2004, 9–16.

    谷歌学者 

  17. Seki K、Mostafa J:识别蛋白质名称及其名称边界的概率模型。 第二届IEEE计算机学会生物信息学会议记录2003, 251–259.

    谷歌学者 

  18. Schijvenaars B1、Mons B、Weeber M、Schuemie MJ、van Mulligen EM、Wain HM、Kors JA:基于同义词表的基因符号消歧。 BMC生物信息学2005,6:149

    第条 公共医学中心 公共医学 谷歌学者 

  19. 2002 KDD杯[http://www.biostat.wisc.edu/~克雷文/kddcup/]

  20. Hirschman L、Yeh A、Blaschke C、A V:BioCreAtIvE综述:生物学信息提取的批判性评估。 BMC生物信息学2005,6(补充1):S1。

    第条 公共医学中心 公共医学 谷歌学者 

  21. TREC基因组追踪[http://ir.ohsu.edu/genomics网站/]

  22. Blaschke C、Leon EA、Krallinger M、Valencia A:评估任务2的BioCreAtIvE评估。 BMC生物信息学2005,6(补充1):S16。

    第条 公共医学中心 公共医学 谷歌学者 

  23. Hersh W,Bhupatiraju RT公司:TREC基因组学轨道概述。 第十二届文本检索会议(TREC)会议记录2003, 14–23.

    谷歌学者 

  24. Hersh W、Bhupatiraju RT、Ross L、Johnson P、Cohen AM、Kraemer DF:TREC 2004基因组学轨道概述。 第13届文本检索会议(TREC)会议记录2004, 13–31.

    谷歌学者 

  25. Singhal A、Mitra M、Buckley C:在查询区域中学习路由查询。 第20届ACM SIGIR会议记录1997, 25–32.

    谷歌学者 

  26. 马格洛特D:基因座链接:基因目录。 NCBI手册2003

    谷歌学者 

  27. WordNet–普林斯顿大学认知科学实验室[http://wordnet.princeton.edu]

  28. Chang JT、Schütze H、Altman RB:从MEDLINE创建一个在线缩写词典。 美国医学联合会2002,9(6):612–620.

    第条 公共医学中心 公共医学 谷歌学者 

  29. Pustejovsky J、Castano J、Cochran B、Kotechi M、Morrell M:从MEDLINE数据库中自动提取首字母缩写词对。 Medinfo会议记录2001, 371–375.

    谷歌学者 

  30. Schwartz AS,赫斯特马萨诸塞州:一种识别生物医学文本中缩写定义的简单算法。 太平洋生物计算研讨会论文集2003, 451–462.

    谷歌学者 

  31. 基因查询检索[网址:http://sulu.info-science.uiowa.edu/genedocs/]

  32. Cronen-Townsend S、Zhou Y、Croft WB:预测查询性能。 第25届ACM SIGIR会议记录2002, 299–306.

    谷歌学者 

  33. ELink Entrez实用程序[http://eutils.ncbi.nlm.nih.gov/enterz/query/static/elink_help.html]

  34. Lemur项目[http://www-2.cs.cmu.edu/~狐猴/]

下载参考资料

致谢

我们要感谢同事辛英秋的宝贵意见。我们感谢Babru Samal博士、Cheryl Malone和Bryan Allen在我们的用户评估研究中提供了专家判断。我们还要感谢匿名审稿人在审稿过程中提出的建议,以改进论文。本材料基于国家科学基金会授予Padmini Srinivasan的第0312356号拨款支持的工作。本材料中表达的任何观点、发现、结论或建议均为作者的观点,并不一定反映国家科学基金会的观点。

作者信息

作者和附属机构

作者

通讯作者

与的通信Aditya K Sehgal公司.

其他信息

作者的贡献

AKS和PS同样参与了实验设计、结果分析和论文撰写。此外,AKS负责运行所有实验。

作者提交的原始图像文件

权利和权限

开放式访问本文经BioMed Central Ltd.许可发布。这是一篇开放存取文章,根据知识共享署名许可条款分发(https://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

Sehgal,A.K.,Srinivasan,P.基因查询检索。BMC生物信息学 7, 220 (2006). https://doi.org/10.1186/1471-2105-7-220

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1471-2105-7-220

关键词