Retrieval with gene queries

Aditya K Sehgal; Padmini Srinivasan

doi:10.1186/1471-2105-7-220

BMC生物信息学。2006; 7: 220.

2006年4月21日在线发布。数字对象标识：10.1186/1471-2105-7-220

预防性维修识别码：项目经理1482725

PMID：16630348

基因查询检索

Aditya K Sehgal公司¹和帕德米尼·斯里尼瓦桑^1,²

作者信息文章注释版权和许可信息 PMC免责声明

摘要

背景

从MEDLINE中检索用于基因查询的文档的准确性对于生物信息学的许多应用至关重要。我们探索了五种基于信息检索的方法来对PubMed基因查询检索到的人类基因组文档进行排序。其目的是在检索列表中对相关文档进行更高的排名。我们解决了由于基因命名法的模糊性而面临的特殊挑战：涉及多个基因的基因术语、也是英语单词的基因术语以及具有其他生物学意义的基因术语。

结果

我们的两个基准排名策略在性能上非常相似。我们的三个基于LocusLink的策略中有两个提供了显著的改进。即使在基因术语存在歧义的情况下，这些方法也能很好地工作。与我们的两个基线策略相比，我们的最佳排名策略在三种不同类型的模糊性上有了显著改善（根据基线的不同，改善幅度分别为15.9%至17.7%和11.7%至13.3%）。对于大多数基因，最佳排名查询是根据LocusLink（现在的Entrez-Gene）摘要和产品信息以及基因名称和别名构建的。对于其他人来说，基因名称和别名就足够了。我们还提出了一种方法，可以成功预测给定基因的这两个排名查询中哪一个更合适。

结论

我们探讨了不同的后检索策略对PubMed针对人类基因查询返回的文档排名的影响。我们已经成功地应用了其中一些策略来提高相关文档在检索集中的排名。即使遇到各种各样的歧义，这也是正确的。我们认为在PubMed搜索结果中应用我们的策略将非常有用，因为这些搜索结果并不是按相关性排序的。对于检索大量文档的查询尤其如此。

背景

本研究的重点是从MEDLINE检索基因查询的问题。检索有关基因的正确文档集的能力是生物信息学中快速增长的各种基于文本的解决方案的基础。最终目标是否是自动识别基因-疾病关系[1]或提取与特定疾病（如癌症）相关的药物和基因的相关信息[2]，准确识别关联文档集非常重要。基因查询的有效检索与使用MEDLINE分析DNA微阵列和寡核苷酸阵列实验生成的基因簇的扩展研究尤其相关[3-7]. 单阵列实验通常涉及数千个基因，通常是全基因组范围的。这使得对数组表达式数据的分析非常具有挑战性。一些研究人员提出了使用每个基因的MEDLINE数据的技术。例如Chaussabel和Sher[7]补体基因表达聚类分析，根据基因的文献资料对基因进行聚类。Kankar等人[5]对基因文献中的MeSH术语进行统计评估，以确定不同重要性水平的基因簇的局部特征。雷恩和加纳[6]利用文献共现性来评估基因簇的内聚性。当然，这种一次分析数百个基因的方法，关键取决于其底层文档检索功能的准确性。

基因查询检索的一个重要方面是与基因名称相关的模糊性，这使得检索具有挑战性，也因此很有趣[8]. 关于这种基因名称模糊现象的研究有相当大的一部分，并且在不断增加[9-13]特别强调消歧策略的设计和测试。Weeber等人[11]研究了LocusLink（LL）基因名称中的各种歧义，如同义词和同音异义词。他们还使用Schwartz和Hearst扩展算法自动创建一个基因消歧测试集合。Tuason等人[12]研究了四种生物（小鼠、果蝇、蠕虫和酵母）的基因名称的模糊性。它们可以识别所有有机体、每个有机体内部以及通用英语单词的歧义。

在文献中可以找到各种消歧方法。Liu等人[14]使用两阶段无监督方法自动训练和构建歧义生物医学术语的词义分类器。Podowski等人[15]使用有监督的方法将其对应的LocusLink ID分配给MEDLINE摘要中的每个基因名称。他们为使用LocusLink和SWISPROT记录中的MEDLINE引文训练的每个LocusLinkID创建了模型。Koike和Takagi[16]Seki和Mostafa使用启发式构建的基因名称和基因家族名称词典[17]探索了概率方法。最近，Schijvenaars等人[18]使用了一种方法，包括对不同意义的基因进行同义词表和参考描述，后者是根据代表性文件或OMIM构建的。他们的基因符号、名称等同义词库是根据OMIM和LocusLink等五个公共数据库建立的。

如前所述，我们的方法是从检索观点。KDD 2002挑战杯等活动[19]，BioCreAtIvE挑战[20]和TREC基因组学[21]提供相关研究。然而，我们的研究在目标和实验设计上都是不同的。在2002年的KDD中，尽管一项任务是按照需要策划的概率对论文进行排序和检索，但实验条件与我们的实验条件有很大不同。例如，该系列从FlyBase域“清理”的全文论文不到1100篇。在BioCreAtIvE 2004研讨会的子任务2.3中，参与者被要求“提供十种蛋白质，即与注释相关的文章”，以及与GO注释相关的信息[22]. 在此，《生物化学杂志》（Journal of Biological Chemistry）上的全文文章也仅限于212篇。此外，如组织者所述，由于“参与者人数有限”等原因，未对子任务的结果进行评估。

在2003年TREC基因组追踪中，一项任务是从50个基因主题的525938个MEDLINE记录中检索[23]. 2004年TREC基因组学跟踪也有一个检索任务，有50个查询，但这次代表了更广泛的生物信息学查询[24]例如，探索基因与疾病之间关系的查询。我们的努力与这两项TREC努力不同。尽管我们使用了460万条MEDLINE记录的数据集，主要建立在TREC 2004数据集上，但我们关注的是更大的（接近9400个查询）和不同的查询集（专注于基因查询）。我们使用与TREC 2003相似但不完全相同的策略来识别金标准相关文件。我们的方法识别的相关文档数量是原来的两倍多。除了实验设计上的差异外，我们的检索目标更直接地关系到生物科学家使用基于MEDLINE的证据来分析涉及数千个基因的基于阵列的表达数据的需求。

与基因串歧义识别和解决的广泛研究相比，很少有研究将重点放在评估MEDLINE文件的有效性上检索使用基因查询。消除歧义的重点是特定文档中基因串的个别出现。然而，尽管消歧策略可以正确地确定给定的模糊字符串代表感兴趣的基因，但文档可能仍然不相关。例如，如果只在外围环境中提及该基因，就可能发生这种情况。另一方面，根据定义，检索与相关性有关。从长远来看，在处理基因时，结合检索研究和消歧研究的优势可能是有益的。本文的重点是检索。对于我们样本中的每个基因，我们从PubMed检索到的一组文档开始，目的是使用信息检索研究中的排名方法来改进这组文档。

PubMed是MEDLINE的公共接口，提供了在布尔框架内设计的一系列复杂的搜索功能。然而，对检索到的一组文档进行排序的主要选项是按时间顺序排列的。换句话说，PubMed查询将MEDLINE集合划分为两个集合：一个满足查询，另一个不满足查询。然后，前者按时间顺序显示给用户。PubMed检索的集合中没有“灰色阴影”。根据文档的相关性潜力对文档进行排序可能会带来很大的好处，尤其是在检索到大量文档时，这是许多基因查询的情况。因此，我们的目标是探索有效的战略排名PubMed检索到的文档。我们从一个基线排序策略开始，该策略仅使用提交给PubMed.的原始基因查询中的术语。然后，我们探索了各种其他排序策略，假设不同水平的基因领域知识。我们还研究了模糊性对性能的影响。

在最近的研究中，Chen等人[13]对基因名称进行了迄今为止最广泛的研究。他们探索了21个物种，研究了不同模糊度的分布，包括本研究中研究的模糊度。例如，他们发现，尽管他们的基因集只有0.57%由具有英语含义的基因组成（在老鼠数据集的上下文中），但他们检索到了另外233%的基因文档“实例”，其中大多数是不正确的。我们提供逻辑上互补的研究，尽管研究的重点是单个基因组的基因。我们对人类基因的检索有效性及其固有的命名模糊性进行了系统研究。具体来说，我们提出了三个主要实验，共涉及9390个基因（从LocusLink（LL）鉴定出具有已知功能的人类基因）。每个实验都探索了一个或多个排序查询应用于从MEDLINE检索的基因查询文档集的有效性。我们的目标是在检索集中对相关文档的排名高于非相关文档。

结果和讨论

对于每个基因，我们通过搜索取自LL的OFFICIAL_gene_NAME、OFFICIAL_SYMBOL和ALIAS_SYMBOL字段的别名的析取，从MEDLINE检索文档。检索的文档仅限于MEDLINE的一个子集（接近460万条记录），主要由2004年TREC基因组数据集组成[24]. 44%的基因查询检索到100个或更多文档，而近25%检索到500个或更多的文档。相关文档（我们的金标准）是从每个基因LL记录中的PMID和GRIF字段中提取的。在TREC 2003中，仅使用LL的GRIF字段就50个基因主题确定了金标准文档。已注意到该相关性信息库不完整[23]. 对于我们收集的9390个查询，我们从PMID和GRIF字段中提取的策略确定了黄金标准判断数（47639）是单独使用GRIF（21517）的两倍多。我们发现，76%的主题通过LL识别了五个或更少的相关文档。这表明，确保基因查询检索的准确性是一项挑战，用户可能会从按相关性潜力排序的检索集中受益。对于给定的基因，我们使用基本的tf*idf策略计算一组术语向量以进行术语加权。为每个检索到的MEDLINE记录和每个排名查询计算术语向量。计算[0,1]中的余弦相似性分数，用于每个排序查询向量–检索到的文档向量对。给定一个排序查询，检索到的文档按与查询的余弦相似性排序。排名集合仅限于排名靠前的10000个文档。我们认为，用户不太可能想要更大的检索集。我们使用平均精度（AP）衡量排名质量[24]. AP是在排名文档列表中每个相关文档的位置计算的精度分数的平均值。例如，给定一个排名列表，其中3个金标准文档位于第2、5和7位，AP是精度分数（0.5、0.4、0.43）的平均值，等于0.44。由于AP对每个相关文档的排名敏感，我们还计算了排名前5的文档的（标准化）精度（NTop5P=Top5P/max_Top5P）。Top5P是排名前5的相关文档数除以5。由于某些查询的相关文档少于5个，因此包含了规范化因子。例如，如果一个基因只有3个金标准文档，那么max_Top5P为0.6。如果对于这样的查询，所有3个相关文档都在前5个位置内，则NTop5P=0.6/0.6=1。相反，如果前5名中只有2名，则NTop5P=0.4/0.6=0.63。对于至少包含5个相关文档的查询，NTop5P与Top5P相同。

对各主题的得分进行平均，得出平均AP（MAP）和平均NTop5P。AP是我们的主要衡量标准。我们比较了五种文档排名策略。B1和B2是基准策略。S、 P和SP由LL构建。

1基线1（B1）：此排名查询与PubMed查询（基因名称和别名）相同，没有析取运算符。

2基线2（B2）：我们在B1排名查询中添加了术语“基因”、“遗传学”、“基因组”和“致癌基因”。在这里，我们希望引导排名有利于整个遗传学领域的文档。这个查询部分是由“查询区域”的概念驱动的[25].

三。总结（S）：我们在B1中添加基因LL记录的SUMMARY字段。例如，该字段描述了基因的功能、结构和相关的表型信息。它是使用各种来源的数据生成的[26].

4产品（P）：我们在B1查询中添加LL中的PRODUCT、PREFERRED_PRODUCT、ALIAS_PROT字段。

5总结+产品（SP）：LL摘要和产品信息都添加到B1排名查询中。

不幸的是，并非我们库中的所有9390个基因都同时具有LL中的摘要字段和产品字段。4647个基因的子集既有摘要又有产物（用于出口1）；4195的另一个子集没有摘要（在表达式2中使用），而全集在表达式3中使用。

排名结果（实验1）

我们首先使用4647个既有摘要字段又有产品字段的基因来比较我们的五种排名策略。图图11显示了地图每个策略的得分以及95%的置信区间。我们发现，通用查询（B2）在性能上与B1没有太大区别。但与B1相比，S和SP显著提高了14%，与B2相比，提高了12%。此外，S和SP的95%置信区间与B1和B2的置信区间不重叠，表明差异在0.05显著性水平上具有统计学意义。即使与B1相比，P也很弱，尽管当添加到S中时不会影响性能（S和SP显示出几乎相同的结果）。图图22显示了每种策略的相应平均NTop5P得分。我们再次发现，S和SP与B1和B2在0.05显著性水平上存在显著差异。与B1和B2相比，改善幅度分别约为10.4%和8%。

	DG公司	生物	工程	N’号
个人简介	0.371
工程	0.175	0.456
N’号	0.336	0.697	0.436
B1 AP分数	-0.182	-0.363	-0.149	-0.508

模型	β	标准错误	t吨	P（P）
常量(β₀)	0.783	0.009	83.23	0
N个(β₁)	-0.071	0.002	-40.14	9.314E-303号机组

#检索到的文档	#主题	#相关文件	#主题
0–100	5270 (56%)	1–5	7101 (76%)
101–500	1944 (21%)	6–10	1344 (14%)
500–1000	633 (7%)	11–15	430 (5%)
1001–2500	676 (7%)	16–20	204 (2%)
2501–5000	323（3%）	21–25	100 (1%)
5001–10000	230 (2%)	26–30	58 (<1%)
10001–25000	154 (2%)	31–35	38 (<1%)
25001–50000	71 (1%)	36–40	29（<1%）
> 50,000	89 (<1%)	> 40	86 (<1%)

基因查询检索

Aditya K Sehgal公司

帕德米尼·斯里尼瓦桑

摘要

背景

结果

结论

背景

结果和讨论

排名结果（实验1）

不明确基因的结果

不同的基因-相同的基因术语

具有英语语言意义的基因术语

MEDLINE中具有其他含义的基因术语

歧义分析总结

性能与检索集大小

不含LL摘要的排名结果（实验2）

预测B1性能

表1

表2

整体战略的结果（实验3）

结论

方法

基因查询和文档

表3

排名系统

可利用性

作者的贡献

注释

致谢

工具书类