Retrieval with gene queries

doi:10.1186/1471-2105-7-220

.2006年4月21日：7:220。

doi:10.1186/1471-2105-7-220。

基因查询检索

Aditya K Sehgal公司¹, 帕德米·斯里尼瓦桑

附属公司

PMID： 16630348
预防性维修识别码：项目经理1482725
内政部： 10.1186/1471-2105-7-220

使用基因查询进行检索

Aditya K Sehgal公司等。 BMC生物信息学. 2006.

.2006年4月21日：7:220。

doi:10.1186/1471-2105-7-220。

作者

Aditya K Sehgal公司¹, 帕德米尼·斯里尼瓦桑

附属

¹美国爱荷华州爱荷华市爱荷华大学计算机科学系，IA 52246。aditya-sehgal@uiowa.edu

PMID： 16630348
预防性维修识别码：项目经理1482725
内政部： 10.1186/1471-2105-7-220

摘要

背景：MEDLINE中用于基因查询的文档检索的准确性对于生物信息学的许多应用至关重要。我们探索了五种基于信息检索的方法来对PubMed基因查询检索到的人类基因组文档进行排序。其目的是在检索列表中对相关文档进行更高的排名。我们解决了由于基因命名法的模糊性而面临的特殊挑战：涉及多个基因的基因术语、也是英语单词的基因术语以及具有其他生物学意义的基因术语。

结果：我们的两个基准排名策略在性能上非常相似。我们三个基于LocusLink的策略中有两个提供了显著的改进。即使在基因术语存在歧义的情况下，这些方法也能很好地工作。与我们的两个基线策略相比，我们的最佳排名策略在三种不同类型的模糊性上有了显著改善（根据基线的不同，改善幅度分别为15.9%至17.7%和11.7%至13.3%）。对于大多数基因，最佳排名查询是根据LocusLink（现在的Entrez-Gene）摘要和产品信息以及基因名称和别名构建的。对于其他人来说，基因名称和别名就足够了。我们还提出了一种方法，可以成功预测给定基因的这两个排名查询中哪一个更合适。

结论：我们探讨了不同的后检索策略对PubMed针对人类基因查询返回的文档排名的影响。我们已经成功地应用了其中一些策略来提高相关文档在检索集中的排名。即使遇到各种各样的歧义，这也是正确的。我们认为在PubMed搜索结果中应用我们的策略将非常有用，因为这些搜索结果并不是按相关性排序的。对于检索大量文档的查询尤其如此。

PubMed免责声明

数字

图1
**排名策略绩效（MAP）**图中显示了4647个基因组中不同策略的平均AP得分（95%置信区间），LL中提供了这些基因的摘要和乘积。

图2
**排名策略的表现（NTop5P）**该图显示了在4647个基因的集合上不同策略的平均NTop5P得分（具有95%置信区间），其摘要和产物可在LL中获得。

图3
**平均精确度差异：B1 AP结合的基因**将基因分布到由B1 AP评分定义的10个仓中。除了最右边的箱子有617个基因外，每个箱子都有450个基因。箱子中基因的平均B1得分显示在X轴的方括号中。Y轴表示给定策略和B1之间AP的平均差异。因此，例如，对于距离原点最近的箱子，其平均B1得分为1.0，B2会降低性能。平均来说，它使AP下降了0.06。X轴下方的横线表示排名的负面影响，上方的横线则表示正面影响。条形图的高度表示性能的改善/下降程度。

图4
**NTop5精确度的差异：B1 NTop5P结合的基因。**这些基因通过B1 NTop5P评分进行装箱。除了最右边的箱子有617个基因外，每个箱子都有450个基因。每个箱子的B1 NTop5P平均得分显示在X轴的方括号中。Y轴表示给定策略和B1之间NTop5P的平均差异。X轴以下的横线表示性能下降，而X轴以上的横线则表示性能提高。改善/下降的程度由杆的高度表示。

图5
**含模糊基因的性能（MAP）**图中显示了在LL（DG）、一般英语意义（ENG）和其他生物意义（BIO）中有重复记录的基因的每种策略的MAP得分（95%置信区间）。

图6
**含模糊基因的性能（NTop5P）**图中显示了在LL（DG）、一般英语意义（ENG）和其他生物意义（BIO）中有重复记录的基因的每个策略的平均NTop5P得分（95%置信区间）。

图7
**平均精确度差异（AP）：基因被*二义性_生物*分数**图中描述了*二义性*_生物得分（>1）和根据AP对策略性能进行排名。基因沿X轴由它们的*二义性*_生物分数。除了最右边的一个外，所有的箱子都有220个基因。最右边的箱子里有297个基因。X轴下方括号中的数字显示平均值*二义性*_生物每个箱子的得分。图中的方括号中显示了每个箱子的B1 AP平均得分。Y轴描述了每个策略和B1之间的性能差异。X轴上方的横线表示性能提高，而X轴下方的横线则表示性能下降。

图8
**平均精度差异（AP）：按检索文档数分类的基因**图中显示了检索到的集合大小与AP方面的排名策略性能之间的关系。根据检索到的文档数量，基因被分为大小相等的组。除最后一个外，每个箱子都有450个基因。最后一个箱子由617个基因组成。括号中显示了每个箱子的平均检索集大小，方括号中显示每个箱子的B1平均AP。

图9
**遗传排序策略在训练集（1000个基因）和测试集（3195个基因）上的表现**图中显示了我们的通用排名策略B1和B2在训练和测试集上的MAP得分（95%置信区间）。*M（M）*是所选排名靠前的术语数。因为M=5是我们最好的通用排名策略，所以我们只展示了该策略的性能。

**图10**
**9390个基因（MAP）组合策略的性能**此图显示了我们的组合策略（B2+S+SP）、B1和B2在全组9390个基因上的MAP得分（95%置信区间）。

**图11**
**9390个基因（NTop5P）组合策略的性能**此图显示了我们的组合策略（B2+S+SP）、B1和B2在全组9390个基因上的平均NTop5P得分（95%置信区间）。

**图12**
**不同黄金标准集上排名策略（MAP）的表现**此图显示了4641个基因的每种策略的MAP得分（95%置信区间），这些基因的摘要和产品在两个版本的LL中可用。图的左半部分显示了使用来自2003 LL文件的相关性判断的性能，而右半部分显示了使用来自2005 LL文件的相关性判断的性能。

**图13**
**不同黄金标准集上排名策略（NTop5P）的表现**该图显示了4641个基因上每种策略的平均NTop5P得分（具有95%置信区间），其中总结和产品可在两个版本的LL中获得。图的左半部显示了使用2003 LL文件中的相关性判断的性能，而右半部显示的是使用2005 LL文件中相关性判断的绩效。

请参阅PMC中的此图像和版权信息

类似文章

MedEvi：从Medline检索生物医学概念之间关系的文本证据。
Kim JJ、Pezik P、Rebholz-Schhmann D。 Kim JJ等人。生物信息学。2008年6月1日；24(11):1410-2. doi:10.1093/bioinformatics/btn117。Epub 2008年4月9日。生物信息学。2008 PMID：18400773 免费PMC文章。
G-Bean：一个基于本体图的生物医学文献检索网络工具。
王JZ，张毅，董磊，李磊，斯里马尼PK，于PS。王JZ等。 BMC生物信息学。2014年；15补充12（补充12）：S1。doi:10.1186/1471-2105-15-S12-S1。Epub 2014年11月6日。 BMC生物信息学。2014 PMID：25474588 免费PMC文章。
评估MEDLINE检索的相关性排序策略。
Lu Z、Kim W、Wilbur WJ。 Lu Z等。 J Am Med Inform Assoc.2009年1月至4月；16(1):32-6. doi:10.1197/jamia。M2935.Epub 2008年10月24日。美国医学信息协会杂志，2009年。 PMID：18952932 免费PMC文章。
在生物医学文本中标记基因和蛋白质名称。
Tanabe L、Wilbur WJ。 Tanabe L等人。生物信息学。2002年8月；18(8):1124-32. doi:10.1093/bioinformatics/18.8.1124。生物信息学。2002 PMID：12176836
经验分布语义学：方法和生物医学应用。
科恩·T、维道斯·D。 Cohen T等人。 J生物识别信息。2009年4月；42(2):390-405. doi:10.1016/j.jbi.2009.02.002。Epub 2009年2月14日。 J生物识别信息。2009 PMID：19232399 免费PMC文章。审查。

查看所有类似文章

引用人

Ferret：一个基于句子的文献扫描系统。
Srinivasan P、Zhang XN、Bouten R、Chang C。 Srinivasan P等人。 BMC生物信息学。2015年6月20日；16(1):198. doi:10.1186/s12859-015-0630-0。 BMC生物信息学。2015 PMID：26091670 免费PMC文章。
功能性神秘基因：大脑无知的个案研究。
Pandey AK、Lu L、Wang X、Homayouni R、Williams RW。 Pandey AK等人。公共科学图书馆一号。2014年2月11日；9（2）：e88889。doi:10.1371/journal.pone.0088889。2014年电子采集。公共科学图书馆一号。2014 PMID：24523945 免费PMC文章。
MeSH：文档摘要的全文窗口。
Bhattacharya S、Ha-Thuc V、Srinivasan P。 Bhattacharya S等人。生物信息学。2011年7月1日；27（13）：i120-8。doi:10.1093/bioinformatics/btr223。生物信息学。2011 PMID：21685060 免费PMC文章。
使用权限流技术对电子健康记录进行信息发现。
赫里斯蒂斯五世、瓦拉德拉詹RR、比昂迪奇P、韦纳M。赫里斯蒂斯五世等人。 BMC Med通知Decis Mak。2010年10月22日；10:64. doi:10.1186/1472-6947-10-64。 BMC Med通知Decis Mak。2010 PMID：20969780 免费PMC文章。
建立一个高质量的感官清单，以改进缩写词的消歧。
Okazaki N、Ananiadou S、Tsujii J。 Okazaki N等人。生物信息学。2010年5月1日；26(9):1246-53. doi:10.1093/bioinformatics/btq129。Epub 2010年3月25日。生物信息学。2010 PMID：20360059 免费PMC文章。

查看所有“被引用”文章

工具书类

1. Adamic LA、Wilkinson D、Huberman BA、Adar E.一种基于文献的方法，用于识别基因-疾病联系。第一届IEEE计算机学会生物信息学会议记录。2002年，第109–117页。-公共医学
1. Rindflesch TC、Tanabe L、Weinstein JN、Hunter L.EDGAR：从生物医学文献中提取药物、基因和关系。2000年太平洋生物计算研讨会论文集。第517–528页。-项目管理咨询公司-公共医学
1. Shatkay H、Edwards S、Wilbur WJ、Boguski M.基因、主题和微阵列：使用信息检索进行大规模基因分析。2000年第八届分子生物学智能系统国际会议论文集。第317-328页。-公共医学
1. Raychaudhuri S，Altman RB公司。一种基于文献的方法，用于评估基因组的功能一致性。生物信息学。2003年；19:396–401.-项目管理咨询公司-公共医学
1. Kankar P、Adak S、Sarkar A、Murari K、Sharma G.MedMesh摘要：基因簇的文本挖掘。第二届SIAM国际数据挖掘会议记录。2002年，第548–565页。

出版物类型

行动

LinkOut-更多资源

全文源
医疗
- MedlinePlus健康信息

[1] Adamic LA、Wilkinson D、Huberman BA、Adar E.一种基于文献的方法，用于识别基因-疾病联系。第一届IEEE计算机学会生物信息学会议记录。2002年，第109–117页。-公共医学

[2] Adamic LA、Wilkinson D、Huberman BA、Adar E.一种基于文献的方法，用于识别基因-疾病联系。第一届IEEE计算机学会生物信息学会议记录。2002年，第109–117页。-公共医学

[3] Rindflesch TC、Tanabe L、Weinstein JN、Hunter L.EDGAR：从生物医学文献中提取药物、基因和关系。2000年太平洋生物计算研讨会论文集。第517–528页。-项目管理咨询公司-公共医学

[4] Rindflesch TC、Tanabe L、Weinstein JN、Hunter L.EDGAR：从生物医学文献中提取药物、基因和关系。2000年太平洋生物计算研讨会论文集。第517–528页。-项目管理咨询公司-公共医学

[5] Shatkay H、Edwards S、Wilbur WJ、Boguski M.基因、主题和微阵列：使用信息检索进行大规模基因分析。2000年第八届分子生物学智能系统国际会议论文集。第317-328页。-公共医学

[6] Shatkay H、Edwards S、Wilbur WJ、Boguski M.基因、主题和微阵列：使用信息检索进行大规模基因分析。2000年第八届分子生物学智能系统国际会议论文集。第317-328页。-公共医学

[7] Raychaudhuri S，Altman RB公司。一种基于文献的方法，用于评估基因组的功能一致性。生物信息学。2003年；19:396–401.-项目管理咨询公司-公共医学

[8] Raychaudhuri S，Altman RB公司。一种基于文献的方法，用于评估基因组的功能一致性。生物信息学。2003年；19:396–401.-项目管理咨询公司-公共医学

[9] Kankar P、Adak S、Sarkar A、Murari K、Sharma G.MedMesh摘要：基因簇的文本挖掘。第二届SIAM国际数据挖掘会议记录。2002年，第548–565页。

[10] Kankar P、Adak S、Sarkar A、Murari K、Sharma G.MedMesh摘要：基因簇的文本挖掘。第二届SIAM国际数据挖掘会议记录。2002年，第548–565页。

将引文保存到文件

电子邮件引文

添加到集合

添加到我的书目

您保存的搜索

为外部引文管理软件创建文件

您的RSS源

基因查询检索

附属

使用基因查询进行检索

作者

附属

摘要

数字

类似文章

引用人

工具书类

出版物类型

MeSH术语

LinkOut-更多资源

全文源

医疗

摘要

数字

类似文章

引用人

工具书类

出版物类型

MeSH术语

相关信息

LinkOut-更多资源

全文源

医疗