摘要
背景
结果
结论
背景
结果和讨论
-
1 基线1(B1) :此排名查询与PubMed查询(基因名称和别名)相同,没有析取运算符。 -
2 基线2(B2) :我们在B1排名查询中添加了术语“基因”、“遗传学”、“基因组”和“致癌基因”。 在这里,我们希望引导排名有利于整个遗传学领域的文档。 这个查询部分是由“查询区域”的概念驱动的[ 25 ]. -
三。 总结(S) :我们在B1中添加基因LL记录的SUMMARY字段。 例如,该字段描述了基因的功能、结构和相关的表型信息。 它是使用各种来源的数据生成的[ 26 ]. -
4 产品(P) :我们在B1查询中添加LL中的PRODUCT、PREFERRED_PRODUCT、ALIAS_PROT字段。 -
5 总结+产品(SP) :LL摘要和产品信息都添加到B1排名查询中。
排名结果(实验1)
不明确基因的结果
不同的基因-相同的基因术语
具有英语语言意义的基因术语
MEDLINE中具有其他含义的基因术语
歧义分析总结
性能与检索集大小
不含LL摘要的排名结果(实验2)
预测B1性能
整体战略的结果(实验3)
结论
方法
基因查询和文档
排名系统
可利用性
注释
工具书类
Adamic LA、Wilkinson D、Huberman BA、Adar E: 一种基于文献的鉴定基因与疾病联系的方法。 第一届IEEE计算机学会生物信息学会议记录 2002, 109–117. Rindflesch TC、Tanabe L、Weinstein JN、Hunter L: EDGAR:从生物医学文献中提取药物、基因和关系。 太平洋生物计算研讨会论文集 2000, 517–528. Shatkay H、Edwards S、Wilbur WJ、Boguski M: 基因、主题和微阵列:使用信息检索进行大规模基因分析。 第八届分子生物学智能系统国际会议论文集 2000, 317–328. Raychaudhuri S,奥特曼RB: 一种基于文献的方法,用于评估基因组的功能一致性。 生物信息学 2003, 19 (3):396–401. Kankar P、Adak S、Sarkar A、Murari K、Sharma G: MedMesh摘要生成器:基因簇的文本挖掘。 第二届SIAM国际数据挖掘会议记录 2002, 548–565. 雷恩·JD,加纳人力资源部: 共享关系分析:对文学衍生关系网络中的集合内聚性和共性进行排序。 生物信息学 2004, 20 (2):191–198. Chaussabel D,Sher A: 通过文献分析挖掘微阵列表达数据。 基因组生物学 2002, 三 (10) :1–0055。 Hirschman L、Morgan AA、Yeh AS: Rutabaga的任何其他名称:提取生物名称。 J生物识别信息 2002, 35 (4):247–259. Tanabe LK、Wilbur WJ: 在全文文章中标记基因和蛋白质名称。 生物医学领域自然语言处理研讨会论文集 2002, 9–13. Morgan A、Hirschman L、Yeh A、Colosimo M: 使用FlyBase资源提取基因名称。 ACL 2003生物医学自然语言处理研讨会会议记录 2003年,1-8。 Weeber M、Schijvenaars BJA、van Mulligen EM、Mons B、Jelier R、van der Eijk C、Kors JA: LocusLink和MEDLINE中人类基因符号的模糊性:创建清单和消歧测试集合。 AMIA研讨会会议记录 2003, 704–708. Tuason O、Chen L、Liu H、Blake JA、Friedman C: 生物命名:词汇知识和歧义的来源。 太平洋生物计算研讨会论文集 2004, 238–249. Chen L、Liu H、Friedman C: 真核生物命名的基因名称模糊性。 生物信息学 2005, 21 (2):248–256. Liu H、Lussier YA、Friedman C: 消除生物医学叙事文本中模糊生物医学术语的歧义:一种无监督的方法。 生物医学信息学杂志 2001, 34 (4):249–261. Podowski RM、Cleary JG、Goncharoff NT、Amoutzias G、Hayes WS: Suregene是一个可扩展的系统,用于自动消除基因和蛋白质名称的术语歧义。 生物信息学与计算生物学杂志 2005, 三 (3):743–770. Koike A、Takagi T: 生物医学文献中的基因/蛋白质/姓氏识别。 HLT-NAACL 2004研讨会论文集:BioLINK链接生物文献、本体论和数据库 2004, 9–16. Seki K、Mostafa J: 识别蛋白质名称及其名称边界的概率模型。 第二届IEEE计算机学会生物信息学会议记录 2003, 251–259. Schijvenaars B1、Mons B、Weeber M、Schuemie MJ、van Mulligen EM、Wain HM、Kors JA: 基于同义词表的基因符号消歧。 BMC生物信息学 2005, 6: 149 2002 KDD杯 [ http://www.biostat.wisc.edu/ ~克雷文/kddcup/ ] Hirschman L、Yeh A、Blaschke C、A V: BioCreAtIvE综述:生物学信息提取的批判性评估。 BMC生物信息学 2005, 6 (补充1):S1。 TREC基因组追踪 [ http://ir.ohsu.edu/genomics网站/ ] Blaschke C、Leon EA、Krallinger M、Valencia A: 评估任务2的BioCreAtIvE评估。 BMC生物信息学 2005, 6 (补充1):S16。 Hersh W,Bhupatiraju RT公司: TREC基因组学轨道概述。 第十二届文本检索会议(TREC)会议记录 2003, 14–23. Hersh W、Bhupatiraju RT、Ross L、Johnson P、Cohen AM、Kraemer DF: TREC 2004基因组学轨道概述。 第13届文本检索会议(TREC)会议记录 2004, 13–31. Singhal A、Mitra M、Buckley C: 在查询区域中学习路由查询。 第20届ACM SIGIR会议记录 1997, 25–32. 马格洛特D: 基因座链接:基因目录。 NCBI手册 2003 WordNet–普林斯顿大学认知科学实验室 [ http://wordnet.princeton.edu ] Chang JT、Schütze H、Altman RB: 从MEDLINE创建一个在线缩写词典。 美国医学联合会 2002, 9 (6):612–620. Pustejovsky J、Castano J、Cochran B、Kotechi M、Morrell M: 从MEDLINE数据库中自动提取首字母缩写词对。 Medinfo会议记录 2001, 371–375. Schwartz AS,赫斯特马萨诸塞州: 一种识别生物医学文本中缩写定义的简单算法。 太平洋生物计算研讨会论文集 2003, 451–462. Cronen-Townsend S、Zhou Y、Croft WB: 预测查询性能。 第25届ACM SIGIR会议记录 2002, 299–306. ELink Entrez实用程序 [ http://eutils.ncbi.nlm.nih.gov/enterz/query/static/elink_help.html ] Lemur项目 [ http://www-2.cs.cmu.edu/ ~狐猴/ ]
致谢
作者信息
作者和附属机构
通讯作者
其他信息
作者的贡献
权利和权限