×

利用生物医学文献中基于词典的生物技术名称识别的性能。 (英语) Zbl 1158.92300号

生物科技名称识别是生物医学文献信息提取的关键步骤。本文提出了一种基于词典的生物科技名称识别方法。该方法通过缩写定义识别算法扩展生物科技名称词典,通过改进的编辑距离算法提高召回率,并采用一些后处理方法,包括前关键字和后关键字扩展、词性扩展、,合并相邻生物名称并利用上下文线索进一步提高性能。实验结果表明,使用这种方法,即使是基于内部字典的系统也可以获得相当好的性能。

MSC公司:

92B05型 普通生物学和生物数学
68单位99 计算方法和应用
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 科恩,A.M.,2005年。使用自动提取字典进行无监督的基因/蛋白质实体归一化。《链接生物文献、本体论和数据库:挖掘生物语义》,《BioLINK2005研讨会论文集》,第14-24页。;科恩,A.M.,2005年。使用自动提取字典进行无监督的基因/蛋白质实体归一化。《链接生物文献、本体论和数据库:挖掘生物语义》,《BioLINK2005研讨会论文集》,第14-24页。
[2] Finkel,J。;丁格尔,S。;Nguyen,H。;Nissim,M。;Manning,C.,《利用上下文进行生物医学实体识别:从语法到网络》(《生物医学自然语言处理及其应用联合研讨会论文集》(JNLPBA-2004)(2004)),88-91
[3] Finkel,J。;丁格尔,S。;Manning,C.D.,《探索边界:生物医学文本中的基因和蛋白质识别》,BMC生物信息学,第6期,补编1,S5(2005)
[4] Hirschman,L。;科罗西莫,M。;摩根。;Yeh,A.,《BioCreAtIvE概述:生物学信息提取的关键评估》,BMC生物信息学,6,补遗1,S1(2005)
[5] Kim,J.D。;Ohta,T.等人。;塔泰西,Y。;Tsujii,J.,GENIA corpus——用于生物文本挖掘的语义注释语料库,生物信息学,19,补遗1,i180-i182(2003)
[6] Kim,J.D。;Ohta,T.等人。;Y.Tsuruoka。;塔泰西,Y。;Collier,N.,《JNLPBA生物技术识别任务简介》(《生物医学自然语言处理及其应用国际研讨会论文集》(JNLPBA-04)(2004)),70-75
[7] Lafferty,J。;McCallum,A.K。;Pereira,F.,条件随机场:用于分割和标记序列数据的概率模型,(国际机器学习会议记录(2001)),282-289
[8] Navarro,G.,《近似字符串匹配导览》,ACM Compute。调查。,33, 1, 31-88 (2001)
[9] Settles,B.,《使用条件随机场和新特征集的生物医学命名实体识别》(《生物医学自然语言处理及其应用联合研讨会论文集》(JNLPBA-2004)(2004)),104-107
[10] Schwartz,A.S。;Hearst,M.A.,《识别生物医学文本中缩写定义的简单算法》(《太平洋生物计算研讨会论文集》(PSB 2003)(2003)),451-462·Zbl 1255.68142号
[11] Tanabe,L.公司。;谢,N。;Thom,L.H。;马顿·W。;Wilbur,W.J.,《基因标签:基因/蛋白质命名实体识别的标记语料库》,BMC生物信息学,第6期,补充1,S3(2005)
[12] 蔡荣堂(Tsai,R.T.)。;Fu,R.H。;叶,F.L。;Tseng,C.K。;Lin,Y.C。;Huang,Y.H.,生物医学命名实体识别评估中的各种标准,BMC生物信息学,7,92(2006)
[13] Y.Tsuruoka。;Tsujii,J.,《提高基于词典的蛋白质名称识别的准确性和召回率》(ACL-03生物医学自然语言处理研讨会论文集(2003)),41-48
[14] Y.Tsuruoka。;Tateishi,Y。;Kim,J.D。;Ohta,T.等人。;麦克诺特,J。;阿纳尼亚杜,S。;Tsujii,J.,为生物医学文本开发健壮的部分语言标记器,《信息学进展——第十届泛希腊信息学会议》,382-392(2005)
[15] 周,G。;Su,J.,探索生物医学名称识别中的深层知识资源,(生物医学自然语言处理及其应用联合研讨会论文集(JNLPBA-2004)(2004)),96-99
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。