跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2004年5月至6月;11(3):174-8.
doi:10.1197/jamia。M1453。 Epub 2004年2月5日。

一种简单实用的基于词典的Medline摘要蛋白质鉴定方法

附属公司

一种简单实用的基于词典的Medline摘要蛋白质鉴定方法

谢尔盖·埃戈罗夫等。 美国医学联合会. 2004年5月-6月.

摘要

目标:本研究的目的是为生物医学语料库开发一个实用高效的蛋白质识别系统。

设计:所开发的系统称为ProtScan,它利用精心构建的哺乳动物蛋白质词典和专门的标记化算法来识别和标记生物医学文本中出现的蛋白质名称,并利用Medline“物质名称”(NOS)注释。ProtScan的词典是以半自动的方式从各种公共领域序列数据库中构建的,然后是密集的专家管理步骤。

测量:该系统的查全率和查准率是通过使用1000份随机选择和手工标记的Medline摘要确定的。

结果:开发的系统能够以98%的准确率和88%的召回率识别Medline摘要中的蛋白质出现。它还可以每秒处理大约300个摘要。在没有使用NOS注释的情况下,准确率和召回率分别为98.5%和84%。

结论:开发的系统似乎非常适合基于蛋白质的Medline索引,并有助于改进生物医学信息检索。还讨论了ProtScan召回改进的进一步方法。

PubMed免责声明

类似文章

引用人

工具书类

    1. Narayanaswamy M、Ravikumar KE、Vijay-Shanker K。生物命名实体识别器。太平洋交响乐团生物计算机程序。2003;8:427–38.-公共医学
    1. Fukuda K,Tsunode T,Tamura A,Takagi T。关于信息提取:从生物论文中识别蛋白质名称。太平洋交响乐生物计算机。1998;3:707–8.-公共医学
    1. Franzen K、Eriksson G、Olsson F、Asker L、Linden P、Coster J.蛋白质名称及其查找方法。国际医学杂志,2002年;67:49–61.-公共医学
    1. Seki K,Mostafa J.识别蛋白质名称及其名称边界的概率模型。加利福尼亚州斯坦福:IEEE计算机学会生物信息学会议,2003年。-公共医学
    1. Nobata C,Collier N,Tsujii J.生物文本中的自动术语识别和分类。Proc自然语言环太平洋研讨会。1999:369–75.

出版物类型