跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

网站是安全的。
这个https://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2002年11月至12月;9(6):612-20.
doi:10.1197/jamia.m1139。

从MEDLINE创建缩略语在线词典

附属公司

从MEDLINE创建缩略语在线词典

Jeffrey T Chang先生等。 美国医学联合会. 2002年11月至12月.

摘要

目标:生物医学文献的增长对人类读者和自动算法都提出了特殊的挑战。其中一个挑战来自文献中常见且不受控制的缩写用法。每个额外的缩写都会增加一个字段的词汇表的有效大小。因此,为了创建一个自动生成和维护的缩略语词典,我们开发了一个算法来匹配文本中的缩略语及其扩展。

设计:我们的方法使用一种统计学习算法,即逻辑回归,根据缩写扩展与人类注释缩写训练集的相似性对其进行评分。我们将其应用于Medstract,这是一个MEDLINE摘要语料库,其中的缩写及其扩展已被手动注释。然后,我们对MEDLINE中的所有摘要运行该算法,创建了一个生物医学缩写词典。为了测试数据库的覆盖率,我们使用了《中国医学论坛报》独立创建的缩写列表。

测量:我们测量了算法在识别Medstract语料库中缩写时的召回率和精确度。我们还根据数据库测量了从《中国医学论坛报》搜索缩略语时的召回率。

结果:在Medstract语料库上,我们的算法在80%的准确率下实现了83%的召回率。将该算法应用于所有MEDLINE,得到了一个包含781632个高分缩写的数据库。在《中国医学论坛报》列出的所有缩略语中,88%都在数据库中。

结论:我们开发了一种算法来识别文本中的缩写。我们将此作为公共缩写服务器提供,网址为\url[http://缩写.stanford.edu/].

PubMed免责声明

数字

图1
图1
系统架构。我们使用机器学习的方法来查找和评分缩写。首先,我们扫描文本以找到可能的缩写,将其与前缀字符串对齐,然后基于缩写和对齐的八个特征收集特征向量。最后,我们应用二元逻辑回归从特征向量中生成分数。
图2
图2
缩写服务器。我们的缩写服务器支持按缩写或关键字查询。
图3
图3
Medstract金标准中预测的缩写。我们计算了每一个可能的分界点的缩写词的召回率和准确度。曲线上标记了一些分数。当分界值为0.14时,算法发现的七个缩写在金标准中没有识别出来,但看起来是正确的(初级乙烯反应元件(PERE)、基本螺旋环-螺旋体(bHLH)、中间成神经细胞缺陷(ind)、钙感应受体(CaSR)、GABA(B)受体(GABA(B)R1)、聚合酶II(Pol II)、,GABAB受体(GABA(B)R2))。如果Medstract中包含这些缩写,则箭头指向调整后的性能。如Pustejovsky等人所述,Acromed系统在此金标准上的性能进行了比较。
图4
图4
摘要和缩写的增长MEDLINE中增加的摘要和缩写数量稳步增加。
图5
图5
来自中国医学论坛报使用0.90的分界值,召回率分别为68%、0.14 87%和0.03 88%。

类似文章

  • 基于自动精度估计的缩写定义识别。
    Sohn S、Comeau DC、Kim W、Wilbur WJ。 Sohn S等人。 BMC生物信息学。2008年9月25日;9:402. doi:10.1186/1471-2105-9-402。 BMC生物信息学。2008 PMID:18817555 免费PMC文章。
  • 在Medline中解析缩略语的含义。
    Gaudan S、Kirsch H、Rebholz-Schuhmann D。 Gaudan S等人。 生物信息学。2005年9月15日;21(18):3658-64. doi:10.1093/bioinformatics/bti586。Epub 2005年7月21日。 生物信息学。2005 PMID:16037121
  • ALICE:一种从MEDLINE中提取缩写的算法。
    Ao H、Takagi T。 Ao H等人。 美国医学信息协会杂志,2005年9月至今;12(5):576-86. doi:10.1197/jamia。M1757.Epub 2005年5月19日。 美国医学信息协会杂志,2005年。 PMID:15905486 免费PMC文章。
  • 识别生物医学文本中缩写定义的简单算法。
    Schwartz AS,马萨诸塞州赫斯特。 Schwartz AS等人。 太平洋交响乐生物计算机。2003:451-62. Pac Symp Biocomput公司。2003 PMID:12603049
  • 使用术语识别方法构建缩写词典。
    Okazaki N,Ananiadou S。 Okazaki N等人。 生物信息学。2006年12月15日;22(24):3089-95. doi:10.1093/bioinformatics/btl534。Epub 2006年10月18日。 生物信息学。2006 PMID:17050571

引用人

工具书类

    1. Iliopoulos I,Enright A,Ouzounis C.Textquest:分子生物学概念发现医学文摘的文档聚类。太平洋交响乐生物计算机。2001;384–95.-公共医学
    1. Andrade M,Valencia A.通过从医学文摘中提取关键词来自动标注生物序列。原型系统的开发。Proc Int Conf智能系统分子生物学。1997; 5:25–32.-公共医学
    1. Jenssen T,Laegried A,Komorowski J,Hovig E.高通量分析基因表达的人类基因文献网络。自然遗传学。2001;28 (1):21–8.-公共医学
    1. Opaui指南:全球网络上的首字母缩写词、缩写词和首字母缩写列表:<http://www.opaui.com/acro.html>.
    1. 健康信息资源的缩写:<网址:http://www.geocities.com/~mlshams/acrombit/acr.htm>.

出版物类型