摘要

动机:缩写词是生物医学领域的一种重要术语。尽管有几个小组已经创建了生物医学缩写数据库,但这些数据库要么不公开,要么不全面,要么只关注缩写类型的缩写。我们创建了另一个缩写数据库ADAM,该数据库涵盖了MEDLINE标题和摘要中常用的缩写及其定义(或长形式),包括首字母缩写和非首字母缩写。

结果:采用了一个从MEDLINE(2006年基线)的标题和摘要中识别缩写及其长形式的模型。对形态变异进行分组后,共鉴定出59405对缩写/长形式配对。ADAM显示出高精度(97.4%),并包含了统一医学语言系统(UMLS)词典和斯坦福缩写数据库中包含的大多数常用缩写。相反,ADAM中三分之一的缩写是新颖的,因为它们都不包含在任何一个数据库中。大约19%的新缩写是非首字母缩写类型,这些缩写涵盖了至少七种不同类型的短/长形式对。

可利用性:ADAM的免费公共查询界面位于作者网页,整个数据库可以作为文本文件下载。

联系人:neils@uic.edu

1简介

近年来,在生物医学领域创建了许多在线文本挖掘工具,以帮助科学家进行研究(Krallinger和Valencia,2005年;延森., 2006),包括缩写列表。缩写是一个单词或短语的缩写形式,用来代替相应的长形式。生物医学文献正在增长900多个每年1000篇文章(Stead牛排., 2005)这使得同义词库很难使用,例如统一医学语言系统(UMLS)(作者网页)记录所有缩写。为了帮助解决这个问题,人们引入了许多技术来从生物医学文章中自动识别缩写及其长形式(或定义),并创建了几个在线缩写数据库(鹪鹩., 2005). 识别长格式对于解析生物医学文章中缩写的含义很重要,这反过来又有助于信息检索和信息提取应用(弗里德曼,2000;阿伦森,2001).

缩略语可以分为缩略语或非缩略语。首字母缩写词是由首字母或长形式的每个连续部分或主要部分的首字母组成的单词:“NASA”是“国家航空航天局”的首字母缩写。首字母缩写词的更宽松的定义包括由首字母或长形式每个主要部分的字母组成的单词,例如,尽管“CKB”的顺序不正常,但“CKB“可以被视为“脑肌酸激酶”的首字母缩写。相反,非首字母缩写词不遵循长形式的特定词汇模式。例如,“11p”是“11号染色体的短臂”的常见缩写。请注意,字母“p”根本不会以长形式出现。

在本文中,我们提出了一种系统的方法来识别MEDLINE标题和摘要中常用的缩写及其长形式,该方法仅基于其统计特征,而不使用任何词汇信息,以便捕获首字母缩写和非首字母缩写。本研究的最初动机是创建一个查找列表,以帮助我们识别所谓的B术语中的缩写,作为支持Arrowsmith双节点搜索界面的文本处理算法的一部分(Swanson和Smalheiser,1997年;Smalheiser,2005年) (作者网页). (B-terms是MEDLINE中两组不同文章中共享的标题词和短语;这些B-terms可能指向这些经常不同的文献中有意义的链接。)此外,在编程Anne O'Tate工具时,该工具总结了PubMed查询检索到的论文的特征(作者网页),我们注意到,在给定的一组主题文章中,缩略语占“重要”单词的很大比例(即在该组文章中频繁出现,但在MEDLINE中相对较少出现)。因此,我们选择了纳入标准,将注意力集中在那些特别可能在这些工具中显示为B术语或重要单词的术语上。然而,数据库(ADAM)应该在大量文本处理应用程序中有用,并且可以出于非商业目的自由下载或查询。

2方法

我们的方法由五个连续步骤组成:第一步,提取候选缩略语(缩写)及其出现的上下文(周围文本);第二步,利用上下文中的统计信息识别候选长形式;步骤3,根据长度比规则和经验验证的截止值过滤短/长形式对;步骤4,验证文本中使用的短形式与其长形式是分开的;第五步,将形态相似的长形式组合在一起,这些长形式对应于相同的短形式或其词汇变体。

为了协助我们的建模工作,我们对斯坦福缩写数据库中被列为EXCELLENT或GOOD缩写的缩写/长形式对的某些特征进行了表征(由Jeff Chang和Russ Altman优雅地提供)。这将在下文中介绍,但应该强调的是,我们仅以咨询的身份使用斯坦福缩写,而不是将其作为机器学习算法的训练集。

2.1步骤1:提取候选缩略语(缩写)及其出现的上下文(周围文本)

如下所述,我们提取了MEDLINE(2006年基线)文章标题和摘要中括号内的所有单词作为原始候选缩写。为了获得缩写形式的上下文,我们在同一句中的左括号左侧提取了3N个单词(N是候选缩写形式中字母数字字符的数量)。例如,给定一段文字:“……为了评估常规住院检测服务检测出人类免疫缺陷病毒(HIV)阳性的住院患者比例……”,收集“HIV”作为候选短形式,9(3×3)在左括号前的单词“人类免疫缺陷病毒检测呈阳性的住院患者”被收集为上下文。如果是嵌套括号,则提取最外层括号内的表达式。例如,在“……血清游离三碘甲状腺原氨酸(FT(3))水平降低……”的背景下,“FT(三)”将被收集为候选缩写。

为什么只捕获括号内的缩写。我们承认有例外:例如,在任何MEDLINE摘要中,缩写K252a(酪氨酸激酶抑制剂)都不会出现在其化学名称旁边。然而,在MEDLINE标题或摘要中,绝大多数缩写在一个或多个场合被定义为“长形式(短形式)”。

为什么只捕获单个单词。确实存在多单词缩写。然而,当前的模型并不是为了区分多词缩写和插入语,包括非缩写的生物医学术语(刘和弗里德曼,2003). 为了评估捕获多词缩写是否重要,我们检查了斯坦福缩写数据库中列出的最常见的多词缩写。我们注意到这些通常是复合缩写。例如,“DPP III”是“二肽1肽酶III”的缩写。我们觉得这在某种意义上与单字缩写/长形式对“二肽1肽酶(DPP)”是多余的。因此,我们决定在ADAM中只包含单字缩写。

我们还判断,单字母缩写,如“A”–“Z”,并不重要。在斯坦福大学数据库中的单字母缩写中,只有“1-肾上腺素(A)”、“1-磷酸盐(P)”和“1-小时(H)”被频繁使用。其中一些,如“A”、“B”或“C”,通常用于缩进。

因此,我们将ADAM缩写候选词限制为包含两个或更多字母数字字符的单个单词。我们还排除了罗马数字“I”到“XIV”,这些数字通常用于文本中的编号。

为什么要捕获模式“长形式(缩写)”,而不是“(长形式)缩写”、“(缩写)长形式”或“缩写(长格式)”。我们对斯坦福缩写数据库中列出的缩写进行了随机抽样检查,发现99.2%的缩写遵循MEDLINE标题和摘要中的“长形式(短形式)”模式,而不是其他三种模式。为了进一步验证这一假设,在创建ADAM数据库后,我们选择了1000对随机样本,这些样本在ADAM中,但不在斯坦福数据库中。对于每一对,我们统计了MEDLINE标题和摘要中的以下四种出现频率:(f)1:frq[长格式(缩写)];(f)2:frq[(长格式)缩写];(f):frq[缩写(长格式)];(f)4:frq[(缩写)long form]。在98%的案例中,它们在文本中表示为“长形式(缩写)”。

为什么要在上下文中捕获3N个单词。 . (2002)证明了正确的长形式总是可以在首字母缩略词类型的缩写的3N个单词中找到,我们的结果也表明这也适用于非首字母缩略词(数据未显示)。长形式必须与短形式位于同一个句子中,使用Perl程序识别句子边界(作者网页).

将形态相似的候选短形式放在一起,作为同一术语的变体处理。例如,在文献中,“APC”可以写成“APC”、“APC”、“APC”、“APC”、“APC”、“APC”、“AP-C”或“AP-C”。删除“-”并更改为相同大小写后,这些单词是相同的。通过对相似的短形式进行分组,可以收集更多的统计信息,这有助于识别它们的长形式。

2.2步骤2:确定候选长格式

本节描述了在括号中给出的短形式(或其词汇变体)左侧的3N个单词块中识别候选长形式的任务。例如,“APC”(或其变体“APC”、“APC”等)在4472篇文章的括号中被提及4579次。在这些文章的705篇中,在左边的“(APC)”旁边出现了807次“腺瘤性息肉病大肠”。在不使用任何词汇信息(例如字母匹配)的情况下,我们如何将这种长形式识别为“APC”的适当扩展,而不是更短或更长的长形式?

我们从“(APC)”开始,检查进展中每个步骤的计数“(APC)”→ ‘大肠杆菌(APC)'→ ‘大肠息肉病(APC)'→ ‘大肠腺瘤性息肉病(APC)→ ‘连锁腺瘤性息肉病大肠杆菌(APC)(图1). 请注意,计数从“腺瘤性息肉病大肠杆菌(APC)”显著下降到“连锁腺瘤性Polyposis大肠杆菌(APC)”。在本例中,“大肠腺瘤性息肉病”被确定为候选长型。

图1

从上下文中识别候选长形式的简单示例。

整个过程被形式化并分为几个步骤,如下所述:首先,标记上下文;第二,数一数每次的次数k个-克(1≤k个≤ 3N个)发生在上下文中;第三,确定候选长形式;第四,去掉多余的候选长形式。

2.2.1标记上下文

此步骤是删除分隔符,如句点、逗号或括号,并将文本更改为小写。有许多具有特殊命名法的化合物或物质名称的缩写,例如“5-羟色胺(3)”是“5HT(3)“的长形式。我们希望尽可能保持这些化学名称的原始形式,所以我们保留了所有的内括号、括号和逗号。

2.2.2计算每个k-gram发生的次数

考虑到“HIV检测呈阳性的住院患者”的“HIV”k个-克(1≤k个≤9)被提取:“病毒”(单个单词)、“免疫缺陷病毒”(两克)、…和“人类免疫缺陷病毒检测呈阳性的住院患者”(9克)。对于每个不同的k个-gram,我们计算它在所有上下文中紧邻同一候选短形式左侧出现的次数。

2.2.3确定候选长表格

对于每个k个-gram,我们试图为其分配一个分数,该分数将用于确定给定短形式的候选长形式。一种可能性是使用计数的原始比例(pr)作为我们的分数,例如,如果在100次总出现次数中的50次(pr=50%)短形式的左侧出现长形式,则分数将为0.5。然而,情况2/4和50/100并不等同;虽然它们的值都是0.5,但50/100比2/4好,因为从统计上看,当样本量较大时,SD会变小。我们通过SD调整了原始比例pr,假设计数[w个+1个w个w个2w个1(w个)∣w个w个−1w个2w个1(w个)]遵循二项分布(邓宁,1993年). 在这里,w个是括号中的候选缩写形式吗w个w个−1w个2w个1是左括号中的一系列单词。这个调整后的比例用apr表示。因此,50/100和2/4是不同的:apr(50/100)=0.45>apr(2/4)=0.25。

为了重申这一点,调整后的比例(apr)定义如下:w个和ak个-克w个k个w个k个−1w个2w个1,调整后的比例定义为:
四月=公共关系2*公共关系*(1公共关系)计数[w个1w个2w个1(w个)],1k个
(1)
和公关定义为:
公共关系=计数[w个w个1w个2w个1(w个)]1计数[w个1w个2w个1(w个)],1k个,
(2)
其中count[w个w个−1w个2w个1(w个)]是-克w个w个−1w个2w个1发生在上下文中。例如,“息肉病大肠杆菌(APC)”转移的调整比例→ ‘大肠腺瘤性息肉病(APC)'计算如下:
计数减去1[w个w个−1w个2w个1(w个)]就是区分4/4和40/40这样的情况。不进行减法运算,apr(4/4)=apr(40/40)=1;减去后,apr(40/40)=0.9503>apr(4/4)=0.5335。直观地,调整后的比例将表明-gram是短语或短语的一部分。

进行中“(APC)”→ ‘大肠杆菌(APC)'→ ‘大肠息肉病(APC)'→ ‘大肠腺瘤性息肉病(APC)→ ‘大肠腺瘤性息肉病(APC)(图1),“结肠”、“息肉病大肠”、“腺瘤性息肉病结肠”和“连锁腺瘤性结肠”的apr评分分别为0.1790、0.9884、0.9785和0.0006。在“大肠腺瘤性息肉病(APC)”进展期间,apr评分显著下降→'连接的腺瘤性息肉病大肠杆菌(APC)和因此“腺瘤性大肠息肉病”被确定为候选长型。

确定调整比例的截止值。应该在什么时候停止进展[w个w个−1w个2w个1(w个) w个+1个w个w个2w个1(w个)]并将结果短语视为候选长形式?为了帮助分配最佳规则,我们检查了斯坦福缩写数据库中691 638对(包含两个或多个字母数字字符的单字缩写,得分为EXCELLENT或GOOD)的长形式分数的分配方式。我们提取了所有k个-克,并计算它们在MEDLINE标题和摘要的上下文中出现的次数,然后计算所有k个-克。我们选择0.05作为调整比例的截止值,这意味着如果apr在w个w个−1w个2w个1(w个)展开为w个+1个w个w个2w个1(w个),然后w个w个−1w个2w个1被确定为候选长形式。

在某些情况下,apr1因为有效的长形式可能非常小。例如,“水蛋白浓度”是缩写“APC”的另一种有效长形式。进行中“(APC)”→ ‘浓度(APC)'→ ‘蛋白质浓度(APC)'→ ‘水蛋白浓度(APC)→ ‘在水蛋白浓度(APC)之间,其计数分别为4795、10、9、9和1。相应的apr得分为0.0019、0.5470、0.6793和0。在这种情况下,四月1(0.0019)远远低于0.05,根据我们的截止值,我们将失去“APC”的“水蛋白浓度”。我们发现这个问题是由“APC”的模糊性引起的,“APC在ADAM中有27种不同的长形式。”“水蛋白浓度”不是“APC”的常见长形式。为了捕获相对较小但有效的长格式,我们决定不将截止标准应用于apr1相反,我们要求计数[w个1(w个)]≥10。

总之,给出一个简短的形式w个以及所有它k个-克(1≤k个≤3N个,N个是中的字母数字字符数w个),确定其候选长形式的标准如下:

一个unigramw个1如果
{计数[w个1(w个)]10四月2<0.05
A类k个-克,w个k个w个k个−1w个2w个1(2 ≤k个≤ 3N个)如果
{计数[w个1(w个)]10四月0.052k个四月k个+1<0.05

2.3.4去掉多余的候选长形式

在“腺瘤性息肉病大肠杆菌(APC)”的例子中,129篇引文中提到了另一个较长的短语“腺瘤型息肉病结肠杆菌(APC)的突变”。我们的方法将“腺瘤性息肉病大肠杆菌”和“腺瘤型息肉病结肠突变”确定为可接受的“APC”候选长型,因为两者的调整比例均超过0.05。然而,尽管“大肠腺瘤性息肉病的突变”是一个复合短语,但作者并没有将APC用作整个短语的缩写。

为了根据上述标准在多个候选长形式短语中进行选择,这两个短语都是可接受的候选长形式,我们测量了当“大肠腺瘤性息肉病”扩展为“大肠腺癌性息肉症突变”时apr的变化程度。在本例中,apr显著降低[(0.9706−0.1339)/0.9706 = 86.20%). 其思想是,如果apr的相对差异大于一定量,则具有较低apr的候选长形式可以作为冗余或较少优选的候选来消除。再次,为了确定apr变化的最佳截止值,我们检查了斯坦福缩写数据库中单字缩写/长形式对的特征,其中列出的长形式被评为EXCELLENT或GOOD,因此被认为已经针对首字母缩写进行了优化。对于斯坦福数据库中的每一个长格式,我们检查了MEDLINE标题和摘要中的上下文,并如上所述计算了其长格式分数。通过在MEDLINE上下文中将长形词进一步向左扩展,并观察apr如何相应地变化,我们观察到,在扩展斯坦福数据库中95%的长形词后,apr下降了18%或更多。

消除冗余候选长形式的过程描述如下:给定两个相同短形式的候选长形式,w个w个2w个1w个n个w个w个2w个1,<n个w个w个2w个1是的一部分w个n个w个w个2w个1.apr的变化定义为:
Δ四月=四月四月n个四月,
(3)
如果Δapr≥0.18,则删除w个n个w个w个2w个1,否则,请删除w个w个2w个1四月份和四月n个是两个候选长型的调整比例。

为长表格评分:上次调整比例[aprk个在里面方程式(1)]被指定为候选人长形式的分数,并代表以下情况的比例w个k个出现,给定w个k个−1w个2w个1(w个). 请注意,分数最高的长格式可能不是最常用的。如果长形式的第一个单词位于PubMed官方非索引词列表中,该列表包含132个非常常见的单词,例如“the”或“by”(作者网页),第一个单词从长格式中删除。

2.3步骤3:根据长度比规则和经验验证的截止值过滤短/长形式对

长形式通常比缩写长得多。我们使用它们的长度比(long-form_length/short-form_length,length定义为字母数字字符的数量)来筛选候选缩写词/长形式对。斯坦福缩写数据库中95%的单词缩写/长形式对的长度比≥2.5,我们也选择这个值作为ADAM候选对长度比的最小截止值。

2.4步骤4:验证短形式在文本中与长形式分开使用

此步骤验证候选缩写是否已用作独立术语;其想法是,如果候选人没有单独出现,那么它就不太可能代表另一个实体的简写方式。为此,我们查看提及“长形式(缩写)”的文章的标题和摘要,并检查缩写是否也出现在同一篇文章的括号外。例如,在提到“北卡罗来纳州(美国)”的标题和摘要中,“美国”一词从未单独使用过,因此“北卡罗莱纳州(美)”从候选缩写词/长形式对列表中删除。在这一步中,删除了6212对,其中只有5%被判断为有用的对。

2.5第5步:将形态相似的长形式组合在一起,对应于相同的短形式(或其词汇变体)

在ADAM数据库中观察到三种不同类型的形态相似的长型:(1)复数,例如“抗原呈递细胞(APC)”与“抗原呈报细胞(APC)”;(2) 连字符或连环,例如“人乳头瘤病毒(HPV)”与“人乳头状瘤病毒(HRV)”;(3) 附加词,例如“腺瘤性息肉病大肠杆菌(APC)”与“腺瘤型息肉病结肠基因(APC。

这些形态上相似的长格式代表着相同的含义,将它们组合在一起将表明同一长格式是如何由不同的作者在文献中书写的。对于类型1和类型2相似的长形式,使用了近似字符串匹配算法(古斯菲尔德,1997). 该算法使用动态编程技术计算源字符串和目标字符串之间的编辑距离,即最多可以使用k个添加、删除和替换?例如,通过删除一个空格,“人类乳头瘤病毒”可以转换为“人类乳头状瘤病毒”。最大值为k个=2被选为相似的长型。其思想是匹配几乎相同的字符串,与中描述的类似BLAST的方法不同克劳萨默. (2000)与类似名称匹配,但可能会有明显差异。对于类型3类似的长形式,如果其中一个长形式是w个w个2w个1另一个是w个w个2w个1k个1也就是说,它们在开头是逐字重叠的。

3结果

全部15个433MEDLINE数据库2006年基线中的668篇引文(即标题和摘要)(作者网页)进行了检查,其中约一半(7806798)包含摘要。在对形态变体进行分组之前,512使用上述方法识别了314个缩写/长形式对。将形态变体分组后,ADAM包括59个405个缩写/长形式对。

3.1误差分析

为了测量ADAM中缩写/长形式对的质量,我们首先调查了数据库中存在多少错误赋值(即坦率错误)。在1000个不同缩写/长形式对的两个随机样本中,发现了23个和29个错误,错误率约为2.6%。观察到三种类型的错误:

  1. 我们模型中的假设存在一些固有错误(8/52)。例如,在少数情况下,缩写不在长形式的右边,而是嵌入在它的中间。例如,在“电子(EM)显微镜检查”的情况下,“电子”被提取为“EM”的长形式,“显微镜”被遗漏。

  2. 有时缩写没有标准的长格式。52个错误中有24个属于这种类型。例如,对于缩写“CelB”,系统将候选长格式标识为“火球菌属',而候选长型应该是'高温古菌的β-葡萄糖苷酶火球菌属这是因为有很多不同的方式来书写等效的长形式(例如火球菌属’). 对于这些错误,长格式通常有三个以上的单词,这表明长格式越长,越有可能以不同的方式书写。

  3. 在某些情况下(20/52),同一缩写指的是具有不同起始词但以相同单词或单词序列结尾的多个长形式。例如,“CCQ”可以是“癌症应对问卷”、“可卡因渴求问卷”或“共同核心问卷”。这些长形式中没有一种占主导地位或经常出现。我们的模型将“问卷”指定为长格式。

这些错误并不常见,最好将其视为长形式的不完整赋值。如下文所述,我们的web界面将缩写/长形式对与PubMed摘要中定义的上下文链接起来,使用户可以立即看到正确的长形式。

3.2与斯坦福大学和UMLS数据库相比,ADAM数据库的覆盖范围

不同的缩写数据库是为了不同的目的而创建的。斯坦福生物医学缩写服务器(作者网页)使用词汇启发式规则提取字母中匹配良好的缩写/长形式对。请注意,斯坦福数据库中85.3%的配对仅在MEDLINE中出现一次。UMLS专家词典2005(作者网页)是手动管理的,涵盖了常见的英语单词以及生物医学词汇。我们的目的是,ADAM应包括生物医学领域中常见的缩写/长形式对,包括首字母缩写和非首字母缩写。

为了比较ADAM与斯坦福缩写数据库和UMLS词典的覆盖范围,我们只考虑了所有数据库中符合类似标准的那些对,即:(1)缩写是带有两个或多个字母数字字符的单字;(2) 长形式至少比缩写长2.5倍,(3)缩写/长形式对在MEDLINE中至少出现10次,其中缩写在括号中,长形式在左侧。在这个队列中,ADAM包含斯坦福缩写数据库中列出的93.5%,以及UMLS专家词典中列出的92.4%。

3.3缩写/长形式对仅适用于ADAM

约三分之一(18293)ADAM中的缩写/长形式对根本不包括在斯坦福数据库或UMLS词典中。为了评估这些缩写,我们随机选择了300对新词。这些缩略语可分为三类:I类(78.3%)由缩略语类型缩写组成,这些缩写出现在MEDLINE中的时间比2001年晚。(请注意,ADAM是根据MEDLINE 2006年的基线建立的,而斯坦福数据库是从2001年开始创建的。)例如,“shRNA”是“短发夹RNA”的缩写,2002年PubMed首次定义。II类(2.6%)由非严格首字母缩写组成,如“Brain Creatine Kinase(CKB)”,或英语以外语言的首字母缩写,如“先天性畸形的西班牙协作研究(ECEMC)”。第三类(19.1%)由坦率的非首字母缩写词组成。坦率的非首字母缩写词至少包括七种不同类型的缩写形式和相应的长形式(表1).

表1

非首字母缩略词短形式及其长形式的类型和示例

类型示例
1.化合物氚化水(H(H)2O) 汞(Hg)
2.基因或物质名称芳香化酶基因(CYP19)间质胶原酶(MMP-1)
3.同义词出生日(P0)白细胞唾液酸(CD43)
4.下位词b条成纤维细胞系(3T3)大鼠胶质瘤(C6)
5.转喻c(c)伽马辐射(60Co)光疗(UVB)
6.常规单词d日2,6,10,14-四甲基十五烷(原烷)羟甲基戊二酰辅酶A还原酶抑制剂(他汀类)
7.品牌或制造商人胰岛素(NOVO)braun oral-B超菌斑去除剂(D9)
类型示例
1.化合物氚化水(H(H)2O) 汞(Hg)
2.基因或物质名称芳香化酶基因(CYP19)间质胶原酶(MMP-1)
3.同义词出生日(P0)白细胞介素(CD43)
4.下位词b条成纤维细胞系(3T3)大鼠胶质瘤(C6)
5.转喻c(c)伽马辐射(60Co)光疗(UVB)
6.常规单词d日2,6,10,14-四甲基十五烷(原烷)羟甲基戊二酰辅酶A还原酶抑制剂(他汀类)
7.品牌或制造商人胰岛素(NOVO)braun oral-B超菌斑去除剂(D9)

缩写和长形式具有相似或相同的含义,在作者使用的上下文中可以互换。

b条缩写比长形式更具体;它也可以描述为“a-kind-of”、“type-of”或“instance of”。

c(c)缩写是指长形式的一个特征。

d日缩写是一个常规单词,不是一个典型的缩写,但仍然用作长形式的标准缩写。

表1

非首字母缩略词短形式及其长形式的类型和示例

类型示例
1.化合物氚化水(H(H)2O) 汞(Hg)
2.基因或物质名称芳香化酶基因(CYP19)间质胶原酶(MMP-1)
3.同义词出生日(P0)白细胞唾液酸(CD43)
4.下位词b条成纤维细胞系(3T3)大鼠胶质瘤(C6)
5.转喻c(c)伽马辐射(60Co)光疗(UVB)
6.常规单词d日2,6,10,14-四甲基十五烷(原烷)羟甲基戊二酰辅酶A还原酶抑制剂(他汀类)
7.品牌或制造商人胰岛素(NOVO)braun oral-B超菌斑去除剂(D9)
类型示例
1.化合物氚化水(H(H)2O) 汞(Hg)
2.基因或物质名称芳香化酶基因(CYP19)间质胶原酶(MMP-1)
3.同义词出生日(P0)白细胞介素(CD43)
4.下位词b条成纤维细胞系(3T3)大鼠胶质瘤(C6)
5.转喻c(c)伽马辐射(60Co)光疗(UVB)
6.常规单词d日2,6,10,14-四甲基十五烷(原烷)羟甲基戊二酰辅酶A还原酶抑制剂(他汀类)
7.品牌或制造商人胰岛素(NOVO)braun oral-B超菌斑去除剂(D9)

缩写和长形式具有相似或相同的含义,在作者使用的上下文中可以互换。

b条缩写比长形式更具体;它也可以描述为“a-kind-of”、“type-of”或“instance of”。

c(c)缩写是指长形式的一个特征。

d日缩写是一个常规单词,不是一个典型的缩写,但仍然用作长形式的标准缩写。

4讨论

从生物医学文章中识别缩写及其长形式一直是NLP研究的一个活跃领域(吉田2000年;普斯特约夫斯基., 2001;雷恩和加纳,2002年;., 2002;., 2002;刘和弗里德曼,2003;阿达尔,2004;Ao和Takagi,2005年; 叶戈罗夫.,2005年;高丹., 2005). 大多数现有技术都是基于手工模式或规则来识别首字母缩写词的(参见雷恩., 2005进行全面审查)。虽然比缩略语数量少,但我们认为非缩略语缩略语也很重要,例如。K(K)代表“米氏常数”,或代表“11号染色体短臂”的“11p”。迄今为止,只有一种捕获非首字母缩写词的系统方法被报道(刘和弗里德曼,2003). 喜欢刘和弗里德曼(2003),我们分析了MEDLINE中“长形式(缩写)”类型搭配的统计信息。然而,我们的方法在包含标准的细节、长形式的建模和评分以及数值截断的选择方面有所不同。ADAM还将形态相似的缩略语和长形式聚集在一起,并将它们视为单个术语。

ADAM数据库中成对的短形式和长形式可能对许多文本挖掘项目有用。识别与给定缩写词相关联的长格式可能有助于消除文本中给定缩写词实例的含义歧义,可能会有助于信息检索或信息提取应用程序,也可能有助于查询扩展。例如,ADAM用于协助对Arrowsmith两节点搜索界面中的B术语进行分类、排序和合并(参见简介;Swanson和Smalheiser,1997年;Smalheiser,2005年) (作者网页). 此外,我们还使用ADAM查找PubMed查询中用于提交给2006年基因组学文本检索会议(TREC)的研究的词汇变体(作者网页). 尽管ADAM并不是为基因或蛋白质相关术语设计的词典,但我们发现2006年TREC问题中使用的约四分之三的基因相关术语在ADAM中被列为短形式或长形式。

ADAM可以通过基于Web的公共查询界面自由访问,也可以作为文本文件下载整个ADAM。使用Web界面,用户可以输入缩写并检索其长形式,或者输入长形式并检索其缩写。成对显示按计数排序,即MEDLINE中出现的次数;用户还可以根据长形式分数对其进行排名。对于每个缩写词/长形式对,用户可以通过一个链接找到PubMed的实际引用(以及其中的句子),其中定义了突出显示的缩写词对。

作者感谢Jeff Chang和Russ Altman(斯坦福大学)慷慨地提供了他们的缩写数据库。本研究得到NIH拨款LM 007292和LM 08364的支持。NIH提供资金支付本文的开放存取出版费用。

利益冲突:没有声明。

参考文献

阿达尔
E.公司。
SaRAD:一个简单而强大的缩写词典
生物信息学
2004
,卷。 
20
(第
527
-
533
)
Ao公司
H。
高木(Takagi)
T。
ALICE:一种从MEDLINE中提取缩写的算法
《美国医学杂志》。协会。
2005
,卷。 
12
(第
576
-
586
)
阿伦森
阿拉伯联合酋长国。
生物医学文本到UMLS Metathesaurus的有效映射:MetaMap程序
AMIA Symp.程序。
2001
,卷。 
2001
(第
17
-
21
)
J.T.公司。
从MEDLINE创建缩略语在线词典
《美国医学杂志》。协会。
2002
,卷。 
9
(第
612
-
620
)
催款
T。
意外和巧合统计的精确方法
计算。语言学
1993
,卷。 
19
(第
61
-
74
)
叶戈罗夫
美国。
一种简单实用的基于词典的medline摘要蛋白质鉴定方法
《美国医学杂志》。协会。
2004
,卷。 
11
(第
174
-
178
)
弗里德曼
C。
一个广泛的自然语言处理系统
AMIA Symp.程序。
2000
,卷。 
2000
(第
270
-
274
)
高丹
美国。
在混合泳中解析缩写的意义
生物信息学
2005
,卷。 
21
(第
3658
-
3664
)
古斯菲尔德
D。
字符串、树和序列的算法:计算机科学和计算生物学
1997
纽约州
剑桥大学出版社
延森
洛杉矶。
生物学家的文献挖掘:从信息检索到生物发现
《自然·遗传学评论》。
2006
,卷。 
7
(第
119
-
129
)
克拉林格
M。
巴伦西亚
答:。
分子生物学的文本管理和信息检索服务
基因组生物学。
2005
,卷。 
6
第页。 
224
 
克劳萨默
M。
使用BLAST识别基因和蛋白质名称
基因
2000
,卷。 
259
(第
245
-
252
)
线路接口单元
H。
弗里德曼
C。
大型生物医学语料库中术语知识的挖掘
派克靴。交响乐团。生物计算机。
2003
(第
415
-
426
)
普斯特约夫斯基
J。
从MEDLINE数据库中自动提取首字母缩略词对
Medinfo公司。
2001
,卷。 
10
(第
371
-
375
)
斯马尔海泽
不适用。
阿罗史密斯项目:2005年状况报告
人工智能课堂讲稿
2005
,卷。 
3735
 
柏林
Springer-Verlag公司
(第
26
-
43
)
Stead牛排
水蒸汽。
美国建立国家健康信息基础设施的可实现步骤
《美国医学杂志》。协会。
2005
,卷。 
12
(第
113
-
120
)
斯旺森
D.R.公司。
斯马尔海泽
不适用。
寻找补充文献的交互式系统:科学发现的激励
Artif公司。因特尔。
1997
,卷。 
91
(第
183
-
203
)
鹪鹩
J博士。
获得
H.R.公司。
识别文本中缩略语定义模式的启发式方法:实现综合缩略语定义词典的自动构建
方法Inf.Med。
2002
,卷。 
41
(第
426
-
434
)
鹪鹩
J博士。
生物医学术语映射数据库
核酸研究。
2005
,卷。 
33
(第
D289型
-
D293型
)
吉田
M。
PNAD-CSS:构建蛋白质名称缩写词典的工作台
生物信息学
2000
,卷。 
16
(第
169
-
175
)
H。
将生物医学文章中的缩写映射为完整形式
《美国医学杂志》。协会。
2002
,卷。 
9
(第
262
-
72
)

作者注释

副主编:Dmitrij Frishman

这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/2.0/uk/)它允许在任何媒体上无限制地非商业性使用、分发和复制原始作品,前提是正确引用了原始作品。