摘要
收到日期:2004年8月15日;修订并接受2004年10月29日
简介
本期发表的大多数数据库都使用缩写形式,这与生物学中的大多数名称没有什么不同。但是,当使用相同的缩写来表示不同的实体时,就会出现问题,也称为polynymy。表面上看,这更像是一个计算机科学问题,而不是生物问题。然而,随着研究实体(如基因、疾病和化学品)数量的稳步增长,生物医学研究越来越包括高通量和数据密集型实验方法。在每个字段中,都需要能够准确识别文本中的这些实体(1–4). 例如,在本期杂志中,交互蛋白质数据库(DIP)(5)用以前发布的交互支持实验条目(6). 在构建人类基因网络PubGene的过程中(7)作者指出,从文本构建遗传网络的最大问题之一是多义词或具有多种定义的首字母缩写词的流行。将实验结果与科学文献中已发表的知识联系起来的任何高通量努力的一个重要部分都涉及缩写词解析。
同样,命名实体识别也变得越来越重要,因为有几个长期的会议,例如文本检索会议(TREC)、消息理解会议(MUC),以及专门用于该任务的竞赛,例如生物学信息提取系统的关键评估(Biocreative)。术语映射数据库提供了扩展命名实体和同义词识别的额外好处。例如,在设计用于识别疾病名称(以及其他命名实体)的文本识别应用程序中(2,8),本文描述的ARGH数据库用于识别OMIM(遗传性疾病)或MeSH(遗传+流行病学)中未发现的疾病名称、符号和拼写变体,从而在2029年之前扩大了公认名称的数量。
出版的科学文献的急剧增长,排除了人工将缩略语定义为实用或具有成本效益的努力。构建首字母缩略词定义数据库的自动化方法能够以低成本进行简单快速的更新,明确定义分析领域(例如MEDLINE涵盖科学生物医学文献)并进行全面分析,允许用户编辑频率信息以评估含义和标准形式,并且在纳入条目时没有偏见。
标准术语和信息检索
历史上,随着特定研究领域内发表论文的研究人员数量的增加,命名的可变性也在增加。因此,信息检索和分析变得更加困难。众所周知,缩略语在用于信息检索时存在问题(9,10),但完整的短语也可以。天真地说,生物学家可能会相信,通过在PubMed或Ovid的查询引擎中键入基因名称,他们将检索到包含该基因名称的已发表文章的完整列表,但事实并非如此。例如,读者可以通过PubMed尝试以下实验(http://www.ncbi.nlm.nih.gov/enterz/query.fcgi?db=PubMed)或Ovid(http://gateway.ovid.com),两个不同的搜索引擎,提供对MEDLINE数据库的访问,并使用中所示的搜索模式搜索基因JNK表1如表所示,对于每个数据库,返回的结果数量因使用的拼写而有很大差异(PubMed和Ovid之间的数据库内容并不完全重叠,并且每个数据库都使用自己的搜索算法——这里的重点是数据库内的变化,而不是数据库间的变化)。检索的术语是MEDLINE中变量发生频率的函数,以及使用的相应信息检索算法。即使在一起搜索主要拼写变体时(表1,模式#6),累积的数字仍然不能与在JNK上搜索每个拼写变体映射回的符号得到的总数相加。然而,JNK是不寻常的,因为它在MEDLINE中唯一定义了该基因。许多真核基因缩写词,如降钙素(CT)、神经激肽(NK)和中性粒细胞迁移(NM),都是高度模糊的(11).
表1。使用如上所示键入的短语搜索PubMed或Ovid时返回的结果数
图案 . | 搜索模式 . | PubMed中的结果数 . | Ovid中的结果数 . |
---|
1 | JNK公司 | 5477 | 7902 |
2 | c-jun N-末端激酶 | 3773 | 2912 |
三 | c-jun NH公司2-末端激酶 | 503 | 731 |
4 | c-jun氨基末端激酶 | 3057 | 3039 |
5 | jun N-末端激酶 | 2451 | 3445 |
6 | #2或#3或#4或#5 | 4487 | 5860 |
7 | MAPK8(官方LocusLink名称,ID#5599) | 2 | 三 |
8 | 有丝分裂原活化蛋白激酶8 | 381 | 382 |
图案 . | 搜索模式 . | PubMed中的结果数 . | Ovid中的结果数 . |
---|
1 | JNK公司 | 5477 | 7902 |
2 | c-jun N-末端激酶 | 3773 | 2912 |
三 | c-jun NH公司2-末端激酶 | 503 | 731 |
4 | c-jun氨基末端激酶 | 3057 | 3039 |
5 | jun N-末端激酶 | 2451 | 3445 |
6 | #2或#3或#4或#5 | 4487 | 5860 |
7 | MAPK8(官方LocusLink名称,ID#5599) | 2 | 三 |
8 | 有丝分裂原活化蛋白激酶8 | 381 | 382 |
表1。使用如上所示键入的短语搜索PubMed或Ovid时返回的结果数
图案 . | 搜索模式 . | PubMed中的结果数 . | Ovid中的结果数 . |
---|
1 | JNK公司 | 5477 | 7902 |
2 | c-jun N-末端激酶 | 3773 | 2912 |
三 | c-jun NH公司2-末端激酶 | 503 | 731 |
4 | c-jun氨基末端激酶 | 3057 | 3039 |
5 | jun N-末端激酶 | 2451 | 3445 |
6 | #2或#3或#4或#5 | 4487 | 5860 |
7 | MAPK8(官方LocusLink名称,ID#5599) | 2 | 三 |
8 | 有丝分裂原活化蛋白激酶8 | 381 | 382 |
图案 . | 搜索模式 . | PubMed中的结果数 . | Ovid中的结果数 . |
---|
1 | JNK公司 | 5477 | 7902 |
2 | c-jun N-末端激酶 | 3773 | 2912 |
三 | c-jun NH公司2-末端激酶 | 503 | 731 |
4 | c-jun氨基末端激酶 | 3057 | 3039 |
5 | jun N-末端激酶 | 2451 | 3445 |
6 | #2或#3或#4或#5 | 4487 | 5860 |
7 | MAPK8(官方LocusLink名称,ID#5599) | 2 | 三 |
8 | 有丝分裂原活化蛋白激酶8 | 381 | 382 |
生物学家可能不在乎一个短语的拼写有多少种不同的方式,也不在乎它在文献中映射到什么术语,但在进行文献检索时,检索到一个术语的所有相关文献对他们来说无疑很重要。因此,鉴于检索到的文献可能高度依赖于所使用的精确查询词,了解该查询词在映射到同一概念的其他查询词中的常见程度对他们很有用。术语映射工作可以通过提供文献中最常见的拼写变体来帮助指导约定,从而帮助建立标准命名约定。例如,人类基因命名委员会(12)也是在本期杂志中,长期以来一直认识到歧义导致的问题,并有助于确定哪些基因名称应被视为公认的标准。最后,缩略词映射工作也提供了一种改进信息检索的方法。
数据库概述
为了不同的目的,不同的团体采用了几种不同的方法来映射缩略语定义模式(13–20). 然而,能够大规模准确解析首字母缩写词定义(即数百万条记录,而不是数千或数百条记录)并具有在线界面的努力是最近才出现的现象。迄今为止,共有四个数据库:ARGH(21)斯坦福生物医学缩写服务器(22)、AcroMed(23)和SaRAD(24). 因此,本报告概述了每个数据库以及统计摘要(表2)以及功能和能力的全面比较(表3).
数据库 . | 独特的首字母缩写词 . | 独特的定义 . | 缩略语定义对总数 . | 已处理MEDLINE记录 . | 上次更新时间 . |
---|
ARGH公司 | 206 348 | 767 609 | 885 060 | 12 808 695 | 2004年1月 |
斯坦福大学 | 699 043 | 1 490 909 | 1 716 288 | 11 447 996 | 2002年3月 |
AcroMed公司 | 211 000 | 703 924 | 481 531 | 11 000 000 | 2002年12月 |
SaRAD公司 | 64 764 | 193 103 | 3 960 168 | 11 253 125 | 2002年1月 |
数据库 . | 独特的首字母缩写词 . | 独特的定义 . | 缩略语定义对总数 . | 已处理MEDLINE记录 . | 上次更新时间 . |
---|
ARGH公司 | 206 348 | 767 609 | 885 060 | 12 808 695 | 2004年1月 |
斯坦福大学 | 699 043 | 1 490 909 | 1 716 288 | 11 447 996 | 2002年3月 |
AcroMed公司 | 211 000 | 703 924 | 481 531 | 11 000 000 | 2002年12月 |
SaRAD公司 | 64 764 | 193 103 | 3 960 168 | 11 253 125 | 2002年1月 |
数据库 . | 独特的首字母缩写词 . | 独特的定义 . | 缩略语定义对总数 . | 已处理MEDLINE记录 . | 上次更新时间 . |
---|
ARGH公司 | 206 348 | 767 609 | 885 060 | 12 808 695 | 2004年1月 |
斯坦福大学 | 699 043 | 1 490 909个 | 1 716 288 | 11 447 996 | 2002年3月 |
AcroMed公司 | 211 000 | 703 924 | 481 531 | 11 000 000 | 2002年12月 |
SaRAD公司 | 64 764 | 193 103 | 3 960 168 | 11 253 125 | 2002年1月 |
数据库 . | 独特的首字母缩写词 . | 独特的定义 . | 缩略语定义对总数 . | 已处理MEDLINE记录 . | 上次更新时间 . |
---|
ARGH公司 | 206 348 | 767 609 | 885 060 | 12 808 695 | 2004年1月 |
斯坦福大学 | 699 043 | 1 490 909 | 1 716 288 | 11 447 996 | 2002年3月 |
AcroMed公司 | 211 000 | 703 924 | 481 531 | 11 000 000 | 2002年12月 |
SaRAD公司 | 64 764 | 193 103 | 3 960 168 | 11 253 125 | 2002年1月 |
数据库 . | 基本方法一 . | 查询方法b条 . | 阀杆c(c)? . | 术语规范化d日? . | 质量评估e(电子)? . | 分组(f) . | 相对频率克? . | 概念图小时? . |
---|
ARGH公司 | 人力资源 | P+W公司 | N个 | N个 | N个 | N个 | Y(Y) | N个 |
斯坦福大学 | DP公司 | D类 | N个 | Y(Y) | Y(Y) | Y(Y) | N个 | N个 |
AcroMed公司 | 自然语言处理 | D类 | Y(Y) | Y(Y) | N个 | Y(Y) | Y(Y) | Y(Y) |
SARAD公司 | HS公司 | D类 | Y(Y) | Y(Y) | N个 | Y(Y) | N个 | Y(Y) |
数据库 . | 基本方法一 . | 查询方法b条 . | 阀杆c(c)? . | 术语规范化d日? . | 质量评估e(电子)? . | 分组(f) . | 相对频率克? . | 概念图小时? . |
---|
ARGH公司 | 人力资源 | P+W公司 | N个 | N个 | N个 | N个 | Y(Y) | N个 |
斯坦福大学 | DP公司 | D类 | N个 | Y(Y) | Y(Y) | Y(Y) | N个 | N个 |
AcroMed公司 | 自然语言处理 | D类 | Y(Y) | Y(Y) | N个 | Y(Y) | Y(Y) | Y(Y) |
SARAD公司 | HS公司 | D类 | Y(Y) | Y(Y) | N个 | Y(Y) | N个 | Y(Y) |
数据库 . | 基本方法一 . | 查询方法b条 . | 阀杆c(c)? . | 术语规范化d日? . | 质量评估e(电子)? . | 分组(f) . | 相对频率克? . | 概念图小时? . |
---|
ARGH公司 | 人力资源 | P+W公司 | N个 | N个 | N个 | N个 | Y(Y) | N个 |
斯坦福大学 | DP公司 | D类 | N个 | Y(Y) | Y(Y) | Y(Y) | N个 | N个 |
AcroMed公司 | 自然语言处理 | D类 | Y(Y) | Y(Y) | N个 | Y(Y) | Y(Y) | Y(Y) |
SARAD公司 | HS公司 | D类 | Y(Y) | Y(Y) | N个 | Y(Y) | N个 | Y(Y) |
数据库 . | 基本方法一 . | 查询方法b条 . | 阀杆c(c)? . | 术语规范化d日? . | 质量评估e(电子)? . | 分组(f) . | 相对频率克? . | 概念图小时? . |
---|
ARGH公司 | 人力资源 | P+W公司 | N个 | N个 | N个 | N个 | Y(Y) | N个 |
斯坦福大学 | DP公司 | D类 | N个 | Y(Y) | Y(Y) | Y(Y) | N个 | N个 |
AcroMed公司 | 自然语言处理 | D类 | Y(Y) | Y(Y) | N个 | Y(Y) | Y(Y) | Y(Y) |
SARAD公司 | HS公司 | D类 | Y(Y) | Y(Y) | N个 | Y(Y) | N个 | Y(Y) |
首字母缩写解析通用启发式(ARGH)程序(21)使用一组启发式识别和细化规则来识别科学文本中的首字母缩写词及其定义。使用启发式的优点是可以更改规则集以适应任何最适合的情况。缺点是,规则更改需要重新评估效率(精度/召回),而上游规则的更改(比其他规则更早应用的规则)有时会对下游效率产生不可预测的影响。
ARGH在识别文本中的插入短语后从右向左进行。如果插入语是一个单词,它会将其视为一个潜在的首字母缩略词,尝试将每个首字母缩略语字母与紧邻其左侧的单词中的字母匹配。如果插入语为多个单词,则ARGH会将紧邻其左的单词视为潜在的首字缩略语,将插入语视为潜在定义。ARGH能够识别与首字母缩写字母顺序不同的单词模式(例如,“推进效率”作为EP的定义),但不能识别纯粹的符号首字母缩写(例如,钾因其拉丁词根kalium而缩写为“K”)。ARGH已被用于为其他文献挖掘算法提供首字母缩写解析(2,8). ARGH数据库包括文献中的词汇变体,如可选连字号模式、符号、拼写、词序和单词选择。可以查询首字母缩写词的相应定义和查询任何相关首字母缩写的单词模式,这包括使用通配符匹配进行查询的能力。给出了每个首字母缩略词定义对的出现频率,以帮助用户确定哪一个定义可以被视为“标准”,至少可以被广泛使用。为了帮助用户确定上下文,每个条目都链接到PubMed中的示例摘要,ARGH在其中识别了首字母缩写定义对。随着新记录的添加,统计数据将在http://lethargy.swmed.edu/argh/Statistics.htm.ARGH每年更新一次。
斯坦福大学的生物医学缩写数据库包含Chang在MEDLINE记录的标题和摘要中发现的所有缩写等.算法(22). 该算法在文本中查找括号,并对括号中的单词可能是缩写或长形式,且其对应词紧跟其后的概率进行评分。一旦找到,该算法使用类似于用于对齐蛋白质序列的动态编程算法,将插入词或短语与前面的文本对齐。
研究发现,正确的缩写/长形式对之间的对齐方式是不同的,可以与错误的对齐方式区分开来。许多缩写是由单词的第一个字母、音节等组成的。在不正确缩写的对齐中,字母可能是未对齐的,也可能是在内部字母上对齐的。因此,缩写的质量通过奖励表示正确缩写的特征(例如缩写中的字母与长形式单词的第一个字符匹配)和惩罚不匹配的特征(如缩写中的单词在长形式中缺失)来评分。这样的策略可以区分正确的缩写和错误的缩写。尽管该算法能够容忍变化,但正确的配对可能是特殊的。例如,基因名称中的数字通常会减少(例如视网膜母细胞瘤的RB1)。
斯坦福生物医学缩写数据库可以在网上找到。用户可以在数据库中搜索缩写或长形式的单词。因为缩写或长格式可能有小的句法变化(例如RB1和RB-1),所以数据库聚合了相似的词,只显示了显著不同的词。缩写搜索功能也可以作为XML-RPC web服务使用,因此用户可以将搜索合并到自己的程序中(http://bionlp.stanford.edu/webservices.html). 虽然可以用任何计算机语言访问该服务,但提供了Perl、Python和Java的示例代码。
Brandeis–Tufts bio-acronym服务器AcroMed是一个自动生成的可搜索数据库,包含481500多个生物医学首字母缩写词及其相关的规范化长形式,从1100万Medline记录中提取。每个首字母缩写词都显示了相应的一组含义。数据库中的每个首字母缩写形式对都与发现它的摘要相关联,与单个意义相对应的一组等效长形式可以直接提交给PubMed作为搜索,只需单击一次,作为查询重新制定。此外,AcroMed还尝试使用由UMLS和GO分类术语组成的本体,按照语义类型对每个首字母缩略词-长型配对进行分类。命名实体的别名目前也被合并到缩写词服务器中(例如WAF1作为p21的别名)。
AcroMed服务器是使用两种从Medline语料库中提取首字母缩略词(长形式)对的策略构建的。首先,模式匹配算法识别首字母缩写词,然后在输入字符串中向左移动,以确定首字母缩写长形式的候选词。输入文本是一个简单的字符串序列。这基本上与上一节提到的作品所使用的策略相同。正则表达式旨在匹配潜在的首字母缩写词,并寻找其上下文含义。一些子例程将潜在的首字母缩写转换为正则表达式。此正则表达式用于从潜在首字母缩写词所在的位置在密切上下文中进行搜索。与潜在首字母缩写词匹配的字符串通过公式进行评级,以比较首字母缩写与比较或阈值度量的优劣。然后检查每个组成字符,将其作为组成字符串的单词的前缀或中缀进行匹配。如果存在匹配项(首字母缩写词中以相同字符/符号开头的后缀),则会为其指定特定分数。如果分数低于定义的阈值,则接受该对。
在第二种策略中,在对输入字符串进行了可靠的短语级分析后,模式匹配机制的应用受到了上述限制。一旦将适当的句法结构分配给可能出现首字母缩写的名词短语,有限状态匹配算法用于识别长形具有相当高的精度。该技术的精度和召回率均显著高于以往的工作。这种显著改善的原因是多方面的。传统的缩略语处理方法将两个计算上截然不同的问题合并在一起:
如果将这两个问题作为单独的计算任务处理,则可以获得更高的精度。重要的是,第一个问题是通过一个约束的无上下文解析算法解决的,该算法是独立开发的,用于在我们称为Medstract的大型项目中自动解释和提取生物医学文本中的蛋白质和基因描述及其关系(http://www.medstract.org). AcroMed条目被我们的其他客户程序用于从Medline识别生物关系和代谢途径。
简单健壮的缩略语词典(SaRAD)系统(24)是一个非常不同的问题的副产品。这些算法最初设计用于基因挖掘应用程序(25)和旨在提取缩写对以消除歧义。尽管算法非常简单,但人们发现它们非常健壮,因此SaRAD诞生了。SaRAD系统由三个组件组成:一个查找缩写词定义的机制、这些定义的聚类以及生成对优化PubMed搜索有用的信息。只有出现多次的缩写/定义对才会保留在数据库中。
定义提取是以与其他系统类似的方式实现的。具体地说,在括号缩写之前提取一个文本窗口。然后,该算法通过与缩写匹配的定义窗口提取“路径”。每条路径都由四个简单的启发法进行评分(例如,对于定义开头的每个缩写字符,都会将一个加到分数中,对于定义和括号之间的每个额外单词,都会减去一个,等等)。得分高于零的得分最高的路径被视为最佳匹配。该算法易于实现,在实际应用中速度很快。因为在构建每条路径时都可以计算分数,并且由于MEDLINE的大规模,不太可能的定义或复杂的窗口可以快速删除,使得算法具有计算吸引力。
为了使结果更加有用,SaRAD可视化地对相关定义进行了聚类。这对于复数定义(雌激素受体/受体)、嵌套缩写(E.受体)和其他变体(雌激素/雌激素)很重要。虽然词干分析解决了许多此类情况,但考虑到生物医学语言的复杂性,这是不现实的。通过使用n个-克。简而言之,系统将每个定义分解为n个-字符序列(特别是tri-gram)在向量空间中表示这些字符(每个可能的tri-gram.一个维度),并执行层次聚类的变体。二级聚类使用MEDLINE文档中可用的医学主题标题(MeSH)注释。将从具有非常相似MeSH标题的文档中提取的定义进行聚类。
图1是SaRAD系统的屏幕截图,用户在其中查看缩写“SS”的详细信息页面在页面顶部,界面显示集群中最流行的定义,下面列出了所有(MeSH集群)变体。单击这些定义可展开显示以显示n个-gram聚类结果以及对具有相同定义的其他缩写的任何交叉引用。
图1。
SaRAD的屏幕截图。用户已搜索“SS”并单击以获取子定义“sjorgen综合征”的详细信息。可能的过滤器是用于限制搜索结果的MeSH术语。
用户可以使用提取的MeSH术语缩小PubMed搜索范围,以便进行聚类。例如,可以在查询“CDC”中添加术语“Immunologic”,以获取与“补体依赖性细胞毒性”相关的文档,或者附加“胆汁酸和盐”,以查找有关“鹅去氧胆酸”的文档SaRAD包含一个二级接口(虽然是非公开的),该接口根据这些MeSH标题自动对PubMed结果进行聚类。
未来发展
以自动化的方式映射生物医学缩略语,可以继续完善识别技术,合并并应用到文本的其他领域,以及提供的数据的灵活性。虽然首字母缩写词定义映射中的总误报率很低,但在处理大型数据库(如MEDLINE)时,主要的挑战是会发生许多此类映射事件,即使是1%的误报率也会转化为数据库中成千上万的误报条目。然而,我们相信这些数据库及其算法将为开发分析高通量生物数据的工具奠定基础,目前这些数据库对生物学家来说是有用的资源。
我们要感谢国家医学图书馆为我们提供了MEDLINE的电子版本以供分析。这项工作由NSF-EPSCoR EPS-0132534(J.D.W.)资助。
参考文献
1Raychaudhuri,S.、Chang,J.T.、Imam,F.和Altman,R.B(
2003
)对科学文献进行计算分析,以定义和识别基因表达簇。核酸研究。
,31
,4553
–4560. 2Wren,J.D.和Garner,H.R(
2004
)共享关系分析:对文学衍生关系网络中的集合内聚性和共性进行排序。生物信息学
,20
,191
–198. 三。Hirschman,L.、Park,J.C.、Tsujii,J.、Wong,L.和Wu,C.H(
2002
)生物学文献数据挖掘的成就和挑战。生物信息学
,18
,1553
–1561. 4Mack,R.和Hehenberger,M(
2002
)基于文本的知识发现:生命科学文档的搜索和挖掘。药物研发。今天
,7
,S89
–S98。 5Salwinski,L.、Miller,C.S.、Smith,A.J.、Pettit,F.K.、Bowie,J.U.和Eisenberg,D(
2004
)相互作用蛋白质数据库:2004年更新。核酸研究。
,32
,D449号
–D451。 6E.M.马科特、I.塞纳里奥斯和D.艾森伯格(
2001
)挖掘蛋白质-蛋白质相互作用的文献。生物信息学
,17
,359
–363. 7Jenssen,T.K.、Laegried,A.、Komorowski,J.和Hovig,E(
2001
)用于基因表达高通量分析的人类基因文献网络。自然遗传学。
,28
,21
–28. 8Wren,J.D.、Bekeredjian,R.、Stewart,J.A.、Shohet,R.V.和Garner,H.R(
2004
)通过自动识别和排列隐含关系进行知识发现。生物信息学
,20
,389
–398. 9C.S.费德利乌(
1999
)缩写对MEDLINE搜索的影响。阿卡德。急救医学。
,6
,292
–296. 10Weeber,M.、Schijvenaars,B.J.、Van Mulligen,E.M.、Mons,B.、Jelier,R.、Van-Der Eijk,C.C.和Kors,J.A(
2003
)LocusLink和MEDLINE中人类基因符号的模糊性:创建清单和消歧测试集合。程序。AMIA交响乐团。
,704
–708. 11Chen,L.、Liu,H.和Friedman,C(
2004
)真核生物命名的基因名称模糊。生物信息学
,正在印刷中。 12Wain,H.M.、Lush,M.J.、Ducluzeau,F.、Khodiyar,V.K.和Povey,S(
2004
)Genew:人类基因命名数据库,2004年更新。核酸研究。
,32
,第255页
–D257。 13Park,Y.和Byrd,R(
2001
)用于查找缩写及其定义的混合文本挖掘。在自然语言处理实证方法会议(EMNLP 2001)2001年6月3日至4日,宾夕法尼亚州匹兹堡。 14Larkey,L.、Ogilvie,P.、Price,A.和Tamilio,B(
2000
)Acrophile:自动缩略词提取程序和服务器。在第五届ACM数字图书馆会议记录2000年6月2-7日,德克萨斯州圣安东尼奥,第205-214页。 15Taghva,K.和Gilbreth,J(
1995
)识别缩写词及其定义。内华达大学拉斯维加斯分校信息科学研究所(ISRI)。 16耶茨,S(
1999
)从文本中自动提取首字母缩写词。在第三届新西兰计算机科学研究生会议记录(NZCSRSC’99)4月6日至9日,新西兰汉密尔顿怀卡托大学,第117-124页。 17Yoshida,M.、Fukuda,K.和Takagi,T(
2000
)PNAD-CSS:构建蛋白质名称缩写字典的工作台。生物信息学
,16
,169
–175. 18Yu,H(
2001
)基于知识的缩写消歧。在AMIA年度研讨会会议记录(AMIA 2001)2001年11月3日至7日,华盛顿特区。 19A.S.施瓦茨和M.A.赫斯特(
2003
)识别生物医学文本中缩写定义的简单算法。太平洋。交响乐团。生物计算机。
,451
–462. 20Yu,H.、Hripcsak,G.和Friedman,C(
2002
)将生物医学文章中的缩写映射为完整形式。《美国医学杂志》。协会。
,9
,262
–272. 21Wren,J.D.和Garner,H.R(
2002
)文本中首字母缩略词定义模式识别的启发:实现综合首字母缩略语定义词典的自动构建。方法Inf.Med。
,41
,426
–434. 22Chang,J.T.、Schutze,H.和Altman,R.B(
2002
)从MEDLINE创建一个在线缩写词典。《美国医学杂志》。协会。
,9
,612
–620. 23Pustejovsky,J.、Castano,J.,Cochran,B.、Kotecki,M.和Morrell,M(
2001
)从MEDLINE数据库中自动提取首字母缩写词对。Medinfo公司
,10
,371
–375. 24E.阿达尔(
2004
)SaRAD:一个简单而健壮的缩写词典。生物信息学
,20
,527
–533. 25Adamic,L.A.、Wilkinson,D.、Huberman,B.A.和Adar,E(
2002
)一种基于文献的识别基因-疾病联系的方法。在Markstein,V.a.M.P.(编辑)中,第一届IEEE计算机学会生物信息学会议记录(CSB2002)2002年8月14日至16日,加利福尼亚州帕洛阿尔托斯坦福大学。IEEE出版社,纽约,第109-117页。
作者注释
俄克拉何马大学植物与微生物学系基因组技术高级中心,地址:101 David L.Boren Blvd,Rm 2025,Norman,OK 73019,USA,1杜克大学医学中心计算与应用基因组计划分子遗传学与微生物学部,杜克大学基因组科学与政策研究所,达勒姆,NC 237710-0001,美国,2美国马萨诸塞州沃尔瑟姆布兰代斯大学计算机科学系,邮编:02454-9110,3美国加利福尼亚州帕洛阿尔托市休利特-帕卡德实验室信息动力学实验室,德克萨斯州西南医学中心4McDermott人类生长与发展中心和生物医学发明中心,邮编:75390,美国和美国斯坦福大学医学院遗传学系,加利福尼亚州94305-5120
©2005,作者核酸研究,第33卷,数据库问题©牛津大学出版社2005;保留所有权利