跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2010年9月;38(16):e164。
2010年7月3日在线发布。 数字对象标识:10.1093/nar/gkq603
预防性维修识别码:PMC2938201型
PMID:20601685

ANNOVAR:高通量测序数据中遗传变异的功能注释

摘要

高通量测序平台正在为不同的基因组生成大量的遗传变异数据,但要精确定位功能重要变异的一小部分仍然是一项挑战。为了满足这些未满足的需求,我们开发了ANNOVAR工具来注释单核苷酸变体(SNV)和插入/删除,例如检查它们对基因的功能后果,推断细胞遗传学带,报告功能重要性得分,在保守区域发现变体,或识别1000基因组项目和dbSNP中报告的变体。ANNOVAR可以利用UCSC基因组浏览器的注释数据库或符合通用特征格式第3版(GFF3)的任何注释数据集。我们还对来自人类基因组的470万SNV和indels进行了“变异体减少”研究,包括Miller综合征(一种罕见的隐性疾病)的两种因果突变。通过逐步程序,我们排除了不太可能是因果的变异,并确定了包括因果基因在内的20个候选基因。使用台式计算机,ANNOVAR需要~4分钟来执行基于基因的注释,需要~15分钟来对470万个变体进行变体减少,这使得在一天内处理数百个人类基因组变得切实可行。ANNOVAR免费提供http://www.openbioinformatics.org/annovar/.

简介

不同基因组的高通量测序数据以前所未有的速度产生。为了利用大量测序数据,迫切需要新的信息学和分析策略,包括测序读取比对、变体识别、基因型调用和关联测试的方法。目前已有数十种具有不同功能的短读校准软件可用(1)以及几个单核苷酸变体(SNV)和拷贝数变体(CNV)调用算法(2)。然而,尽管这在许多测序应用中是一项重要的任务,但目前缺乏能够同时处理大量被称为变体(对于给定的人类基因组,通常>300万个变体)并注释其功能影响的方法。即使仅对孟德尔病(如Freeman-Sheldon综合征)的外显子区域进行测序,每个受试者仍携带总计约20000个变体,但只有两个变体在trans中真正的疾病原因是突变吗()。因此,从大量测序数据中识别出一小部分功能重要的变异体,对于查明潜在的疾病致病基因和致病突变非常重要。

有几个原因促使我们开发基因变体的功能注释管道。首先,尽管制造测序机器或提供测序服务的公司通常提供功能注释软件,但这些软件通常是特定于测序平台的,无法扩展以处理用户的特定需求(例如使用不同的基因组构建或基因注释)。其次,尽管已经开发了几个数据库用于SNP或CNV的功能注释(4–6),其中大多数仅限于已知变体,通常是dbSNP或CNV数据库中报告的变体。我们注意到存在一些例外情况(7)例如,F-SNP工具(8)和Seattle Seq工具(http://gvs.gs.washington.edu/SeattleSeq注释/)可以用于新SNPs的注释。第三,一些先前开发的突变预测算法,如SIFT(9)和PolyPhen(10)需要在序列数据库上建立多重比对,只能处理非同义突变,并且很难扩展到许多模型生物基因组。然而,对于人类基因组,可以计算出所有可能的非同义突变的SIFT/PolyPhen分数,因此它们可以用于新SNV的快速注释。第四,尽管可以为人类基因组中所有90亿个可能的SNV构建一个预先计算注释的数据库,但当有新注释信息可用时,此类数据库无法轻松更新,也无法处理插入或删除。最后,许多当前数据库和web服务器的开发都是面向人类基因组的,当需要注释非人类基因组的序列时,无法使用。因此,社区强烈需要高效、可配置、可扩展和跨平台兼容的工具,以利用最新信息注释来自不同基因组的遗传变异。我们在这里介绍的软件ANNOVAR(注释变体)是为了满足这些未满足的需求而开发的。

除了注释变异对基因的功能影响外,ANNOVAR还具有其他几个功能,包括执行基于基因组区域的注释的能力,以及将变异与现有变异数据库进行比较的能力。基于区域的注释是指基于特定基因组元素而非基因的变体注释,例如保守基因组区域、预测转录因子结合位点、预测microRNA靶位点和预测稳定RNA二级结构。这些注释对于全基因组测序数据尤其重要,因为绝大多数变体将位于蛋白质编码区之外,并且它们的功能影响无法通过基于基因的注释进行评估。ANNOVAR可以利用UCSC基因组浏览器中的注释数据库作为平面文本文件;然而,基本上任何注释数据库都可以处理,只要它们符合通用特征格式版本3(GFF3)标准(http://www.sequenceontology.org/gff3.shtml网站)用于序列级功能注释。此外,ANNOVAR可以评估并筛选出公共数据库(如dbSNP和1000基因组项目)中未报告的变体子集。通常,导致孟德尔病的罕见变异不太可能出现在这些数据库中,或者不太可能具有高等位基因频率。在先前的外显子组测序项目中,该理论基础被用于丰富变异子集,该项目确定了Freeman-Sheldon综合征的因果突变(11)和米勒综合征()。ANNOVAR提供了类似的功能,但可以将比较扩展到其他公共数据库,如提供等位基因频率信息的1000基因组项目。类似地,ANNOVAR还可以根据用户编译的数据集过滤变体,例如人类基因组中所有可能的非同义突变的所有SIFT分数。

我们将为学术界提供软件使用问题的长期支持。此外,我们将不断更新软件,以适应并利用不同的功能注释来源,例如,未来基于1000基因组项目外显子组测序的注释。我们相信ANNOVAR将有助于优先考虑来自不同基因组的遗传变异,并从高通量测序平台产生的大量测序数据中加速科学发现。

材料和方法

准备带有遗传变异的输入文件

ANNOVAR是一个命令行驱动的软件工具,可以在安装了标准Perl模块的各种硬件系统上用作独立应用程序。ANNOVAR是开源的,可以在http://www.openbioinformatics.org/annovar网站/向学术界致敬。ANNOVAR采用基于文本的输入文件,其中每行对应一个遗传变异,包括SNV、插入、删除或块替换。在每行中,前五个空格或制表符分隔的列表示染色体、起始位置、结束位置、参考核苷酸和观察到的核苷酸。对于染色体位置,ANNOVAR可以处理基于1的坐标系(默认情况下)和半开放的基于零的坐标系统(通过使用“–zerostart”参数)。可以提供其他列,并将以相同的形式在输出文件中打印出来。为了方便起见,如果没有现成的信息,用户可以使用“0”填写参考核苷酸。插入、删除或块替换可以很容易地用这个简单的文件格式表示,用“–”表示空核苷酸。中给出了一个示例表1,附加列作为变量的注释。

表1。

具有五种基因变体的输入文件示例

染色体起点终点裁判Obs公司评论
164930342749303427C类T型R702瓦(二氧化氮)
164932127949321279负极C类c.3016_3017英寸c(二氧化氮)
131966168519661685G公司负极35德尔格(GJB2型)
11052937541052937550ATAA公司区块替代
11313388013133881总费用负极2 bp缺失(rs59770105)

表1,第一个变体是SNV,将参考基因组中的C替换为T。第二个变体是单碱基插入,因为参考基因组中参考核苷酸用“−”表示。第三种变体是单碱基缺失,观察到的核苷酸用“−”表示。第四个变体是块替换,但参考等位基因用“0”表示,因此无需在该行上明确提供该等位基因。最后一个变体是跨越多个核苷酸的缺失。

下载注释数据库

为了注释变异对基因的功能影响,ANNOVAR需要从UCSC基因组浏览器下载基因注释数据集(基因/转录注释和FASTA序列)(12)并将其保存到本地磁盘。几个不同的基因注释系统,包括RefSeq基因、UCSC基因和Ensemble基因,可用于注释。如果计算机连接到Internet,则可以使用“–downdb”参数自动下载必要的文件。“wget”系统命令将用于下载,或者Net::Ftp/LWP::UserAgent模块(默认情况下,大多数系统中安装的标准Perl模块)也可以使用。用户可以指定不同的基因组构建,例如hg18(人类)、mm9(小鼠)或bosTau4(奶牛),只要它们可以从UCSC基因组浏览器注释数据库中获得。当通过Ensembl基因定义执行基于基因的注释时(13),ANNOVAR将从Ensembl下载FASTA序列,因为UCSC基因组浏览器无法提供这些序列。

对于基于区域的注释,ANNOVAR需要基于用户特定的轨迹名称从各种UCSC基因组浏览器表下载注释数据库。或者,用户可以指定一个符合通用特征格式3(GFF3)的定制注释数据库,ANNOVAR可以识别与给定GFF3文件中注释的特征重叠的变体。例如,对于基于过滤器的注释,将突变与1000基因组项目或dbSNP中检测到的突变进行比较,ANNOVAR将从相应的网站下载特定的文件。ANNOVAR还可以下载所有人类非同义突变的预先计算的SIFT分数,以帮助通过基于过滤器的注释程序注释人类外显子。

扫描注释数据库

从输入文件读取变体时,ANNOVAR扫描存储在本地磁盘上的基因注释数据库,并识别内含子变体、外显子变体、基因间变体、5′/3′-UTR变体、剪接位点变体和上游/下游变体(默认情况下,距转录物小于阈值1 kb)。对于基因间变异,报告了最接近的两个基因及其距离。对于外显子变异体,ANNOVAR扫描注释的mRNA序列,以识别和报告氨基酸变化以及停止-增加或停止-减少突变。ANNOVAR还可以对许多类型的注释轨迹执行基于区域的注释,例如最保守的元素和预测的转录因子结合位点。这些注释必须由ANNOVAR下载,然后才能使用。最后,ANNOVAR可以筛选特定的变异,如1000基因组项目中频率>1%的SNP,或SIFT得分>0.05的非同义SNP。

为了自动化将大量变体减少为功能重要变体的一小部分的过程,annovar包中提供了一个脚本(auto_annovar.pl)。默认情况下,auto_annovar.pl通过多次执行annovar来执行多步骤程序,每次都使用几个不同的命令行参数,并生成包含最可能的因果变量及其相应候选基因的最终输出文件。对于隐性疾病,这个列表可以进一步缩小,以包括具有多个变异的基因,这些变异被预测为具有重要功能。

“可有可无”的基因汇编

基于这样一种假设,即在人群中具有高频率非感觉(停止-保持)突变的基因不太可能导致罕见的孟德尔病,我们利用1000基因组项目的数据编制了一份此类“可有可无”的基因列表。对于CEU、YRI和JPT+CHB人群,我们分别确定了具有非敏感突变的基因,其组合次要等位基因频率(MAF)>1%。例如,如果同一基因中的两个无义突变在CEU人群中的MAF分别为0.5和0.8%,则该基因将被视为可有可无的基因。该分析结果鉴定了1000基因组项目中的2064个基因。我们警告说,由于测序错误或比对错误,基因可能在这个列表中;例如,如果该基因有许多假基因,或者它存在于片段复制中。这个列表(约占所有注释的人类基因的10%)是有用的过滤步骤,可以进一步减少孟德尔疾病的潜在候选基因。

两个合成数据集的汇编

为了说明ANNOVAR在识别隐性遗传孟德尔病的致病基因方面的作用,我们合成了一个包含约420万SNV和约50万indels的全基因组数据集。这些变体包括Illumina对男性约鲁巴人产生的所有变体(ftp://ftp.sanger.ac.uk/pub/rd/NA18507/) (14)以及Miller综合征的两个已知原因突变(chr16:70608443处的G->A突变和chr16:70612611处的G->C突变,代表G152R和G202A在DHODH公司基因)。我们使用ANNOVAR对该数据集的变异减少程序进行了测试,以检查我们是否能够识别出包含因果基因的候选基因的一小部分DHODH公司.

为了说明ANNOVAR在识别具有显性遗传的孟德尔病因果基因中的作用,我们合成了全基因组数据集。由于我们无法获得四例Freeman-Sheldon病例的外显子组数据,因此我们下载了在(11)。然后,我们提取了前四名受试者的外显子组数据,包括两名约鲁巴受试者(NA18507、NA18517)和两名欧美人(NA12156和NA12878)。接下来,我们将四个已知的因果突变添加到四个HapMap受试者中的每一个受试者(三个C–>T突变位于chr17:10485359,一个C–>T突变位于chr17:14085360,表示R672H和R672C突变位于3令吉)。我们测试了ANNOVAR是否能够识别MYH3型通过检测这四个受试者的外显子,作为致病基因。

结果和讨论

遗传变异的基于基因、基于区域和基于过滤的注释

为了演示ANNOVAR的功能和输出,我们分析了如下所示的输入文件表1。我们使用RefSeq基因定义应用了基于基因的注释程序(15)尽管UCSC基因定义(16)或集合基因定义(13)可以交替使用。生成了两个输出文件,其中一个注释了每个变体相对于基因的位置(每个输出行一个变体),即它是否是外显子、内含子、基因间、剪接位点、5′/3′-UTR、基因的上游/下游,或者它是否具有无效的输入格式。另一个输出文件包含可能由突变引起的氨基酸变化。我们使用了标准化的术语(17)在cDNA或蛋白质上注释非同义SNV和indels。例如,第一个突变具有NOD2的功能后果:NM_022162号:exon 4:p.R702W,表明突变导致NOD2基因第4外显子发生非同义性变化。由于每个基因在RefSeq注释中可能有多个剪接亚型,因此RefSeq转录本标识符总是在基因名称之后给出,一些变体可能会针对多个替代转录本进行注释。

接下来,我们研究了中变体列表上基于区域的注释表1。需要使用“–regionanno”参数,并且需要指定“–dbtype”参数以选择批注数据库。例如,当发出“–dbtype mce44way”时,ANNOVAR将搜索phastConsElements44way注释。该注释数据库包含44种脊椎动物的多重比对,以及使用两种方法(相位cons)进行的进化保护测量(18)和phyloP(19)人类基因组(UCSC构建版本:hg18)。第二个变体(NOD2中的c.3016_3017insC)位于保守区,标准化保守得分为392。接下来,我们使用“–dbtype segdup”来识别位于片段重复区域的变体(20),通过检查基因组SuperDups注释数据库。中的最后一个变量表1(rs59770105,一个小缺失)在片段重复中被识别,与序列的另一个拷贝的序列一致性为0.996。除了上述两个基于区域的注释示例外,还可以查询UCSC基因组浏览器中的许多其他注释数据库。此外,ANNOVAR实现了直接查询符合通用特征格式版本3(GFF3)的任何注释数据库的功能。ANNOVAR网站中提供了几个基于GFF3的注释数据库示例。GFF3已经成为许多已建立和正在出现的模型生物数据库中的标准注释格式,并为序列特征注释的交换提供了一个方便的标准。BioPerl和GMOD工具广泛支持使用GFF3文件,因此将大多数序列特征注释转换为GFF3格式相对简单。ANNOVAR利用了这种标准化,因此用户可以利用许多定制的注释数据库来注释遗传变异。

最后,我们检查了表1通过对已知变异数据库(如dbSNP、1000基因组计划变异数据或用户提供的变异列表)进行过滤。ANNOVAR中的“–filter”参数用于此目的。中的第三种变体表1(35delG英寸GJB2型)已知是耳聋的常染色体隐性突变(21)。有趣的是,它在dbSNP中有注释,但在1000基因组项目中没有。这个例子说明,如果突变不是私有的,并且之前已经进行了很好的研究,那么针对dbSNP的过滤有时可能无法识别孟德尔病的因果变异。ANNOVAR的另一个有用功能是能够根据预先计算的功能重要性得分(如SIFT得分)过滤变量(9)对于人类基因组中所有可能的非同义突变。例如,R702W突变二氧化氮被SIFT注释为有害(得分=0)。由于可以使用预先计算的SIFT分数,ANNOVAR在注释中非常有效,使用现代台式计算机处理外显子需要几分钟。

确定候选基因的遗传变异优先顺序

为了说明ANNOVAR在识别导致罕见孟德尔病的致病基因方面的作用,我们合成了一个包含约420万SNP和约50万indels的全基因组数据集。这些变体包括Illumina对男性受试者产生的所有变体(14)以及Miller综合征的两个已知因果突变(G152R和G202ADHODH公司基因)。米勒综合征是一种罕见的孟德尔病,最近通过对四个先证者进行外显子测序和对另外三个家族进行桑格测序解决了这一问题()因此,我们实验的主要目标是研究我们是否以及如何利用ANNOVAR来修剪罕见隐性疾病的潜在候选基因。此外,由于在使用PolyPhen的功能过滤器时,其中一个因果突变被预测为“良性”突变(),我们研究了是否可以使用替代的更快的过滤策略。我们承认,由于原始研究的完整变体数据不可用,因此我们必须依赖合成变体集来说明ANNOVAR在实际数据上的使用。

变体减少程序概述如所示图1我们首先对所有~470万个变异进行了基于基因的注释,共鉴定出24617个外显子SNV或indels。鉴于米勒综合征是一种罕见的孟德尔病,与Ng相一致.研究()接下来,我们只关注了1166个外显子蛋白变化变体,并确定了4860个变体中属于高度保守基因组区域的一个子集。我们注意到Miller综合征的两个因果突变位于高度保守的区域,标准化得分分别为505和445(UCSC基因组浏览器中所有类型注释的标准化得分范围为0-1000)。PolyPhen在Ng中预测其中一个突变为“良性”等。如果Ng等。在过滤过程中使用PolyPhen预测()。我们证实SIFT也预测其为良性(SIFT得分=0.18)。接下来,我们从1000基因组项目和dbSNP 130版中筛选出变异,假设在公共数据库中观察到的变异不太可能是米勒综合征的因果变异。这种逻辑与两个外显排序研究中使用的逻辑相似(11)尽管他们没有利用1000个基因组项目数据集。这个过程给我们留下了413个变体。接下来,在减少的变异体集合中,我们评估了复合杂合子在同一基因中是否存在多个罕见变异体。有趣的是,该分析只剩下23个基因。最后,我们评估了这23个基因中的一些是否属于一组“可有可无”的基因,即1000基因组项目中具有高频无义突变的基因(>1%的受试者)。其基本原理是,这些基因不太可能导致一种非常罕见的孟德尔病,或者这些基因很容易在短阅读测序平台中出现测序和比对错误。三个基因(ZNF717型工厂验收试验1OR4C3型)被删除,剩下20个候选基因,包括因果基因DHODH公司上述每种方法都可以通过ANNOVAR中的不同参数执行,我们还提供了一个脚本,可以用来自动执行变量约简过程。对于约470万种变体,使用现代台式计算机只需约15分钟。

保存图片、插图等的外部文件。对象名称为gkq603f1.jpg

使用合成数据集鉴定导致米勒综合征的基因。输入数据集包括由Illumina产生的受试者NA18107中的所有SNV和indels,以及已知会导致Miller综合征的两种变体。变量减少方法可以通过annovar包中的自动化脚本(auto_annovar.pl)实现。

上述分析并不一定表明我们仅通过对一个受试者进行测序就可以检测出罕见孟德尔病的因果突变,我们承认我们没有利用真正的外显子测序数据。然而,结果表明,通过ANNOVAR中的一系列步骤进行过滤可能有助于大幅减少候选基因的数量,使其成为少数可由人类管理的基因。在这方面,可以想象,通过传统的桑格测序技术,这20个候选基因可以在其他受米勒综合征影响的患者中测序,并且因果基因可能会从这些额外的测序运行中直接确定。

多个受试者的全异体变异数据分析

为了检验ANNOVAR在识别常染色体显性疾病基因方面的效用,我们接下来模拟了一项研究中的分析,该研究对来自HapMap受试者的8个外显子和来自Freeman-Sheldon综合征患者的4个外显元进行了测序(11)。八个HapMap外显子变异体的完整列表已公开,四个因果变异体在原始手稿中给出了身份。因此,我们合成了四个外显子组数据集,取四个HapMap外显子,并用Freeman-Sheldon综合征的已知因果突变对每个外显子进行补充。每个外显子数据集包含16 134到19 960个外显子变体。接下来,我们检查了变异体减少程序是否能够自信地识别致病基因(3令吉)来自四个外显子。

与原始出版物中的程序类似(11),我们通过利用一个、两个、三个或四个受试者的变异来评估候选基因的数量。在检查一个受试者时,我们能够确定一组159个候选基因。在检测两名受试者时,候选基因的数量大幅下降至13个。当对三名受试者进行检查时,只剩下六个候选基因。当检查了四个受试者时,我们可以将候选基因列表缩减为四个(海德宁KCNJ12号机组COL4A6系列3令吉)。如果我们随后使用SIFT分数(9)或PolyPhen分数(10)为了评估这四个基因的突变,我们可以进一步排除KCNJ12号机组COL4A6系列作为致病基因。这项分析表明,当所有患者在同一基因上携带致病突变时,多个基因组的联合分析有助于确定显性孟德尔疾病的致病基因。然而,我们警告说,对于复杂疾病或存在多个致病基因的孟德尔病,用户需要在数据分析中考虑遗传异质性的可能性。

不同基因组注释的效率

ANNOVAR的优点之一是注释速度相对较快。注释主要基于预先编译的注释数据库,不需要生成新的多序列比对或查询远程SQL数据库。为了进一步证明ANNOVAR的性能和效率,我们在几个额外的数据集上对其进行了测试(表2),使用配备3GHz Intel Xeon CPU和8GB内存的现代64位Linux计算机。首先,我们对Affymetrix Genome-Wide Human SNP 6.0阵列上约100万个SNP标记进行ANNOVAR分析,并将注释与Affymetix(na30版本)提供的注释进行比较。我们确定了271个SNP,它们被ANNOVAR注释为外显子SNP,但没有被Affymetrix注释。我们根据最新的UCSC注释数据库信息手动确认这些SNP确实是外显子。这个实验说明了实时注释变体的重要性,而不是依赖于容易过时的预先计算的注释。

表2。

在配备3GHz Intel Xeon CPU的计算机上进行基于基因的注释的基准结果

基因组数据集变体数量时间安排外显子变异数外显分数(%)
人类Affymetrix 6.0 SNP阵列930 0061米2秒85670.92
人类CEU 1000基因组项目9 633 1158米35秒53 1990.55
人类YRI 1000基因组项目13 759 8449米19秒78 3980.57
人类1000基因组项目JPT+CHB10 970 7088米32秒63 7930.58
人类数据库SNP 13013 898 53112米38秒189 3831.4
鼠标数据库SNP 12814 864 8298米42秒157 7451.1

变体列表基于2009年4月的版本。

接下来,我们对1000基因组项目HapMap受试者中识别的约900万个遗传变异进行ANNOVAR测试,并在CEU、YRI和JPT+CHB人群中分别发现约53000、约78000和约63000个外显子变异(表2)。与1000基因组项目数据相比,dbSNP数据分析表明1.4%的变异破坏了基因组的外显子区域,表明dbSNP对功能性SNP的潜在确定偏差(可能是由于存在许多外显子测序研究)。此外,我们测试了小鼠基因组中约1500万个SNP的ANNOVAR(即不同小鼠菌株之间的变异)。我们鉴定出157745个外显子变异体(~1.1%),其频率略高于1000基因组项目中观察到的频率。平均而言,每100万个SNP需要不到1分钟的时间,因此使用单个个人计算机在一天内对数百个基因组进行基于基因的注释是可行的。

总之,ANNOVAR是一种快速、有效的工具,可以从高通量测序数据中注释遗传变异的功能后果。此外,ANNOVAR提供了灵活的变种减少管道,有助于查明最可能导致疾病或性状的变种的特定子集。随着下一代测序技术的快速发展和部署,我们预计ANNOVAR将有助于充分利用即将到来的大量测序数据,加快科学发现。

资金

开放获取费用资助:国家卫生研究院/国家研究资源中心拨款试点/方法研究奖UL1 RR025774号(致K.W.和H.H.);R01HG004517(至M.L.)。

利益冲突声明。未声明。

致谢

作者感谢郭怡然博士(费城儿童医院)和沈玉凤博士(哥伦比亚大学)对ANNOVAR的宝贵意见。我们感谢两位匿名审稿人对使用预先计算的SIFT分数进行注释和处理基于GFF3的注释数据库提出的建议。作者感谢宾利和Ng等。用于公开其变体数据集以测试ANNOVAR。

参考文献

1Trapnell C,Salzberg SL.如何将数十亿个短阅读映射到基因组上。自然生物技术。2009;27:455–457. [PMC免费文章][公共医学][谷歌学者]
2Dalca AV,Brudno M.利用高通量测序数据发现基因组变异。简介。生物信息。2010;11:3–14.[公共医学][谷歌学者]
三。Ng SB、Buckingham KJ、Lee C、Bigham AW、Tabor HK、Dent KM、Huff CD、Shannon PT、Jabs EW、Nickerson DA等。外显子序列测定确定了孟德尔病的病因。自然遗传学。2010;42:30–35. [PMC免费文章][公共医学][谷歌学者]
4Gamazon ER、Zhang W、Konkashbaev A、Duan S、Kistner EO、Nicolae DL、Dolan ME、Cox NJ。扫描:SNP和拷贝号注释。生物信息学。2010;26:259–262. [PMC免费文章][公共医学][谷歌学者]
5Li S,Ma L,Li H,Vang S,Hu Y,Bolund L,Wang J.Snap:一个集成SNP注释平台。核酸研究。2007;35:D707–D710。 [PMC免费文章][公共医学][谷歌学者]
6Ge D、Zhang K、Need AC、Martin O、Felley J、Urban TJ、Telenti A、Goldstein DB。WGAViewer:全基因组关联研究的基因组注释软件。基因组研究。2008;18:640–643. [PMC免费文章][公共医学][谷歌学者]
7Karchin R.人类SNP注释的新一代工具。简介。生物信息。2009;10:35–52. [PMC免费文章][公共医学][谷歌学者]
8Lee PH,Shatkay H.F-SNP:疾病关联研究的计算预测功能SNP。核酸研究。2008;36:D820–D824。 [PMC免费文章][公共医学][谷歌学者]
9Ng PC,Henikoff S.SIFT:预测影响蛋白质功能的氨基酸变化。核酸研究。2003;31:3812–3814. [PMC免费文章][公共医学][谷歌学者]
10Ramensky V,Bork P,Sunyaev S。人类非同义SNPs:服务器和调查。核酸研究。2002;30:3894–3900. [PMC免费文章][公共医学][谷歌学者]
11Ng SB、Turner EH、Robertson PD、Flygare SD、Bigham AW、Lee C、Shaffer T、Wong M、Bhattacharjee A、Eichler EE等。12个人类外显子的靶向捕获和大规模平行测序。自然。2009;461:272–276. [PMC免费文章][公共医学][谷歌学者]
12Rhead B、Karolchik D、Kuhn RM、Hinrichs AS、Zweig AS、Fujita PA、Diekhans M、Smith KE、Rosenbloom KR、Raney BJ等。UCSC基因组浏览器数据库:2010年更新。核酸研究。2010;38:D613–D619。 [PMC免费文章][公共医学][谷歌学者]
13Curwen V、Eyras E、Andrews TD、Clarke L、Mongin E、Searle SM、Clamp M。Ensembl自动基因注释系统。基因组研究。2004;14:942–950. [PMC免费文章][公共医学][谷歌学者]
14Bentley DR、Balasubramanian S、Swerdlow HP、Smith GP、Milton J、Brown CG、Hall KP、Evers DJ、Barnes CL、Bignell HR等。使用可逆终止剂化学进行准确的全人类基因组测序。自然。2008;456:53–59. [PMC免费文章][公共医学][谷歌学者]
15Pruitt KD、Tatusova T、Maglott DR.NCBI参考序列(RefSeq):基因组、转录物和蛋白质的精选非冗余序列数据库。核酸研究。2007;35:D61–D65。 [PMC免费文章][公共医学][谷歌学者]
16Hsu F、Kent WJ、Clawson H、Kuhn RM、Diekhans M、Haussler D。UCSC已知基因。生物信息学。2006;22:1036–1046.[公共医学][谷歌学者]
17den Dunnen JT,Antonarakis SE。人类序列变异描述的术语。嗯,遗传学。2001;109:121–124.[公共医学][谷歌学者]
18Siepel A、Bejerano G、Pedersen JS、Hinrichs AS、Hou M、Rosenbloom K、Clawson H、Spieth J、Hillier LW、Richards S等。脊椎动物、昆虫、蠕虫和酵母基因组中进化保守元素。基因组研究。2005;15:1034–1050. [PMC免费文章][公共医学][谷歌学者]
19Pollard KS,Hubisz MJ,Rosenbloom KR,Siepel A.哺乳动物系统发育中非中性替代率的检测。基因组研究。2010;20:110–121. [PMC免费文章][公共医学][谷歌学者]
20Bailey JA、Yavor AM、Massa HF、Trask BJ、Eichler EE。片段复制:当前人类基因组项目组装中的组织和影响。基因组研究。2001;11:1005–1017. [PMC免费文章][公共医学][谷歌学者]
21Gasparini P、Rabionet R、Barbujani G、Melchionda S、Petersen M、Brondum-Nielsen K、Metspalu A、Oitmaa E、Pisano M、Fortina P等。欧洲人群35delG耳聋突变的高载频。GJB2 35delG遗传分析联合会。《欧洲遗传学杂志》。2000;8:19–23.[公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社