跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
基因组研究。2007年12月;17(12): 1763–1773.
doi(操作界面):10.1101/gr.7128207
预防性维修识别码:下午2099855
PMID:17989246

通过比较基因组学定向发现新的人类外显子

摘要

一套完整准确的人类蛋白编码基因注释可能是继人类基因组序列本身之后基因组研究最重要的资源,但主要的基因目录仍然不完整和不完善。在这里,我们描述了作为哺乳动物基因收集(MGC)项目的一部分而进行的全基因组工作,以确定尚未列入基因目录的人类基因。我们的方法是通过依赖于比较序列数据但不需要直接cDNA证据的算法生成基因预测,然后通过RT-PCR测试预测的新基因。我们已经鉴定出734个新基因片段(NGF),其中包含2188个外显子,最多之前的cDNA支持较弱。这些NGF对应于估计的563个不同的基因,其中160个以上的基因在主要基因目录中完全缺失,而数百个其他基因代表已知基因的重要延伸。NGF似乎主要是蛋白质编码基因,而不是非编码RNA,不像拼接阵列和CAGE等技术识别的新转录序列。它们往往以低水平和组织特异性的方式表达,在运动活动、细胞粘附、结缔组织和中枢神经系统发育中发挥着丰富的作用。我们的结果表明,许多重要的基因和基因片段被传统的基因发现方法遗漏了,但可以使用比较序列数据通过它们的进化特征来识别。然而,他们认为目前的基因目录中完全缺失了成千上万的蛋白质编码基因。

哺乳动物基因组中新的非编码元素(包括增强子)令人兴奋(Bejerano等人,2006年;Pennacchio等人,2006年),绝缘体(Xie等人,2007年)和各种非编码RNA(Mattick和Makunin 2006;Pollard等人,2006年)-人们很容易忽视蛋白质编码基因的核心重要性。每个测序基因组的完整而准确的蛋白质编码基因集可能仍然是继基因组序列本身之后基因组研究最重要的单一资源。良好的基因集对于微阵列设计、关联研究、药物靶点识别、进化分析、系统生物学和许多其他工作至关重要。即使是大多数非编码元素也必须与邻近或相互作用的基因相关。然而,基因注释在许多方面都没有跟上基因组测序的步伐。人类基因组序列草图首次问世六年后(2001年国际人类基因组测序联合会;Venter等人2001),不仅没有完整的人类基因集可用,而且人类基因的数量仍不准确,估计在20000到25000之间(2004年国际人类基因组测序协会). 此外,许多基因在主要人类基因目录RefSeq中被错误、不完整或不一致地注释(普鲁特等人,2005年),织女星(Ashurst等人,2005年)、和Ensembl(Hubbard等人,2007年)(请参见Clamp等人,2007年;http://www.ncbi.nlm.nih.gov/CCDS网站/).

源源不断的新发现使完整的人类基因目录成为一个移动的目标。对哺乳动物转录组的研究揭示了普遍的转录、数千个非编码RNA、广泛的反义转录、串联嵌合以及广泛的选择性剪接和选择性启动子(Bertone等人,2004年;Cheng等人,2005年;Carninci等人,2006年;Parra等人,2006年;Kapranov等人,2007年). 最近,对1%的人类基因组进行了仔细检查,证实了其中许多观察结果(Harrow等人,2006年;Denoeud等人,2007年;2007年ENCODE项目联盟). 其他研究揭示了转录后阶段的广泛而精细的调控和修饰(巴斯2002;巴特尔2004). 这些发现指出了基因组编码功能分子的方式的复杂程度出乎意料,并对我们对基因的工作定义提出了质疑(Gerstein等人,2007年).

然而,对于其日常工作,研究界依赖于一组尽可能完整和准确的基因注释,通过对基因的合理工作定义。还需要与基因相关的基本试剂,如cDNA克隆。创建哺乳动物基因收集(MGC)项目的目的是为社区提供代表性的高质量全长cDNA克隆,用于每个人类和小鼠基因以及大鼠基因的大部分子集(Strausberg等人,1999年). 现在MGC中大约有四分之三的人类和小鼠基因,以及数千个大鼠基因(http://mgc.nci.nih.gov). 然而,事实证明,为每个基因建立全长克隆的目标很难实现。针对基于随机表达序列标签(EST)测序方法的产量下降(Gerhard等人,2004年),几年前,MGC采用了一种更直接的策略,通过RT–PCR扩增不在集合中的候选基因,然后克隆并通过全长测序进行验证(Baross等人,2004年;Wu等人,2004a). 该策略的一个组成部分是使用从头计算基因预测来识别已知基因目录中缺失的候选基因,EST支持不足,但仍能从基因组序列中的细微特征中检测到。这样,完成MGC和获得一整套基因注释的目标就交织在一起了。

直到最近,用RT-PCR在整个哺乳动物基因组的范围内测试没有支持的计算预测是不切实际的。然而,基因预测准确性的提高、基因目录的完整性以及RT-PCR的成本效益有助于使此类项目可行(Guidó等人,2003年;Wu等人,2004年b;Eyras等人,2005年;Brzoska等人,2006年;Harrow等人,2006年). 也许最重要的进展是,由于在基因发现者中纳入了比较序列数据,从头开始预测的假阳性率大大降低了(Korf等人,2001年;Parra等人,2003年;Siepel和Haussler 2004年;格罗斯和布伦特2006). 通过利用蛋白质编码基因特有的核苷酸替换和插入/缺失模式,比较基因发现计划将假阳性率降低了大约一半(在核苷酸和外显子水平上),灵敏度成本很低或没有成本(Flicek等人,2003年;Siepel和Haussler 2004年;格罗斯和布伦特2006). 筛选假基因和利用EST证据的改进方法进一步提高了准确性(Arumugam等人,2006年;范巴伦和布伦特2006). 这些改进在新的基因发现中尤其重要,因为已知基因以外的预测大大丰富了假阳性。

在这里,我们描述了通过计算基因预测和RT-PCR验证来识别新人类基因的全基因组工作的结果。由于RT-PCR的成功率往往会随着产品长度的增加而下降,因此我们的方法首先针对预测基因的短的、内含子跨越的片段进行验证,然后如果发现对表达和剪接有足够的支持,则将更大的预测提交给MGC管道进行全长克隆(参见图1). 基因预测和片段验证的初始阶段产生了相对较短的EST样序列,这里称为RT-PCR扩增序列标签(RST),它们提供了转录和剪接的证据,但没有定义全长转录物。因此,这种方法可以被认为是一种定向EST测序方法,其目标是普通EST测速方法采样不足的可能的蛋白编码外显子。我们将这种方法称为计算外显子发现(CED)。在这篇文章中,我们对CED鉴定的2000多个新的人类外显子进行了分析。

保存图片、插图等的外部文件。对象名为1763fig1.jpg

(A类)计算外显子发现(CED)流程图。从三组基因预测开始,在多轮候选选择、RT-PCR扩增和测序中测试候选新基因的表达和剪接证据。其结果是一大组称为RST的EST样序列,为新的蛋白编码外显子提供了支持性证据,但没有定义全长转录物。(B)CED图解。基因1是已知的,并且得到公共cDNA序列的支持,因此重叠的基因预测被忽略。预测的基因2似乎是新的,并被选择用于RT-PCR验证,但验证实验失败。预测的基因3似乎也是新的,并通过两个RT–PCR实验进行了测试,这两个实验都产生了有效的RST(“命中”)。第一个实验验证了TRANSMAP预测,第二个实验验证了N-SCAN预测和两个Exoniphy预测中的一个。构建一个cDNA簇来总结每组重叠的cDNA(包括RST),并通过合并支持新外显子(NE;红色)的两个RST来构建新的基因片段(NGF)。

结果

靶点选择和RT-PCR验证

对于最初的基因预测,我们使用了三个具有高预测准确性但不依赖于直接cDNA证据的程序:N-SCAN、Exoniphy和TRANSMAP。所有这些方法都使用比较序列数据,但方式不同(表1). 他们被期望通过识别一些不同的新基因集来相互补充。我们选择了包含内含子的预测,这些预测不与已知基因重叠,并且几乎没有公开的人类EST或mRNA序列的支持,并通过RT-PCR测试它们在混合mRNA源中的表达和剪接(参见方法和补充材料)。产生与基因组具有高质量拼接比对的序列的RT-PCR实验被认为是“命中”,而其他实验被认为是“未命中”(图1B; 方法)。严格的过滤器确保了目标基因(而非副基因)的扩增和测序。值得注意的是,命中意味着目标区域被表达和剪接,但不能证明它编码功能蛋白。此外,除了假阳性预测之外,还可能会出现遗漏,如逆转录、PCR扩增或测序失败,或mRNA池中组织采样不完整。

表1。

本研究中使用的计算基因发现器

保存图片、插图等的外部文件。对象名为1763tbl1.jpg

共进行了12164次RT-PCR实验,不包括那些产生与基因组映射不明确的RST的实验。其中,2767(22.7%)被点击(表2). 我们还评估了“预测簇”或最大联合测试预测集(方法)的命中率,以解释多组重叠预测和每个预测的多个实验。共测试了4140个预测聚类,其中1090个聚类产生了至少一次命中,命中率为26.3%(表2). 虽然在实践中,目标是从单个预测中确定的(大多数是基于N-SCAN),但每个实验都被回顾性地认为是对所有兼容预测的测试(参见图1B和方法)。

表2。

基因预测源的RT-PCR命中率

保存图片、插图等的外部文件。对象名为1763tbl2.jpg

联合测试预测集群(见方法)。

b条(NS)N-扫描,(EX)Exoniphy,(TM)TRANSMAP。

c命中和未命中的总数(不包括到基因组的模糊映射;请参阅方法)。

d日点击次数除以点击次数和未命中次数×100。

e(电子)此源贡献的所有点击数的百分比(例如,2602/2767=第一行实验的94%)。

这三种预测源显示出截然不同的命中率,从N-SCAN的簇级26.0%(实验级22.4%)到Exoniphy的72.8%(49.8%)和TRANSMAP的71.7%(54.2%)不等(表2). 与此同时,N-SCAN的点击率远远高于其他两个来源。多个来源支持的预测验证率明显高于单个预测支持的预测,所有三个来源支持预测的命中率>80%。与非节段性重复(23.9%;P(P)< 2.2 × 10−16,Fisher精确测试),可能是由于重复区域中假基因的富集(数据未显示)。预测因子之间命中率的差异主要是由于候选选择策略的不同,而不是基因预测因子本地假阳性率的差异。例如,Exoniphy预测在提交验证之前经过了严格的筛选,而N-SCAN预测则采用了更具包容性的策略(见补充材料)。这项工作的目的不是对基因预测准确性进行公正的评估,而是尽可能多地识别新基因(外显子)。然而,这些结果确实表明,CED中候选选择的包容性策略可以识别相当多的新基因,即使是在注释清楚的基因组中,但命中率可能相当低(~25%),而严格的筛选可以显著提高命中率(到>70%),但会降低产量。

新外显子和新基因片段

我们试图量化2767次点击提供了多少新的转录证据,超出了公共cDNA序列数据中已有的证据。由于大多数cDNA都是片段,我们设计了一个在单个外显子水平上测量转录证据的系统。基于与RST和所有其他公共(人类)cDNA的基因组序列的比对,我们定义了一组基准外显子(BME),代表了我们目前对所有cDNA支持外显子真实基因组边界的最佳估计(补充图S1)。然后,根据RST或先前的cDNA证据,将每个BME分为完全支持(跨越一个内部外显子的两个剪接位点或一个起始/终止外显子中的单个剪接位点)、部分支持(跨越内显子的一个剪接部位)或无显著支持(无剪接位点覆盖)(补充图。S2;方法)。获得RST完全支持且最多获得先前cDNA证据部分支持的BME被指定为新外显子(NE)(补充图S2)。

cDNA数据库不断扩大,因此NE集是用于定义先前cDNA证据的截止日期的函数。然而,事实证明,网元对日期的选择并不十分敏感。截止日期为2005年1月1日(第一批RST测序时),确定了一组2188个NE,其中大多数(91%)之前没有显著支持(补充表S1)。截止日期2007年6月1日,NE的数量仅减少了14%,达到1892个,并且之前没有重大支持的比例基本保持不变。因此,虽然自2005年初以来公开cDNA的数量几乎翻了一番,但通过我们的方法鉴定的NE似乎相对不受其他外显子发现方法的影响。为简单起见,我们假设本文其余部分的截止日期为2005年1月1日。

我们将新基因片段(NGF)定义为n个包含NE的RST支持的连接外显子。(如果有多个重叠的含NE的RST具有一致的拼接接头,则将它们合并以创建一个NGF;参见图1BNGF提供NE所属成绩单的部分信息。2767次点击产生了734个NGF。近一半的NGF是完全新颖的,从这个意义上说,它们是分离的基因片段,与先前的cDNA证据不重叠(在靶点选择中被优先考虑)。约三分之一代表先前cDNA簇的5′或3′延伸(5′延伸略多于3′延伸),另有12%贡献单个内部外显子,其余代表内部外显和转录延伸的其他组合(补充表S2)。

为了评估NGF代表独立基因的程度,我们基于多个综合证据来源建立了聚类,包括RST、其他cDNA、预测、已知人类基因和其他物种的同源基因,并保守地假设同一聚类中的NGF代表相同的基因。这个过程产生了563个不同的NGF簇(NGFC)。与最新策划的cDNA支持的基因集(RefSeq和Vega)相比,这些NGFC中有327个(58%)是全新的,99个(18%)是5′或3′延伸,43个(8%)通过贡献新的内部外显子来增加基因(表3). 总共有94(17%)个NGFC就这些基因集而言不再是新的,在许多情况下,因为它们已经被用于定义新基因。与更具包容性的已知基因组相比,完全新的NGFC更少,而非新的、扩展的和增强的NGFC更多。例如,添加合集基因预测(在候选选择中未考虑;请参阅补充材料)会将全新的集合减少到178个(32%的NGFC),并且通过重叠cDNA簇扩展已知基因会将其进一步减少到164个(29%)。因此,根据已知基因的定义,NGFC估计代表164到327个新基因。在所有情况下,发现数百个已知基因被NGFC扩展或以其他方式增强。

表3。

NGF簇与当前已知基因的关系

保存图片、插图等的外部文件。对象名为1763tbl3.jpg

背景基因集:(R)RefSeq;(五) 织女星;(E) 合奏;(ext)通过重叠的cDNA簇延伸。

b条不重叠已知基因。

c重叠基因并沿5′方向延伸。

d日重叠基因并沿3′方向延伸。

e(电子)重叠基因,不延伸,但贡献新的内部外显子。

(f)现在所有的外显子都在基因集中表现出来了。

新型基因片段的蛋白质编码潜力

为了解决许多NGF可能是非编码RNA(ncRNAs)的可能性,错误地预测为蛋白质编码基因(Mattick和Makunin 2006),我们在一个大型蛋白质数据库中搜索NGF的同源物。为了进行比较,我们对RefSeq数据库中注释为ncRNAs的509个序列进行了相同的搜索。大多数NGF(86%)至少有一个重要同源物,而ncRNAs只有约15%。即使在更正了查询序列长度的差异后,这种差异仍然非常显著(请参阅补充资料)。类似地,70%的NGF和只有11%的ncRNA与保守结构域至少有一个显著匹配。同时,只有大约5%的NGF与来自Rfam数据库的ncRNAs进行了高分匹配(Griffiths-Jones等人,2003年)相比之下,有12%的RefSeq蛋白编码基因和75%的RefSeq-ncRNAs。

我们还根据蛋白质编码潜力的两个特征,即indels的长度分布和人/小鼠比对中不匹配之间的距离分布,将NGF与RefSeq的注释编码序列(CDS)、非翻译区域(UTR)和非编码RNA(ncRNAs)进行了比较。这两个指标在CDS中都显示出明显的周期性(周期为三),并且在UTR和ncRNAs中都没有周期性(图2; 补充图S3)。尽管与CDS相比,NGF表现出明显的周期性,但从这两个指标来看,NGF的周期性有所减弱。这种抑制可能是由于NGF中的一些ncRNAs引起的,但也可能反映出测序和比对错误的增加,因为片段RST映射到基因组的精确度低于RefSeq中的全长mRNAs。这似乎也反映了NGF整体保护水平的下降。

保存图片、插图等的外部文件。对象名为1763fig2.jpg

人-鼠NGF比对中最近失配距离与RefSeq中CDS、UTR和ncRNAs的距离分布。

另一种可能性是NGF包括转录的假基因(Zheng等人,2007年). 然而,这些假基因必须进行剪接和转录,如果它们被N-SCAN或Exoniphy(除少数外,其他都是如此;参见表2),它们必须在最近进行假基因化,以便它们的替代和indel模式仍然与功能基因的模式非常相似。他们还必须避开我们的假基因过滤器。因此,不太可能包含大量假基因。

综上所述,这些结果强烈表明,虽然NGF可能包含一些ncRNAs和假基因,但它们主要由真正的蛋白质编码序列组成。

历史外显子发现

作为一个附带的好处,我们的BME数据库允许随着时间的推移追踪新的人类外显子的发现。我们的数据显示,完全由公共cDNA数据支持的BME数量在1993年左右开始快速增长,并在20世纪90年代中后期经历了急剧加速的增长(图3). 增长率在2000年至2001年间达到峰值,自2006年5′端测序出现明显峰值以来一直稳步下降(Kimura等人,2006年). 2001年左右,当大约三分之二的BME被鉴定出来时,增长率下降主要反映了cDNA测序的“饱和”,新序列不太可能识别新的外显子,更有可能为已知外显子提供额外的支持(补充图S4)。到2004年,外显子的发现已经下降到1993年的水平。编码外显子似乎比非编码外显基因早达到饱和。值得注意的是,自2004年以来,大多数新的外显子都是明显的非编码外显子,这是由设计用于富集转录物5′端的方法造成的。

保存图片、插图等的外部文件。对象名为1763fig3.jpg

GenBank中至少一个cDNA序列完全支持的基准外显子的数量,以及该数量的增长率(在12个月的滑动窗口中计算)。显示了所有外显子和与已知基因的注释CDSs重叠的外显子的单独曲线。增长的四个高峰可以追溯到主要EST提交(1)Adams等人(1993a,b条), (2)Hillier等人(1996年), (3)Adams等人(1995年)和L.D.Hillier及其同事(“WashU-Merck EST项目”,未提交),以及(4)Kimura等人(2006年)最大的尖峰,在(3)和(4)之间,来自各种来源。

我们对~2000个NE的贡献并不是EST测序项目最大的贡献,其中一些项目的贡献达到了数万(图3). 然而,尽管外显子发现饱和,但NE的数量相当于所有注释编码外显子的~1%,并且它们在所有cDNA支持的外显子中占0.5%以上。

新基因片段的功能类别

为了获得关于NGF可能功能的信息,我们将其翻译成肽序列,搜索同源脊椎动物基因,并将NGF分配给基因本体(GO)(Ashburner等人,2000年)最接近同源物的类别。我们还鉴定了NGF中的保守蛋白结构域。为了避免过度计算特别长或片段基因的类别或域,我们分析了NGF簇(NGFC),而不是单个NGF。

与RefSeq基因的背景组相比,NGFC中的几个GO类别显著过多(补充表S3)。如果这些类别由分配给它们的NGF进行聚类(图4)出现了两个主要类别:(A)“运动活动”和相关类别,如“睫状体或鞭毛运动”和“对机械刺激的反应”;(B)“细胞外区域”和相关类型,如“细胞外基质”、“胶原结合”和“细胞粘附”与GO类别相比,过度代表的蛋白质结构域较少(补充表S3),它们通常与富集的GO类别密切对应。

保存图片、插图等的外部文件。对象名为1763fig4.jpg

基于分配给每个类别的NGF,对过度代表的GO类别进行分层聚类。该树状图由相异矩阵导出,该矩阵定义为任意两个GO类别,X(X)Y(Y),当所有NGF分配给X(X)也分配给Y(Y)(或vice-versa),当NGF集分配给X(X)Y(Y)不要重叠。(具体来说,X(X)Y(Y)有不同之处d日XY公司= 1 − [|保存图片、插图等的外部文件。对象名为1763inf1.jpg(X(X))∩保存图片、插图等的外部文件。对象名为1763inf1.jpg(Y(Y))|/最小值{|保存图片、插图等的外部文件。对象名为1763inf1.jpg(X(X))|,|保存图片、插图等的外部文件。对象名称为1763inf1.jpg(Y(Y))|}],其中保存图片、插图等的外部文件。对象名为1763inf1.jpg(C)表示分配给GO类别的NGF(非空)集合C因此,与类似NGF组相关的GO类别在树状图中组合在一起,即使这些类别在GO层次结构中没有紧密联系(例如“肝脏发育”和“细胞粘附”)。在这里,相关类别的两个主要组是明显的,与运动活动(A组)和细胞外区域(B组)广泛相关。(由R中的hclust函数生成的树状图,方法=“average”。)

对“运动活性”和相关类别的丰富主要来自十几种与动力蛋白和肌球蛋白重链多肽(HCP)同源的NGFC。特别是,几种NGFC与轴突动力蛋白的HCP表现出很强的同源性,轴突动力蛋白是负责纤毛和鞭毛运动的大蛋白复合物。其他簇与细胞质动力蛋白2的HCP同源,在鞭毛内转运中起作用。其中一些NGFC是经过深入研究的基因的延伸,例如ngf338型国家电网339,其延伸DNAH175′方向的14个外显子(补充表S5)。其他的看起来基本上是新颖的。例如,ngf51型ngf55型包含24个新的外显子,明显属于一个新的轴突动力蛋白HCP基因的~66个外显子(图5). 与肌球蛋白一样,NGFC包括两种新基因(例如。,ngf634型国家电网638)和已知基因的延伸(例如。,ngf408型ngf409型).

保存图片、插图等的外部文件。对象名为1763fig5.jpg

基因预测、cDNA证据和1号染色体区域的新基因片段,包括ngf51型ngf55型.基因预测显示为绿色,先前的cDNA证据显示为黑色,RST(在GenBank中表示为EST)显示为金色,NGF显示为蓝色,新的外显子显示为红色。最近存放在GenBank(2005年1月1日后)的cDNA序列显示为紫色,在评估新颖性时被忽略。这组NGF为一个跨度大于450 kb的基因提供了24个新的外显子,估计由66个外显子组成。该基因似乎编码一种新的轴突动力蛋白重链多肽。

动力蛋白和肌球蛋白HCP基因家族都是多样的,具有大量的功能特异性,并且常常是非常不同的成员。同时,这些家族中的直系亲属在漫长的进化距离上通常都很保守(Weiss和Leinwand,1996年;Pfister等人,2006年). 此外,已知其中许多基因表现出组织和细胞特异性表达。例如,DYNC2H1型(补充表S5),在哺乳动物大脑、嗅觉上皮和视网膜的纤毛细胞中特异性表达(Mikami等人,2002年). 此外,其中许多基因都相当大,因此EST覆盖可能不完整,获取全长mRNA的尝试可能失败。综合考虑,这些因素可能导致传统的基因发现方法遗漏了这些基因,但CED却可以很容易地检测到它们。

许多归属于“细胞外区域”类别的NGF与细胞黏附分子(如粘蛋白样蛋白、整合素、钙粘蛋白和血管性血友病因子)有很强的同源性。因此,这些基因可能在血液凝固、上皮组织或其他细胞外能力中作为生物膜的组成部分发挥作用。其他与结构蛋白(如胶原蛋白)或细胞外酶(如丝氨酸蛋白酶、胰蛋白酶、神经蛋白酶和中性粒细胞)同源。该组中的一些NGFC几乎或完全是新颖的,例如ngf167型ngf171型其中24个NE与von Willebrand因子和粘蛋白同源,以及ngf510型ngf513型覆盖了大部分新型胶原同系物。其他人对已知基因进行了重大扩展,例如下一代101下一代103延伸耳蜗蛋白(奥运会组委会)5′和3′方向的基因(补充图S5)。奥运会组委会这是一个研究充分的基因进入人类基因目录的缓慢例子,可能是因为组织特异性表达导致cDNA覆盖率低(Cohen-Salmon等人,1997年;El-Amraoui等人,2001年). 类似的例子包括MUC19公司,COL28A1系列、和HMCN2号机组值得注意的是,这一组中的几个NGF相互重叠SSPO公司,碳纳米管3、和SDK2系统-似乎在中枢神经系统发育和/或突触传递中发挥作用。

尽管代表人数过多,但这些类别的非政府组织只占所有非政府组织的四分之一左右,其余非政府组织具有不同的职能作用。因此,当前基因目录的不足不能归因于任何特定类别的基因。

斑马鱼胚胎的原位杂交

为了测试某些NGF可能在胚胎发育中特异表达的可能性,我们确定了23个几乎没有或没有其他cDNA支持的NGF,并且可以通过全基因组同步比对映射到斑马鱼基因组。然后,我们合成了这些NGF的斑马鱼同源基因探针,并将其用于斑马鱼胚胎的全原位杂交。

观察到三个NGF的明确表达,其中19个NGF探针合成成功。第一种情况,ngf136型由脑特异性同源异型盒三个外显子中的两个组成(英国证券交易所)该基因最近被添加到RefSeq中。我们观察到该基因在胚胎发育期间在下丘脑中的特异表达,这与其他发现一致(Cremona等人,2004年). 第二种情况,神经生长因子674,现在对应于一个最小注释的三外显子kelch-like基因(RefSeqNM 001081675号). 该基因被发现在斑马鱼胚胎的鳃弓(鳃的前体)和前肾管(肾脏的前身)中高度表达。第三种情况,天然气60是一个完全由新外显子组成的九外显子NGF(补充表S5)。该基因没有已知的脊椎动物同源基因,其预测产物仅与几种驱动蛋白样蛋白具有弱同源性。在斑马鱼胚胎中,它在端脑和后脑中的表达模式类似于转录因子OTP公司,一种对下丘脑发育至关重要的同源盒转录因子(图6). 因此,天然气60可能在发展中发挥关键作用。这些例子表明,至少有一些NGF在斑马鱼胚胎发育期间表现出组织特异性表达,很可能在人类中也表现出这种表达。

保存图片、插图等的外部文件。对象名为1763fig6.jpg

斑马鱼同源序列的整体原位杂交天然气60显示其在受精48小时后大脑中的表达模式。为了进行比较,还显示了OTP公司,一种同源盒转录因子,因其高度特异且描述良好的表达谱而被用作阳性对照(伊顿和格拉斯哥2007). 这两个基因在72 hpf(补充材料)时的表达模式大体相似。

新外显子的表达水平

我们使用Affymetrix Human Exon 1.0 ST Array的公开数据检查了NE和NGF的表达水平,该阵列除了已知基因的探针外,还具有大量从头开始基因预测的探针,包括75%的NE和95%的NGF。在所有11个有数据可用的组织中,NE的检测表达明显低于已知基因外显子的检测表达,NE在背景以上的显著表达比例为17%至63%(中位数27%),而RefSeq外显子为63%至86%(中点70%)(P(P)< 1 × 10−103,单侧Fisher精确检验;补充图S7A)。此外,在显示可检测表达的外显子中,与RefSeq外显子相比,NE的估计表达水平显著降低,中位数表达水平降低25%-39%(补充图S7B)。NE在组织间的表达水平也表现出显著的差异,与RefSeq外显子的0.16相比,中位变异系数为0.21(Mann-WhitneyP(P)< 1 × 10−15). 在至少一个组织中表达的新外显子中,约3.5%表现出组织特异性表达,而RefSeq外显子仅为0.8%(P(P)= 5 × 10−15,单边Fisher精确测试)。因此,与已知外显子相比,NE和NGF的平均表达水平较低,且以更具组织特异性的方式表达。

讨论

通过计算预测和实验验证相结合(CED),以前曾多次尝试在脊椎动物基因组中发现基因或外显子。类似于我们的方法已经应用于人类和小鼠(Guidó等人,2003年),老鼠(Wu等人,2004b),鸡肉(Eyras等人,2005年)最近,在ENCODE项目所针对的1%的人类基因组中(Harrow等人,2006年). 然而,这些工作是在小规模上进行的,通常是针对缺乏成熟基因集的基因组(Wu等人,2004b;Eyras等人,2005年)这使得识别新基因相对容易,或者对于那些已经注释得很好的区域来说,基本上找不到新基因(并且只有几个新外显子)(Harrow等人,2006年). 即使在Guidó等人(2003年)人类基因组已经被人工注释器和计算算法仔细审查了4年,现在要找到新基因比2003年要困难得多。尽管面临这些挑战,我们还是发现了数千个新外显子对应数百个基因的证据。

之前与我们最相似的工作是一个由Brzoska等人(2006年)其中7000多个人类从头算基因预测在高通量RT-PCR管道中进行了测试。Brzoska及其同事验证了796个预测,其中163-296个预测完全是新的,505-574个预测包括新的外显子,具体数字取决于参考集的选择。因此,他们的产量与我们的大致相当。然而,来自该项目的序列数据尚未公开,因此它没有反映在公开的基因目录中。Brzoska等人(2006年)没有使用最新和最准确的比较基因预测因子,部分原因是,它们的验证率仅为~12%(约为我们的一半)。他们也没有尝试评估新基因的蛋白质编码潜力。另一方面,他们进行了大量的5′和3′cDNA末端快速扩增(RACE)反应,并能够用近400个完整的转录物扩增其RT-PCR验证的基因片段(相当于我们的NGF)。他们的项目和我们的项目尽管有不同的优势和劣势,但都表明大规模CED项目可以产生大量的新基因。

作为一种发现新外显子的方法,CED不仅可以被视为EST测序的替代品,还可以被视作为转录拼接阵列的替代品(Bertone等人,2004年;Cheng等人,2005年;Kapranov等人,2007年)以及识别转录末端的技术,如基因表达的cap分析(CAGE)和寡核苷酸(Carninci等人,2005年;Kimura等人,2006年). 与这些方法相比,CED由于其靶向PCR扩增步骤,通常对罕见转录物更敏感。事实上,只有~10%的新外显子被Affymetrix转录片段(transrags)合理地覆盖(≥50%的碱基)(Kapranov等人,2007年)来自典型细胞系,而来自所有细胞系的一组融合的转染片段仅占约30%(补充表S6)。此外,由于目标外显子是由计算基因发现者选择的,因此CED对蛋白质编码外显子的丰富性很强。与平铺阵列不同,它还捕获剪接连接,从而可以更精确地定义外显子边界和一些有关剪接模式的信息。此外,通过仔细的引物设计和对测序产物的分析,它比阵列更具特异性,因为阵列存在交叉杂交问题。另一方面,至少如果与比较基因发现方法一起使用,CED可能会遗漏一些谱系特异性或快速进化的基因。此外,与CAGE等方法不同,它没有识别转录末端的内置能力。

一个有待回答的重要问题是CED在检测新基因方面可以推进多远。如图所示,CED在识别具有强进化足迹但弱表达足迹的保守基因方面最为有效(至少当mRNA样本跨组织和/或发育阶段汇集时)。相反,大多数基于cDNA的方法需要强表达,但不需要进化保护。几乎可以肯定,这两种方法基本上看不到某些基因,例如,谱系特异性、快速进化、非常短或低水平表达的单外显子基因。其中一些基因可以被更复杂的计算基因发现器检测到,这些基因发现器可以有效地结合微弱的比较信号和微弱的表达信号,也许还可以结合染色质状态或其他信息。比较基因发现者还将受益于更丰富的进化模型,这些模型允许基因复制、基因的谱系特异性获得和丢失,或基因结构跨物种的变化。更好的基因预测工具将使我们的同步性和复制过滤器得到放松,从而为CED打开基因组的重复制和重排区域。在对蛋白质组的剩余“暗物质”进行表征之前,需要这种新的计算工具和/或检测低丰度转录物的新的高通量方法。

据估计,人类基因的数量约为20000-25000个(2004年国际人类基因组测序协会). 目前,主要基因目录共包含约24500个基因,接近该范围的上限,但最近对哺乳动物基因组进行了比较分析(Clamp等人,2007年)表明支持良好的基因数量仅为~20500个,接近估计范围的下限(另见Goodstadt and Ponting 2006年). 我们对164-327个额外基因的鉴定并没有显著改变人类基因的数量,假设Clamp等人的估计是准确的,那么总数量将远远低于21000个。同样,Brzoska等人(2006年)最多为数百种新的人类基因提供证据(另请参阅Lee等人,2006年). 然而,目前高通量的基因发现方法都有基本的局限性,导致他们无法看到所有类别的基因。此外,没有一种方法能够完全有效地检测目标类中的基因。例如,由于基因预测、引物设计、PCR、逆转录、测序或比对中的错误,我们的方法无疑遗漏了一些非常保守的基因(尽管很难准确估计总假阴性率)。因此,虽然改进后的基因集为人类基因数量提供了更可靠的下限,但更难建立一个严格的上限。

识别新基因往往是基因发现工作的主要重点,但获得每个基因的完整表示也同样重要。我们的结果表明,许多基因在基因目录中仅部分表示,如在5′或3′端被截断、缺失一个或多个内部外显子,或被表示为单独的基因,尽管有强有力的证据表明它们是连接的。其中一些基因缺失了几十个外显子。这一证据与最近的研究一致,这些研究确定了已知基因的许多新的5′延伸(Harrow等人,2006年;Kimura等人,2006年;Denoeud等人,2007年). 由于部分基于我们的NGF的全长克隆是由MGC管道产生的,因此将确定额外的外显子和外显子边界,并且将更加清楚哪些NGF属于同一转录本。标准协议将允许基于MGC克隆更新RefSeq和Ensembl基因目录。

然而,如果遵循基因完整性的逻辑结论,则必须考虑选择性剪接和选择性启动子,以及更奇异的现象,如串联嵌合体。目前,MGC在很大程度上忽略了这些问题,并通过主要基因目录以简化的方式解决了这些问题。就连基因编码联盟(GENCODE Consortium)也简单地列举了转录本(以及相关的开放阅读框架),该联盟努力在其对人类基因组1%的详细注释中捕获尽可能多的替代转录本(Harrow等人,2006年). 理想情况下,这些资源还将包含有关组织、细胞和发育阶段特定转录物分布的信息,甚至可能包含有关多个转录物联合分布的信息。

丰富基因表征的尝试不可避免地会遇到基因是什么这一棘手问题(Gerstein等人,2007年). 然而,随着更多关于替代转录物的信息可用,基因的定义可能会变得不那么重要,而不是更重要。有了关于表达模式、蛋白质产物和转录水平功能的完整信息,“基因”就变成了一组转录物的标签;真实的信息在成绩单中。同样,随着对转录多样性的了解越来越多,基因计数也变得不那么有趣。因此,与“完整的基因集”相比,“功能转录物的完整表示”可能是一个更合适的长期目标。无论如何,显然还有很多工作要做。

方法

目标的选择

基因预测基于BLASTZ(Schwartz等人,2003年)和MULTIZ(布兰切特等人,2004年)2003年7月(hg16)和2004年5月(hg 17)人类基因组与小鼠(mm3/mm5)、大鼠(rn3)和/或鸡(galGal2)基因组组合的比对。目标选择在2年内进行,使用不同版本的比对和预测程序,并使用不同预测来源的后处理过滤器。然而,在所有情况下,在选择时都要求候选基因不与RefSeq重叠(普鲁特等人,2005年)或织女星(Ashurst等人,2005年)基因集、MGC中已有的基因或MGC管道中用于全长克隆的基因。此外,根据基因组坐标与公共EST或mRNA序列比对的重叠定义,优先选择很少或没有cDNA支持的候选基因。在某些情况下,使用额外的过滤器来消除可能的假基因,以避免最近的重复,并要求物种之间保持共有性。删除编码外显子之间不包含至少一个内含子的预测,并忽略任何预测的UTR。目标选择程序旨在最大化验证的新基因(外显子)数量,而不是评估基因预测因子的(绝对或相对)性能。有关更多详细信息,请参阅补充材料。

RT-PCR和测序

为每个候选基因设计PCR引物,这样预测的扩增子将跨越至少一个内含子,长度为~500–800个碱基。扩增子所跨越的外显子数量从2个到13个不等,中位数为4个。从20个人体组织中收集等量的总RNA,包括肾上腺、骨髓、小脑、大脑(整体)、胎儿大脑、胎儿肝脏、心脏、肾脏、肝脏、肺、胎盘、前列腺、唾液腺、骨骼肌、脾脏、睾丸、胸腺、甲状腺、气管、,和子宫(人类总RNA主面板II,BD Biosciences Clontech)。根据制造商的说明(Invitrogen),使用Superscript III逆转录酶和Oligo dT引物对汇集的总RNA进行逆转录。逆转录后进行“触地”PCR扩增(Don等人,1991年)使用Phusion高保真DNA聚合酶(新英格兰生物实验室)。PCR产物直接测序,如果可能的话,使用Phrap(P.Green和B.Ewing,unpubl.)将正向和反向读取组装成连续序列。

然后使用BLAT将得到的序列(组装或未组装)与基因组序列比对(肯特2002)或派拉贡(Arumugam等人,2006年). 对于与BLAT对齐的序列,使用est2genome将cDNA重新对齐到基因组的BLAT提取区域。任何形成高质量比对的序列(在10个剪接位点的碱基中,同源性大于75%,同源性>80%),并显示至少一个内含子带有典型(GT-AG)供体和受体剪接位点,都被认为是有效的RST。产生有效RST的失败可能是由于各种原因,包括PCR扩增、测序、,或对齐。阳性对照组的平均成功率为93%。所有有效的RST均作为EST提交给GenBank。由于错误引证,RST与基因组的最佳比对偶尔与最初的靶基因预测不匹配。

cDNA与基因组序列的比对

截至2007年6月1日,GenBank中的EST和mRNA序列(包括RST)使用BLAT与人类基因组序列(hg17)进行了比对。每个至少具有一个高质量比对(≥25%覆盖率和≥95%一致性)的cDNA序列在基因组中被指定为其最佳匹配位置,再加上在最佳匹配的1%范围内具有高质量校准的任何次要位置。任何没有高质量比对的cDNA都被丢弃。指定了多个基因组位置的RST(通常是因为最近的基因组重复)被排除在后续分析之外。(见补充材料)

命中率评估

通过使用isPcr将实验中使用的PCR引物对映射到基因组,每个RT-PCR实验与一个或多个基因预测相关联(J.Kent,unpubl。;http://hgdownload.cse.ucsc.edu/downloads.html)以及识别重叠预测。对预测集群和单个预测的成功率进行了评估,因为预测往往重叠,有些预测(例如来自埃克诺皮希的预测)比其他预测更零散。预测簇对应于图的连接组件,其中节点表示预测,并且当且仅当相应的预测都与同一实验关联时,两个节点之间存在边。如果一个实验产生了一个有效的RST,并且该RST与基因组的映射明确无误,则该实验被视为“命中”;如果该实验没有产生一个有效RST,则该试验为“未命中”,否则被忽略。如果任何相关实验是“命中”,则预测簇被视为“命中”;如果预测簇没有相关的“命中”和至少一个“未命中”,那么预测簇被认为是“未命中“。命中率的计算方法是命中数除以命中数和未命中数。(见补充材料)

基准外显子的定义

基准外显子(BME)是从与基因组对齐的cDNA中衍生出来的,cDNA具有典型(GT-AG)侧翼内含子和明确的转录方向。任何带有典型侧翼内含子的内部cDNA外显子都定义了内部BME。带有侧翼典型内含子的初始外显子定义了初始BME,前提是没有重叠的cDNA暗示了5′方向的额外外显子,并且没有其他具有相同3′边界的初始外显子在5′方向上延伸得更远(补充图S1)。终端BME以对称方式定义。由于cDNA比对的不确定性,如果两个外显子边界在基因组坐标中彼此相距2bp以内,则认为它们是“相等的”。(请参阅补充材料。)

新外显子和新基因片段的鉴定

新的外显子被定义为具有RST完全支持的BME,但最多是先前cDNA证据的部分支持。重叠且在重叠区域具有相等外显子边界的RST被合并(图1B). 新基因片段(NGF)被定义为为新外显子提供完全支持的合并RST。为了合并RST,重叠的外显子被合并,然后所有外显子连接在一起。注意,这种简单的方法可能不准确地表示复杂的选择性剪接场景,例如互斥外显子合并。

为了将可能对应于相同转录物的NGF聚集在一起,将NGF与N-SCAN、Exoniphy和TRANSMAP预测、最新的人类RefSeq基因、非人RefSeq基因的人类映射(如UCSC浏览器中的“非人RefSeq基因”轨迹所定义)相结合,和PASA项目中的cDNA簇(Haas等人,2003年). 然后使用UCSC clusterGenes程序通过相同标记的外显子重叠对这些特征进行聚类(http://hgdownload.cse.ucsc.edu/downloads.html). 然后丢弃所有非NGF特征。剩余563个非空NGF集群。

补充材料中提供了蛋白质编码潜力、功能类别和表达水平分析以及原位杂交实验的方法。

致谢

资金由国家癌症研究所分包合同N01-CO-12400(MBR)和22XS013A(D.H.,A.S.)、加州大学生物技术研究与教育项目研究生研究和教育适应性生物技术奖学金(A.S。我们感谢众多同事提供的帮助、反馈和建议,包括R.Baertsch、A.G.Clark、R.A.Gibbs、D.Gordon、G.Lunter、J.S.Pedersen、C.Sugnet、T.Vinar,以及两位匿名的手稿早期版本审稿人。

脚注

[补充材料可在线获取,网址为网址:www.genome.org.]

文章在印刷前在线发布。文章和发布日期在线http://www.genome.org/cgi/doi/10.101/128207

工具书类

  • Adams M.D.、Kerlavage A.R.、Fields C.、Venter J.C.、Kerlavalage A.R.和Fields C、Venter-J.C.、Field C.、Vetter J.C.和Venter JPC.3400新表达序列标签识别人脑转录物的多样性。自然遗传学。1993年a;4:256–267.[公共医学][谷歌学者]
  • Adams M.D.、Soares M.B.、Kerlavage A.R.、Fields C.、Venter J.C.、Soare M.B.、Carlavage A.R.、Fields C.、Venter J.C.、Kerlavalage A.R.和Fields C、Venter-J.C.、Vetter J.C.从定向克隆的人类婴儿大脑cDNA库中快速进行cDNA测序(表达序列标签)。自然遗传学。1993年b;4:373–380.[公共医学][谷歌学者]
  • Adams M.D.、Kerlavage A.R.、Fleischmann R.D.、Fuldner R.A.、Bult C.J.、Lee N.H.、Kirkness E.F.、Weinstock K.G.、Gocayne J.D.、White O.、Kerlavalage A.R.,Fleischman R.D.、Foldner R.A、Bult C.J.、Lee N.H.,Kirknese E.F.,Weinstock K.G、Gocadyne J.D.、怀特O.、Fleischemann R.D.、Fuldler R.A.、Bult C.J。,Gocayne J.D.、White O.、Fuldner R.A.、Bult C.J.、Lee N.H.、Kirkness E.F.、Weinstock K.G.、GocayneJ.D.、怀特O.、Bult C.J.、李N.H.,Kirknese E.F.,Weinstock K.G..、Gocadyne J.D.、White O.,Lee N.H,Kirkeness E.F..、Weinstock K.G、Gocayle J.D.,White O.G。,Gocayne J.D.、White O.、White O等。基于8300万核苷酸的cDNA序列对人类基因多样性和表达模式的初步评估。自然。1995;377(补充):3–174.[公共医学][谷歌学者]
  • Arumugam M.、Wei C.、Brown R.H.、Brent M.R.、Wee C.、Brown-RH.、Brown-MR.、Brown R-H.、Brant M.R.和Brent M.R。Pairagon+N-scan EST:基于模型的基因注释管道。基因组生物学。2006;7(补充1):1–10. [PMC免费文章][公共医学][谷歌学者]
  • Ashburner M.、Ball C.A.、Blake J.A.、Botstein D.、Butler H.、Cherry J.M.、Davis A.P.、Dolinski K.、Dwight S.S.、Eppig J.T.、Ball C.A.、Blake J.A.、Botstein D.、Butler H.、Cherry J.M.、Davis A.P.、Dolinski K.、Dwight S.S.、Eppig J.T.、Blake J.A.、Botstein D.、Butler H.、Cherry J.M.、Davis A.P.、Dolinski K.、Dwight S.S.、Eppig J.T.、Botstein D。,Butler H.、Cherry J.M.、Davis A.P.、Dolinski K.、Dwight S.S.、Eppig J.T.、Butler H.、Cherry J.M.、Davis A.P.、Dolinski K.、Dwight S.S.、Eppig J.T.、Cherry J.M.、Davis A.P.、Dolinski K.、Dwight S.T.、Davis A.P.、Dolinski K.、Dwight S.S.、Eppig J.T.、Dolinski K.、Dwight S.S.、Eppig J.T.、Dwight S.S。基因本体论:生物学统一的工具。自然遗传学。2000;25:25–29. [PMC免费文章][公共医学][谷歌学者]
  • Ashurst J.L.、Chen C.-K.、Gilbert J.G.R.、Jekosch K.、Keenan S.、Meidl P.、Searle S.M.、Stalker J.、Storey R.、Trevanion S.、Chen-C-K.、吉尔伯特J.G.R、杰科什K.、基南S.、梅德尔P.、塞尔S.M.,斯塔尔J.M.、斯塔克J.、斯托利R.、特雷瓦尼翁S.、吉尔伯特G.R。,Keenan S.、Meidl P.、Searle S.M.、Stalker J.、Storey R.、Trevanion S.、Keenan S、Meidl P.、Searle S.M.,Stalker J、Storey R、Trevian S.、Trevenion S.、梅德尔P.、Searle S.M、Stalke J、Storee R.、特雷瓦尼昂S.、Staleker J.和Trevanionon S。脊椎动物基因组注释(织女星)数据库。核酸研究。2005;33:459–465. doi:10.1093/nar/gki135。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Baross A.、Butterfield Y.S.N.、Coughlin S.M.、Zeng T.、Griffith M.、Graffith O.L.、Petrescu A.S.、Smailus D.E.、Khattra J.、McDonald H.L.、Buttenfield YS.N.、Coughline S.M.,Zeng T..、Griffeth M.,Griffith-O.L..、Petrescus A.S..、Smailus-D.E.、Khatara J.、麦当劳H.L.,Coughlins S.M.和Zeng T.、Griffinth M。,Khattra J.、McDonald H.L.、Zeng T.、Griffith M.、Griffith O.L.、Petrescu A.S.、Smailus D.E.、Khatra J.、麦当劳H.L.,Griffith-M.、Griffeth O.L..、Petrescus A.S..、Smailus-DE.、Khatara J。,Khattra J.、McDonald H.L.、Khatra J.、麦当劳H.L.和麦克唐纳H.L.等人。完整ORF人类cDNA克隆的系统恢复和分析。基因组研究。2004;14:2083–2092. [PMC免费文章][公共医学][谷歌学者]
  • Bartel D.P.MicroRNAs:基因组学、生物发生、机制和功能。单元格。2004;116:281–297.[公共医学][谷歌学者]
  • Bass B.通过作用于RNA的腺苷脱氨酶编辑RNA。每年。生物化学评论。2002;71:817–846. [PMC免费文章][公共医学][谷歌学者]
  • Bejerano G.、Lowe C.B.、Ahituv N.、King B.、Siepel A.、Salama S.R.、Rubin E.M.、Kent W.J.、Haussler D.、Low C.B.、Ashituv N、King B、SiepelA.、Salama S.R.,Rubin E.、Kent W.J.,Haussler-D.、Ahitov N.,King B.,Siepel A、Salama-SR.、鲁宾E.M。,Siepel A.、Salama S.R.、Rubin E.M.、Kent W.J.、Haussler D.、Salama-SR.、鲁宾E.M.,Kent W.J.、Hausler D.、Rubin-EM.、肯特W.J、豪斯勒D.、肯特W.J、豪斯勒D.、豪斯勒D。远端增强子和超保守外显子来源于一个新的逆转录子。自然。2006;441:87–90.[公共医学][谷歌学者]
  • Bertone P.、Stolc V.、Royce T.E.、Rozowsky J.S.、Urban A.E.、Zhu X.、Rinn J.L.、Tongprasit W.、Samanta M.、Weissman S.、Stolic V.,Royce E.E.、Rozzowsky JS.、Urban A.E.、朱X.、Linn J.L。,Urban A.E.、Zhu X.、Rinn J.L.、Tongprasit W.、Samanta M.、Weissman S.、Urban A.E.、Zu X.、Linn J.L.和Tongprassit W.,Samanta M、Weissman-S.、Zhu.X.、林恩J.L.,Tongpras W.、萨曼塔M.、魏斯曼S.、Tong prasit W、Samanta-M.、韦斯曼S..、Tongparasit W..、Samansman S.和Weissman S等。使用基因组拼接阵列对人类转录序列进行全球鉴定。科学。2004;306:2242–2246.[公共医学][谷歌学者]
  • 布兰切特M.、肯特W.J.、里默C.、埃尔尼茨基L.、斯密特A.F.A.、罗斯金K.M.、巴尔茨基R.、罗森布卢姆K.、克劳森H.、格林E.D.、肯特W.J.,里默C.,埃尔尼茨基L.、史密斯A.F.A.,罗斯金K.M.、贝尔施R.、罗斯布卢姆K、克劳森H、格林E.D、里默C、埃尔尼特斯基L.,史密斯A.F.A、罗斯金KM.、巴恩斯基R.,罗森布洛姆K.,克劳森H,格林E.D。,Elnitski L.,Smit A.F.A.,Roskin K.M.,Baertsch R.,Rosenbloom K.,Clawson H.,Green E.D.,Smit A.F.A.,罗斯金K.M..,Baertsche R。,Green E.D.等。用螺纹区块比对仪对多个基因组序列进行比对。基因组研究。2004;14:708–715. [PMC免费文章][公共医学][谷歌学者]
  • Brzoska P.M.、Brown C.、Cassel M.、Ceccardi T.、Di Francisco V.、Dubman A.、Evans J.、Fang R.、Harris M.和Hoover J.、BrownC.、Cassel M.、Checcardic V.、Dabman A.,Evans J、Fang R、Harriss M.、Hoover M.、胡佛J.、胡弗J.、Dover R。,Dubman A.、Evans J.、Fang R.、Harris M.、Hoover J.、Di Francisco V.、Dubman A.Evans J、Fang R、Harriss M.、胡佛J.、Dubban A.、埃文斯J.、方R.、哈里斯J。一种高效、高通量的方法,用于新人类基因预测的实验验证。基因组学。2006;87:437–445.[公共医学][谷歌学者]
  • Burge C.、Karlin S.和Karlin S。人类基因组DNA中完整基因结构的预测。分子生物学杂志。1997;268:78–94.[公共医学][谷歌学者]
  • Carninci P.、Kasukawa T.、Katayama S.、Gough J.、Frith M.C.、Maeda N.、Oyama R.、Ravasi T.、Lenhard B.、Wells C.、Kasuka T.、卡塔亚马S.、戈夫J.、弗里斯M.C.、梅达N.、奥亚马R.、拉瓦西T.、莱哈德B.、拉瓦斯M.C。,Ravasi T.、Lenhard B.、Wells C.、Frith M.C.、Maeda N.、Oyama R.、Ravasi T.、Lenhard B.、Well C.、Maida N.、Oyama R、Ravasis T.、Lenhard B.,Wells C,Oyama R,Ravasi T、Lenhard B.、Wells C.,Ravasis T。哺乳动物基因组的转录图谱。科学。2005;309:1559–1563.[公共医学][谷歌学者]
  • Carninci P.、Sandelin A.、Lenhard B.、Katayama S.、Shimokawa K.、Ponjavic J.、Semple C.A.M.、Taylor M.S.、Engstrom P.G.、Frith M.C.、Sandeline A.、Lenhard B.、Katyama S.、shimokawas K.、蓬贾维克J.、Sample C.A.M..、Taylar M.S.,Engstro姆P.G.,Frith M.C.、Lenhard B.、Katayama S.、Shimakawa K、Ponhavic J、Semple-C.M.、泰勒M.S.和EngstromP.G。,Frith M.C.、Katayama S.、Shimokawa K.、Ponjavic J.、Semple C.A.M.、Taylor M.S.、Engstrom P.G.、Frish M.C.,Shimokava K.,Ponjavisc J.,Semple C.M.、泰勒M.S.,Engstrom P.G.,Frish M.C.、Ponhavic J..、SempleC.A.M..、Taylor-MS.、Emgstrom P.G.、Firth M.C。,Frish M.C.、Engstrom P.G.、Frith M.C.和Frith M.C.等人。哺乳动物启动子结构和进化的全基因组分析。自然遗传学。2006;38:626–635.[公共医学][谷歌学者]
  • Cheng J.、Kapranov P.、Drenkow J.、Dike S.、Brubaker S.、Patel S.、Long J.,Stern D.、Tammana H.、Helt G.、Kabranov P.、Drenkow J、Dike S、Brubacker S、Patel S、Long J、Stern D.,Tammana H、Helt G、Drengow J、Dake S.,Brubake S.、Petel S.,Long J。,Helt G.,Brubaker S.,Patel S.,Long J.,Stern D.,Tammana H.,Helt G..,Patel S,Long J,Stern D,Tammana H.,Helt G.,LongJ,Stern.,Tammana.,Helt G,Stern D..,Tammana H.,Helt G.等。10条人类染色体的5核苷酸分辨率转录图。科学。2005;308:1149–1154.[公共医学][谷歌学者]
  • Clamp M.、Fry B.、Kamal M.、Xie X.、Cuff J.、Lin M.F.、Kellis M.、Lindblad-Toh K.、Lander E.S.、Fray B.、Kamar M.、Jee X.、Caff J.,Lindblad Toh K..、Landr E.S.,Kamal M、Xie X、Cuff J、Lin MF、Kellis M.、Lindblad-Toh K.,Lander E.S、Kamal.、Xie J.、Cuff M.、Lyn M.,Lin M。,Kellis M.、Lindblad-Toh K.、Lander E.S.、Lin M.F.、Kellis M、Lindbald-Toh K、Lander E.S.、Kellis M.、Lindblad-Toh K、Lander E.S.区分人类基因组中的蛋白质编码和非编码基因。程序。国家。阿卡德。科学。2007(印刷中)[PMC免费文章][公共医学][谷歌学者]
  • Cohen-Salmon M.、El-Amraoui A.、Leibovic M.、Petit C.、El-Arraoui A、Leibobvic M.、Patit C.、Leibocic M.,Petit C.和Petit C.Otogelin:一种内耳脱细胞膜特有的糖蛋白。程序。国家。阿卡德。科学。1997;94:14450–14455. [PMC免费文章][公共医学][谷歌学者]
  • Cremona M.、Colombo E.、Andreazoli M.、Cossu G.、Broccoli V.、Columbo E.,Andreazzoli M.、Cosu G.、西兰花V.、Andreazzoli M、Cossu-G.、Cossu G.、花椰菜V.、Brocoli V.Bsx,一种进化保守的脑特异性同源异型boX基因,表达于中隔、骨骺、乳头体和弓状核。大脑研究基因实验。模式。2004;4:47–51.[公共医学][谷歌学者]
  • Denoeud F.、Kapranov P.、Ucla C.、Frankish A.、Castelo R.、Drenkow J.、Lagarde J.、Alioto T.、Manzano C.、Chrast J.、Kabranov P.、乌克莱C.、弗兰基什A.、卡斯特罗R.、德伦科J.、拉加德J.、阿利奥托T.、曼扎诺C.、查拉斯特J.、乌克拉C.、弗兰克A.、卡斯特J。,拉加德J.、阿利奥托T.、曼扎诺C.、奇拉斯特J.、卡斯特罗R.、德伦科J.、拉加德J、阿利奥T.、Manzano C.、奇拉斯特J.,德伦科J、拉加尔德J.、阿里奥T.,曼扎诺C、奇拉斯特·、拉加德J.,阿利奥托·T、曼扎诺·C、奇拉斯特·、阿利奥托·T.、曼扎诺C。远端5′转录起始位点的显著使用和在ENCODE区域发现大量额外外显子。基因组研究。2007;17:746–759. [PMC免费文章][公共医学][谷歌学者]
  • Don R.H.、Cox P.T.、Wainwright B.J.、Baker K.、Mattick J.S.、Cox-P.T.和Wainwright-B.J.、贝克K.、马蒂克J.S.,Wainwrite B.J.和贝克K。核酸研究。1991;19:4008. [PMC免费文章][公共医学][谷歌学者]
  • 伊顿J.L.、格拉斯哥E.和格拉斯哥E.斑马鱼骨科(otp)是同位素细胞发育所必需的。发育基因进化。2007;217:149–158.[公共医学][谷歌学者]
  • El-Amraoui A.、Cohen-Salmon M.、Petit C.、Simmler M.C.、Cohen Salmon M、Petit C、Simmler-M.C.、Petit C.Simmler/M.C.、Simmlerr-M.C.发育期和成年小鼠内耳中耳动蛋白的时空表达。倾听。物件。2001;158:151–159.[公共医学][谷歌学者]
  • ENCODE项目联盟通过ENCODE试点项目确定和分析人类基因组1%中的功能元件。自然。2007;447:799–816. [PMC免费文章][公共医学][谷歌学者]
  • Eyras E.、Reymond A.、Castelo R.、Bye J.M.、Camara F.、Flicek P.、Huckle E.J.、Parra G.、Shteynberg D.D.、Wyss C.、Reymont A.、Castelo R.、Bay J.M.,Camara F、Flicek P.、Hackle E.J、Parra G、Shteymberg D.D、Wysss C.、Castello R.,Castelo R、Bye JM.、Camara F.第页。,Huckle E.J.、Parra G.、Shteynberg D.D.、Wyss C.、Camara F.、Flicek P.、Huckle E.J.、Parra G.,Shteynberg D.D.,Wyss C..、Flicek P.、Hackle E.J、Parra G.、Shte ynberg D.、Wiss C.、Huckel E.J.,Parra G..、Shteymberg D.D.D.、Wyss C.,Parra J.、Shtedynberg D-D.、Wyst C.、Shteenberg D.D、Wyss-C.等。鸡基因组中的基因发现。BMC生物信息学。2005;6:131.网址:10.1186/1471-2105-6-131。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Flicek P.、Keibler E.、Hu P.、Korf I.、Brent M.R.、Keipler E.、胡P.、科尔夫I.、布伦特M.R.和胡P。基因组研究。2003;13:46–54. [PMC免费文章][公共医学][谷歌学者]
  • Gerhard D.S.、Wagner L.、Feingold E.A.、Shenmen C.M.、Grouse L.H.、Schuler G.、Klein S.L.、Old S.、Rasooly R.、Good P.、Wagner L.、Feingold E.A.、Shenmen C.M.、Grouse L.H.、Schuler G.、Klein S.L.、Old S.、Rasooly R.、Good P.、Feingold E.A.、Shenmen C.M.、Grouse L.H.、Schuler G.、Klein S.L.、Old S.、Rasooly R.、Good P.、Shenmen C.M.、Grouse L.H。,Schuler G.、Klein S.L.、Old S.、Rasooly R.、Good P.、Grouse L.H.、Schuler G.、Klein S.L.、Old S.、Rasooly R.、Good P.、Schuler G.、Klein S.L.、Old S.、Rasooly R.、Good P.、Klein S.L.、Old S.、Rasooly R.、Good P,和扩大NIH全长cDNA项目:哺乳动物基因收集(MGC)基因组研究。2004;14:2121–2127. [PMC免费文章][公共医学][谷歌学者]
  • Gerstein M.B.、Bruce C.、Rozowsky J.S.、Zheng D.、Du J.、Korbel J.O.、Emanuelsson O.、Zhang Z.D.、Weissman S.、Snyder M.、Bruco C.、Rozowsky J.S、Zheng-D.、Du J、Korbell J.O、Emanualsson O.、张Z.D。,Korbel J.O.、Emanuelsson O.、Zhang Z.D.、Weissman S.、Snyder M.、Du J.、Korbel JO.、Isanuelson O.、Zhang ZD.、Weisman S.,Snyde M.、Kolbel J.O、Emanulesson O.,Zhang Z.D.、魏斯曼S.、斯奈德M.、张志德M.,Weissman M.、斯内德M.和魏斯曼S、斯奈德M.、Snider M.等。什么是基因,后编码?历史和更新的定义。基因组研究。2007;17:669–681.[公共医学][谷歌学者]
  • Goodstadt L.、Ponting C.P.和Ponting C.P.对狗和人的形态、副形态和保守联系进行系统发育重建。公共科学图书馆计算。生物。2006;2:e133.doi:10.1371/journal.pcbi.0020133。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Griffiths-Jones S.、Bateman A.、Marshall M.、Khanna A.、Eddy S.R.、Bataman A.、马歇尔M.、卡纳A.、Eddy-SR.、马歇尔M、卡纳A、Eddy.SR.、卡恩A.、Edddy S.R.和Eddy-Rfam:RNA家族数据库。核酸研究。2003;31:439–441. doi:10.1093/nar/gkg006。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Gross S.S.、Brent M.R.、Brert M.R.使用多重比对改进基因预测。J.计算。生物。2006;13:379–393.[公共医学][谷歌学者]
  • GuigóR.、Dermitzakis E.T.、Agarwal P.、Ponting C.P.、Parra G.、Reymond A.、Abril J.F.、Keibler E.、Lyle R.、Ucla C.、Dermitizakis E.T.、阿加瓦尔P.、Punting C.P、Parra G、Reymont A.、Abril J.F、Keibler E.、Lyler R.、乌克莱C.、Agarval P.、庞C.P。,雷蒙德A.、Abril J.F.、Keibler E.、Lyle R.、Ucla C.、Parra G.、Reymond A.、Abricl J.F..、Keibler E.、Lyler R.、乌克莱C.、Reymont A.、Abril J.F、Keible E.、Lyler R.、乌克拉C.、Abrill J.F.,Keibler E..、Lyle R.、乌克拉C.、Keibller E.、Lyle R.、U克拉C.等。对小鼠和人类基因组进行比较,然后进行实验验证,估计会产生1019个额外的基因。程序。国家。阿卡德。科学。2003;100:1140–1145. [PMC免费文章][公共医学][谷歌学者]
  • Haas B.J.、Delcher A.L.、Mount S.M.、Wortman J.R.、Smith R.K.J.、Hannick L.I.、Maiti R.、Ronning C.M.、Rusch D.B.、Town C.D.、Delchel A.L.,Mount S.M.、Wotman J.R、Smiths R.K.J、Hannich L.I.,Maiti R..,Ronning C.,Rusch D。,Wortman J.R.、Smith R.K.J.、Hannick L.I.、Maiti R.、Ronning C.M.、Rusch D.B.、Town C.D.、Smith.R.K.J、Hannich L.I.和Maiti R..、Ronnning C.M.,Rusch D.、Town C.D.、Hannick L.I.,Maiti R.、Ronnig C.M.和Rusch E.B.、Town-C.D.、Maiti R、Ronning-CM.、Rosch D.B..、Town-C.D.、Rusch-D.B.、Tong-C.D.等。改进拟南芥使用最大转录比对组合进行基因组注释。核酸研究。2003;31:5654–5666. doi:10.1093/nar/gkg770。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • 哈罗·J、德诺伊德·F、弗兰基什·A、雷蒙德·A、陈·C·K、克莱斯特·J、拉加德·J、吉尔伯特·J·G·R、斯托里·R、斯瓦尔布雷克·D、德诺伊·F、弗兰克·A、莱蒙·A、陈·C·K.、克拉斯特·J、拉加德·J.、吉尔伯特·J·R、Storey·R、Swarbreck·D、弗兰基什·A、雷蒙·A,陈·C·K。,Chen C.-K.,Chrast J.,Lagarde J.,Gilbert J.G.R.,Storey R.,Swarbreck D.,Chen C.-K.,Chrast J..,Lagard J.,吉尔伯特J.G.R..,Storey R,Swarbrick D.,Chrast-J.,拉加德J.,吉尔伯特J.G.R,斯托里R.,斯瓦布雷克D.,吉尔伯特JG.R。,等。GENCODE:为ENCODE生成参考注释。基因组生物学。2006;7:S4.doi:10.1186/gb-2006-7-s1-S4。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Hillier L.D.、Lennon G.、Becker M.、Bonaldo M.F.、Chiapelli B.、Chissoe S.、Dietrich N.、DuBuque T.、Favello A.、Gish W.、Lenno G.、贝克尔M.、博纳尔多M.F.,Chiapeli B.、奇索S.、迪特里希N.、杜布克T。,Chiapelli B.、Chissoe S.、Dietrich N.、DuBuque T.、Favello A.、Gish W.、Chiapeelli B.、Chissoe S.,Dietrich N.、杜布克T.、法维洛A.、Gish-W.、奇索S.、迪特里希N.、杜布克T.,Favello A.Gish W.Dietrich.N.、杜布基T.、法维洛A.Gish-W、Favello-A.、Gish-W.、Gish W等。280000人类表达序列标签的生成和分析。基因组研究。1996;6:807–828.[公共医学][谷歌学者]
  • Hubbard T.J.P.、Aken B.L.、Beal K.、Ballester B.、Caccamo M.、Chen Y.、Clarke L.、Coates G.、Cunningham F.、Cutts T.、Ake B.L.,Beal K、Ballester B.、Cacamom M.、陈Y.、克拉克L.、科茨G.、坎宁安F。,Clarke L.、Coates G.、Cunningham F.、Cutts T.、Caccamo M.、Chen Y.、Clarke L.、Cootes G.,Cunningam F.、卡特斯T.、Chen-Y.、克拉克L.、科特斯G.、坎宁安F.、卡茨T.、科茨G.、卡宁安F..、卡特斯T、卡宁安F.、坎宁安F.,Cutts T、卡茨T。核酸研究。2007;35:D610–D617。doi:10.1093/nar/gkl996。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • 国际人类基因组测序联合会人类基因组的初步测序和分析。自然。2001;409:860–921.[公共医学][谷歌学者]
  • 国际人类基因组测序协会完成人类基因组的常染色序列。自然。2004;431:931–945.[公共医学][谷歌学者]
  • Kapranov P.、Cheng J.、Dike S.、Nix D.A.、Duttagupta R.、Willingham A.T.、Stadler P.F.、Hertel J.、Hackermuller J.、Hofacker I.L.、Chen J.、Dake S.,Nix D.A、Duttargupta R..、Willingh A.T.,Stadler P.F.,Hertel J、Hackermaller J.、霍法克I.L。,Hofacker I.L.、Nix D.A.、Duttagupta R.、Willingham A.T.、Stadler P.F.、Hertel J.、Hackermuller J.、Hofacker-I.L.,Duttagupta R.、Willingham A.T.,Stadler P.F.,Hertel J、Hackermaller J.、霍法克I.L。,Hackermuller J.、Hofacker I.L.、Hackermuller J.、Hofacker I.L.、Hofacker I.L.等。RNA图谱揭示了新的RNA类别和普遍转录的可能功能。科学。2007;316:1484–1488.[公共医学][谷歌学者]
  • Kent W.J.BLAT:类似BLAST的对齐工具。基因组研究。2002;12:656–664. [PMC免费文章][公共医学][谷歌学者]
  • 木村·K·、和松·A·、铃木·Y·、大田·T·、西川·T·、山下幸男·R·、山本·J·i·、Sekine·M·、Tsuritani K.、Wakaguri H.、Wakamatsu A.、Suzuki Y.、Ota T.、Nishikawa T.、Yamashita R.、Yamamoto J.-i.、SekineM.、Tsulitani K.WakaguriH.、Suzui·T、Nishiwa T·T、Yamashita R.,Yamamomo J.-i.,Sekine M.,Tsuritan K.、Wakaguri H·、Ota T·。,西川T.、山下彦R.、山本J.-i.、塞金M.、津田K.、瓦卡古里H.、西川T.、山下R.、山本J.-i、塞金M、津田K、瓦卡古里H.,山下R.,山本J.-i.、塞根M.、津田K.,瓦卡古利H.、山本J.-i。,Wakaguri H.、Wakaguli H.等。转录调控的多样性:人类基因假定替代启动子的大规模鉴定和表征。基因组研究。2006;16:55–65. [PMC免费文章][公共医学][谷歌学者]
  • Korf I.、Flicek P.、Duan D.、Brent M.R.、Flicek P.、Duan D.、Bront M.R.和Duan D.,将基因组同源性整合到基因结构预测中。生物信息学。2001;17:S140–S148。[公共医学][谷歌学者]
  • Lee L.,Hughes T.,Frey B.,Hughe T.,弗雷B.,弗雷B。有多少新基因?科学。2006;311:1709–1711.[公共医学][谷歌学者]
  • Mattick J.S.、Makunin I.V.和Makunin-I.V.非编码RNA。嗯,摩尔基因。2006;15:R17–R29。[公共医学][谷歌学者]
  • Mikami A.、Tynan S.H.、Hama T.、Luby-Phelps K.、Saito T.、Crandall J.E.、Besharse J.C.、Vallee R.B.、Tynam S.H.和Hama T.、Luby-Felps K.,Saito T、Crandal J.E.、Basharse JC.、Valley R.B.、Hama T、Luby-Velps K.、SaitoT、Crndall J.E.、贝沙斯J.C.、瓦利R.B.、吕比菲尔普斯K.、赛托T.、克兰德尔J.E.、比沙斯J.C、瓦利·R.B.、赛托T、。,Crandall J.E.、Besharse J.C.、Vallee R.B.、Crandall J.E.、Besharse J.C.、Vallee R.B.、Besharse J.C.、Vallee R.B.、Vallee R.B.细胞质动力蛋白2的分子结构及其在神经元和纤毛细胞中的分布。细胞科学杂志。2002;115:4801–4808.[公共医学][谷歌学者]
  • Parra G.,Agarwal P.,Abril J.F.,Wiehe T.,Fickett J.W.,GuigóR.,Agalwal P..,Abrill J.F.、Wiehe.T.,Fickett J.W,GuigöR.、Abril JF.、Weehe T,Fickett J.W.、Guigó的R.、Fickett JW.、GuidgóR..、Ficket J.W.和GuiggóR。人类和小鼠的比较基因预测。基因组研究。2003;13:108–117. [PMC免费文章][公共医学][谷歌学者]
  • Parra G.、Reymond A.、Dabbouseh N.、Dermitzakis E.T.、Castelo R.、Thomson T.M.、Antonarakis S.E.、Guigo R.,Reymont A.、Dbbouseh-N.、Delmitzakis E.T.、Castelo R.、Tomson T.M.,Antonaragis S.E.,Guigo R、Dabbuseh N.,Dermithakis E.T、Castelo-R.、汤姆森T.M。,Antonarakis S.E.、Guigo R.、Castelo R.,Thomson T.M.,Antonaragis S.E.,Guigo R,Thomon T.M.、Antonarakis S.E.、Guido R.和Guigo R.串联嵌合体是增加人类基因组中蛋白质复杂性的一种手段。基因组研究。2006;16:37–44. [PMC免费文章][公共医学][谷歌学者]
  • Pennacchio L.A.、Ahituv N.、Moses A.M.、Prabhakar S.、Nobrega M.A.、Shoukry M.、Minovitsky S.、Dubchak I.、Holt A.、Lewis K.D.、Ahituv N.、摩西A.M.,Prabhamar S.、诺布雷加M.A.、舒克里M.、米诺维茨基S.、杜布查克I.、霍尔特A.、刘易斯K.D。,Prabhakar S.、Nobrega M.A.、Shoukry M.、Minovitsky S.、Dubchak I.、Holt A.、Lewis K.D.、Nobrega M.A.,Shoukry M.、Minov itsky S、Dubcha I.、Holt A.、Leuis K.D、Shoukry-M.、Minovitisky S..、Dubcham I.、霍尔特A.、刘易斯K.D.和米诺维茨基S.、杜巴克I.、荷尔特A.、路易斯K.D。人体保守非编码序列的体内增强子分析。自然。2006;444:499–502.[公共医学][谷歌学者]
  • Pfister K.K.,Shah P.R.,Hummerich H.,Russ A.,Cotton J.,Annuar A.A.,King S.M.,Fisher E.M.C.,Shah PR.,Hummrich H.,Russ A.,棉花J.,安nuar A.A.A.,国王S.M。,Fisher E.M.C.、Annuar A.A.、King S.M.、Fisher E.M.C.、King M.M.、Fisher E.M.C.和Fisher C.M.C.细胞质动力蛋白亚基家族的遗传分析。公共科学图书馆-遗传学。2006;2:e1.doi:10.1371/journal.pgen.0020001。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Pollard K.S.、Salama S.R.、Lambert N.、Lambot M.-A、Coppens S.、Pedersen J.S.、Katzman S.、King B.、Onodera C.、Siepel A.、Salama S.R.、Lambert N.、Lambot M.-A、Coppens S.、Pedersen J.S.、Katzman S.、King B.、Onodera C.、Siepel A.、Lambert N.、Lambot M.-A、Coppens S.、Pedersen J.S.、Katzman S.、King B.、Onodera C.、Siepel A.、Lambot M.-A。,Coppens S.、Pedersen J.S.、Katzman S.、King B.、Onodera C.、Siepel A.、Coppens S.、Pedersen J.S.、Katzman S.、King B.、Onodera C.、Siepel A.、Pedersen J.S.、Katzman S.、King B.、Onodera C.、Siepel A.、Katzman S.、King B.、Onodera C.、Siepel A.、King B.、Onodera C.、Siepel A.、Siepel A.等人。人类皮层发育期间表达的一种RNA基因迅速进化。自然。2006;443:167–172.[公共医学][谷歌学者]
  • Pruitt K.D.、Tatusova T.、Maglott D.R.、Tatushova T..、Maglot D.R.和Maglott-D.R.NCBI参考序列(RefSeq):基因组、转录物和蛋白质的精选非冗余序列数据库。核酸研究。2005;33:D501–D504。doi:10.1093/nar/gki025。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Schwartz S.、Kent W.J.、Smit A.、Zhang Z.、Baertsch R.、Hardison R.C.、Haussler D.、Miller W.、Kent W/J.、史密特A.、Zheng Z.、Baertsch R、Hardisson R.C.、豪斯勒D.、Miller W.、Smit A、ZhangZ、Baertsch R.、哈迪逊R.C.、郝斯勒D.、米勒W.、Bartsch R.C.、哈迪森R.C.、豪斯勒D.、。,Miller W.、Hardison R.C.、Haussler D.、Miller W.、Haussler D.、Miller W.、Miller W.人鼠与BLASTZ比对。基因组研究。2003;13:103–107. [PMC免费文章][公共医学][谷歌学者]
  • Siepel A.、Haussler D.、Hausseler D。第八届国际计算分子生物学研究会议论文集。ACM出版社;纽约:2004年。进化保守外显子的计算识别;第177-186页。[谷歌学者]
  • Strausberg R.L.、Feingold E.A.、Klausner R.D.、Collins F.S.、Fengold E.A、Klauser R.D.、Colins F.S、Klauster R.D.、柯林斯F.S、科林斯F.S.哺乳动物基因收集。科学。1999;286:455–457.[公共医学][谷歌学者]
  • van Baren M.J.、Brent M.R.和Brent M.R。迭代基因预测和假基因删除改进了基因组注释。基因组研究。2006;16:678–685. [PMC免费文章][公共医学][谷歌学者]
  • Venter J.C.、Adams M.D.、Myers E.W.、Li P.W.、Mural R.J.、Sutton G.G.、Smith H.O.、Yandell M.、Evans C.A.、Holt R.A.、Adamm M.D.、迈尔斯E.W.,Li P.W、Murall R.J.,Sutton GG.、史密斯H.O.,Smith HO.、Yandall M.、埃文斯C.A.、Yandel M.、Elvans C.A.、Weith H.O、Yandal R.A.、Evanton G.G.G。,Smith H.O.,Yandell M.,Evans C.A.,Holt R.A.,Mural R.J.,Sutton G.G.,Smith HO.,Yandall M.,Evans C.A.Holt R.G.,Samith H.O,Yandel M.,埃文斯C.A.,霍尔特R.A.Smith H.O.,Yandell M.,伊文斯C.A.HoltR.A.,Yandill M.、Evans C.,HoltR.A.Holt C.A.等。人类基因组序列。科学。2001;291:1304–1351.[公共医学][谷歌学者]
  • Weiss A.、Leinwand L.A.和Leinwant L.A.哺乳动物肌球蛋白重链基因家族。每年。Rev.细胞发育生物学。1996;12:417–439.[公共医学][谷歌学者]
  • Wu J.Q.、Garcia A.M.、Hulyk S.、Sneed A.、Kowis C.、Yuan Y.、Steffen D.、McPherson J.D.、Gunaratne P.H.、Gibbs R.A.、Garcia.A.M.,Hulyk S.、Sreed A.、Kowas C.、袁Y.、史蒂芬D.、麦克弗森J.D.、古纳拉特内P.H.和吉布斯R.A.、Hulyck S.、斯奈德A.、Kowes C.、Yuan Y..、Stefen D.、麦克佛森J.D。,Steffen D.、McPherson J.D.、Gunaratne P.H.、Gibbs R.A.、Kowis C.、Yuan Y.、Steffen D、McPherson J.D.、Gonaratne P.H.、吉布斯R.A.、Yuang Y.、史蒂芬D.、麦克弗森J.D.、古纳拉特P.H.,Gibbs R.A.、Steffen-D.、麦克佛森J.D。大规模RT-PCR回收全长cDNA克隆。生物技术。2004年a;36:690–696.[公共医学][谷歌学者]
  • Wu J.Q.、Shteynberg D.、Arumugam M.、Gibbs R.A.、Brent M.R.、Shteymberg D.和Arumugan M.、吉布斯R.A.、布伦特M.R.和阿鲁穆加姆M.、吉布斯R.A.、吉布斯M.R.,Brent M.R。通过TWINSCAN基因预测、RT-PCR和直接测序鉴定大鼠基因。基因组研究。2004年b;14:665–671. [PMC免费文章][公共医学][谷歌学者]
  • Xie X.、Mikkelsen T.S.、Gnirke A.、Lindblad-Toh K.、Kellis M.、Lander E.S.、Mikkelsen T.S、Gnirce A.、Lindblad-Toh K.、凯利斯M.、兰德E.S.,Gnirke A.、Linkblad-Toh K.,Kellis M、兰德E.S.、Lindbrad-Toh K、凯利斯M、兰德尔E.S。系统发现人类基因组保守区域的调控基序,包括数千个CTCF绝缘体位点。程序。国家。阿卡德。科学。2007;104:7145–7150. [PMC免费文章][公共医学][谷歌学者]
  • Zheng D.、Frankish A.、Baertsch R.、Kapranov P.、Reymond A.、Choo S.W.、Lu Y.、Denoeud F.、Antonarakis S.E.、Snyder M.、Frankish A.、Baertsch R.、Kapranov P.、Reymond A.、Choo S.W.、Lu Y.、Denoeud F.、Antonarakis S.E.、Snyder M.、Baertsch R.、Kapranov P.、Reymond A.、Choo S.W.、Lu Y.、Denoeud F.、Antonarakis S.E.、Snyder M.、Kapranov P。,Reymond A.、Choo S.W.、Lu Y.、Denoeud F.、Antonarakis S.E.、Snyder M.、Reymond A.、Choo S.W.、Lu Y.、Denoeud F.、Antonarakis S.E.、Snyder M.、Choo S.W.、Lu Y.、Denoeud F.、Antonarakis S.E.、Snyder M.、Lu Y.、Denoeud F.、Antonarakis S.E.、Snyder M.、Antonarakis S.E.、Snyder M.、Snyder M。ENCODE区域中的假基因:共识注释、转录分析和进化。基因组研究。2007;17:839–851. [PMC免费文章][公共医学][谷歌学者]
  • Zhu J.、Sanborn J.Z.、Diekhans M.、Lowe C.B.、Pringle T.、Haussler D.、Sanbourn J.Z.,Diekhan M.、Lowe C.B.,Pringle T、Hausler D.、Diekhams M.,Lowe C.B.、Prin格尔T.、豪斯勒D.、普林格尔T.,豪斯勒D.。比较基因组学寻找人类血统上长期存在的基因的缺失。公共科学图书馆计算。生物。2007年doi:10.1371/journal.pcbi.0030247.eor。(印刷中)[PMC免费文章][公共医学] [交叉参考][谷歌学者]

文章来自基因组研究由以下人员提供冷泉港实验室出版社