跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
基因组研究。2004年10月;14(10b):2121–2127。
数字对象标识:10.1101/克.2596504
预防性维修识别码:项目经理528928
PMID:15489334

NIH全长cDNA项目的现状、质量和扩展:哺乳动物基因收集(MGC)

摘要

美国国立卫生研究院的哺乳动物基因收集(MGC)项目旨在生成一个公开获取的cDNA资源,并对其进行测序,该资源包含每个人类和小鼠基因的完整开放阅读框架(ORF)。该项目最初使用随机策略从不同组织的大量cDNA文库中选择克隆。根据5′-EST序列选择候选克隆,然后进行高精度全测序,并使用为本项目开发的算法进行分析。目前,MGC中至少有一个具有完整ORF的克隆代表了11000多个人类和10000多个小鼠基因。随机选择方法现已达到饱和点,现在需要过渡到针对缺失转录本的协议,以完成老鼠和人类的采集。MGC克隆序列与参考基因组序列的比较表明,大多数cDNA克隆具有非常高的序列质量,尽管一些cDNA可能由于实验伪影(如PCR、克隆或逆转录酶错误)而携带错义变体。最近,一个大鼠cDNA组分被添加到该项目中,正在进行的青蛙(爪蟾)和斑马鱼(达尼奥)cDNA项目得到了扩展,以利用高通量MGC管道。

人类基因组计划为未来的科学研究提供了一些宝贵的资源。然而,我们对生物系统功能的理解仍处于初级阶段。即使是完整的人类基因组的可用性(Lander等人,2001年;Venter等人,2001年; 国际人类基因组测序协会(正在筹备中)和小鼠的高级草案(Waterston等人,2002年)和老鼠(Gibbs等人,2004年)鉴于目前基因预测算法的局限性和EST资源的可变质量,基因组不足以定义所有转录和编码区域。

NIH哺乳动物基因收集(MGC;http://mgc.nci.nih.gov)建立该程序是为了提供一个与每个人类和小鼠蛋白编码基因相对应的可公开访问的全开放阅读框(ORF)克隆(Strausberg等人,1999年). 其目的是产生一种由两部分组成的社区资源:(1)一组无限制地公开可用的克隆;(2)提交给公共核苷酸序列数据库的相应高精度cDNA序列信息。其他大规模的cDNA克隆工作包括日本的两个项目和德国的一个项目(Wiemann等人,2001年;Okazaki等人2002;Ota等人2004).

本文提供了MGC当前状态的更新。由于该项目迄今为止取得的成功,目标已经扩大,包括为大鼠生成完整的ORF克隆集合。此外,MGC协议正在应用于协助其他两个正在进行的项目,为两只青蛙生成完整的ORF克隆(爪蟾)物种与斑马鱼(达尼奥雷里奥).

结果和讨论

人和小鼠全ORF cDNA收集现状

MGC项目最初采用随机的基于EST的策略来获得完整的ORF克隆。目前的MGC收集来自110多个人类和80多个小鼠cDNA文库,这些文库由多种组织、细胞系和发育阶段使用不同的构建方法和载体制成(Strausberg等人,2002年b; 看见http://mgc.nci.nih.gov详细信息)。对于每个文库,在5′端(5′-EST)对5000-20000个克隆进行测序,并使用UniGene算法将序列与dbEST中的所有可用数据进行聚类(Pontius等人,2002年;http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=unigene网站). 如果候选的完整ORF克隆满足以下三个标准之一,则选择其进行全插入测序:(1)插入包含的序列距离已知基因的起始蛋氨酸密码子5′;(2) 翻译后的序列与已知蛋白质的N末端相似,但不完全相同;或(3)5′-序列与已知基因5′-端的统计分布相匹配(Strausberg等人,2002b). 对每个基因的候选克隆进行高质量测序(没有不确定的碱基调用,平均估计错误率<1/50000核苷酸)。

对全序列克隆进行分析,以确定它们是否包含完整的编码序列(CDS)。然后结合对非冗余蛋白质数据库的翻译搜索和核苷酸序列的统计评估,对克隆进行进一步分析。该评估包括确定ORF前与Kozak共识相关的帧内上游终止密码子和序列的存在,以及3′-非翻译区的特性分析(Strausberg等人,2002b). 对于已知基因,即RefSeq数据库中的基因(普鲁特等人,2003年;http://www.ncbi.nlm.nih.gov/RefSeq网站/)通过定义明确的编码序列,只有ORF包含至少50%或更多已知最长CDS的克隆才能被MGC接受,以避免优先选择与短产物对应的剪接形式。将所需ORF长度增加到RefSeq的80%将消除<2%的克隆(数据未显示)。对完全测序的克隆也进行了分析,以消除那些可能存在移码和嵌合体的克隆。大约6%的克隆被发现有移码现象,2%是嵌合体。在模棱两可的情况下,对于没有蛋白质同源性的基因,每个克隆都是手动筛选的。后一类基因必须具有至少100个氨基酸的ORF,并至少交叉一个内含子。这些严格的要求可能意味着缺少功能未知的小的单外显子基因。如果克隆未通过任何测试,则会选择另一个候选进行测序。只有被确定为CDS-complete的克隆被提交给GenBank,并带有MGC克隆标识符(MGC:XXXXX)和Entrez关键字“MGC”,而带有帧移位的克隆在定义行中有一个“帧移位”,并且没有MGC克隆标识。作为MGC项目的一部分,所有克隆都可以通过I.M.a.G.E.分销商获得(Lennon等人,1996年).

截至2004年3月,MGC由11298个人类基因(15565个克隆)和10295个小鼠基因(12974个克隆)组成(表1A). 因此,尽管该项目最初的重点是获得人类来源的克隆,但小鼠克隆集合的规模正在迅速接近人类集合的规模。此外,还可通过I.M.A.G.E.分销商获得1102个人类基因的1383个短变异体克隆。

表1。

项目总结

有机体项目开始日期生成的EST数量靶向基因数量集合中的克隆数所代表的基因数量(目标的%)
A.哺乳动物基因收集
智人2000年夏季1,470,000全部15,56511,289
肌肉2000年夏季1,100,000全部12,97410,295
褐家鼠2003年秋季45,0006200658641 (10)
B.合作项目
非洲爪蟾2002年秋季194,000920019811962 (22)
热带非洲爪蟾2003年春季5.9万6500553550 (8)
达尼奥雷里奥2002年秋季138,00010,00034363011 (30)
截至2004年3月8日。

其他生物体收集状况

基于这些特征鲜明的人和鼠的完整ORF克隆的实用性以及科学界对来自其他生物体的完整ORF-克隆集的渴望,MGC最近扩大了其范围,将大鼠包括在内。此外,MGC管道正用于支持从青蛙中生成此类克隆(参见http://xgc.nci.nih.gov/Info/)和斑马鱼(见http://zgc.nci.nih.gov/Info/). 这些项目的目标和进展总结如下表1B虽然他们使用MGC基础设施,但每个项目都是单独管理的(Klein等人,2002年;Rasooly等人,2003年). 这三个项目的目标与人类和小鼠项目的目标不同,因为它们的目标不是捕获代表这些生物体所有基因的克隆。根据在生成人类和小鼠标本方面获得的经验,通过使用已经制定的随机选择协议以及明智地使用来自不同发育阶段和组织的15-20个文库,这些更有限的目标应该很容易实现。

人和小鼠克隆的分析

人类和小鼠的ORF平均大小分别为1186和1299 nt。这些大小小于RefSeq ORF的平均大小,人类为1607 nt,小鼠为1437 nt(L.Wagner,未解释)。规模差异表明,大型ORF目前在MGC中的代表性不足。与参考序列相比,MGC克隆的尺寸分布可在补充材料#1中找到;应该注意的是,该集合确实包括具有大CDS的几个克隆。此外,MGC在罕见的抄本(补充材料#2)中的代表性不足,这在随机抄本抽样方法中是意料之中的。Ohara等人(1997)生成长度为3-10 kb的大小选定的cDNA文库,以克隆大型转录物。迄今为止,他们分离并完全测序了1954个cDNA,平均ORF为2905 nt。

有8412个人类基因与小鼠同源,7808个小鼠基因与人类同源。对于5351个基因,从这两种生物体中获得了克隆(图1). 由于这种重叠约占每组的三分之二,克隆选择协议显然在很大程度上没有偏向于在两种生物体中选择相同的基因。由于小鼠项目包括相当多的早期开发cDNA文库,而人类项目没有,因此可以预期胚胎期特异性克隆将在小鼠集合中得到丰富。然而,有趣的是,仅在小鼠而非人类中获得克隆的基因在胚胎中既没有得到更高的表达,也没有得到胚胎特异性表达的富集(数据未显示)。

保存图片、插图等的外部文件。对象名称为84862-03f1_1o_rev1.jpg

同源人类和小鼠基因与代表性MGC克隆的重叠。按照方法进行分析。有8412个人类基因与小鼠同源,7808个小鼠基因与人类同源。在8%的组中,同源基因组的数量可能包括同源基因以外的同源基因。

将MGC集合中代表的人类基因集与RefSeq数据库中的综合、注释、非冗余基因集进行比较(普鲁特等人,2000年). RefSeq包含11233条人类基因,根据两份或多份独立出版物,这些基因被视为具有生物学意义的转录物。MGC包含9081个候选基因。这种高频率表明,基于随机EST的策略在识别已知基因的完整ORF克隆方面非常成功。此外,还恢复了大量以前未经特征化的全ORF序列,其功能尚不清楚。然而,这种方法现在已经达到了人类回报递减的程度,并且正在达到老鼠采集的饱和状态(图2). 因此,对于这两种生物,该项目现在必须转向更直接的策略,以获得缺失基因的克隆。

保存图片、插图等的外部文件。对象名为84862-03f2_1o_rev1.jpg

基因捕获的进展。数量(A类)人类和(B类)显示了小鼠完整ORF MGC克隆以及这些克隆在项目生命周期内代表的基因数量。(插入)按时间顺序排列的EST数量。来自先前数据集的EST,包括来自CGAP的人类和小鼠cDNA库(Schaefer等人,2001年;斯特劳斯伯格2001,Strausberg等人,2002a)用于启动MGC项目。

评估了两种定向策略。第一种是基于缺失基因的组织表达分布的测定(数据未显示)。从胎盘组织中制作了一个标准化和消减的cDNA文库,其中表达了许多缺失的基因。然而,代表它们的克隆的产量太低,无法使这成为一种实用的方法。具体来说,在16800个EST读数中,该项目为已知基因(0.6%)确定了101个全长克隆用于全长测序。在第二种方法中,使用基因特异性引物扩增表达组织转录物的编码区,然后将PCR产物克隆到cDNA载体中,并对每个基因的多个候选基因进行测序。初步研究表明,这种方法可以恢复50%到80%的缺失基因(Baross等人,2004年;Wu等人,2004年),尽管很可能很难获得分数。

除了特征明确的转录本外,MGC项目还将研究另外两类缺失基因。第一种包括推测的、计算机预测的基因,这些基因有一些实验证据证明转录物的存在(例如一个或多个EST,或通过大规模项目生成的无特征cDNA)。第二类是完全基于计算方法的从头开始基因预测。

人和小鼠MGC克隆的验证

参考人类基因组序列的可用性(Lander等人,2001年;Venter等人,2001年; 国际人类基因组测序联合会(正在筹备中),小鼠基因组序列的预先草案(Waterston等人,2002年)以及丰富的人类EST和其他克隆序列库(Adams等人,1991年;Boguski等人,1993年;威廉姆森1999;Brentani等人,2003年)为更详细地分析MGC克隆的质量提供了机会。MGC克隆序列与完成的人类基因组序列的比较显示,编码区中每1147个位置大约有1个位置存在差异,频率为0.00087。这些差异可能是由于生物原因(例如,自然变异,预期核苷酸序列多样性为0.00075;Bamshad和Wooding 2003),转录后信使核糖核酸编辑(公园2000;Schaub和Keller 2002;Anant等人,2003年)或一个或多个实验伪影。在组织培养、RNA制备、文库生成(由于逆转录酶或DNA聚合酶缺乏保真度)、克隆繁殖或cDNA或基因组测序的细胞生长过程中,可能会出现实验伪影。由于MGC克隆的序列质量非常高(误差频率<1/50000nt),序列质量不是主要的误差来源。在观察到的与人类基因组的差异中,32%与多态性数据库dbSNP中记录的变异一致(Sherry等人,2001年;http://www.ncbi.nlm.nih.gov/SNP网站). 由于目前并非所有人类变异都在dbSNP中表示,毫无疑问,MGC克隆中还有其他变异代表真正的生物变异。因此,我们得出结论,MGC克隆和人类参考序列之间观察到的序列差异的很大一部分代表了人类种群的自然变异。

利用cDNA序列与基因组的比对,分析了两种特殊情况,在这两种情况下,基本上所有可能的序列都应该是已知的,因此,预计不会出现显著的新变异。对这些病例的分析应提供对克隆质量的独立估计。第一个涉及HLA基因克隆;由于之前对该基因座的研究程度,在MGC中应该很少发现新的等位基因。28个MGC HLA克隆中24个克隆的序列编码了与已知多态性相对应的氨基酸组成,表明至少85%的HLA MGC克隆对应于已知人群中存在的变异。

第二个案例代表了一种情况,即人口多态性应该降低到一个非常低的水平。将从近交系C57BL6/J非标准化、高质量cDNA文库中分离的小鼠MGC克隆与同一小鼠株的完成序列进行比较。这里,97%的MGC克隆完全对齐,估计错误率为1/77000 nt。由于这与序列准确性本身有关,这意味着这些MGC克隆中几乎没有其他类型的错误。然而,其他C57BL6/J文库也与基因组序列不匹配。归一化文库中克隆的差异率为1/650 nt,而通过旨在丰富长全长克隆的协议制作的几个文库的总差异率为1/1253 nt。这些数据表明,cDNA文库合成协议对最终产品的错误率有很大影响(见下文)。

人类克隆验证的另一种方法是分析观察到的编码变化的性质。编码区上的选择性压力将不利于改变氨基酸的多态性(非同义或NS改变)。因此,与PCR、克隆或逆转录酶错误引起的单个克隆的人为变化相比,MGC中生物学有效的变异预计显示更少的NS变化。如果MGC克隆中的核苷酸差异是完全随机的,转换:转换比为4:1,则非同义部分((f)NS公司)将为0.71(D.Lipman和L.Wagner,不容置疑)。然而,事实上(f)NS公司是0.52,这表明错义变化实际上是被选择来反对的。然而,应将其与观察到的(f)NS公司对于dbSNP中的所有编码SNP,该值为0.43,并已通过一组基因组DNA样本的测试进行验证(S.Sherry和L.Wagner,未提交)。假设观察到的差异是伪影和多态性的混合,则得出简单的公式:

方程式M1

因此,实验引入了整个MGC中约32%的非同义变体。

在另一种评估MGC克隆和参考人类基因组之间观察到的序列差异是否为人为来源的可能性的方法中,还将MGC cDNA序列与黑猩猩的部分完整序列进行了比较(黑猩猩;http://www.ncbi.nlm.nih.gov/mapview网站;网址:http://www.ebi.ac.uk/embl/indiex.html)基因组来确定任何已确定的核苷酸差异是否与祖先的等位基因相匹配。大约24%的非同义cDNA等位基因与平移等位基因。在这些情况下,可以得出结论,人类cDNA和基因组序列之间的差异可能是多态性(或者,很少是基因组序列中的错误),因此,这些cDNA被认为是有效的。

由文库提供商对NS编码改变的人类克隆进行分类,确定了核苷酸差异的一个潜在来源。结果(表2)表明图书馆来源对观察到这种差异的速度有显著影响。尽管这一现象没有进一步调查,但有趣的是,序列差异率最高的库制造商#4使用了热稳定逆转录酶,并执行了减法和标准化协议,其中第二链合成是由热稳定聚合酶完成的,而其他制造商没有使用这两种酶中的任何一种。

表2。

人类cDNA的差异频率,按文库合成器排序

图书馆制作人核苷酸差异率与基因组(f)NS公司%在黑猩猩中发现MGC等位基因的时间
所有MGC0.000870.520.238
#10.000620.450.326
#20.000740.500.243
#30.001250.540.095
#40.001440.610.042

集合集合的结果显示在第1行中,人类图书馆的四个主要提供者的结果分别列出。(f)NS公司是cDNA和基因组序列之间氨基酸水平非同义差异的分数。这些库列在补充材料(#3)中。

有1980个人类基因仅由MGC克隆表示,与参考基因组相比,该克隆至少有一个NS替代,而dbSNP中不存在NS替代。MGC编码蛋白和基因组编码蛋白之间的氨基酸差异可能是由于多态性、克隆伪影和序列错误的混合。实际的测序错误可能很罕见,而且由于前面列出的实验参数,大多数克隆伪影可能在MGC克隆中。当cDNA克隆中人类基因组的差异与相应的平移序列中,20%的MGC克隆与黑猩猩完全一致,因此这些可能代表真正的多态性。但对于真正的多态性,期望是平移序列将以相同的频率匹配cDNA和基因组序列。因此,通过推断,另外20%的MGC cDNA克隆可能携带生物学上有效的NS变化,尽管不可能确定这些是哪些克隆。这在MGC中留下了约1200个人类基因(占总收集量的10%),其中NS变化可能是由于实验伪影。值得注意的是,考虑到热稳定聚合酶、逆转录酶和生成全长cDNA克隆的各种协议的其他组成部分不可避免的非零错误率,在任何cDNA集合中都可能在某种程度上发现这些相同的伪影。

本节中的结果说明了在确定MGC克隆与参考基因组相比对核苷酸差异的各种生物和实验贡献程度方面的挑战。每个分析都使用不同的数据子集,因此,不可能直接比较结果。此外,对于人类来说,罕见的多态性很难确定,与祖先基因组的比较也受到后者差距的限制。在小鼠克隆的情况下,只有14个文库来自与基因组序列相同的菌株,因此,分析中使用的克隆数量不是很大。

克隆特征分析期间发现的变异使得必须在每个MGC克隆的每个GenBank记录中包含详细注释。因此,每个人类克隆记录现在都包括以下内容:与参考人类序列的每个核苷酸差异的识别、推断的氨基酸变化(如果有)以及dbSNP参考编号(如果变体已经记录在案)。未来,将添加差异的其他属性,包括保守基序内的变化和祖先等位基因的存在,以及小鼠记录的注释。

获得MGC资源的使用权

自成立以来,MGC项目开发了几个独立的网站,并向其他公共资源提供了数据。可以在中找到与项目相关的主要网站表3.

表3。

与项目相关的网站

Web站点描述
http://mgc.nci.nih.gov提供基因和库的列表,以及有关库构建、载体和人类、小鼠和大鼠的分布资源的信息。
http://xgc.nci.nih.gov如上所述,但非洲爪蟾热带X。
http://zgc.nci.nih.gov如上所述,但对于丹尼尔·雷里奥。
网址:http://image.llnl.gov提供有关MGC、XGC和ZGC项目中cDNA克隆的信息,包括库和矢量详细信息、克隆查询、到完整ORF克隆数据文件的链接以及获取克隆的信息。
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=unigene网站一种实验系统,用于将GenBank序列划分为许多生物体的非冗余基因导向簇集,并定期更新。在MGC中,基因是在UniGene聚类的基础上定义的。
http://genome.ucsc.edu/基因组浏览器,将MGC克隆作为其可视化选项的一部分。

MGC网站(http://mgc.nci.nih.gov)提供了关于人类、小鼠和大鼠的完整ORF克隆集合的信息。每个物种的完整ORF克隆和非冗余基因的数量在主页上列出,并每周更新。主页还提供了等待完全插入测序的候选克隆列表的链接,为MGC项目生成的所有EST序列,以及用于构建MGC文库的载体和方法的描述。也可以从该网站下载每个物种的完整ORF MGC克隆列表和序列。用户可以使用基因符号或关键字搜索来搜索完整的ORF克隆。通过搜索关键字“MGC”,NCBI的Entrez核苷酸数据库中也提供了所有全长克隆。此类查询的结果提供了指向其他信息资源的链接,例如LocusLink(普鲁特和马格洛特2001;http://www.ncbi.nlm.nih.gov/LocusLink网站/)基因库记录和I.M.A.G.E.克隆信息。I.M.A.G.E.标识符链接到UniGene和NCI癌症基因组解剖项目(CGAP;http://cgap.nci.nih.gov). MGC开发了BLAST的修改版本,支持查询序列与所有MGC全长克隆序列的比对。类似的全长克隆资源可用于爪蟾基因采集(XGC;http://xgc.nci.nih.gov)斑马鱼基因收集(ZGC;http://zgc.nci.nih.gov).

所有研究人员都可以免费使用所有MGC全ORF克隆,也可以从几个商业I.M.A.G.E.分销商处购买。MGC网站上的“购买地点”链接允许用户直接访问美国和全球分销商的网站。此外,项目中测序的大多数克隆,无论是否代表完整的ORF,也可以通过其I.M.a.G.E.标识符识别,都可以从许多相同的克隆分发者处获得。

参考基因组序列中有关MGC克隆的信息可以在UCSC(加州大学圣克鲁斯分校)基因组浏览器上获得(Kent等人,2002年;http://genome.ucsc.edu). 在浏览器上,可以激活特定的MGC轨迹,以可视化MGC克隆在参考基因组中的位置,该轨迹的链接可以显示cDNA与参考序列的对齐。此浏览器的所有搜索和可视化功能可用于识别MGC克隆的基因,并提供有关相应基因的附加信息,包括基因在基因组中的位置、序列变异以及与其他基因组的序列保守性。

总之,MGC项目已经产生了大量的、有充分证明的、越来越多的有用的cDNA克隆,其中包含人类和小鼠基因的完整ORF。目前正在采取有针对性的方法来恢复缺失的cDNA。该项目最近已经扩大,包括另一物种的克隆,褐家鼠,并且正在使用可比较的方法为非洲爪蟾、热带爪蟾、和达尼奥雷里奥.

方法

cDNA文库制作

图书馆建设方法的描述可以在网站上找到http://mgc.nci.nih.gov/Info/(适用于人类、小鼠和大鼠),http://xgc.nci.nih.gov/Info/(用于X·莱维斯十、热带)和http://zgc.nci.nih.gov/Info/(用于斑马鱼). 每个MGC矢量的完整序列见http://image.llnl.gov/image/html/vectors.shtml也可以在网站上找到产生全长MGC克隆的cDNA库目录。

全ORF候选克隆的文库特征、筛选、选择和测序

前面已经描述了核心方法(Strausberg等人,2002b). 最近对管道的修改包括:(1)不生成3′-序列爪蟾项目,其中约40%的克隆具有3′-读;(2) 每个文库中2000-5000个克隆在5′端测序,如果一个文库被认为是高质量的,则添加5000个克隆。全插入测序克隆的鉴定爪蟾达尼奥基于以下标准之一:针对特征明确、完整的mRNA进行BLAST搜索;起始甲硫氨酸的存在和在至少100nt上的至少95%同一性的比对;或者翻译BLAST搜索来自基因组测序的生物体的蛋白质,该基因组测序既需要起始蛋氨酸,也需要序列与e(电子)-值最多为10-6,除了蛋白质N末端的区域。这个区域是例外的,因为许多远缘同源基因没有很好的保守的N末端,如果不对齐的长度相同,克隆可能是全插入测序的候选基因X.laevis,X.热带,或斑马鱼cDNA和同源蛋白。选择大鼠克隆与描述的相同爪蟾达尼奥,但要求与5′端同源,因为大鼠和小鼠的同源性至少为93%(Makalowski和Boguski 1998年). 通过所述的三种方法之一进行全长测序(Strausberg等人,2002b)精确度小于每50000 nt 1个错误。MGC项目生成的GenBank登录号可在补充材料#4中找到。

核苷酸差异的测定

将所有人类和小鼠MGC克隆的序列与原始生物体的基因组序列对齐(人类为NCBI构建34,小鼠为NCBI-构建31),并记录MGC克隆与基因组序列之间的所有差异。使用了具有典型剪接位点识别的基因组序列上每个克隆的最佳位置。在ORF中,通过使用MGC克隆的蛋白质编码序列,所有差异被确定为同义或非同义。这些差异与dbSNP v.117中记录的已知mRNA变异相对应(http://www.ncbi.nlm.nih.gov/SNP网站/),已识别。最后,人类MGC克隆与P.三角石生成基因组以鉴定祖先等位基因。由于进化距离和黑猩猩基因组连续序列的未完成状态,使用了至少98%一致性的非重叠局部比对平移基因组。

人和小鼠重叠的测定

同源关系取自同源基因资源(http://www.ncbi.nlm.nih.gov/enterz/query.fcgi?db=同源物)它是通过对十几个完整的真核生物基因组中的基因集进行自动比较而构建的。使用分类树指导过程,以渐进的方式进行比较。如果来自同一物种的同源基因彼此之间的距离比外群物种更近,则它们可能包含在同源基因组中。在8%的组中,同源基因组的数量可能包括同源基因以外的同源基因。

作者完整列表

MGC采办项目团队

Daniela S.Gerhard,4卢卡斯·瓦格纳,5Elise A.Feingold,6Carolyn M.Shenmen女士,5Lynette H.Grouse,4格雷格·舒勒,5史蒂文·克莱恩,7苏珊·奥德,8丽贝卡·拉苏利,9彼得·古德,6马克·盖尔,6Allison M.Peck,6Jeffery G.Derge,10David Lipman,5和弗朗西斯·柯林斯6

其他生物信息学和MGC网站

张元熙,5史蒂文·雪莉,5Mike Feolo,5莱昂妮·米斯奎塔,5爱德华多·李,5基里尔·罗特米斯托夫斯基,5苏珊·格林胡特,4卡尔·F·谢弗,11Kenneth H.Buetow,11汤姆·邦纳,17David Haussler,12吉姆·肯特,12马克·迪坎,12特里·福雷,12和迈克尔·布伦特13

cDNA克隆管理

Christa Prange,14Kirsten Schreiber,14和尼科尔·夏皮罗14

mRNA制备

纳拉扬·K·巴特10和拉尔夫·霍普金斯10

cDNA文库制备

弗洛伦斯·谢,15汤姆·德里斯科尔,15M.Bento Soares先生,16玛丽亚·博纳尔多,16Tom L.Casavant,16Todd E.Scheetz,16Michael J.Brown-stein,17特德·B·乌斯丁,17Shiraki Toshiyuki,18皮耶罗·卡尼奇,18玉兰飘,19达伍德·B·杜德库拉,19Minoru S.H.Ko,19川上光一,32铃木裕隆,20Sugano Sumio先生,20C.E.Gruber,21M.R.史密斯,21布莱克·西蒙斯,22特洛伊·摩尔,22理查德·沃特曼,23斯蒂芬·约翰逊,23阮怡君,24贾林伟,24和S.Mathavan24

cDNA全插入测序

贝勒医学院人类基因组测序中心

Preethi H.Gunaratne,25吴家谦,25安吉拉·加西亚,25Stephen W.Hulyk,25Edwin Fuh,25叶渊,25安娜·斯奈德,25卡拉·科维斯,25安妮·霍奇森,25Donna M.Muzny,25约翰·麦克弗森,25和理查德·吉布斯25

系统生物学研究所

杰西卡·法希,26埃林·赫尔顿,26马克·凯特曼,26阿努拉达·马丹,26斯蒂芬妮·罗德里格斯,26艾米·桑切斯,26米歇尔·怀廷,26和Anup Madan26

NIH壁内测序中心

爱丽丝·C·杨,27基思·D·威瑟比,27史蒂文·格兰特,27Peggy N.Kwong,27Charles P.Brinkley,27罗素·L·皮尔逊,27杰拉德·G·布法德,27罗伯特·布莱克斯利,27和埃里克·D·格林27

斯坦福大学人类基因组中心

Mark C.Dickson,28亚历克斯·C·罗德里格斯,28简·格林伍德,28杰里米·施穆茨,28和理查德·迈尔斯28

不列颠哥伦比亚省癌症局基因组科学中心

亚龙S.N.巴特菲尔德,29马拉奇·格里菲斯,29奥比·格里菲斯,29Martin I.Krzywinski,29廖南希,29瑞安·莫林,29戴安娜·帕尔奎斯特,29安卡·彼得雷斯库,29乌苏拉·斯卡尔斯卡,29杜安·斯迈卢斯,29杰夫·M·斯托特,29安吉丽克·施奈奇,29杰奎琳·谢恩,29史蒂文·琼斯,29罗伯特·霍尔特,29阿格尼斯·巴罗斯,29和Marco A.Marra29

华盛顿大学医学院遗传与基因组测序中心系

桑德拉·克利夫顿30

EST测序

Agencourt生物科学公司

凯瑟琳·马考斯基(Kathryn A.Makowski),31斯蒂芬妮·博萨克,31和乔尔·马利克31

致谢

哺乳动物基因收集计划是国家卫生研究院的一项跨机构工作,得到国家卫生研究所内许多独立研究所和中心的财政和科学支持。MGC网站上提供了这些机构的完整列表。特别感谢参与启动该项目的Robert L.Strausberg和Richard D.Klausner。MGC项目得到了外部科学委员会成员的出色指导:芭芭拉·沃尔德、菲利普·夏普、杰弗里·杜克、康妮·塞普科、斯图亚特·谢勒、林肯·斯坦、罗纳德·戴维斯、理查德·克劳斯纳和爱德华·哈洛。XGC项目得到了Aaron Zorn、Ken Cho、Bruce Blumberg、Enrique Amaya、Nancy Papalopulu和Jane Rogers的出色指导。ZGC项目得到了咨询委员会成员的出色指导:布鲁斯·伯伦、简·罗杰斯、威尔·塔尔博特、蒙特·韦斯特菲尔德和莱恩·宗。Judy Mietz(NCI)、Michael Chang(NCRR)、Adam Felsenfeld(NHGRI)、Tyl Hewitt(NICHD)、Deborah Henken(NICHD)、Nancy Freeman(NIDCD)、Rochelle Small(NIDCR)、Danilo Tagle(NIND)和Lynn Schriml(NCBI)也做出了额外贡献。霍华德·雅各布的建议和参与使老鼠计划受益匪浅。D.S.G.感谢Cyndy Izadi在编写这份手稿过程中提供的宝贵帮助。根据合同号N01-C0-12400,该项目全部或部分由国家癌症研究所、国家卫生研究院的联邦资金资助。感谢贝勒医学院人类基因组测序中心的成员对该项目的支持。系统生物学研究所的Rachel Dickhoff和Julia Greene提供了有益的讨论和出色的帮助。NIH壁内测序中心的基思·韦瑟比(Keith Wetherby)、拉塞尔·皮尔森(Russell Pearson)、妮可·迪特里希(Nicole Dietrich)、佩吉·广(Peggy Kwong)和斯蒂芬·格拉尼特(Stephen Granite)提供了卓越的技术和计算帮助。特别感谢斯坦福大学人类基因组中心的许多贡献成员对该项目的支持。感谢不列颠哥伦比亚大学基因组科学中心的以下成员在cDNA测序和有益讨论中作出的宝贵贡献:J.Asano、S.Chan、N.Girn、R.Guin、R.Kustsche、S.Lee、K.MacDonald、C.Mathewson、T.Olson、P.Pandoh、A.-L.Prabhu、L.Spence、J.Stott、S.Taylor、K.Teague、M.Tsai、G。Yang和S.Zuyderduyn。

脚注

[补充材料可在www.genome.org上在线获取。本研究中全长克隆的序列数据已以登录号提交给GenBank。BC000001号-BC077073号.]

文章和出版物位于http://www.genome.org/cgi/doi/10.1101/gr.2596504。

4美国马里兰州贝塞斯达国立卫生研究院国家癌症研究所,邮编:20892。

5美国马里兰州贝塞斯达国家医学图书馆国家生物技术信息中心,邮编:20894。

6美国马里兰州贝塞斯达国立卫生研究院国家人类基因组研究所,邮编:20892。

7美国马里兰州贝塞斯达国立卫生研究院儿童健康与人类发展研究所,邮编:20892。

8美国马里兰州贝塞斯达国立卫生研究院心肺与血液研究所,邮编20892。

9美国马里兰州贝塞斯达国立卫生研究院糖尿病、消化和肾脏疾病研究所,邮编:20892。

10SAIC-Frederick,Inc.,美国马里兰州弗雷德里克国家癌症研究所,邮编:21702。

11美国马里兰州罗克维尔国家癌症研究所生物信息中心,邮编:20852。

17美国马里兰州贝塞斯达国立卫生研究院国家心理健康研究所细胞生物学实验室,邮编:20892。

12加利福尼亚大学生物分子科学与工程中心,美国加利福尼亚州圣克鲁斯圣克鲁斯95064。

13美国密苏里州圣路易斯华盛顿大学计算基因组学实验室,邮编63130。

14I.M.A.G.E.联盟,生物和生物技术研究项目,美国加利福尼亚州利弗莫尔市劳伦斯·利弗莫雷国家实验室,邮编94550。

15BD Biosciences Clontech,美国加利福尼亚州帕洛阿尔托市,邮编94303。

16美国爱荷华州爱荷华市爱荷华卫生保健大学儿科,邮编:52242。

18基因组科学实验室,日本柴达木351-0198,RIKEN基因组科学实验室。

19美国马里兰州巴尔的摩NIH国家老龄研究所,邮编:21224。

32日本三岛411-8540国立遗传学研究所。

20东京大学前沿科学研究生院医学基因组科学系,日本东京108-8639。

21Express Genomics,美国马里兰州弗雷德里克,邮编:21701。

22Open Biosystems,美国阿拉巴马州亨茨维尔,邮编:35806。

23美国密苏里州圣路易斯华盛顿大学医学院遗传学系,邮编63130。

24新加坡基因组研究所,新加坡138672。

25贝勒医学院人类基因组测序中心,贝勒医学学院,美国德克萨斯州休斯顿,邮编77030。

现住址:美国爱荷华州爱荷华市爱荷华大学医院和诊所,IA 52242。

26系统生物学研究所,美国华盛顿州西雅图,邮编98103。

27美国马里兰州盖瑟斯堡NIH壁内测序中心,邮编:20877。

28斯坦福大学医学院遗传学系斯坦福人类基因组中心,美国加利福尼亚州斯坦福94305。

29不列颠哥伦比亚大学基因组科学中心,BC癌症机构,加拿大温哥华,V5Z 4S6。

30美国密苏里州圣路易斯华盛顿大学医学院遗传与基因组测序中心系,邮编63130。

31美国马萨诸塞州贝弗利Agencourt生物科学公司,邮编:01915。

工具书类

  • Adams,M.D.,Kelley,J.M.,Gocayne,J.D.,Dubnick,M.,Polymeropoulos,M.H.,Xiao,H.,Merril,C.R.,Wu,A.,Olde,B.,Moreno,R.F.等人,1991年。互补DNA测序:表达序列标签和人类基因组计划。科学类 252:1651-1656年。[公共医学][谷歌学者]
  • Anant,S.、Blanc,V.和Davidson,N.O.2003年。与哺乳动物载脂蛋白B mRNA的C到U编辑相关的分子调控、进化和功能适应。掠夺。核酸研究分子生物学。 75:1-41. [公共医学][谷歌学者]
  • Bamshad,M.和Wooding,S.P.2003。人类基因组中自然选择的特征。Nat.Rev.基因。 4:99-111. [公共医学][谷歌学者]
  • Baross,An,Butterfield,T.S.N.,Coughlin,S.M.,Zeng,T.,Griffith,M.,Graffith,O.L.,Petrescu,A.S.,Smailus,D.E.,Khattra,J.,McDonald,H.L.等人,2004年。全ORF人cDNA克隆的系统恢复和分析。基因组研究。(印刷中)。[PMC免费文章][公共医学]
  • Boguski,M.S.,Lowe,T.M.和Tolstoshev,C.M.,1993年。dbEST-“expressed sequence tags”的数据库自然遗传学。 4:332-333. [公共医学][谷歌学者]
  • Brentani,H.、Caballero,O.L.、Camargo,A.A.、da Silva,A.M.、da Sirva Jr.,W.A.、Dias Neto,E.、Grivet,M.、Gruber,A.、Guimares,P.E.、Hide,W.等人,2003年。通过使用表达序列标签生成和利用人类转录组的癌症导向表示。程序。国家。阿卡德。科学。 100:13418-13423.[PMC免费文章][公共医学][谷歌学者]
  • Gibbs,R.A.、Weinstock,G.M.、Metzker,M.L.、Muzny,D.M.、Sodergren,E.J.、Scherer,S.、Scott,G.、Steffen,D.、Worley,K.C.、Burch,P.E.等人,2004年。Brown Norway大鼠的基因组序列揭示了哺乳动物的进化。自然 428:493-521. [公共医学][谷歌学者]
  • Kent,W.J.、Sugnet,C.W.、Furey,T.S.、Roskin,K.M.、Pringle,T.H.、Zahler,A.M.和Haussler,D.,2002年。UCSC的人类基因组浏览器。基因组研究。 12:996-1006.[PMC免费文章][公共医学][谷歌学者]
  • Klein,S.L.、Strausberg,R.L.、Wagner,L.、Pontius,J.、Clifton,S.W.和Richardson,P.,2002年。基因和基因组工具爪蟾研究:NIH爪蟾主动权。开发动态。 225:384-391. [公共医学][谷歌学者]
  • Lander,E.S.、Linton,L.M.、Birren,B.、Nusbaum,C.、Zody,M.C.、Baldwin,J.、Devon,K.、Dewar,K.,Doyle,M.、FitzHugh,W.等人,2001年。人类基因组的初步测序和分析。自然 409:860-921. [公共医学][谷歌学者]
  • Lennon,G.、Auffray,C.、Polymeropoulos,M.和Soares,M.B.,1996年。I.M.A.G.E.联盟:基因组及其表达的综合分子分析。基因组学 33:151-152. [公共医学][谷歌学者]
  • Makalowski,W.和Boguski,M.S.1998年。小鼠和大鼠基因中同义和非同义替换距离相关。《分子进化杂志》。 47:119-121页。[公共医学][谷歌学者]
  • Ohara,O.、Nagase,T.、Ishikawa,K.、Nakajima,D.、Ohira,M.、Seki,N.和Nomura,N.1997年。适用于分析编码相对较大蛋白质的cDNA克隆的人脑cDNA文库的构建和表征。DNA研究。 4:53-59. [公共医学][谷歌学者]
  • Okazaki,Y.,Furuno,M.,Kasukawa,T.,Adachi,J.,Bono,H.,Kondo,S.,Nikaido,I.,Osato,N.,Saito,R.,Suzuki,H.等人,2002年。基于60770条全长cDNA功能注释的小鼠转录组分析。自然 420:563-573. [公共医学][谷歌学者]
  • 大田T.、铃木Y.、西川T.、大冢T.、杉山T.、艾丽R.、瓦卡马祖A.、林石K.、佐藤H.、长井K.等人,2004年。21243条全长人类cDNA的完整测序和表征。自然遗传学。 36:40-45. [公共医学][谷歌学者]
  • 帕克斯,2000年。听觉神经元的AMPA受体。倾听。物件。 147:77-91. [公共医学][谷歌学者]
  • Pontius,J.U.、Wagner,L.和Schuler,G.D.2002年。第3部分。查询和链接数据,21。UniGene:转录组的统一视图。NCBI手册(互联网;J.McEntyre编辑),马里兰州贝塞斯达国家医学图书馆。
  • Pruitt,K.D.和Maglott,D.R.2001年。RefSeq和LocusLink:NCBI以基因为中心的资源。核酸研究。 29:137-140.[PMC免费文章][公共医学][谷歌学者]
  • Pruitt,K.D.、Katz,K.S.、Sicotte,H.和Maglott,D.R.2000。介绍RefSeq和LocusLink:NCBI的人类基因组资源。趋势Genet。 16:44-47. [公共医学][谷歌学者]
  • K.D.普鲁伊特、T.塔图索娃和D.R.马格洛特,2003年。NCBI参考序列项目:更新和当前状态。核酸研究。 31:34-37.[PMC免费文章][公共医学][谷歌学者]
  • Rasooly,R.S.、Henken,D.、Freeman,N.、Tompkins,L.、Badman,D.、Briggs,J.和Hewitt,A.T.,2003年。斑马鱼研究的遗传和基因组工具:NIH斑马鱼倡议。开发动态。 228:490-496. [公共医学][谷歌学者]
  • Schaefer,C.、Grouse,L.、Buetow,K.和Strausberg,R.L.,2001年。一个新的癌症基因组解剖项目社区网络资源。癌症杂志。 7:52-60. [公共医学][谷歌学者]
  • Schaub,M.和Keller,W.,2002年。通过腺苷脱氨酶编辑RNA产生RNA和蛋白质多样性。生物芯片 84:791-803中描述。[公共医学][谷歌学者]
  • Sherry,S.T.、Ward,M.H.、Kholodov,M.、Baker,J.、Phan,L.、Smigielski,E.M.和Sirotkin,K.,2001年。dbSNP:NCBI遗传变异数据库。核酸研究。 29:308-311.[PMC免费文章][公共医学][谷歌学者]
  • Strausberg,R.L.,2001年。癌症基因组解剖学项目:阅读癌症分子特征的新资源。《病理学杂志》。 195:31-40. [公共医学][谷歌学者]
  • Strausberg,R.L.、Feingold,E.A.、Klausner,R.D.和Collins,F.S.1999。哺乳动物基因收集。科学类 286:455-457. [公共医学][谷歌学者]
  • Strausberg,R.L.、Buetow,K.H.、Greenhut,S.F.、Grouse,L.H.和Schaefer,C.F.2002a。癌症基因组解剖项目:揭示癌症分子特征的在线资源。癌症投资。 20:1038-1050. [公共医学][谷歌学者]
  • Strausberg,R.L.,Feingold,E.A.,Grouse,L.H.,Derge,J.G.,Klausner,R.D.,Collins,F.S.,Wagner,L.,Shenmen,C.M.,Schuler,G.D.,Altschul,S.F.等人,2002b。15000多条人类和小鼠全长cDNA序列的生成和初步分析。程序。国家。阿卡德。科学。 99:16899-16903.[PMC免费文章][公共医学][谷歌学者]
  • Venter,J.、Adams,M.D.、Myers,E.W.、Li,P.W.、Mural,R.J.、Sutton,G.G.、Smith,H.O.、Yandell,M.、Evans,C.A.、Holt,R.A.等人,2001年。人类基因组的序列。科学类 291:1304-1351. [公共医学][谷歌学者]
  • Waterston,R.H.、Lindblad-Toh,K.、Birney,E.、Rogers,J.、Abril,J.F.、Agarwal,P.、Agalwala,R.、Ainscow,R.,Alexandersson,M.、An,P.等人,2002年。小鼠基因组的初步测序和比较分析。自然 420:520-562. [公共医学][谷歌学者]
  • Wiemann,S.、Weil,B.、Welleruther,R.、Gassenhuber,J.、Glassl,S.,Ansorge,W.、Bocher,M.、Blocker,H.、Bauersachs,S.和Blum,H.等人,2001年。人类基因和蛋白质目录:对500个新的编码人类cDNA的完整蛋白质进行测序和分析。基因组研究。 11:422-435中。[PMC免费文章][公共医学][谷歌学者]
  • 威廉姆森,A.R.1999。默克基因指数项目。药物研发。今天 4:115-122. [公共医学][谷歌学者]
  • Wu,J.Q.,Garcia,A.M.,Hulyk,S.,Sneed,A.,Kowis,C.,Yuan,D.,McPherson,J.D.,Gunaratne,P.H.,and Gibbs,R.A.2004年。大规模RT-PCR回收全长cDNA克隆。生物技术 36:698-700. [公共医学][谷歌学者]

文章来自基因组研究由以下人员提供冷泉港实验室出版社