跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
基因组研究。2001年3月;11(3): 422–435.
数字对象标识:10.1101/克154701
预防性维修识别码:PMC311072型
PMID:11230166

人类基因和蛋白质目录:500个编码人类cDNA的新全蛋白的测序与分析

摘要

随着完整的人类基因组序列被解开将转向基因鉴定和功能分析基因产品。生成一组cDNA,包括序列和物理克隆,包含完整且无中断的蛋白质所有人类基因的编码区将提供不可或缺的工具对蛋白质功能进行系统全面的分析最终了解人类的分子基础500个新的人类cDNA的测序和分析完整的蛋白质编码框架。功能类别的分配是可能有52%(259)的编码蛋白,剩下的部分与已知蛋白质没有相似之处。通过对齐cDNA带有21号和22号染色体成品序列的序列we确定了一些基因,其中一个基因在基因组序列分析或被错误预测。其中三个基因似乎存在于多个拷贝中。我们得出结论,全长cDNA测序仍然至关重要用于准确鉴定基因。这套500个新的cDNA,还有1000个已知转录物的全编码cDNA已识别,加起来cDNA表示覆盖了2%–5%人类基因。因此,我们为生成基因目录,包括全编码cDNA序列和克隆,它应该是免费提供的,并将成为宝贵的用于详细功能研究的工具。

[序列数据本文中描述的已提交给EMBL数据库表中给出的加入编号表22.]

表2

的功能分类个人cDNA

单元格周期

cDNA数据最佳数据库命中组织特异性



克隆身份证件加入编号。轮廓尺寸(bp)ORF大小(aa)染色体定位描述最好的数据库加入不。P(P)-价值基因家族组织分数#无害环境技术












DKFZp434A0530丹麦克朗AL136842号2768254第22.1页基因:Borg2;产品:“含CRIB的BORG2蛋白”;智人含CRIB的BORG2蛋白(BORG2)mRNA,完成光盘。欧洲工商管理学院AF164118型2.1e-99页
DKFZp434A1135型AL122068号30106702013年第5季度人类智者Rad 17样蛋白(RAD17)mRNA,完整光盘。欧洲工商管理学院AF076838型0
DKFZp434A1315型电话1367551848387第1季度21.2产品:“F1N21.3”;BAC F1N21的序列来自拟南芥塔利亚纳1号染色体,完整顺序。欧洲工商管理学院AC002130型5.7e-22日
DKFZp434B174型AL80146型154639815季度21.3人类智者细胞周期蛋白B2的完整mRNA光盘。欧洲工商管理学院AB020981号0耳朵6.386
DKFZp434G0514号约1367501503379第16.2页细胞生长调节核仁蛋白LYAR-小鼠个人识别码A40683型2.7e-144页
DKFZp434H152型AL136840号4619855第10页,共13页基因:cdc23; “SPBC1347.10”;产品:“细胞分裂周期蛋白质23“;S.pombe公司第二染色体粘粒1347条。欧洲工商管理学院AL035548号7e-21日
DKFZp434J037号AL136891号34436281季度32.1基因:KIAA0537;产品:“KIAA0537蛋白”;人类智者KIAA0537蛋白的mRNA,完整光盘。欧洲工商管理学院AB011109号2.6电子-148蛋白激酶
DKFZp434N0250号AL117525号1584462第1季度43至第44季度产品:“AKT3蛋白激酶”;智人AKT3蛋白激酶mRNA,完整光盘。欧洲工商管理学院非洲1357942.1电子249蛋白激酶
DKFZp434P107号AL136894号2380422第9季度34XPMC2公司蛋白质-非洲爪蛙个人识别码53818美元5.9e-10条
DKFZp434P2235号AL136860型20275492012年第17季度致癌基因1(tre-2基因座)(克隆210)-人类个人识别码S22155型5.5e-226号睾丸5.8112
DKFZp564A0723号AL80116型25247126季度14.3季度16.1基因:ORC3L(ORC3L); 产品:“原产地识别复合物ORC3L亚单位“;智人原产地识别复合体ORC3L完整亚单位(ORC3L)mRNA光盘。欧洲工商管理学院AF135044型0
DKFZp564E2182型AL50261型23672046季度22.1季度22.33人类智者CGI-98蛋白mRNA,完整光盘。欧洲工商管理学院AF151856型1.2e-265
DKFZp564G1816丹麦克朗AL136599号4775984第3季度12.2至第12.3季度基因:KIAA0797;产品:“KIAA0797蛋白”;人类智者KIAA0797蛋白的mRNA,部分光盘。欧洲工商管理学院AB018340年2.1e-50岁
DKFZp564K142型AL136636号224133517第11.2页大鼠褐家鼠植入相关蛋白(IAG2)mRNA,部分光盘。欧洲工商管理学院AF008554型9.4e-184条
DKFZp564L0562铝8009094118521年第4季度人类智者APC10的mRNA,完整光盘。欧洲工商管理学院AB012109号4.4e-178
DKFZp564N0582号AL50264型1646144第11.1页人类智者DRR1(DRR1)mRNA,完整光盘。欧洲工商管理学院AF089853型05.1650
DKFZp564N0582号AL50264型1646144第11.1页人类智者DRR1(DRR1)mRNA,完整光盘。欧洲工商管理学院AF089853型0视网膜5.457
DKFZp566G0346号AL136719号45032629季度22.1人类智者自旋蛋白mRNA,完整光盘。欧洲工商管理学院AF106682型0

这些cDNA被分为十种功能基于序列的类别(参见统计-分类)相似性数据,并进行了相应的分组。cDNA克隆为可从德国基因组项目资源中心使用第一列中显示的克隆ID。各自的顺序是可在加入时的EMBL/GenBank/DDBJ数据库中获取第二列中显示的数字。第三列提供了大小第四列显示了编码/预测的蛋白质。的染色体位置第五栏显示了各自的基因。第6-8列描述相似性最高的数据库点击数:最佳命中率(以及发现该命中率的数据库),描述最受欢迎的P(P)-此命中值在中提供这三列分别是。相似性预测基于BLASTX和BLASTN2分析。选择“代表 = 最佳”命中率使用以下方法标准:(1)判断BLASTX命中率高于BLASTN命中率。(2) 在最佳BLASTX(仅与TREMBL数据库一起)命中的案例根据最佳的相同核苷酸序列条目计算在BLASTN分析中命中,则给出BLASTN命中,并且(3)仅当没有其他可用的点击,给出了基因组序列条目。 

如果可以将蛋白质分类为主要基因家族(基于相似性信息),各个系列如所示第9列。根据EST信息的可用性,组织特异性转录本的表达已在第10至13列中描述,显示组织、任意分数(参见WWW2001)和从特定组织中测序的EST(分析时),分别是。 

本节摘自完整表格,可用在线时间:http://www.dkfz-heidelberg.de/abt0840/GCC

最近的历史见证了人类基因组序列的测定(Dunham等人,1999年;Hattori等人,2000年). 虽然整个基因组序列在不久的将来完全解开(Collins等人,1998年),的基因的鉴定和基因结构的破译将延长一段时间,cDNA序列将继续这次冒险的宝贵工具,特别是考虑到其他选择拼接。主要重点将转移到功能分析最终了解人类生命的分子基础。目前的估计值介于29000之间和>70000个基因构成了人类基因组(Fields等人,1994年;尤因和格林2000;Liang等人。2000;Roest Crollius等人,2000年). 然而,到目前为止只有大约11000人cDNA序列已经存放在公共数据库中,这些数据库是应该包含完整的蛋白质编码开放阅读框架(ORF)。大多数相应的cDNA克隆很可能不是可访问。生成表示所有因此,本应自由获取的人类基因被认为具有极高的影响力(舒勒1997;普鲁特等人。2000). 这将允许建立克隆目录提供蛋白质组学时代所需的资源蛋白质在通路中的作用和可能的疾病关系被破译了。

直到最近,长cDNA测序项目在卡祖萨研究所(野村等,1994年;长濑等人,2000年)联合体是唯一一个系统化全长cDNA测序项目新序列信息的显著输出。启动新的大规模cDNA测序项目最近宣布由国家卫生研究所协调(Strausberg等人。1999). 我们于1997年成立了一个cDNA联盟,作为德国的一部分基因组计划,旨在对完整的cDNA水平上新人类转录物的序列。

在这里,我们报告了500个新的人类cDNA的序列和分析都包含完整的蛋白质编码区。这些cDNA构成了30000个克隆中最有价值的精华EST测序和3630个完全测序的cDNA。超过1000个cDNA涵盖已知转录本的完整编码序列已在EST序列克隆集中标识。制作所有克隆可通过德国基因组项目资源中心获得(RZPD)。

结果

库和克隆

为了鉴定和测序新的人类cDNA,我们有5′-EST测序>30000个独立cDNA克隆。生物信息学评价这些序列(图。(图1)1)导致已知蛋白质全编码克隆的鉴定(>1000),以及缺乏数据库点击的cDNA克隆,这是全长测序的潜在靶点。可能是新的cDNA进行了3′-EST测序,并再次进行新颖性分析。超出到目前为止,已有3630个cDNA的初始克隆被完全测序,总计8.8兆字节。这里描述的序列子集包括500个新人类代表原始成绩单。还有其他全序列cDNA主要代表其他地方尚未完全测序的基因;然而,克隆不太可能含有完整的蛋白质各自转录本的编码区域,或它们包含反转期间可能引入的帧移位突变克隆过程中的转录。因此,这些克隆只是功能分析的降低值。报告的碱基数量500个完整编码的cDNA的长度为1264620bp;平均插入大小克隆长度为2529bp。这些克隆来自五个不同的cDNA在不同数量的克隆中取样的库(表(表1)1)最大化鉴定新的cDNA。

保存图片、插图等的外部文件。对象名称为7f1_F1TT.jpg

德国cDNA中的克隆、序列和信息流联合体。5′EST序列由384孔测微板的克隆及其在公众中的点击分析数据库。具有新序列的克隆经3′-EST测序再次对这些EST进行新颖性分析。未标记的克隆转录本被报告给测序仪,测序仪随后进行cDNA的全长测序。对最终序列进行了分析使用生物信息工具进行综合评估手动操作。克隆为功能分析项目提供了克隆资源产生的优势。

表1

cDNA的文库分布克隆已分析

RZPD公司库标识符组织克隆数量%第页,共页报告的克隆平均插入尺寸(bp)平均ORF尺寸(aa)






DKFZp434号Testis公司20440.82766562
DKFZp564号胎儿14228.42049354
DKFZp566号胎儿438.62210328
丹麦克朗FZp586子宫50102506492
DKFZp761号扁桃形结构(大脑)6112.23055506

计算出编码蛋白的平均大小为470个氨基酸残留物,等于之前报告的数量大约1200个基因(Makałowski和Boguski 1998). 然而,有一个66到1805个残基之间的差异很大。cDNA标识符各自的序列登录号(EMBL/GenBank/DDBJ)、cDNA大小、,ORF的长度、染色体位置和功能细节表中对单个cDNA进行了分解表2。2。这张桌子是全文可在http://www.dkfz-heidelberg.de/abt0840/GCC.

5′-和3′-未翻译的特征区域

5′-非翻译区(UTR)平均为148nt,即与之前报告的范围相同(Pesole等人,1996年)但是比UTRdb中计算的数字(215 nt)短得多(Pesole等人,2000年). 大小变化很大,可达>800吨(例如DKFZp761F182)。即使如此长的5英尺UTR与平移起始的扫描模型一致(科扎克1999)因为在这段序列中没有AUG密码子。帧内启动子ATG上游的终止密码子占56.4%(282)个cDNA。该数值与观察到的数值一致从寡核苷酸帽连接文库中分离的cDNA(铃木等2000年),其中cDNA被选择包含极端各成绩单的5′端。中的总GC含量5′-UTR(56.3%)明显高于编码区(52.6%)和3′-UTR(45.7%)。这是与CpG岛经常延伸至转录序列(十字架与鸟1995)而存在于3′-UTR通常富含AU(Xu等人,1997年).

3′-UTR的平均大小为926 nt[不包括poly(A)tail],比388 nt和820 nt大得多报告人Makałowski和Boguski(1998)Pesole等人(1996年),分别是。这种差异可能源于较长的平均值此处描述的cDNA的大小与在之前的研究。与5′-UTR一样,存在很大的可变性其大小为3′-UTR。翻译终止密码子TAA可能是多聚腺苷化信号的一部分(例如克隆中DKFZp564F2272),而在其他cDNA中,发现3′-UTR为>4000个核苷酸(例如DKFZp486C1218)。

我们筛选cDNA中是否存在重复结构序列。这个重复家庭是最常见的在cDNA中;7.6%(38)的cDNA插入物携带这种类型的重复。L1重复出现在两个cDNA中;一个cDNA同时含有LTR2和重复(DKFZp761G18121)。重复结构均位于各自的3′-UTRcDNA。然而,在许多其他cDNA中,我们也在推测为5′-UTR。所有这些克隆结果都不是经进一步分析,完全拼接和/或部分拼接,并且内含子序列位于5′端。因此,我们认为转录物的5′-UTR中存在重复结构罕见。5′EST序列缺乏重复结构作为cDNA克隆选择过程中的标准旨在进行全插入测序以进一步增加项目的影响。

功能分类

我们根据同源性将cDNA分为功能类其编码的蛋白质与已知蛋白质(表(表22和图。图2):2):细胞周期、分化和发育、膜蛋白、代谢、核酸管理,蛋白质管理、信号和通信、结构和运动、运输和交通,以及未知。中的序列注释数据库有时会产生误导蛋白质不能简单地通过与最高相似性是最重要的。集成需要从几个搜索算法中得出相关的结果结论。例如,对推导的蛋白质序列进行了评估特定(蛋白质)序列模式的存在特定蛋白质的功能/活性[例如,DFG/DWG和据报道,蛋白激酶中必须存在aPE基序汉克斯等(1988)]. 这种功能分类的结果是表中给出表2。2.最大类由未知蛋白质组成功能(202个cDNA,41%)。考虑到另外39个cDNA(8%)唯一可能的预测是蛋白质将包含假定的跨膜结构域,没有功能可以推断出总共241个cDNA(48%)蛋白质。但即使可以进行功能预测例如,蛋白激酶的鉴定,两者都不能提供关于其底物或其所处途径的信息卷入的。综合功能分析应具体表示一组cDNA,编码与疾病,如推测的GTP结合蛋白、离子通道和编码与癌基因高度相似的蛋白质的cDNA。

保存图片、插图等的外部文件。对象名称为7f2_F1TT.jpg

cDNA编码蛋白质的功能分类。推导出的根据序列将蛋白质分为10个功能类别与已知功能的蛋白质相似。500人的分数显示了归入各自类别的cDNA。

我们进一步分析了与功能相关的cDNA的存在序列基序也可以识别基因家族的新成员。我们鉴定出41个潜在的亮氨酸拉链蛋白(斯特鲁尔1989)第11页具有WD结构域的蛋白质(Neer等人,1994年),11个预测蛋白锌指畴(Parraga等人,1988年),7种潜在蛋白激酶,和5种RNA解旋酶。表中显示了各自的克隆表2(列2(第9列)。两个cDNA(DKFZp586I021和DKFZp 434O1826)均含有WD-domain和亮氨酸拉链。预测了锌指结构域另外还有前cDNA的推导蛋白。

替代拼接

我们发现39个(7.8%)cDNA代表假定的剪接变异体已知的成绩单。这个数字可能代表较低的交替拼接的转录部分的末尾任何代表已知完整转录物的cDNA排除在进一步测序和替代拼接形式之外因此在我们的集合中代表性不足。我们发现ORF与附加外显子(如DKFZp761B192),跳过外显子。,DKFZp564A032)和替代外显子,包括一个包含翻译起始密码子并导致不同的N末端推导出的肽(例如DKFZp434J154)。百分比选择性剪接cDNA在胎儿中似乎略高大脑中,40%的选择性剪接cDNA来自胎儿而在所有分析的cDNA中,只有28%来自大脑组织。这一发现与以下报告一致:萨特克利夫和米尔纳(1988)Hanke等人(1999).内含子序列的存在在公共数据库中的许多cDNA序列中,然而,可能会导致对替代范围的高估体内发生的剪接。实验证据将因此需要确认假定的替代拼接形式。

cDNA在UniGene数据中的表达设置

根据人类基因的真实数量,大约60%-90%的人有已通过>2000000 cDNA的部分测序鉴定(EST测序)。重叠的EST序列已经聚类到将大量EST分解为全面的集合应该由具有一种表示形式的非冗余数据集组成(聚类)用于每个基因。最广泛接受的聚类数据集是UniGene(Schuler等人,1996年)NCBI的资源(http://www.ncbi.nlm.nih.gov/UniGene/). 此数据集当前包含主要是部分序列的>90000个簇。共识序列这些集群的网址:http://www.rzpd.de.调查UniGene数据中报告的新cDNA的表示设置并评估可以我们将全长序列与UniGene数据库。中使用的UniGene(Build 105)版本分析包括92931个簇和10501个簇包含已知基因。

总共有626个UniGene集群与500个集群中的472个匹配全编码cDNA序列。大多数cDNA(34268%)是由一个UniGene集群表示。另外130(26%)个cDNA是由284个单独的UniGene簇表示(图。(图3)。). 因此,许多UniGene集群可以通过全长cDNA序列连接。三个例子图中给出了与一个cDNA连接的UniGene簇图4。4。我们分析了被置于本文报道的cDNA内部,发现大多数组成这些集群的EST克隆起源于内部启动事件(主要在回忆内含子序列中),而不是来自选择性聚腺苷化。命中的640个群集的数量472个cDNA序列表明UniGene。一般来说,人类转录本的平均大小估计与cDNA的平均大小在同一范围内在这里报告(通过对已经与标记的寡核苷酸dT探针杂交;野村证券。comm.),我们的发现应该具有代表性。然而,真实数字UniGene中代表的基因将进一步浓缩为UniGene簇的部分为单核(~39%),即仅由一个cDNA组成的簇,其中几个最终将结果是人工制品。因此,我们估计UniGene中代表的独立基因最多为50000个。

保存图片、插图等的外部文件。对象名称为7f3_F1TT.jpg

cDNA在UniGene数据集中的表示(Build 105)。每个cDNA与UniGene数据集一致,以确定EST的数量用给定cDNA点击/连接的簇。分数和cDNA的总数(括号中)是针对不同的被击中的簇数。

保存图片、插图等的外部文件。对象名称为7f4_L1TT.jpg

当与cDNA序列对齐时,三个UniGene簇被连接DKFZp434B0435。刻度顶部的条表示带有打开的阅读框画成一个打开的盒子。刻度下方的条形图表示三个UniGene簇的位置和大小(以bp为单位)由cDNA序列连接的。加入编号给出了各个UniGene簇的代表性序列低于酒吧。

只有6%(28个cDNA)在UniGene数据库中没有命中(截止,50 bp内序列一致性>95%)。低数量的没有UniGene匹配的新cDNA可能意味着>90%所有人类基因中的所有基因都已在该数据库中表示。然而,我们宁愿假设有未知数量的基因逃逸了克隆和/或鉴定各自的转录本可能仅以极低的水平或非常专业的方式表达细胞类型或分化阶段。适当选择组织或即使是单细胞类型的cDNA文库生产也至关重要检测和克隆这些罕见表达基因的问题抄本。例如,胎儿大脑,虽然在表达式在EST项目中得到了如此深入的采样[尤其是IMAGE 1NIB库(Soares等人,1994年)]也存在于全长cDNA中排序(长濑等人,2000年)新奇率(142个cDNA中的3个,2%)在该组织中相当低。相比之下,睾丸目前似乎有更大的潜力识别尚未完成的抄本EST覆盖(204个cDNA中的19个,占9%)。

组织特异性表达式

为了分析可能的组织特异性表达,我们将cDNA序列与EST数据库dbEST进行比对。无害环境技术来源于混合组织和来源不明的组织排除。每个cDNA都得到一个分数,表示组织的程度特异性。得分越高特定转录本的表达应限于组织。一份普遍表达的成绩单得分为一个。表中仅列出得分为5分或更高的cDNA表2(列2(第10-12列)。总共出现了22个转录物的表达仅限于一个与我们的cDNA匹配的组织和EST(表(表2)。2). 六个脑源cDNA仅与EST匹配源自脑组织。大多数cDNA编码的蛋白质参与细胞周期或信号通路例如,类stathmin蛋白和类似于钙调素结合蛋白。六个cDNA中只有一个编码蛋白质未知函数的。另外15个睾丸cDNA仅与EST发生碰撞来自睾丸/男性生殖道。虽然可以预测三种编码蛋白(一种预测的精子鞭毛蛋白,一种推测的神经递质转运体和可能的核孔蛋白质),其他12个cDNA编码功能未知的蛋白质。这个预测只有子宫cDNA在子宫/卵巢中特异表达编码假定的伴侣相关蛋白酶,这可能表明这种蛋白质可能参与了卵子的分化或胚胎。几种睾丸衍生转录物的表达在计算这些cDNA的得分时,似乎非常有选择性与其他cDNA和组织(表(表2)。2). 这也符合以下观察结果:计算未命中EST的cDNA的比率在睾丸中最高库(见上文)。

人类21号染色体的cDNA定位22

通过将cDNA与基因组序列我们下载了前两个的序列人类21号染色体的完全测序(Hattori等人,2000年)和22(Dunham等人,1999年)并将它们与那些定位到各自的染色体(表(表3)。). 克隆相应cDNA的标识符以及插入物和ORF大小为在前三列中提供。对于ORF尺寸(第3列)首先给出氨基酸残基的预测数量,然后是从cDNA序列推导出的残基数;破折号(-)是插入未预测的蛋白质。预测的第四列给出了主要基于STS数据的本地化,然后是基因的精确定位(bp as中的基因位点在已发表的21号染色体序列中定义,http://hgp.gsc.riken.go.jp和22号染色体,http://www.sanger.ac.uk/cgi-bin/cwa/22cwa.pl). 加入编号覆盖基因的基因组克隆,预测的标识符转录本(如果可用;破折号表示非预测基因)已识别外显子数量中预测外显子的数量(基于在cDNA序列上),以及被命中的UniGene簇的数量第6-9列中给出了各自的cDNA。

表3

人类21号染色体cDNA定位的基因结构分析22

克隆D类轮廓尺寸(bp)ORF大小(aa)预测染色体位置染色体相对于已发表基因组序列的位置加入基因组序列号进入的注释预测转录本预测外显子/真外显子数量不。UniGene集群的









染色体21

DKFZp434N06501095−/18621个2914115–2890884HS21C104N型第0页,共4页1
DKFZp566A221号568108/1081012684965–12674544AL023494号M37104型4/42
M37104型









染色体22

DKFZp434B194型2876838/83722季度12.110481146–10460626Z95115号bK1048E9.C22.2型15/15
DKFZp434F0116号2377−/47822季度12.3–13.123317974–23333542AL022312N号0/72
26764656–26674550AL049758号0/102
DKFZp434H1130型3176−/44522季度13.2–13.33季度
DKFZp434N035号1978−/16022问题11.24629050–4632539AC007308N型0/82
第000557页
5394302–5397804AP000557号C22.1段(1/8)
DKFZp434P211号5024−/42822问题11.22699820–2701392AC008132型/81030/84
2850458–2713469AC007326号/8103
2871777–2870723AC007326号
4617790–4619361AC007050型
5055694–5042046AC002472型
5210585–5224231AP000552号
6560307–6558737D87013号/D8700号
8220566–8234258AP000354号
8627661–8626091邮编000356
DKFZp564B212型1915−/37722季度12.110558798–10494469Z95115号bK1048E9.C22.2型7/71
bK445C9.C22.7号
bK445C9.C22.4型
(bK445C9.C22.3)
DKFZp564F19781129127/1262012年第22季度–2013年22474505–22491683AL021707号dJ508I15.C22.1型5/51
DKFZp564G1978号1662422/42322季度13.1–13.226895167–26845385电话022476dJ323M22.C22.2.a型11/112
DKFZp564K2478号1874−/3722011年第22季度2498885–2525670AC008079型0/112
[2612231–2611609]
[2716855–2717477]
(4308401–5120712]
[5227647–5228269]
DKFZp586H2219丹麦克朗1971476/47522季度11.2季度29510375–29682479Z95331号Z93784号bK941F9.C22.2型12/121
Z84478号
DKFZp586K09223477639/61722季度12.215147736–15179066AC002073型AC002073型.C22.1c型2015年6月2
DKFZp761I141号3071588/61722季度13.31–13.3325023143–25048485AL035658号dJ756G23.3型16/164
DKFZp761O17121号2690−/21222季度13.3128333768–28331093dJ1033E15.1型0/21

然而,13个新的cDNA映射到22号染色体,只有两个cDNA映射到21号染色体。这可能反映了22号染色体的基因含量较高(554号染色体与225号染色体相比预测21号染色体上的基因)或是由于先前已知的基因百分比较高21号染色体(这条染色体早就被仔细研究过了因为它的临床意义,例如在唐氏综合征中)。第三个解释可能是染色体位置和已提出的单个基因的全球表达水平通过尤因与格林(2000),基因映射到21号染色体与基因相比,一般可能在较低水平上表达位于22号染色体上。

通过结合基因组和cDNA数据所有15个cDNA都可以被测定。尽管所有cDNA都被UniGene集群,从基因组序列。这些基因预测大多是准确的,识别大多数或所有外显子。氨基酸的数量在大多数情况下,残数与推导出的数字仅略有不同来自cDNA序列。然而,一个cDNA(DKFZp564B212)合并了三个仅预测一个基因的转录本并重叠另一个基因(bK445C9.C22.3)预测在相反的链上。总共有7个基因完全无法预测,其中一些编码大型ORF,由几个外显子组成。

不仅基于基因组序列的绘图信息给出了单个基因的精确定位,但也提供了从邻近基因看这些基因的上下文信息(例如,DKFZp434B194和DKFZp 564B212仅相距13 kb)可能存在额外的基因拷贝。例如cDNA DKFZp434N035和DKFZp 434P211似乎存在于22号染色体的2个和9个拷贝高度相似(序列>85%核苷酸水平的一致性)。DKFZp434P211可以表明一簇高度相似的POM121相关基因(图。(图5),5)其中第一个由川崎等人(1997)两份副本(2850458和2871777)似乎是古老且不活跃,因为它们不完整,包含多个框架与cDNA的序列同源性仅为89%和87%第1外显子序列。其他副本非常相似(核苷酸水平一致性>95%)。进一步的实验将是有必要调查有多少基因拷贝被表达,以及解释在三个基因复制(和在cDNA中),但在其他四个基因拷贝,可能导致一个扩展的蛋白质产品。EST证据可用于两种类型的成绩单基因(例如,拷贝5055694和8220566)。

保存图片、插图等的外部文件。对象名称为7f5_L1TT.jpg

cDNA DKFZp434P211与POM121-related 1的多序列比对(加入编号。天87002)22号染色体的序列显示存在POM121相关基因簇。个体基因组序列以第一个外显子相对于cDNA:开放阅读框(ORF)是根据cDNA和POM121相关1的预测蛋白。基因位于22号染色体的正负链用+和表示分别为−。DKFZp434P211的cDNA序列为参考文献;其他序列中的相同残基用点,印出偏离共识的残留物。星号(*)指示终止密码子。基因组序列2850458和2871777位于斜体字,因为这些副本与其他副本相差提前停止或帧移动和大插入,以及可能没有表达。在这两个基因中,启动子ATG被复制是变异的。软件插入了破折号(-)(集群)以优化对齐。

讨论

有相当一部分基因在对21号和22号染色体序列的分析有些令人惊讶,作为EST数据和UniGene聚类(表(表3))也可用于这些基因。其中三个未被预测的基因似乎存在于同一染色体上的多个拷贝中,即22号染色体上6 Mb。但即使所有基因都可以通过生物信息学程序、外显子和启动子的替代使用(可选拼接)构成了目前无法解决的问题仅凭基因组序列的知识即可解决。因此,只有cDNA序列的可用性使我们能够定义精确的基因组的蛋白质编码部分,与基因组结合对应物,也可定义外显子的组成同一基因的剪接转录本。序列和基因的染色体定位是重要的信息在确定和分析候选人的过程中也提供支持疾病基因。

大多数基因组已被分解为草图序列,其中序列提交的单个基因组克隆分为几个版本不同长度的连续体。这些contigs通常不被订购相对于彼此。然而,自动装配和注释GoldenPath等工具(http://genome.ucsc.edu/goldenPath/hgTracks.html)努力克服这个问题,并证明这对cDNA的定位。cDNA序列的可用性立即帮助识别位于各自的基因组克隆,以支持草稿的排序序列连接,并缩小假定的区域监管元素应该存在。因此,cDNA和基因组序列是互补和协同地添加信息。这个爆炸cDNA和匹配基因组序列分析显示只有32个cDNA没有相应的基因组匹配(未涵盖,NC在表中表2,2,第5列),这是预期的数字因为据报道,91%以上的基因组序列被解开了。449个cDNA的染色体定位可以用GoldenPath网络浏览器;21个BAC尚未绘制(NM)。这个表的第5列提供了这些BAC的登录号表2。这个2.基因组和cDNA序列的组合提供了该基因具有精确外显子-内含子边界和明确内含子的结构序列。

此外,不仅要有人类基因已被鉴定,但其确切功能特征编码蛋白以及这些转录物的功能没有翻译的。为此,完整的编码cDNA表示是不可或缺的工具,例如,对于将ORF定义为表达式向量。然而,目前仅~11000个非冗余cDNA序列已公开存放应该包含完整蛋白质编码的数据库ORF公司。这些全编码ORF的数量甚至更低,可以通过以下方式获得:通过商业或非商业提供商(如ATCC、,基因组系统,研究遗传学,HGMP,德国资源中心基因组项目),因此可用于功能研究。

最近,对人类基因数量的估计范围进化到了低端,因为只有两次计算约有35000个人类基因被预测(尤因和格林2000;勒斯特Crollius等人,2000年). 我们的数据还暗示低于之前预期的数量,正如我们估计的基因数量目前UniGene的代表人数最多为50000人。尽管如此,真实的需要通过进一步的cDNA和通过比较基因组测序(例如小鼠)。如果应该的话然而,人类的基因数量确实只有大约比预测的约18000个基因高出两倍对于秀丽隐杆线虫通过这个秀丽线虫排序协会(1998年)问题是这两种生命形式复杂性的差异源于此。因为基因数量的纯粹加倍不太可能考虑到所有差异,基因和蛋白质功能将成为一个更大的问题。这是因为解决这一明显矛盾的一个办法可能是收购人类表达的许多蛋白质具有多种功能。这个将为以基因组和继续转录组剪接,具有翻译后修饰的蛋白质组,以及最后(?)到“功能”,包括收购同一蛋白质的不同功能取决于其细胞和亚细胞环境。以下几个例子说明了蛋白质已经被描述过了(Jeffery 1999年).

在这里描述的500个新cDNA集合中,只有大约一半的推导出的蛋白质可以进行功能分类,而例如,蛋白激酶的鉴定不能提供有关该蛋白质的底物或途径的信息卷入的。此外,一半预测的蛋白质仍然没有关于其可能功能的任何提示。考虑到这一点建立最终包含完整编码cDNA序列的非冗余集和覆盖的克隆每一个人类基因,都是进行所需实验的先决条件以精确地鉴定蛋白质功能。该目录应为全球企业集成数据和克隆的结果尽可能多的项目和研究人员现有数据库(如GeneCards)的(Rebhan等人,1998年)和RefSeq(普鲁特等人,2000年)例如,带有指向克隆的链接上述供应商。除了新的全编码cDNA这里描述的序列和克隆,我们已经鉴定了1000多个cDNA它包含先前已知基因的完整编码表示。结合起来,这些cDNA占所有人类基因的2%-5%因此将成为目录的重要组成部分,并且是实现以下目标的理想工具进行功能分析。尽管有500个新的cDNA全序列,可直接用于功能分析代表已知基因的cDNA需要进一步表征,因为这些还没有完全测序。为此,我们将ORF从并验证预测的大小。然后这些ORF克隆到包含N端与GFP融合。作为网关系统(Life技术),ORF可以穿梭于任何表达载体(Simpson等人,2000年). 仅完好无损读取帧(没有PCR帧移位,没有内含子克隆)导致荧光菌落,因为ORF不间断地延伸纳入GFP。验证基因的网关入口克隆也通过资源中心提供。

为了解决新蛋白质的系统功能分析处理亚细胞定位和新鉴定的cDNA编码蛋白的功能分析这里报道正在进行中(Simpson等人,2000年). 因此,基因目录在未来几年将形成大规模和人类基因和蛋白质的综合功能分析对理解人类生命、疾病和死亡的基础至关重要。

方法

图书馆建设

SMART库

DKFZp564(人胎脑)和DKFZp 566(人胎肾)库是使用SMART工具包(Clontech)生成的。聚合酶链反应为了获得足够的cDNA用于克隆。第一链引物确实包含了pBluescript矢量(Stratagene)和除T之外的任何基(IUB代码 = 五) 英寸引物的3′末端位置[TCGAGGTCGGTATCGATAAG(T)19五] ●●●●。放大具有Amplitaq(Perkin Elmer)和Pfu(Stratagene)DNA的初级cDNA用引物进行19/1(vol/vol)的聚合酶含有尿嘧啶残基(3′引物:CAUCAUCAUCAGGTCGAC GGTATCATAAG;5′底漆:CUACUACUACUATACGCT GCGAGAAGACGAAA)和与用于定向克隆的pAMP1(生命技术)克隆站点。在克隆之前,cDNA在琼脂糖凝胶上进行大小分级。使用GELase从凝胶中切下大于2 kb的片段并提取(Epicenter)。使用尿嘧啶脱糖苷酶(UDG,LifeTechnologies)和化学活性细菌细胞(XL-2蓝色,Stratagene)。

传统图书馆

DKFZp434(成人睾丸)、DKFZp 586(成人子宫)、,和DKFZp761(人类成人杏仁核)文库是使用传统方法(Gubler和Hoffman 1983),采用不是第一链合成用I-dT V底漆[GAGCGGCCGC(T)19五] ●●●●。第二链合成后,萨尔将I适配器连接到钝化的cDNA上。然后是cDNA被切割了不是我要生成萨尔I–不是5′和3′处的I兼容端以允许定向克隆。cDNA然后在琼脂糖凝胶上进行二维尺寸选择并克隆到pSPORT1中预切割萨尔我和不是I(生活技术)。

cDNA文库和克隆

所有的文库都被排列成384孔的微探针板在高密度尼龙膜上发现。每个图书馆包括27000个克隆或其倍数。高密度克隆过滤器和单个克隆可通过德国基因组计划(网址:http://www.RZPD.de;ed.dpzp@enolc).

为选择克隆排序

首先,从所有克隆中系统地生成5′EST384孔测微计板。序列分析采用BLASTN公司(Altschul等人,1990年)和BLASTX公司(吉什和各州1993)对抗EMBL、PIR、SWISPROT和TREMBL缺乏一致性的数据库(>95%的一致性超过50bp)与已知的cDNA匹配以及ORF的存在。

对具有新序列的克隆进行3′端测序。这3英尺检测EST是否与公开的已知基因不匹配数据库,用于重复结构,以及用于聚腺苷酸化信号。符合选择标准的克隆有进行全长测序。

排序方法和战略

优先使用染料终止剂化学进行测序ABI 377自动DNA测序仪上的(应用生物系统公司或Amersham);一个合作伙伴使用了EMBL原型仪器(Wiemann等人,1995年)主要与染料底漆化学有关。底漆行走(施特劳斯等人,1986年)是进行全长测序的首选测序策略cDNA。优先使用软件设计行走引物(例如。,施瓦格等人,1995年;Haas等人,1998年)允许这个通常耗时的过程完全自动化,因此有助于并行处理大量克隆。

生物信息分析

每个完整的cDNA序列都与EMBL、EMBL-EST、EMBL-STS使用BLASTN公司(Altschul等人。1990). 对EMBL进行搜索以确定cDNA是否已经知道了,并且能够识别任何基因组序列信息可以覆盖各个基因。搜索进行EMBL-EST分析转录物的丰度,以获取关于可能的组织特异性表达的信息,以及识别假定的替代拼接形式或聚腺苷酸化信号。源组织上的注释将相应的EST克隆从数据库条目解析为计算表达式的实际比率与预期比率根据等式:(组织命中次数/总命中次数)/(ESTs次数组织/总EST数量)。以恒定水平转录的基因在许多组织中,比率为1。显著更高或更低这些比率将表明组织。为了确定组织特异性表达参数设置为>4个EST,匹配相应的cDNA需要从给定组织中测序,以及过表达的比率被设定为5。EST来源于集合组织或来源不明的组织在这一分析。为了获得染色体定位信息,序列与EMBL-STS数据库保持一致。

通过搜索三个前向帧中每个帧中最长的ORF,最小长度共有90个密码子。根据PIR、SWISSPROT和TREMBL的非冗余蛋白质数据集[BLASTP公司,通过以下方式使用SEG-filter伍顿(1994)]. 任何不含ORF>90密码子的cDNA用BLASTN公司对抗TREMBL,以识别存在的更短ORF。

BLASTX公司对非冗余对象执行搜索蛋白质数据库包括PIR、SWISPROT和TREMBL。SEG-filter用于筛选编码序列中的潜在帧偏移并鉴定未完全剪接或交替拼接。然后将蛋白质序列转移到PEDANT公司(Frishman和Mewes 1997).PEDANT公司执行自动数据库搜索:psiBLAST公司(阿尔特舒尔等人,1997年)迭代配置文件搜索过程;HMMER公司(Sonnhammer等人,1997年),一个使用序列族一致性的统计描述;BLIMPS公司(华莱士和海尼科夫1992)用于相似性搜索对抗封锁(Henikoff等人,2000年)数据库。PROSITE蛋白序列模式由专业搜索(克拉科夫斯基等人,1992年).集群-W(汤普森等人,1994年)已使用用于DNA和蛋白质的多重序列比对。跨膜区域由确定阿洛姆2(Klein等人,1984年)、和分泌蛋白中的信号肽信号(尼尔森等人,1997年).SEG公司(Wootton和Federhen 1993年)已经是用于检测蛋白质序列中的低复杂性区域和线圈(Lupas等人,1991年)用于检测卷材线圈。对于cDNA序列的功能分类,与的身份E类-值<10E类−30(BLASTN公司)和<10E类−10 (BLASTX公司)被认为是重要的。综合生物信息数据联盟分析的所有cDNA均可在http://www2.mips.biochem.mpg.de/proj/cDNA/index.html.映射染色体cDNA首先由爆炸分析针对人类基因组序列(NCBI–htgs)的cDNA序列数据库),然后借助GoldenPath(Jim Kent,UCSC)浏览器(http://genome.ucsc.edu/goldenPath/hgTracks.html).

克隆的可用性及其他问询处

此处描述的所有克隆,以及由德国cDNA联盟,可从德国基因组计划(网址:http://www.rzpd.de;ed.dpzr@enolc公司). 这个所有cDNA的综合生物信息数据由联合体可访问http://www2.mips.biochem.mpg.de/proj/cDNA/index.html.其他关于所描述的一组cDNA的分析的信息是可在获取http://www.dkfz-heidelberg.de/abt0840/GCC.完整表的版本表22可以在Excel中的这个位置获得,标签行文本和pdf格式。

致谢

我们感谢Christian Gruber、Oliver Heil、Lars Ebert和DanielBongartz和Antje Krause支持生物信息分析和数据展示,Andreas Weller鼓励讨论和支持。这项工作得到了联邦政府的支持德国教育和研究部(BMBF)通过德国人类计划框架内的DLR项目基因组项目(FKZ 01KW9705/07/10–16),部分由欧洲联盟(BIOMED 2–BMH4-CT97–2284)。

这篇文章的出版费用部分由付款支付共页费用。因此,必须在此标记此物品根据《美国法典》第18条第1734条,“广告”仅用于表明这一事实。

脚注

电子邮件ed.zfkd@nnameiw.s; 传真:49-6221-4252-4702。

印刷前在线发布的文章:基因组研究。,10.1101/gr.154701。

文章和出版物见www.genome.org/cgi/doi/10.101/154701。

参考文献

  • Altschul SF、Gish W、Miller W、Myers EW、Lipman DJ。基本本地对齐搜索工具。分子生物学杂志。1990;215:403–410.[公共医学][谷歌学者]
  • Altschul SF、Madden TL、Schaffer AA、Zhang J、ZhangZ、Miller W、Lipman DJ。Gapped BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序。核酸研究。1997;25:3389–3402. [PMC免费文章][公共医学][谷歌学者]
  • Collins FS、Patrinos A、Jordan E、Chakravarti A、Gesteland R、Walters L。美国人类基因组项目的新目标:1998年至2003年。科学。1998;282:682–689.[公共医学][谷歌学者]
  • Cross SH,Bird AP公司。CpG岛和基因。当前操作基因开发。1995;5:309–314.[公共医学][谷歌学者]
  • Dunham I、Shimizu N、Roe BA、Chissoe S、Hunt AR、Collins JE、Bruskiewich R、Beare DM、Clamp M、Smink LJ等。人类22号染色体的DNA序列。自然。1999;402:489–495.[公共医学][谷歌学者]
  • Ewing B,Green P.对表达序列标签的分析表明有35000个人类基因。自然遗传学。2000;25:232–234.[公共医学][谷歌学者]
  • Fields C、Adams MD、White O、Venter JC。人类基因组中有多少基因?自然遗传学。1994;7:345–346.[公共医学][谷歌学者]
  • Frishman D,Mewes H-W.PEDANTic基因组分析。趋势Genet。1997;13:415–416. [谷歌学者]
  • Gish W,States DJ。通过数据库相似性搜索识别蛋白质编码区。自然遗传学。1993;:266–272.[公共医学][谷歌学者]
  • Gubler U,Hoffman BJ。一种简单而高效的cDNA文库生成方法。基因。1983;25:263–269.[公共医学][谷歌学者]
  • Haas S、Vingron M、Poustka A、Wiemann S.大规模测序的引物设计。核酸研究。1998;26:3006–3012. [PMC免费文章][公共医学][谷歌学者]
  • Hanke J、Brett D、Zastrow I、Aydin A、Delbruck S、Lehmann G、Luft F、Reich J、Bork P。人类基因的选择性剪接:规则多于例外?趋势Genet。1999;15:389–390.[公共医学][谷歌学者]
  • Hanks SK,Quinn AM,Hunter T。蛋白激酶家族:保留催化结构域的特征并推导其系统发育。科学。1988;241:42–52.[公共医学][谷歌学者]
  • Hattori M、Fujiyama A、Taylor TD、Watanabe H、Yada T、Park HS、Toyoda A、Ishii K、Totoki Y、Choi DK等。人类21号染色体的DNA序列。21号染色体作图和测序联合体。自然。2000;405:311–319.[公共医学][谷歌学者]
  • Henikoff JG、Greene EA、Pietrokovski S、Henikof S。使用块数据库服务器增加蛋白质家族的覆盖率。核酸研究。2000;28:228–230。 [PMC免费文章][公共医学][谷歌学者]
  • Jeffery CJ。月光蛋白。生物化学科学趋势。1999;24:8–11.[公共医学][谷歌学者]
  • 川崎K、Minoshima S、Nakato E、涉谷K、Shintani A、Schmeits JL、Wang J、Shimizu N。人类免疫球蛋白λ基因座的一个介导酶序列分析。基因组研究。1997;7:250–261.[公共医学][谷歌学者]
  • Klein P,Kanehisa M,DeLisi C.从序列特性预测蛋白质功能。数据库的判别分析。Biochim生物物理学报。1984;787:221–226.[公共医学][谷歌学者]
  • Kolakowski LF,Jr,Leunissen JA,Smith JE。ProSearch:快速搜索具有与蛋白质结构和功能相关的正则表达模式的蛋白质序列。生物技术。1992;13:919–921.[公共医学][谷歌学者]
  • Kozak M.原核生物和真核生物翻译的起始。基因。1999;234:187–208.[公共医学][谷歌学者]
  • Liang F、Holt I、Pertea G、Karamycheva S、Salzberg SL、Quackenbush J。人类基因组的基因指数分析估计约有120000个基因。自然遗传学。2000;25:239–240.[公共医学][谷歌学者]
  • Lupas A,Van Dyke M,Stock J.从蛋白质序列预测螺旋线圈。科学。1991;252:1162–1164.[公共医学][谷歌学者]
  • Makałowski W,Boguski MS。转录哺乳动物基因组的进化参数:2820只同源啮齿动物和人类序列的分析。国家科学院院刊。1998;95:9407–9412. [PMC免费文章][公共医学][谷歌学者]
  • Nagase T,Kikuno R,Ishikawa K,Hirosawa M,Ohara O。未知人类基因编码序列的预测。十七、。来自大脑的100个新cDNA克隆的完整序列,在体外编码大蛋白。DNA研究。2000;7:143–150。[公共医学][谷歌学者]
  • Neer EJ、Schmidt CJ、Nambudripad R、Smith TF。WD-重复蛋白的古老调节蛋白家族。自然。1994;371:297–300.[公共医学][谷歌学者]
  • Nielsen H,Engelbrecht J,Brunak S,von Heijne G.原核和真核信号肽的鉴定及其裂解位点的预测。蛋白质工程。1997;10:1–6.[公共医学][谷歌学者]
  • 野村N、宫崎骏N、Sazuka T、田中A、川崎Y、佐藤S、长濑T、Seki N、石川K、Tabata S。未识别人类基因编码序列的预测。I.通过分析随机取样的人类未成熟髓细胞系KG-1 cDNA克隆,推导出40个新基因(KIAA0001-KIAA0040)的编码序列。DNA研究。1994;1:47–56。[公共医学][谷歌学者]
  • Parraga G、Horvath SJ、Eisen A、Taylor WE、Hood L、Young ET、Klevit RE。酵母ADR1单指结构域的锌依赖性结构。科学。1988;241:1489–1492.[公共医学][谷歌学者]
  • Pesole G,Grillo G,Liuni S.后生动物mRNA非翻译区数据库。计算机化学。1996;20:141–144.[公共医学][谷歌学者]
  • Pesole G、Liuni S、Grillo G、Licciulli F、Larizza A、Makalowski W、Saccone C.UTRdb和UTRsite:真核mRNA 5′和3′非翻译区序列和功能元件的专业数据库。核酸研究。2000;28:193–196. [PMC免费文章][公共医学][谷歌学者]
  • Pruitt KD、Katz KS、Sicotte H、Maglott DR。RefSeq和LocusLink简介:NCBI的人类基因组资源。趋势Genet。2000;16:44–47.[公共医学][谷歌学者]
  • Rebhan M,Chalifa-Caspi V,Prilusky J,Lancet D.GeneCards:具有自动数据挖掘和查询重新制定支持的新型功能基因组学概要。生物信息学。1998;14:656–664.[公共医学][谷歌学者]
  • Roest Crollius H、Jaillon O、Bernot A、Dasilva C、Bouneau L、Fischer C、Fizames C、Wincker P、Brottier P、Quetier F等。使用四齿龙DNA序列进行全基因组分析提供的人类基因数估计。自然遗传学。2000;25:235–238.[公共医学][谷歌学者]
  • Schuler GD.谜题片段:表达的序列标签和人类基因目录。分子医学杂志。1997;75:694–698.[公共医学][谷歌学者]
  • Schuler GD、Boguski MS、Stewart EA、Stein LD、Gyapay G、Rice K、White RE、Rodriguez-Tome P、Aggarwal A、Bajorek E等。人类基因组的基因图。科学。1996;274:540–546.[公共医学][谷歌学者]
  • Schwager C、Wiemann S、Ansorge W.GeneSkipper:DNA序列组装和比对的集成软件环境。HUGO基因组文摘。1995;2:8–9. [谷歌学者]
  • Simpson J、Wellerneuther R、Poustka A、Pepperkok R、Wiemann S。通过大规模cDNA测序鉴定的新蛋白质的系统亚细胞定位。EMBO代表。2000;1:287–292。 [PMC免费文章][公共医学][谷歌学者]
  • Soares MB、Bonaldo MF、Jelene P、Su L、Lawton L、Efstratiadis A.标准化cDNA文库的构建和表征。国家科学院院刊。1994;91:9228–9232。 [PMC免费文章][公共医学][谷歌学者]
  • Sonnhammer EL、Eddy SR、Durbin R.Pfam:基于种子比对的蛋白质结构域家族综合数据库。蛋白质。1997;28:405–420.[公共医学][谷歌学者]
  • Strausberg RL,Feingold EA,Klausner RD,Collins FS。哺乳动物基因收集。科学。1999;286:455–457.[公共医学][谷歌学者]
  • 施特劳斯EC、Kobori JA、Siu G、Hood LE。特定的时间定向DNA测序。分析生物化学。1986;154:353–360.[公共医学][谷歌学者]
  • Struhl K.真核转录调控蛋白的螺旋转螺旋、锌指和亮氨酸拉链基序。生物化学科学趋势。1989;14:137–140.[公共医学][谷歌学者]
  • Sutcliffe JG,Milner RJ。选择性信使核糖核酸剪接:Shaker基因。趋势Genet。1988;4:297–299.[公共医学][谷歌学者]
  • 铃木Y、石原D、佐佐木M、中川H、Hata H、津田T、渡边M、小松T、大田T、Isogai T等。使用“寡核苷酸”cDNA文库对人类mRNA的5′非翻译区进行统计分析。基因组学。2000;64:286–297.[公共医学][谷歌学者]
  • 这个秀丽线虫排序联盟。线虫基因组序列秀丽线虫:一个研究生物学的平台。科学。1998;282:2012–2018.[公共医学][谷歌学者]
  • Thompson JD、Higgins DG、Gibson TJ。集群W:通过序列加权、特定位置间隙惩罚和权重矩阵选择提高渐进式多序列比对的敏感性。核酸研究。1994;22:4673–4680. [PMC免费文章][公共医学][谷歌学者]
  • Wallace JC,Henikoff S.PATMAT:用于序列、模式和块查询及数据库的搜索和提取程序。计算应用生物科学。1992;8:249–254.[公共医学][谷歌学者]
  • Wiemann S、Stegemann J、Grothues D、Bosch A、Estivill X、Schwager C、Zimmermann J,Voss H、Ansorge W。用两种荧光染料对两条链进行同步在线DNA测序。分析生物化学。1995;224:117–121.[公共医学][谷歌学者]
  • 伍顿JC。蛋白质序列中的非球结构域:使用复杂性度量的自动分割。计算机化学。1994;18:269–285。[公共医学][谷歌学者]
  • Wootton JC,Federhen S.氨基酸序列和序列数据库中局部复杂性的统计。计算机化学。1993;17:149–163. [谷歌学者]
  • Xu N,Chen CY,Shyu AB.富含AU元素对细胞质mRNA命运的调节:控制mRNA去烯基化和衰变的关键序列特征。摩尔细胞生物学。1997;17:4611–4621. [PMC免费文章][公共医学][谷歌学者]

文章来自基因组研究由以下人员提供冷泉港实验室出版社