跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
美国国家科学院院刊。2004年4月20日;101(16): 6062–6067.
2004年4月9日在线发布。 数字对象标识:10.1073/pnas.0400782101
预防性维修识别码:项目经理395923
PMID:15075390

小鼠和人类蛋白质编码转录体的基因图谱

关联数据

补充资料

摘要

mRNA表达的组织特异性模式可以指示有关基因功能的重要线索。高密度寡核苷酸阵列提供了在基因组尺度上检查基因表达模式的机会。为此,我们设计了定制阵列,用于查询绝大多数编码蛋白质的人类和小鼠基因的表达,并使用它们对79个人类和61个小鼠组织进行了分析。由此产生的数据集提供了来自小鼠和人类的数千个预测基因以及已知和特征不明确的基因的表达模式。我们探索了基因表达全球趋势的数据集,评估了基因预测方法中常用的证据线,并研究了指示转录染色体组织的模式。我们描述了数百个相关转录区域,并表明其中一些区域同时受到组织和亲本等位基因特异性表达的影响,这表明空间表达和印记之间存在联系。

人类和小鼠基因组序列的完成开启了哺乳动物生物学的一个历史性时代。这些项目得出的一个共同结论是,哺乳动物只有≈30000个蛋白质编码基因(1,2). 然而,尽管这个数字明显易于处理(早期的估计值要高得多),但迄今为止,所有现有的研究只确定了这些基因中的一小部分的功能。目前,文献中只描述了≈15000个人类基因和≈10000个小鼠基因(Medline,www.ncbi.nih.gov/Pubmed). 基因组学战略和技术面临的挑战和机遇是加速对未知基因组中新基因的功能注释。

生物注释的高通量技术有能力部分解决基因识别和对其功能理解之间的差异。例如,蛋白质在其主要氨基酸序列中作为结构域编码有明确的分子作用。利用序列信息学,这些结构域可以用作搜索整个基因组的工具,以找到可能以类似方式发挥作用的蛋白质家族成员。基因表达阵列也是全基因组研究的有用工具,在全基因组研究中,基因表达的变化可能与生理或病理生理状态有关(). 最近,其他高通量技术,如RNA干扰(4)和cDNA过度表达(5)进一步加快功能基因组注释。这些不同策略的整合对注释工作至关重要,并且仍然是一个重大挑战。

此前,我们使用寡核苷酸阵列初步描述了人类和小鼠转录组,该寡核苷酸阵列询问≈10000人类和≈7000小鼠靶基因的表达(6). 我们探索了这些数据集,以深入了解基因功能、转录调控、疾病病因学和比较基因组学。然而,该数据集基于商用基因表达阵列,因此偏向于先前特征基因。在本报告中,我们通过测定以前未标记的蛋白编码基因和从头开始小鼠和人类基因组项目的基因预测。使用针对44775人和36182小鼠转录物的定制设计的全基因组基因表达阵列,我们利用来自79人和61小鼠组织的RNA构建了更广泛的基因图谱。该数据集是迄今为止对蛋白编码转录组基因表达的最大定量评估之一。

基于我们之前的分析,我们对这些表达模式进行了全球基因表达趋势的检测。我们还对数千种基因预测进行了实验验证,并使用这些数据确定基因预测的常用证据类型中与表达基因最准确相关的类型。此外,我们使用该数据集来搜索相关转录的染色体区域(RCT),这可能表明转录调控的高阶机制。此外,我们还表明,其中一些组织特异性协同调控基因受到另一种形式的调控,即亲本印记,因此其中一些区域受到组织和亲本等位基因特异性表达的控制。最后,我们在我们的网站上公开了这些数据,以便通过关键字、登录号、序列、表达模式和协同规则进行搜索和可视化(http://symatlas.gnf.org).

材料和方法

微阵列芯片设计。我们使用以下来源确定了人类和小鼠的一组非冗余目标序列:RefSeq(15491人类和12029小鼠序列)(7); Celera(49859人类和29331小鼠序列)(8); 合奏(33698人类序列);和RIKEN(46299只老鼠序列)(9). 首先,用重复拍摄(www.repeatmasker.org)删除重复元素。接下来,使用两两建立单个序列之间的序列一致性布拉特(10)或爆炸(11)和模拟4(12). 进一步对单链聚类的结果进行分类,以产生44775个人类目标和36182个小鼠目标的最终目标集,计算预测的置信度最高[偏向于包含Inter-pro结构域的序列(13)远离非编码RNA]。最后,对Affymetrix(加利福尼亚州圣克拉拉)商用HG-U133A阵列上已经表示的所有目标进行人类序列集修剪,为我们的定制阵列留下22645个目标序列。归一化程序的GNF1H设计中还包括来自HG-U133A芯片的100个目标序列(见下文)。最终的人类和小鼠目标集分别提交给Affymetrix芯片设计管线,用于制造GNF1H和GNF1M阵列。

组织准备。人体组织样本来自多个来源:Clinomics Biosciences(马萨诸塞州皮茨菲尔德)、Clontech、AllCells(加利福尼亚州伯克利)、Clonetics/BioWhittaker(马里兰州沃尔克-埃尔斯维尔)、AMS Biotechnology(英国牛津郡阿宾顿)和加州大学圣地亚哥分校。当有四名或四名以上受试者的样本可用时,使用相同数量的男性和女性受试者组成两个独立的样本库;当可用的样本少于四个时,将RNA样本合并,并对每个样本池进行重复扩增(人类样本的详细注释见我们的网站和表1,该表发布为支持信息在PNAS网站上)。成年(10至12周龄)小鼠组织样本分别来自两组,每组四只雄性和三只雌性C57BL/6通过解剖小鼠,随后将组织快速冷冻在干冰上。冷冻时粉碎组织,使用≈100 mg组织用Trizol(Invitrogen,Carlsbad)提取总RNA,然后根据制造商的方案(Qiagen,Chatsworth,CA)使用RNeasy迷你制备试剂盒进行进一步处理。使用安捷伦生物分析仪(加利福尼亚州帕洛阿尔托)测定所有样品的质量。

微阵列程序。基本上按照所述进行了微阵列分析(14). 简单地说,使用5μg总RNA合成cDNA,然后作为模板生成生物素化cRNA。将cRNA片段化并与Affymetrix定制或商用基因表达阵列杂交。然后用激光扫描仪对阵列进行清洗和扫描,并使用MAS5算法对图像进行分析(15). 使用全局中值缩放对数组进行归一化。将人类HG-U133A和GNF1H芯片与同一生物样品杂交,首先使用共同靶点配对并预标准化。压缩数据文件可从我们的网站获得(http://symatlas.gnf.org)和基因表达综合(网址:www.ncbi.nih.gov/geo) (16). 应要求提供原始CEL文件(http://symatlas.gnf.org).

RCT的识别。通过使用布拉特(10). 为了解释多个探针询问单个基因的原因,还将目标序列与UniGene进行了比较(网址:www.ncbi.nih.gov/UniGene)通过使用爆炸将相互映射在25 kb范围内且映射到通用UniGene簇的靶序列汇集在一起,将其表达值取平均值,并在RCT分析中作为单个靶点处理。接下来,对每个染色体进行扫描,扫描窗口大小为3–10个相邻基因。在所有成对比较的表达模式中,50%以上显示皮尔逊相关系数>0.6的窗口被确定为RCT。基因顺序的随机研究证实了RCT总数和每个RCT的平均成对相关性的重要性(P(P)<0.005,修正多次测试)。每个RCT内的成对序列相似性通过以下方法进行评估:tblastx公司(11)其中,相似度值是对齐相似度和对齐的总序列长度百分比的乘积。人类和小鼠基因组组合之间的同步性来自于已发表的同步锚的分析(17). 对于进化上保守的RCT的分析,只使用了小鼠和人类数据集中常见的32个组织。所有分析和可视化都是通过使用第页(网址:www.r-project.org).

印记分析。等位基因特异性探针表达分析用于识别具有印记表达模式的基因。两种不同的小鼠菌株,C57毫升/6J型(B6号机组)和锥体肌(铸件/工程安装),培育出四个独立的小鼠杂交组合(雄性::雌性):B6::B6、B6::铸件/Ei,CAST公司/工程安装::B6号机组、和铸件/工程安装::铸件/工程安装收集胚胎第14-16天的每一窝胚胎,并标记四到五窝不同胚胎的RNA,并将其杂交到GNF1M阵列。进行了探针水平分析,以检测两个菌株之间自然发生的多态性。在两个纯合组之间显示出显著不同信号的单个探针(而不是整个探针组)被确定为目标基因中的假定多态性。接下来,根据父系或母系等位基因,对来自两个互惠杂交的杂交信号进行检测,以确定信号的统计显著性差异t吨测试(P(P)<0.001),表示男性或女性印记模式。

结果和讨论

基因的组织特异性RNA表达模式可以为其生理功能提供重要线索。为了建立一个广泛的组织特异性基因表达图谱,我们创建了自定义阵列,询问小鼠和人类基因组中已知和预测的蛋白质编码基因的表达。设计过程使用了一组非冗余的已知基因和基因预测,这些预测来自Refseq、Celera、Ensembl(人类)和RIKEN(小鼠)。对于我们的GNF1H定制人类阵列,我们进一步从Affymetrix中删除了商用HG-U133A阵列上已经存在的基因靶点。最后,我们将最终选择偏向于具有可能蛋白质编码区域的基因预测。总的来说,U133A/GNF1H芯片组查询44775个探针组,我们定制的GNF1M鼠标阵列查询36182个探针组。截至2004年1月的最新注释,这些分别对应于33698个和33825个独特的人类和小鼠基因,考虑到多个探针组询问单个基因和分裂转录本。

使用这些全基因组基因表达阵列,我们在单个技术平台上测量了79个人类组织和61个小鼠组织的广泛转录组和转录预测的表达。这个基因图谱代表了正常转录组,使我们能够检查基因表达的全球趋势。经典再结合动力学(Rot)已被用于评估种群水平上基因表达的全球趋势(18). 我们的数据集分析通过在单个转录水平检查大量组织中的转录表达来扩展这一知识。我们发现,52%(16454)和59%(17924)的靶基因分别在人类和小鼠的至少一个组织中检测到(图4A类,发布为支持信息在PNAS网站上)。单个组织中表达的平均转录物数量约为8200(小鼠)。这些观察结果通常与之前Rot分析得出的结果一致,Rot分析表明≈10000–15000 mRNA在给定组织中以≈1–10拷贝/细胞的速度表达,其中90%在两个组织之间常见(19). 然而,尽管Rot分析表明大多数转录物存在于许多或所有组织中,但我们的数据显示,<1%的人类靶序列普遍表达。在所有分析过的样本中检测到大约3%的老鼠目标序列,尽管随着样本数量的增加,这个数字肯定会下降。毫不奇怪,这些普遍表达的看家基因的表达比数据集中所有基因的表达高约30倍(图4B类).

该数据集的另一个有价值的用途是描述来自小鼠和人类基因组项目的新预测基因(1,2). 其中许多只是作为生物信息学预测及其表达的证据可以作为这些预测的验证。此外,确定未标记基因的表达模式可以指示可从中克隆转录物的合适组织,并提供生理注释的基础层。基因预测是一门不精确的艺术,不同的方法和研究人员经常产生大量不重叠的基因预测集(20). 对于人类数据,我们根据设计时的注释信息将转录物细分为四类:Refseq中发现的已知基因、两组独立预测的基因(Celera和Ensembl)、仅由Ensemb组发现的单体预测以及仅由Celera组发现的单个预测。正如所料,已知基因集(Refseq)在我们的数据集中的检测率最高,因为79%的基因在至少一个样本中有可检测的表达(图1). 因为所有的Refseq基因都是已知表达的,这表明我们的方法和当前的组织库在检测表达时的最小假阴性率为≈21%。这当然可以通过对其他组织和细胞类型的分析来改进。共识基因预测的可检测表达率(53%)高于Ensembl或Celera提供的单一基因预测(分别为30%和24%)(图1). 尽管仅集成组的检测率稍高,但检测到的仅Celera预测总数更多(2918个Celera与618个集成预测)。在小鼠数据集中可以看到类似的结果,其中Refseq基因的检测率高于Celera的基因预测(79%对46%)。这三类之间的差异也反映在基因表达的定量测量上。平均而言,人类Refseq基因的表达水平比一致预测高2倍,而一致预测又比单基因预测高66%(P(P)<<0.001; 数据未显示)。这一观察可能反映了生物学研究高度丰富蛋白质的历史偏见。总之,通过检测至少一个组织中的转录mRNA产物,我们发现5641(31.2%)人类和2629(46.2%)小鼠基因预测的表达证据。此外,我们描述了9708个小鼠RIKEN衍生基因的表达模式,其中许多缺乏显著的表达注释。值得注意的是,我们没有观察到可检测表达的基因预测并不一定是错误的,因为给定基因的适当组织可能没有被剖析,基因可能存在于少量拷贝中(例如,在组织内的一小部分细胞中),或者探针组可能无法正确询问基因的表达(例如,UTR、分裂转录物或缺失或错误的末端外显子)。尽管有这些警告,但该数据集提供了来自小鼠和人类基因组项目的数千个基因预测和特征不佳的转录物的表达模式,为研究这些基因在其最相关组织中的功能提供了机会。

保存图片、插图等的外部文件。对象名称为zpq0170445980001.jpg

人类基因预测的验证。GNF1H阵列上的基因靶点分为四类:包含在Refseq中,通过考虑的两种基因预测努力预测(“共识”),以及仅由一组预测(“仅集合”和“仅塞来”)。在左轴(实心条)上显示验证率,其中至少一个组织中的可检测表达被视为基因预测有效性的证据。右轴(蓝线)表示每组已验证基因的总数。

鉴于基因预测工作的不同方法和后续结果,我们接下来研究预测转录物的哪些特征是其可检测表达的更好指标。在Celera使用的方法中,在其基因预测算法中考虑了以下证据:“小鼠和人类基因组DNA之间的保存,与人类和啮齿动物转录物(EST和cDNA)的相似性,以及人类基因组DNA到已知蛋白质的翻译的相似性”(1). 使用基因产物的可检测表达作为预测的验证,我们为每条证据线创建了接收器操作特征曲线,将真阳性率绘制为假阳性率的函数。曲线下面积(AUC)衡量预测值的强度;一个完美的预测值AUC=1,一个随机因子AUC=0.5。当比较人类数据集中上述三行证据的预测强度时,我们发现,尽管没有一行证据能够普遍预测表达,但EST证据的预测值最高(AUC=0.77)(图5,发表于支持信息在PNAS网站上),一项观察结果可能与高表达基因更有可能出现在EST数据库中这一事实有关。人类和小鼠基因组序列之间的蛋白质同源性支持和序列相似性对基因预测的验证影响较小(AUC分别为0.66和0.65)。额外哺乳动物基因组序列的可用性应能提高序列保守性在基因预测中的作用。有点令人惊讶的是,在我们的数据集中,仅仅是转录预测的长度也是检测的合理预测因子(AUC=0.68),这表明不完整的转录预测是许多基因靶点未观察到的重要因素。

我们和其他人已经使用了基因表达信息、基因组序列和从头开始motif发现工具用于搜索直接组织特异性基因表达的增强子元件(21,22). 与通常指导单个基因表达的增强子相比,基因座控制区(LCR)的特点是能够促进单个基因座上多个基因的表达。迄今为止,仅报告了少数LCR(23). 最近,斯佩尔曼和鲁宾(24)已使用果蝇属基因表达阵列用于识别≈200簇相邻和相似表达的基因,并表明这些模式与染色质结构的调节最为一致。其他(2527)也对人类进行了类似的分析,秀丽隐杆线虫和酵母在更有限的实验条件下。

为了在我们的数据集中识别潜在的基因座,其表达可能以基因座依赖的方式受到控制,我们将基因表达阵列上的转录物映射到基因组集合,并扫描每个染色体以寻找具有相关表达模式的基因窗口。我们将这些位点称为RCT,作为一个通用术语,包括LCR和通过基因复制实现的相关表达。值得注意的是,这些RCT的检测受到比较算法、规范化程序和基础数据的严重影响。特别是,在我们的人类样本集中包含几个纯化的免疫细胞群,这扭曲了正常化过程,并导致RCT的增加,RCT在这些样本中的表达丰富。总共,我们在人类和小鼠中分别鉴定了156和108个随机对照试验(所有随机对照试验的描述可从http://symatlas.gnf.org). 在小鼠和人类数据集中,免疫系统、肝脏、睾丸和胎盘等具有非常特殊基因簇的组织比其他组织具有更多的RCT。从机制上讲,这些RCT的表达可能是通过共同的启动子元件(由基因复制产生)或通过高阶基因调控(如位点特异性染色质重塑)介导的。为了区分这两种可能性,我们使用tblastx公司,一种局部六帧翻译核苷酸对核苷酸比对算法(11). 基因在编码序列中具有显著序列相似性的RCT可能是基因复制的产物,而不同的基因可能是LCR或其他高阶转录调控的结果。

正如预期的那样,我们发现RCT同时具有相关和非相关基因。图2A类举例说明了基因复制驱动的RCT。小鼠9号染色体上的这组基因代表了一个由11个未经特征化的F-box和WD40重复序列组成的家族,这些重复序列包含在受精卵和卵母细胞中特异表达的蛋白质。由于它们的高度序列相似性,我们假设它们的相关表达模式是其结构基因中存在的重复调控元件的结果,并且这些基因可能在卵母细胞的特殊蛋白表达中发挥重要作用。相反,我们还注意到,人类13号染色体上有三个基因簇,它们的序列没有明显的相似性,在脑组织样本中高度富集,尤其是胎儿脑样本(图2B类). 该簇中的基因包括神经信使蛋白(一种未经特征化的mRNA)、双皮质素和钙调蛋白激酶样1蛋白(DCAMKL1)。这些基因的相关表达模式及其在染色体位点的共定位表明了它们在神经过程或网络中的共同作用,这一假设很有吸引力。由于这些基因不具有序列相似性,该区域可能还包含以前未被识别的LCR或强区域增强子。总的来说,97(62%)和78(72%)已鉴定的人类和小鼠RCT具有<20%的平均成对序列相似性,并且不编码相关基因。

保存图片、插图等的外部文件。对象名称为zpq017044598002.jpg

RCT公司。(A类)在小鼠9号染色体上鉴定出一种RCT,由11个基因组成,具有高度保守的表达模式。(上部)轴是平均规范化表达式值x个axis包含61种不同的组织,红色条是受精卵和卵母细胞。相关图(左下方)可视化成对相关系数。每行代表一个基因,根据其在染色体上的位置垂直排列。中心黄色垂直条表示自相关(R(右)= 1); 中心右侧的位置表示基因与其下游邻居的相关性,而左侧的位置表示与上游邻居的相关性。黄色表示相关性高;蓝色表示相关性低(底部为刻度)。序列相似性图(使用tblastx公司,右下角)具有与相关图相同的结构,但显示了两两序列的相似性。在受精卵和卵母细胞中高表达的RCT中,基因具有高度的序列相似性,可能表明它们都是单个基因家族的成员,是一个或多个基因复制事件的结果。(B类)人类13号染色体上发现了一例RCT,其中包含三个表达高度相关的基因(红色条表示大脑区域,绿色条表示胎儿大脑)。与第一个例子相反,这些基因几乎没有成对序列相似性。(C类)人类2号染色体显示了进化上保守的RCT(左侧)和小鼠6号染色体上的同基因区(赖特). 这些RCT具有胰腺丰富的表达模式(红条)以及显著的序列相似性。

接下来,我们检查了小鼠和人类的RCT数据,这些RCT在两个数据集中都得到了识别,并且可能在进化上是保守的。大多数RCT在人类和小鼠中均未发现,在许多情况下,这是因为尚未定义直系同源区或共张力区,或者模式不保守。然而,在某些情况下,明显缺乏保护可能反映了这两种生物之间的生理差异。例如,我们观察到RCT在小鼠的嗅球中表达丰富,但在人类数据集中没有表达。然而,一些RCT是保守的,包括一组胰腺特异性基因映射到人类2号染色体及其小鼠6号染色体上的同步区(图2C类). 人类簇由五个基因组成,包括胰腺相关蛋白(PAP)、三个再生胰岛衍生蛋白(REG1A、REG1B和REGL)和一个功能未知的蛋白(LPPM429)。小鼠簇包含PAP的同源物、再生胰岛衍生蛋白的四种亚型和胰岛新生相关蛋白相关蛋白。这种RCT在人类和小鼠中的保存表明,这些基因在这两种哺乳动物中都发挥着类似的重要作用。

在将所有目标基因映射到各自的基因组集合后,我们注意到小鼠7号染色体(130 Mb)的一个区域,其中包含之前显示为印迹的几个基因(2830)其中三个(H19,Igf2、和Cdkn1c公司)在胎盘、脐带和胚胎组织中具有富集表达模式。我们还发现了另一对相邻基因(锌1桩号3)7号染色体(6 Mb)上的其他地方共享这种组织特异性表达模式,并且其表达已被证明是印记的(31). 受这些观察结果的启发,我们检查了我们的一组RCT,以寻找聚集在单个位点上的其他印迹基因。在小鼠12号染色体(103 Mb)上,我们观察到一个由六个相邻基因组成的RCT,所有这些基因在大脑区域和脐带中都有丰富的表达(图3A类B类). 最近,一些研究小组表明,该基因座中的两个基因,深1Gtl2公司,刻印(参考文献。32). 后来,还发现该基因座上的另一个基因,里安(Rian),并且几个相邻的串联重复的C/D小核仁RNA基因也被印记(33,34). 此外,尽管我们的数组上没有可靠检测其表达式的探针集,迪奥3位于该基因座附近,并显示出基因组印记(35). 该位点剩余三个R IKEN克隆的印迹状态(1110006E14Rik,5330411G14Rik、和C130007E11活塞)目前尚不清楚,尽管它们具有RCT中所有基因的脑和脐带富集表达特征。

保存图片、插图等的外部文件。对象名称为zpq017044598003.jpg

小鼠12号染色体上的六个基因具有独特的表达模式。(A类)该区域的基因组视图(不按比例)。基因在小鼠基因组集合上的位置:深蓝色(103.508Mb),Gtl2公司(103.593兆字节),1110006E14瑞克(103.646兆字节),里安(Rian)(103.696兆字节),5330411G14里亚克(103.788兆字节),C130007E11活塞(103.798 Mb),以及迪奥3(104.328兆字节)。(B类)这些基因在大脑区域(绿色条)和脐带(红色条)共享丰富的表达。这个轴表示规范化的表达式值,而沿x个axis表示在数据集中分析的样本。(C类)其中三个基因(深1,Gtl2型、和里安(Rian))之前有报道称被压印。使用我们的等位基因特异性探针表达分析方法(见正文),我们证实了Gtl2公司里安(Rian)并在该位点报告两个之前未描述的印记转录本(5330411G14瑞克C130007E11活塞). 这个轴表示阵列上单个探针的归一化信号强度,每个条表示来自由颜色指示的交叉点的混合样本(参见图例)。

为了研究这三个基因是否也被印记,我们使用了两种不同的小鼠菌株,C57BL/6J型(B6号机组)和M.M.锥体(铸件/工程安装),设置四个独立的老鼠杂交(雄性:雌性):B6号机组::B6、B6::铸件/Ei,CAST公司/工程安装::B6号机组、和铸件/工程安装::铸件/工程安装.解剖了四窝独立的胚胎第14-16天混合胚胎,并通过等位基因特异性探针表达分析分析了RNA表达,这使我们能够确定转录物是从父系或母系等位基因中独家表达还是优先表达。这一分析再次证实了Gtl2公司里安(Rian)(图3C类). 因为没有探针可以区分B6和CAST/Ei形式的深1,我们无法确认其印记表达。该基因座的两个无特征RIKEN基因,5330411G14瑞克C130007E11里克,仅显示来自母体等位基因的表达,进一步扩大了该位点已知印记基因的数量(图3C类). 由于这些cDNA彼此之间的距离在10 kb以内,因此它们可能来自相同的结构基因。第三个基因(1110006E14瑞克),比如深1,不包含能够确定其压印状态的探针。在准备这份手稿的过程中,这个位点上的另一个基因共享C130007E11活塞也被证明有痕迹(36). 总之,等位基因特异性探针表达分析方法已在该位点鉴定出另外两个印记转录本。此外,根据在我们的数据中观察到小鼠7号和12号染色体上特征鲜明的印迹位点具有共同的基因表达模式,我们推测调节这些基因亲代表达的LCR机制也可能影响其组织特异性表达模式。

结论

在这里,我们报告了小鼠和人类蛋白质编码转录体的广泛基因表达纲要。通过额外样本的进一步增加,包括使用激光捕获显微切割甚至细胞类型特异性基因表达的区域特异性切割,无疑将提高这些资源的利用率。我们已经研究了该数据集在组织特异性基因调控、从头开始预测转录物和染色体RCT。在我们的组织特异性RCT列表中对几个已知印迹位点的鉴定表明,这些直接组织或亲代等位基因特异性表达的调控机制可能相互交织。与这一观察结果一致,我们能够根据与邻居共享组织特异性表达模式的观察结果,识别出印在小鼠12号染色体上的两个先前未描述的转录物。

随着人类和小鼠基因组项目的测序阶段接近完成,以及其他哺乳动物基因组测序的快速进展,我们现在准备开发和利用各种方法来确定最近描述的数千个基因的功能。在这方面,本文描述的基因组尺度RNA表达数据为功能注释过程提供了一个框架。通过在我们的网站上提供基础数据(http://symatlas.gnf.org)并通过基因表达综合(网址:www.ncbi.nih.gov/geo)我们预计,这项研究将帮助全球研究界的研究人员收获人类和小鼠基因组项目的成果。

补充材料

支持信息:

致谢

我们感谢以下人士提供人类RNA样本:Gino Van Heeke,Novartis(支气管上皮细胞);Graeme Bilbe,诺华(胎儿甲状腺);Clifford Shults,加州大学圣地亚哥分校(全血);比尔·苏格登,威斯康星大学,麦迪逊分校(721个B淋巴细胞);Joseph D Buxbaum,纽约西奈山医学院(前额叶皮层)。我们还感谢Ines Hoffmann和Satchin Panda准备小鼠胚胎样本,感谢Peter Dimitrov、Christian Zmasek和Michael Heuer的技术专长。这项工作得到了诺华研究基金会的支持。

笔记

本文直接(第二轨道)提交给PNAS办公室。

缩写:RCT,相关转录区;AUC,曲线下面积;LCR,基因座控制区。

工具书类

1.Venter,J.C.、Adams,M.D.、Myers,E.W.、Li,P.W.、Mural,R.J.、Sutton,G.G.、Smith,H.O.、Yandell,M.、Evans,C.A.、Holt,R.A.、。,. (2001)科学类 291,1304-1351. [公共医学][谷歌学者]
2Lander,E.S.、Linton,L.M.、Birren,B.、Nusbaum,C.、Zody,M.C.、Baldwin,J.、Devon,K.、Dewar,K.、Doyle,M.、FitzHugh,W.、。,. (2001)自然 409,860-921. [公共医学][谷歌学者]
三。Su,A.I.,Welsh,J.B.,Sapinoso,L.M.,Kern,S.G.,Dimitrov,P.,Lapp,H.,Schultz,P.G.,Powell,S.M.,Moskaluk,C.A.,Frierson,H.F.,Jr。,等。(2001)癌症研究。 61,7388-7393. [公共医学][谷歌学者]
4Aza-Blanc,P.、Cooper,C.L.、Wagner,K.、Batalov,S.、Deveraux,Q.L.和Cooke,M.P.(2003)分子电池 12,627-637. [公共医学][谷歌学者]
5Chanda,S.K.,White,S.,Orth,A.P.,Reisdorph,R.,Miraglia,L.,Thomas,R.S.,DeJesus,P.,Mason,D.E.,Huang,Q.,Vega,R。,. (2003)程序。国家。阿卡德。科学。美国 100,12153-12158.[PMC免费文章][公共医学][谷歌学者]
6Su,A.I.,Cooke,M.P.,Ching,K.A.,Hakak,Y.,Walker,J.R.,Wiltshire,T.,Orth,A.P.,Vega,R.G.,Sapinoso,L.M.,Moqrich,A。,. (2002)程序。国家。阿卡德。科学。美国 99,4465-4470.[PMC免费文章][公共医学][谷歌学者]
7Pruitt,K.D.和Maglott,D.R.(2001)核酸研究。 29,137-140.[PMC免费文章][公共医学][谷歌学者]
8Kerlavage,A.,Bonazzi,V.,di Tommaso,M.,Lawrence,C.,Li,P.,Mayberry,F.,Mural,R.,Nodell,M。,等。(2002)核酸研究。 30,129-136.[PMC免费文章][公共医学][谷歌学者]
9Okazaki,Y.,Furuno,M.,Kasukawa,T.,Adachi,J.,Bono,H.,Kondo,S.,Nikaido,I.,Osato,N.,Saito,R.,Suzuki,H。,. (2002)自然 420,563-573.[谷歌学者]
10Kent,W.J.(2002)基因组研究。 12,656-664.[PMC免费文章][公共医学][谷歌学者]
11Altschul,S.F.,Madden,T.L.,Schaffer,A.A.,Zhang,J.,Z.,Miller,W.&Lipman,D.J.(1997)核酸研究。 25,3389-3402.[PMC免费文章][公共医学][谷歌学者]
12Florea,L.、Hartzell,G.、Zhang、Rubin,G.M.和Miller,W.(1998)基因组研究。 8,967-974.[PMC免费文章][公共医学][谷歌学者]
13.Kanapin,A.、Batalov,S.、Davis,M.J.、Gough,J.、Grimmond,S.,Kawaji,H.、Magrane,M.、Matsuda,H.,Schonbach,C.、Teasdale,R.D.、。,等。(2003)基因组研究。 13,1335-1344.[PMC免费文章][公共医学][谷歌学者]
14洛克哈特·D·J、董·H、伯恩·M·C、福莱蒂·M·T、加洛·V、许·M·S、米特曼·M、王·C、小林·M、霍顿·H、。,等。(1996)自然生物技术。 14,1675-1680. [公共医学][谷歌学者]
15Hubbell,E.、Liu,W.M.和Mei,R.(2002)生物信息学 18,1585-1592. [公共医学][谷歌学者]
16Edgar,R.、Domrachev,M.和Lash,A.E.(2002)核酸研究。 30,207-210.[PMC免费文章][公共医学][谷歌学者]
17Kent,W.J.,Baertsch,R.,Hinrichs,A.,Miller,W.&Haussler,D.(2003)程序。国家。阿卡德。科学。美国 100,11484-11489.[PMC免费文章][公共医学][谷歌学者]
18Bishop,J.O.、Morton,J.G.、Rosbash,M.和Richardson,M.(1974年)自然 250,199-204. [公共医学][谷歌学者]
19Hastie,N.D.和Bishop,J.O.(1976年)单元格 9,761-774. [公共医学][谷歌学者]
20Hogenesch,J.B.,Ching,K.A.,Batalov,S.,Su,A.I.,Walker,J.R.,Zhou,Y.,Kay,S.A.,Schultz,P.G.&Cooke,M.P.(2001)单元格 106,413-415. [公共医学][谷歌学者]
21Harmer,S.L.、Hogenesch,J.B.、Straume,M.、Chang,H.S.、Han,B.、Zhu,T.、Wang,X.、Kreps,J.A.和Kay,S.A.(2000)科学类 290,2110-2113. [公共医学][谷歌学者]
22DeRisi,J.L.,Iyer,V.R.&Brown,P.O.(1997)科学类 278,680-686. [公共医学][谷歌学者]
23Li,Q.,Peterson,K.R.,Fang,X.和Stamatoyannopoulos,G.(2002)血液 100,3077-3086.[PMC免费文章][公共医学][谷歌学者]
24Spellman,P.T.和Rubin,G.M.(2002)生物学杂志。 1,5[PMC免费文章][公共医学][谷歌学者]
25Caron,H.、van Schaik,B.、van der Mee,M.、Baas,F.、Riggins,G.、van Sluis,P.、Hermus,M.C.、van Asperen,R.、Boon,K.、Voute,P.A.、。,. (2001)科学类 291,1289-1292. [公共医学][谷歌学者]
26Roy,P.J.、Stuart,J.M.、Lund,J.和Kim,S.K.(2002年)自然 418,975-979. [公共医学][谷歌学者]
27Cohen,B.A.、Mitra,R.D.、Hughes,J.D.和Church,G.M.(2000)自然遗传学。 26,183-186. [公共医学][谷歌学者]
28Bell,A.C.&Felsenfeld,G.(2000)自然 405,482-485. [公共医学][谷歌学者]
29Hark,A.T.、Schoenherr,C.J.、Katz,D.J.、Ingram,R.S.、Levorse,J.M.和Tilghman,S.M.(2000)自然 405,486-489. [公共医学][谷歌学者]
30Thorvaldsen,J.L.、Duran,K.L.和Bartolomei,M.S.(1998)基因发育。 12,3693-3702.[PMC免费文章][公共医学][谷歌学者]
31Kim,J.、Lu,X.和Stubbs,L.(1999)嗯,分子遗传学。 8,847-854. [公共医学][谷歌学者]
32Georges,M.、Charlier,C.和Cockett,N.(2003)趋势Genet。 19,248-252. [公共医学][谷歌学者]
33.Hatada,I.、Morita,S.、Obata,Y.、Sotomaru,Y.,Shimoda,M.和Kono,T.(2001)生物化学杂志。 130,187-190. [公共医学][谷歌学者]
34Cavaille,J.、Seitz,H.、Paulsen,M.、Ferguson-Smith,A.C.和Bachellerie,J.P.(2002)嗯,分子遗传学。 11,1527-1538. [公共医学][谷歌学者]
35Yevtodiyenko,A.、Carr,M.S.、Patel,N.和Schmidt,J.V.(2002)妈妈。基因组 13,633-638. [公共医学][谷歌学者]
36Seitz,H.、Youngson,N.、Lin,S.P.、Dalbert,S.、Paulsen,M.、Bachellerie,J.P.、Ferguson-Smith,A.C.和Cavaille,J.(2003)自然遗传学。 34,261-262. [公共医学][谷歌学者]

文章来自美国国家科学院院刊由以下人员提供美国国家科学院