跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
BMC基因组学。2009; 10: 161.
2009年4月16日在线发布。 数字对象标识:10.1186/1471-2164-10-161
预防性维修识别码:PMC2676304型
PMID:19371429

用蛋白质组学评估RNA-Seq和微阵列的准确性

关联数据

补充资料

摘要

背景

微阵列通过在转录体范围内进行基因表达比较,彻底改变了生物学研究。然而,微阵列不能准确估计绝对表达水平。目前,高通量测序正在成为转录组研究的替代方法。尽管不受微阵列设计的限制,但其估计绝对转录水平的潜力尚不清楚。

结果

在本研究中,我们使用第三种方法:蛋白质组学来评估微阵列和转录组测序(RNA-Seq)的相对准确性。我们发现RNA-Seq可以更好地估计绝对表达水平。

结论

我们的结果表明,就整体技术性能而言,RNA-Seq是需要准确估计绝对转录水平的研究的首选技术。

背景

自从大约10年前引入微阵列以来,同时测量数千个基因信使RNA(mRNA)表达水平的能力极大地推动了生物学研究。然而,微阵列是为比较研究设计的,只能提供有关绝对基因表达水平的有限信息[1,2]. 这种局限性来自杂交效率的差异,以及数百万阵列探针之间交叉杂交背景的差异,很难解释。然而,这一局限性在比较而非绝对表达水平分析中可以忽略不计,这解释了微阵列在大范围生物学研究中的巨大效用。然而,准确估计绝对转录水平对许多应用程序来说至关重要。从技术上讲,它将允许将不同平台产生的mRNA表达测量结果相结合[-5]. 生物学上,细胞和组织内绝对转录水平的知识将允许与来自同一生物系统的其他测量值进行直接比较,从而为系统评估和调控过程建模提供基础[6-8]. 另一个重要的应用领域是拼接。在人类和其他物种中,很大一部分转录组复杂性被认为是通过单个基因组位点内外显子的选择性剪接产生的。例如,在人类中,至少47%的基因显示出选择性剪接的证据,平均每个基因有近3种异构体[9]. 然而,目前,个体转录亚型的鉴定和量化是一个重大挑战。准确估计单个外显子和外显子连接的绝对表达水平将大大有助于重建研究样本中同时存在的所有转录亚型[10,11].

在过去几年中,出现了几种新的高通量测序技术,每次测序运行产生数百万个序列[12-15]. 这些技术的一个应用是转录组测序,也称为RNA-Seq[13,16,17]. 这种方法与微阵列技术相比有几个优点,包括能够检测新的转录物和转录亚型,区分密切相关的同源序列,以及以“数字”而不是“模拟”的方式量化表达[13,16-18]. 然而,目前尚不清楚RNA-Seq是否能准确估计绝对转录水平。先前的研究表明,测序读取密度往往随着转录本的长度而变化——这一观察表明RNA-Seq并非无偏[13,16]. 在衔接子连接步骤、PCR扩增和/或测序本身过程中,可能会发生偏差,如某些序列的优先选择/排除。事实上,在高通量测序实验中已经证明了连接效率的差异[19,20]. 然而,这些偏见对绝对转录水平估计的影响目前尚不清楚。最近的几项研究比较了使用传统微阵列和RNA-Seq在人类和小鼠样本中测量的转录表达水平[13,16]. 在所有情况下,两种技术的表达水平表现出良好的一致性,相关性在0.62到0.75之间。尽管如此,这些方法之间的相关性低于每种方法中技术复制品之间的相关性(平均值,第页=0.96),这两种方法之间的很大一部分差异无法解释。在本研究中,我们使用第三种技术(鸟枪质谱)测量的基因表达水平来评估两种转录组量化方法相对于绝对转录水平测量的相对准确性。

结果和讨论

在这里,我们使用三种不同的方法测量人脑样本中的绝对基因表达水平:Affymetrix基因微阵列、高通量测序(Illumina,原名Solexa)和基于质谱的无标签蛋白质组学。在不同的大脑区域中,我们选择小脑皮层是因为它的组织学相对同质性,有助于解剖过程,并减少由于组织异质性导致的生物变异[21]. 本研究中使用的所有小脑组织均来自因与大脑无关的原因而猝死的个体,且所有样本的mRNA质量较高且具有可比性(参见附加文件1:表S1)。

用阵列和测序法测量mRNA

我们首先确定是否可以重现由微阵列和其他研究中报告的RNA-Seq测量的mRNA表达估计值之间的一致性。为此,我们使用这两种方法收集了两个独立小脑样本的mRNA表达数据,每个样本都包含来自5名成人个体的混合mRNA(方法)。两个池之间没有共享任何个人。使用Affymetrix Human Exon 1.0 ST阵列,我们在第一个和第二个合并样本中分别发现8717和6444个mRNA表达高于检测阈值的基因(方法)。在这些基因中,绝大多数(6424)在两个样本中都表达。此外,两个样本中的基因表达值高度相关(Person相关性,第页= 0.95,第页<2.2e-16)(参见附加文件1:图S1)。对于RNA-Seq,我们对两个混合样本中的每一个样本进行了两次测序,总共得到了5067363个序列读取,可以映射到人类基因组(方法)。在该数据集中,21541个带注释的已知蛋白编码基因(Ensembl版本49)中有13582个由至少两个独立序列表示,5724个由至少20个(方法)表示。虽然四个测序实验中的序列总数不同(参见附加文件1:表S2),通过序列覆盖率估计的基因表达水平显示出生物和技术复制之间的高度正相关(参见附加文件1:图S2)。因此,与先前发表的研究一致,基因表达测量在每种方法中显示出相对较小的差异[13,16,17].

与先前的观察结果进一步一致[13,16],我们发现两种方法估计的基因表达水平之间存在良好的正相关。即,我们观察到Person相关性第页= 0.67 (第页<2.2e-16),这两种技术在两个样本中的至少一个样本中检测到8441个基因的mRNA表达高于背景(图(图1A1安培和1C)。1摄氏度). 当单独考虑两个样本时,相关性的强度相似(第页=0.66(两个样品),图图1C1摄氏度和其他文件1:表S3)。此外,相关性的强度并不很大程度上取决于序列覆盖率和阵列检测截止值,也不取决于所使用的相关性测试的类型(参见附加文件1:图S3和表S3)。

保存图片、插图等的外部文件。对象名为1471-2164-10-161-1.jpg

Affymetrix微阵列测量的mRNA表达水平与RNA-Seq之间的相关性mRNA表达水平通过RNA-Seq在5个人的两个混合样本中测量,以及通过微阵列在相同样本(A)或5个独立个体样本(B)中测量。所示为8441和4758个基因的表达水平,分别在给定实验中的至少一个微阵列上的背景以上表达,并由RNA-Seq中的至少两个独立序列读取表示(有关详细信息,请参见方法)。(C和D)人员相关系数(第页)通过分别基于每个微阵列的RNA-Seq和微阵列测量值之间的比较,以及分别针对两个集合样本和5个个体样本的所有可能微阵列组合的平均表达(参见附加文件1:详见表S3)。

接下来,为了测试样本之间的生物变异是否会显著降低相关性强度,我们将两个样本集合中由RNA-Seq测定的表达水平与从不同个体获得的微阵列数据进行了比较。为此,我们使用了使用Affymetrix外显子阵列在5个个体成年人类小脑样本中获得的表达测量值,其中没有一个包含在两个合并样本中(参见附加文件1:表S1)。使用这些数据,我们发现微阵列和RNA-Seq表达测量值之间的相关性仅略微降低,这两种测量值都是5个人的平均表达(Person相关性第页= 0.61,第页<2.2e-16)和每个单独测量(图(图1B1B年和1D)。1天). 一般来说,由于所有5个样本的个体测量值高度相关,因此组合任何数量的个体都不会影响结果(图(图1D1天和其他文件1:表S3)。因此,成人小脑样本之间的个体差异对微阵列和RNA-Seq测量之间的相关性没有太大影响。

用蛋白质组学数据评估mRNA测量的准确性

尽管在微阵列和RNA-Seq表达测量之间观察到一致性,但相关性并不完美,留下了相对较大比例的总表达变化(从48%到48%)[13]在我们的数据中为57%)无法解释。为了评估哪种方法能够更好地估计绝对mRNA表达水平,我们将两组mRNA表达测量值与第三个数据集进行了比较:成人小脑的蛋白质表达数据。使用2D-LC MS/MS从四个单独样品中收集蛋白质数据,每个样品有两个实验重复(参见附加文件1:表S1)。在这些数据中,我们可以识别出179875个与1577个基因相对应的肽,肽识别FDR设置为0.5%(方法)。在这些基因中,至少有两个肽代表的1037个包含在以下分析中。

在生物学上,由于转录后调控,mRNA和蛋白质表达水平不可能完全相关。尽管如此,蛋白质和mRNA表达水平之间的正相关先前已在从细菌到哺乳动物的各种系统中显示出来,相关系数在0.2到0.5之间[6,22-27],从而表明mRNA和蛋白质的表达水平不是完全独立的。此外,由于技术和随机变化极不可能在mRNA和蛋白质表达测量之间产生更好的相关性,我们认为产生更好相关性的技术必须提供更准确的测量。

与之前的结果一致,我们发现在使用微阵列测量时,蛋白质和mRNA表达水平之间只有适度的相关性(皮尔逊相关性,第页= 0.24,第页=2.7e-8,N个= 520). 通过对同一组基因的RNA-Seq表达测量,我们发现相关性显著更高,尽管中等(Pearson相关性,第页= 0.36,第页<2.2e-16,N个= 520). 两种mRNA定量方法之间的差异显著(第页<0.05),且两个样本及其平均值一致,不依赖于序列覆盖深度、检测截止点或所用相关性测试的类型(图(图2C2厘米和其他文件1:表S4)。此外,使用来自五个单独样本的微阵列数据,而不是两个混合样本,得出了类似的结果(皮尔逊相关性,第页= 0.34,第页=1.1e-9和第页= 0.42,第页=1.5e-14,分别用于微阵列和RNA-Seq;N个= 306). 同样,蛋白质和微阵列测量之间的相关性强度,以及蛋白质和RNA-Seq之间的相关性,在所有样本中都是一致的,不依赖于序列覆盖深度、检测截止点或所使用的相关性测试类型(图(图2F2楼和其他文件1:表S4)。值得注意的是,尽管蛋白质组学和微阵列测量使用了相同的四个人,但我们一致发现使用RNA-Seq测量的mRNA和蛋白质数据之间的相关性更好(参见附加文件1:表S1)。因此,个别或技术差异并不能解释本研究中使用的样本之间RNA-Seq和蛋白质表达测量之间的更好一致性。最后,排除由多个亚型共享的所有外显子,并使用所有亚型的最高水平或平均值计算转录表达,不会改变结果(参见附加文件1:图S4)。综上所述,我们的结果表明,按照标准微阵列和RNA-Seq方法,与微阵列相比,RNA-Seg可以更好地估计观察到的蛋白质水平。

保存图片、插图等的外部文件。对象名为1471-2164-10-161-2.jpg

Affymetrix阵列和RNA-Seq测定的蛋白质和mRNA表达水平之间的相关性用技术复制品在四个单独样品中测量蛋白质表达。mRNA表达通过微阵列和RNA-Seq在两个混合样本(A、B和E)中测量,并通过微阵列在5个单独样本(D)中测量。所示为给定实验中所有微阵列上背景以上表达的520(A和B)和306(D和E)基因的表达强度,并由RNA-Seq中至少20个独立序列读取表示。(Cand F)人员相关系数(第页)通过RNA-Seq和蛋白质测量(蓝色)之间的比较,以及微阵列和蛋白质测量之间的比较(红色),分别针对两个合并样本和5个单独样本。对于RNA-Seq数据,相关性分别基于每个测序实验和所有可能的实验组合的平均表达。对于微阵列,相关性基于每个微阵列单独的表达值和所有可能的微阵列组合的平均表达(参见附加文件1:详见表S4)。

我们注意到,我们的方法评估了这两种技术的一般准确性,并不是作为在特定实验中验证单个基因表达测量值的方法开发的。相反,它展示了哪种技术,RNA-Seq或微阵列,作为一种方法提供了更准确的表达估计。此外,我们的方法估计了这两种技术的相对准确度,而不是绝对准确度。使用已知浓度的RNA样本加入总RNA样本中,将为评估技术的准确性提供更直接的方法。尽管我们的结果仅限于特定的阵列类型和使用的样品制备协议,但它们应该反映出三种方法之间的一般关系。在这三种技术中,我们使用标准样品制备和处理程序来估计基因表达水平。此外,在所有三种技术中,表达信号是在整个基因长度上计算的,而不是在特定的转录部分。本研究中使用的Affymetrix微阵列,即人类外显子阵列,包含分布在整个基因长度上的探针[28]. 在RNA-Seq和鸟枪蛋白质组学中,测量并不局限于预定义的探针,因此,可以潜在地检测与基因内任何位置对应的序列和肽。此外,对于微阵列和RNA-Seq,我们使用随机引物进行第一链cDNA合成,从而确保沿着转录物的大致均匀覆盖(方法)。事实上,通过分析基因表达测量值的分布,我们发现这三种技术的分布大致一致(图(图3)。). 由于这导致较长基因的总表达信号更大,我们在所有三种技术中使用了独立于基因长度的基因表达测量:RNA-Seq的平均序列覆盖率、微阵列的所有检测阵列探针的平均表达水平以及蛋白质组学的所有检测肽的平均拷贝数(方法)。因此,我们的结果应该反映出通过使用可比较和标准程序的三种技术获得的基因表达测量之间的一般关系。

保存图片、插图等的外部文件。对象名为1471-2164-10-161-3.jpg

三种方法中基因内表达信号的分布直方图显示了6424、13582和1577个基因的总信号密度,这些基因的可检测表达分别由微阵列、RNA-Seq或蛋白质组学估计。为了解释基因之间的长度差异,对于每个基因,我们通过基因长度将检测到的表达测量(阵列探针、序列读取或肽)的中间位置和基因5'端之间的距离标准化。

结论

在这项研究中,我们使用蛋白质表达测量来评估两种mRNA定量方法的准确性:微阵列和RNA-Seq。我们的结果表明,使用标准微阵列和RNA-Seq协议,RNA-Seq可以更好地估计绝对转录水平。这尤其令人鼓舞,因为高通量测序最初的方法学重点是基因组而不是转录组学研究。因此,通过高通量测序改进转录水平估计准确性的方法学调整可能是可行的。我们的结果表明,RNA-Seq已经成为依赖精确绝对转录水平测量的问题的首选技术。

方法

样品

人体组织来自马里兰州巴尔的摩马里兰大学NICHD脑和组织发育障碍库。NICHD大脑和组织库的作用是分发组织,因此,不能支持所进行的研究或结果的解释。所有捐赠者或近亲书面同意使用人体组织进行研究。NICHD脑组织库法医病理学家将所有受试者定义为正常对照。没有使用长期濒死状态的受试者。所有样本均取自小脑皮层中部。使用安捷伦生物分析仪(安捷伦科技公司,美国帕洛阿尔托)测量,没有样品显示出任何可检测到的RNA降解,表明组织保存良好。所有样本的详细信息,包括年龄、性别和RNA质量,如表S1所示。

RNA制备和cDNA合成

根据制造商的说明,使用Trizol试剂(Invitrogen,Carlsbad,CA)提取总RNA,并使用无RNase DNase I(Ambion,Austin,TX)在37°C下处理30分钟。根据制造商的说明,使用RNeasy MinElute试剂盒纯化不含DNA-free的总RNA(加利福尼亚州巴伦西亚齐根市)。在合成cDNA之前,用两轮RiboMinus试剂盒(Invitrogen)处理10 ug总RNA,以完全去除核糖体RNA。

对于第一条cDNA合成,将2 ug rRNA-减少的总RNA与500 ng随机引物混合物混合,在70°C下培养5分钟,然后转移到冰浴中。根据标准方案进行第一链cDNA合成。具体而言,在含有400 U Superscript II逆转录酶、75 mM Tris Hcl、pH7.5、100 mM KCl、5 mM MgCl2、0.01 M DTT和20 mM dNTPs(Invitrogen)的反应混合物中,总体积为25 ul;将该反应混合物在42°C下培养60分钟。在含有20 mM dNTPs、15 U大肠杆菌DNA聚合酶I和2 U大肠杆菌RNase H的反应混合物中,使用产生的第一链cDNA制备第二链cDNA,总体积为100 ul;将该反应混合物在16°C下培养2小时。使用Qiaquick PCR纯化试剂盒(Qiagen)纯化得到的双链cDNA。然后使用雾化技术对样品进行碎片化,得到大小为100–300 bps的碎片。

Illumina测序的文库准备

Illumina图书馆是根据制造商的说明准备的[29]具体而言,使用Qiaquick DNA纯化试剂盒(Qiagen)纯化文库。在存在2.5mM dNTP(NEB)和10mM ATP(Illumina,San Diego,CA)的情况下,用末端修复酶对尺寸选择的cDNA进行钝端。在1 mM dATP(NEB)存在下,通过37°C孵育30分钟,将带有Klenow片段(3'至5'外显子)的腺嘌呤核苷酸添加到钝端cDNA的3'端。用Qiaquick DNA纯化柱(Qiagen)纯化末端标记的双链cDNA。在室温下使用T4 DNA连接酶将末端带有A核苷酸的双链cDNA与适配器(Illumina)连接15分钟。然后用Qiaquick PCR纯化试剂盒(Qiagen)对样品进行纯化。随后,用两个适配引物(Illumina)扩增cDNA,初始变性步骤为98°C 30秒,然后在98°C下进行14次循环30秒,65°C下30秒,72°C下30s,最后在72°C延长循环5分钟。PCR产物用Qiaquick PCR纯化试剂盒纯化。根据制造商的说明,提取100–300 bp的产品,并使用Illumina的Solexa测序器直接用于聚类生成和测序分析。所有序列均可在http://www.picb.ac.cn/Comparative/data.html.

序列映射

为了将产生的36核苷酸长测序读数映射到人类基因,我们使用SOAP算法将所有读数与整个基因组(hg18)和从Ensembl数据库下载的所有转录物对齐[30]. 我们在每个对齐中最多允许两个不匹配。放弃了具有多个“最佳命中”位置的读取。我们将基因表达水平计算为其亚型上对应的读取数的中位数除以基因长度。

微阵列处理和分析

根据标准基因芯片制备Affymetrix人类外显子1.0 ST阵列的mRNA样本®全转录(WT)感官目标标记分析(见手册,P/N 701880)[28]. 在进行表达数据分析之前,我们屏蔽了所有与参考人类基因组不完全匹配(hg18)且未映射到唯一位置的探针[31]. 为了确定给定探针的信号强度是否高于预期的背景噪声水平,我们将每个探针的信号密度与具有相同GC含量的抗原探针的信号浓度分布进行了比较。抗原探针由Affymetrix专门设计,用于评估非特异性背景杂交[32]. 如果探针信号的强度大于具有相同GC含量的背景探针的95%,则将其归类为背景以上检测[33]. 如果检测到80%以上的探针,并且每个转录本至少检测到10个探针,则转录信号被分类为检测到每个个体。为了进一步消除阵列之间任何可能的系统实验差异,我们进行了PM-GCBG校正[32]使用R包“affy”进行分位数归一化[34]. 在归一化之前,所有强度都进行了基-二次对数变换。通过中值抛光法总结转录本的强度。我们使用了Transcript Cluster Annotations文件[28]将Affymetrix注释的转录簇映射到Ensemble基因。在多个转录簇映射到同一基因的情况下,我们将基因表达计算为所有相应转录簇的中位数。没有任何转录簇重叠。所有原始微阵列数据保存在GEO数据库[GSE13744]中。

蛋白质样品制备

如其他地方所述,从100 mg冷冻小脑组织样品中提取蛋白质[35,36]稍作修改。即,将每个组织样品切碎,在冰镇PBS中清洗,并使用电均质器在冰镇裂解缓冲液(8 M尿素、4%CHAPS、65 mM DTT、40 mM Tris、鸡尾酒蛋白酶抑制剂、200 mg组织/1 ml)中均质。将所得蛋白质溶液在冰上超声共3分钟,然后在25000 g下在4°C下离心1小时,以去除DNA、RNA和细胞碎片。使用5倍体积的沉淀溶液(乙醇:丙酮:乙酸,体积比50:50:0.1)在4°C下沉淀蛋白质上清液过夜,然后进行离心。将沉淀溶解在变性缓冲液(6M盐酸胍,100mM Tris,鸡尾酒蛋白酶抑制剂,pH 8.3)中,并通过Bradford测定法测定蛋白质浓度。

蛋白质消化按其他说明进行[37]. 简单地说,用DTT(100μg/1μl 1 M DTT)处理每个样品中的600μg蛋白质,用IAA(100μg/kl 1 M IAA)烷基化,并用消化缓冲液(50 mM碳酸氢铵)超滤。所得蛋白溶液在37°C下与胰蛋白酶(酶:蛋白质质量比1:40)孵育过夜,然后超滤和冷冻干燥。然后将冷冻的蛋白质样品溶解在负载缓冲液中,用于LC-MS/MS分析。

2D LC-MS/MS分析和肽鉴定

肽分馏和分析在pH连续在线梯度(pCOG)2D LC-MS/MS系统中进行,如别处所述[38]稍作修改。简言之,将肽溶液装入SCX(强阳离子交换)柱(320μm×100 mm柱技术公司,美国加利福尼亚州),洗脱得到11个组分。然后使用pH连续梯度缓冲液将这些组分中的每一组分加载到两个RP(反相)替代捕集柱(320 mm、620 mm、C18、5 mm,柱技术)上。使用以下RP梯度洗脱肽组分:2至40%流动相(0.1%甲酸(v/v)乙腈),120 min,200μ分流前L/min流量和1.5μ拆分后L/分钟。在数据相关采集模型中,对配备金属针电喷雾界面质谱仪(ThermoFinnigan,San Jose,CA,USA)的LTQ质谱仪进行分析(每次完整扫描,然后对最强烈的离子进行十次MS/MS扫描)。使用的所有其他参数均按中所述进行设置[39].

通过使用BioWorks™3.2软件套件中的SEQUEST程序搜索人类肽组合数据库(IPI人类v3.22)及其反向版本,对肽进行鉴定。允许3.0 Da的质量耐受性和一个缺失的胰蛋白酶裂解位点。半胱氨酸羧氨基甲酰化被设置为静态修饰,未检查其他修饰。所有输出结果都通过内部软件BuildSummary过滤并整合到蛋白质中。当错误发现率(FDR)小于0.5%时,所有通过某一Xcorr和delta CN的匹配都被视为有效。此外,所有可分配给多种蛋白质的肽均被去除。使用Biomart将所有蛋白质ID映射到Ensemble基因ID[40]. 对于每个基因,我们将蛋白质表达水平计算为对应于该基因的任何亚型的所有肽的中位数拷贝数。

相关性分析

为了评估不同平台之间的相关性,我们首先设置截止值,以选择每个平台具有可识别表达信号的基因子集。然后,我们使用重叠基因计算了来自每对平台的表达测量值之间的参数(Pearson)和非参数(Spearman)相关系数。在蛋白质和mRNA表达数据之间的比较中,所有三个数据集中表达的基因的交叉用于微阵列/蛋白质和RNA-Seq/蛋白质比较,以确保获得的相关值的可比性。

对于mRNA数据,设置了一个严格的和一个宽松的截止值。对于微阵列,严格的临界值要求给定基因的表达值在数据集的所有样本中通过检测临界值(见上文):五个个体或两个集合样本。松弛截断需要集合中至少一个样本中的表达式值才能通过检测截断。对于RNA测序数据,严格的截止需要至少20次测序读取才能在所有运行中映射到给定的基因,而放松的截止则需要至少两次读取。对于蛋白质表达数据,我们认为所有1037个基因都由至少两个在FDR<0.5%时鉴定的独立肽表达(见上文)。此外,我们分别使用第一组和第二组技术复制品中表达的934和694蛋白重复了相关分析(参见附加文件1:图S5)。

作者的贡献

NF、ZY和CM进行了实验。XF、NF、SG、YX和HH分析了数据。WC、YL、RZ和PK构思了该研究,并参与了其设计和协调。所有作者都帮助起草了手稿,阅读并批准了最终版本。

补充材料

附加文件1:

补充图表。附加文件1包含所有补充图表。图S1–Affymetrix阵列测量的基因表达水平之间的相关性。图S2–通过RNA-Seq测量的基因表达水平之间的相关性。图S3–在不同测序深度下,Affymetrix阵列测量的基因表达水平和RNA-Seq之间的相关性。图S4–使用不同方法计算mRNA表达水平的Affymetrix阵列或RNA-Seq测量的蛋白质和mRNA表达级别之间的相关性。图S5–通过Affymetrix阵列或RNA-Seq测量的mRNA表达水平与两个技术复制品中的蛋白质表达水平之间的相关性。表S1–样本信息。表S2–四个测序实验中的序列总数。表S3–Affymetrix阵列和RNA-Seq测量的基因表达水平之间的相关性。表S4–通过Affymetrix阵列和RNA-Seq测量的蛋白质表达水平和mRNA表达水平之间的相关性。

单击此处获取文件(422K,pdf格式)

鸣谢

我们感谢NICHD发育障碍脑和组织库,特别是H.R.Zielke提供了样本,T.Giger和F.Xue提供了帮助,C.Green和H.Lockstone编辑了手稿,M.Vingron和上海比较生物学小组的所有成员,特别是H.Augix,进行了有益的讨论。我们感谢德国联邦教育部长、马克斯·普朗克学会、中国科学院批准号KSCX2-YW-R-09,以及中华人民共和国科学技术部批准号2007CB947004和2006CB503900的财政支持。

工具书类

  • Mutch DM,Berger A,Mansourian R,Rytz A,Roberts MA。极限倍变化模型:从微阵列数据中选择差异表达基因的实用方法。BMC生物信息学。2002;:17.doi:10.1186/1471-2105-3-17。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Held GA,Grinstein G,Tu Y.基因表达与DNA微阵列中观察到的强度之间的关系——一项建模研究。核酸研究。2006;34:e70.doi:10.1093/nar/gkl122。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Canales RD、Luo Y、Willey JC、Austermiller B、Barbacioru CC、Boysen C、Hunkappiller K、Jensen RV、Knight CR、Lee KY等。用定量基因表达平台评估DNA微阵列结果。国家生物技术。2006;24:1115–1122. doi:10.1038/nbt1236。[公共医学] [交叉参考][谷歌学者]
  • Deshmukh H,Yeh TH,Yu J,Sharma MK,Perry A,Leonard JR,Watson MA,Gutmann DH,Nagarajan R.高分辨率双板状aCGH分析显示毛细胞星形细胞瘤中HIPK2频繁扩增,表达增加。致癌物。2008;27:4745–4751. doi:10.1038/onc.2008.110。[公共医学] [交叉参考][谷歌学者]
  • Patterson TA、Lobenhofer EK、Fulmer-Smentek SB、Collins PJ、Chu TM、Bao W、Fang H、Kawasaki ES、Hager J、Tikhonova IR等。微阵列质量控制(MAQC)项目中单色和双色平台的性能比较。国家生物技术。2006;24:1140–1150. doi:10.1038/nbt1242。[公共医学] [交叉参考][谷歌学者]
  • Kislinger T、Cox B、Kannan A、Chung C、Hu P、Ignatchenko A、Scott MS、Gramolini AO、Morris Q、Hallett MT等。小鼠器官和细胞器蛋白表达的全球调查:蛋白质组学和转录组学联合分析。单元格。2006;125:173–186. doi:10.1016/j.cell.2006.01.044。[公共医学] [交叉参考][谷歌学者]
  • Cox B、Kislinger T、Wigle DA、Kannan A、Brown K、Okubo T、Hogan B、Jurisica I、Frey B、Rossant J等。小鼠肺发育和Nmyc靶基因的集成蛋白质组和转录组分析。分子系统生物学。2007;:109. [PMC免费文章][公共医学][谷歌学者]
  • Lashkari DA、DeRisi JL、McCusker JH、Namath AF、Gentile C、Hwang SY、Brown PO、Davis RW。用于全基因组并行遗传和基因表达分析的酵母微阵列。美国国家科学院程序。1997;94:13057–13062. doi:10.1073/pnas.94.24.13057。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Stamm S.信号及其调控选择性剪接的转导途径:人类基因组的一个新维度。人类分子遗传学。2002;11:2409–2416. doi:10.1093/hmg/11.20.2409。[公共医学] [交叉参考][谷歌学者]
  • Fehlbaum P、Guihal C、Bracco L、Cochet O。量化剪接变体表达水平和相对丰度的微阵列配置。核酸研究。2005;33:e47。doi:10.1093/nar/gni047。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Irmler M、Hartl D、Schmidt T、Schuchhardt J、Lach C、Meyer HE、Hrabe de Angelis M、Klose J、Beckers J。转录组和蛋白质组比较中模糊数据的处理和解释方法。蛋白质组学。2008;8:1165–1169. doi:10.1002/pmic.200700741。[公共医学] [交叉参考][谷歌学者]
  • Huang W,Marth GT。EagleView:下一代测序技术的基因组组装查看器。基因组研究。2008;18:1538–1543. doi:10.1101/gr.076067.108。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Marioni J、Mason C、Mane S、Stephens M、Gilad Y.RNA-seq:技术再现性评估和与基因表达阵列的比较。基因组研究。2008;18:1509–1517. doi:10.1101/gr.079558.108。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Pihlak A、Bauren G、Hersoug E、Lonnerberg P、Metsis A、Linnarsson S。使用短通用拼接探针进行快速基因组测序。国家生物技术。2008;26:676–684. doi:10.1038/nbt1405。[公共医学] [交叉参考][谷歌学者]
  • Torres TT,Metta M,Ottenwalder B,Schlotterer C.通过大规模平行测序进行基因表达谱分析。基因组研究。2008;18:172–177. doi:10.10101/gr.6984908。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Mortazavi A、Williams BA、McCue K、Schaeffer L、Wold B.通过RNA-Seq对哺乳动物转录体进行定位和量化。自然方法。2008;5:621–628. doi:10.1038/nmeth.1226。[公共医学] [交叉参考][谷歌学者]
  • Nagalakshmi U,Wang Z,Waern K,Shou C,Raha D,Gerstein M,Snyder M。通过RNA测序确定的酵母基因组转录图谱。科学。2008;320:1344–1349. doi:10.1126/science.1158441。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Wilhelm BT、Marguerat S、Watt S、Schubert F、Wood V、Goodhead I、Penkett CJ、Rogers J、Bahler J.在单核苷酸分辨率下调查的真核转录组的动态库。自然。2008;453:1239–1243. doi:10.1038/nature07002。[公共医学] [交叉参考][谷歌学者]
  • 因此,AP、Turner RF、Haynes CA。通过直接结扎化学提高SAGE适配器结扎的效率。核酸研究。2004;32:e96.doi:10.1093/nar/gnh082。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Landgraf P、Rusu M、Sheridan R、Sewer A、Iovino N、Aravin A、Pfeffer S、Rice A、Kamphorst AO、Landthaler M等。基于小RNA文库测序的哺乳动物microRNA表达图谱。单元格。2007;129:1401–1414. doi:10.1016/j.cell.2007.04.040。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Ramnani N.灵长类皮质细胞系统:解剖和功能。国家神经科学评论。2006;7:511–522. doi:10.1038/nrn1953。[公共医学] [交叉参考][谷歌学者]
  • Gygi SP,Rochon Y,Franza BR,Aebersold R.酵母中蛋白质和mRNA丰度的相关性。分子细胞生物学。1999;19:1720–1730. [PMC免费文章][公共医学][谷歌学者]
  • Lian Z,Wang L,Yamaga S,Bonds W,Beazer-Barclay Y,Kluger Y,Gerstein M,Newburger PE,Berliner N,Weissman SM。髓系分化程序的基因组和蛋白质组分析。鲜血。2001;98:513–524. doi:10.1182/血液。V98.3.513。[公共医学] [交叉参考][谷歌学者]
  • Griffin TJ、Gygi SP、Ideker T、Rist B、Eng J、Hood L、Aebersold R。酿酒酵母转录组和蛋白质组水平基因表达的互补分析。分子细胞蛋白质组学。2002;1:323–333. doi:10.1074/mcp。M200001-MCP200。[公共医学] [交叉参考][谷歌学者]
  • Cox B,Kislinger T,Emili A.整合基因和蛋白质表达数据:模式分析和剖面挖掘。方法。2005;35:303–314. doi:10.1016/j.ymeth.2004.08.021。[公共医学] [交叉参考][谷歌学者]
  • Golding I,Paulsson J,Zawilski SM,Cox EC。单个细菌基因活性的实时动力学。单元格。2005;123:1025–1036. doi:10.1016/j.cell.2005.09.031。[公共医学] [交叉参考][谷歌学者]
  • Schmidt MW,Houseman A,Ivanov AR,Wolf DA。分裂酵母裂殖酵母的比较蛋白质组学和转录组学分析。分子系统生物学。2007;:79.doi:10.1038/msb4100117。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • 昂飞http://www.affmetrix.com/support/technical/byproduct.affx?product=huexon-标准时间
  • 照明网址:http://www.illumina.com
  • Li R,Li Y,Kristiansen K,Wang J.SOAP:短寡核苷酸比对计划。生物信息学。2008;24:713–714. doi:10.1093/bioinformatics/btn025。[公共医学] [交叉参考][谷歌学者]
  • 汞18http://hgdownload.cse.ucsc.edu/goldenPath/hg18/
  • 外显子阵列背景校正http://www.affmetrix.com/support/technical/whitepapers/exon_background_correction_whitepaper(支持/技术/白皮书).pdf
  • Clark TA、Schweitzer AC、Chen TX、Staples MK、Lu G、Wang H、Williams A、Blume JE。使用综合人类外显子微阵列发现组织特异性外显子。基因组生物学。2007;8:R64.doi:10.1186/gb-2007-8-4-R64。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • 生物导体任务视图:软件http://www.bioconductor.org/packages/release/Software.html
  • 姜XS,戴J,盛QH,张磊,夏QC,吴JR,曾R.亚细胞蛋白质组研究的比较蛋白质组学策略:ICAT方法结合生物信息学预测确定大鼠肝线粒体蛋白质和过氧化氢酶线粒体定位指示。分子细胞蛋白质组学。2005;4:12–34.[公共医学][谷歌学者]
  • Fu N,Drinnenberg I,Kelso J,Wu JR,Paabo S,Zeng R,Khaitovich P。人类和黑猩猩蛋白质和mRNA表达进化的比较。《公共科学图书馆·综合》。2007;2:e216.doi:10.1371/journal.pone.0000216。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Li RX,Zhou H,Li SJ,Sheng QH,Xia QC,Zeng R.在二维液相色谱质谱鉴定之前通过液相等电聚焦对蛋白质组进行预分离。蛋白质组研究杂志。2005;4:1256–1264. doi:10.1021/pr049751g。[公共医学] [交叉参考][谷歌学者]
  • Zhou H,Dai J,Sheng QH,Li RX,Shieh CH,Guttman A,Zeng R.利用在线连续pH和RP梯度进行全局蛋白质组分析的全自动2-D LC-MS方法。电泳。2007;28:4311–4319. doi:10.1002/elps.200700463。[公共医学] [交叉参考][谷歌学者]
  • Dai J,Shieh CH,Sheng QH,Zhou H,Zeng R.基于使用pH步骤的离子交换柱洗脱的集成多维液相色谱/质谱蛋白质组分析。分析化学。2005;77:5793–5799. doi:10.1021/ac050251w。[公共医学] [交叉参考][谷歌学者]
  • 生物城http://www.biomert.org/biomart/martview

来自的文章BMC基因组学由以下人员提供BMC公司