跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
国家生物技术。作者手稿;PMC 2012年1月11日提供。
以最终编辑形式发布为:
2011年7月11日在线发布。 数字对象标识:10.1038/nbt.1910
预防性维修识别码:PMC3137276
美国国立卫生研究院:美国国家卫生研究院287698
PMID:21747377

测序技术不能消除生物变异性

关联数据

补充资料

摘要

RNA测序因其相对于微阵列的优势而备受瞩目。这种兴奋导致了大量的出版物贬低生物变异性的重要性;正如20世纪90年代微阵列出版物所做的那样。通过比较微阵列和测序数据,我们证明,无论测量技术如何,表达测量都表现出个体间的生物变异性。我们的分析表明,旨在评估生物变异性的RNA测序实验更有可能产生可重复的结果。

RNA测序(RNAseq)技术与微阵列相比具有多种优势。例如,可以测量替代转录1或测量非编码区的转录2从头开始.另一个潜在优势是技术差异小2-4这导致了该技术的迅速采用以及最近的出版物激增5然而,兴奋情绪导致许多此类出版物低估了生物变异性的影响;也许忘记了基因表达测量中不需要的变异不仅仅是由于测量误差。基因表达是一个随机过程6已知在被认为是同一人群的不同单位之间存在差异,例如在个体的特定健康组织样本中7在典型的实验中,可以分解基因表达测量的变化8作为:

Var(Expr)=组间变异性+测量误差+生物变异性

群体可变性是实验中考虑的组导致的基因表达变化。例如,众所周知,肿瘤样本的基因表达谱与匹配的健康对照组的表达谱不同9这种变异性可以通过比较不同生物组的样品来测量,通常是感兴趣的结果。基因表达变异的第二个组成部分,测量误差,可以通过技术复制品进行估算,即使用技术多次测量同一样品的不同等分。这是随着技术改进而可能减少的变化类型4测序和微阵列研究中众所周知的技术变异来源是实验室10,11和批次12影响。表达式变化的第三个部分是真的生物变异性,这只能通过考虑从同一组内的多个生物样本中进行的表达测量来进行测量。无论使用何种技术来测量表达水平,真正的基因表达水平都会因个体而异,因为表达本质上是一个随机过程6在一个主要关注群体比较的实验中,测量误差和生物变异可能会与关注的结果相混淆:组间表达的估计差异。

为了说明测序技术如何不能消除同一群体中个体之间的生物变异性,我们从仅有的两个RNA测序实验中收集了公共数据,这两个实验分别有n=60和n=69的大量生物重复13,14我们将这些测序数据的子集(分别为43和51个样本)与来自两个不同平台的微阵列数据进行了比较15,16在每次比较中,使用这两种技术分析完全相同的细胞系。在研究一中,m=14797基因在所有样本的测序和微阵列中进行了表达测量。在第二项研究中,m=7157基因在所有样本上都通过这两种技术进行了表达测量(补充方法).

对于这两项研究中的每一个表达基因,我们计算了用微阵列和测序测量的个体表达水平的变异性估计值(补充方法). 我们发现,在微阵列和测序技术中,每个基因的表达差异是相似的(图1a-b). 不同的可变性度量选择也存在相同的趋势(补充图1a-b)以及根据测序计算表达式的不同方法(补充图1c-d). 我们还发现,转录本在生物变异性方面表现出显著差异。例如,考克斯4nb在这两种人群中都没有强烈的变化,而RASGRP1系统无论技术如何,这两种人群的差异都很大(图1c). 这两个基因的技术变异性大大小于总变异性(补充图2a). 这些结果与生物变异性是基因表达本身的特性相一致,而不是用于测量表达的技术。为了证实这一结果,我们通过将混合效应模型应用于测序(11个样本)和微阵列(14个样本)实验的数据,估算了每个基因的总变异性比例,其中我们有两个技术重复。一般来说,大多数观察到的变异是生物性的,而不是技术性的(补充图2b).

保存图片、插图等的外部文件。对象名为nihms-287698-f0001.jpg

用测序和微阵列测量生物变异性。(a)在《陌生人》中用微阵列测量的表达值标准偏差图.研究15蒙哥马利(x轴)和测序.研究13(y轴)。测序对表达变异性的估计与微阵列的估计类似。(b)Choy基因芯片测量的表达值标准偏差图.研究16(x轴)和Pickrell.研究14(y轴)。测序的表达变异性估计值与微阵列的估计值几乎相同。(c)两个基因的表达图COX4NB公司(左栏,粉红色)和RASGRP1(右栏,蓝色)通过测序(顶行)和微阵列(底行)与生物样品进行测量。这两项研究的平均中心测量值分别绘制为圆和三角形。这两个基因的标准偏差在a、 b。该图表明,无论测量技术或研究如何COX4NB公司表达式的变量比RASGRP1系统表达式。

生物变异性对RNA测序实验的设计、分析和解释具有重要意义。例如,观察到的COX4NB公司两组之间可能很重要,因为该基因的表达在个体之间差异不大。同时RASGRP1这可能是毫无意义的,因为该基因的表达是高度可变的。如果只有少数生物复制品可用,就不可能在一项研究中估计每个基因表达的生物变异水平。补充表1总结了过去三年中发表的大量RNA测序研究。在所有情况下,除了我们在这里分析的两项研究外,结论都是基于少量(n≤2)的生物复制。RNA测序研究的一个目标可能只是识别和编目新的或替代转录物的表达。然而,所有这些研究都是在极少数生物复制的基础上做出更广泛的生物学声明。

我们的分析对使用少量生物复制品进行的研究有两个重要影响:(1)这些研究的显著结果可能是由于生物变异,可能不可重复;(2)不可能知道表达模式是针对研究中的个体还是研究人群的特征。这些想法现在在微阵列实验中被广泛接受,现在需要大量的生物复制来证明科学结论的合理性。我们的分析表明,由于生物变异性是基因表达的一个基本特征,测序实验应遵循类似的要求。

补充材料

1

单击此处查看。(982K,pdf)

工具书类

1Wang ET等。人类组织转录体中的替代亚型调控。自然。2008;456:470–476. [PMC免费文章][公共医学][谷歌学者]
2Mortazavi A、Williams BA、McCue K、Schaeffer L、Wold B.通过RNA-Seq对哺乳动物转录体进行定位和量化。自然方法。2008;5:621–628.[公共医学][谷歌学者]
三。Bullard JH,Purdom E,Hansen KD,Dudoit S。mRNA-Seq实验中归一化和差异表达统计方法的评估。BMC生物信息学。2010;11:94. [PMC免费文章][公共医学][谷歌学者]
4Marioni JC、Mason CE、Mane SM、Stephens M、Gilad Y.RNA-seq:技术再现性评估和与基因表达阵列的比较。基因组研究。2008;18:1509–1517. [PMC免费文章][公共医学][谷歌学者]
5Wang Z,Gerstein M,Snyder M.RNA-Seq:转录组学的革命性工具。Nat Rev基因。2009;10:57–63. [PMC免费文章][公共医学][谷歌学者]
6Elowitz MB,Levine AJ,Siggia ED,Swain PS。单细胞中的随机基因表达。科学。2002;297:1183–1186.[公共医学][谷歌学者]
7Whitney AR等人。人类血液中基因表达模式的个体性和变异。美国国家科学院院刊。2003;100:1896–1901. [PMC免费文章][公共医学][谷歌学者]
8Churchill GA。cDNA微阵列实验设计基础。自然遗传学。2002;32(补充):490-495。[公共医学][谷歌学者]
9Golub TR等。癌症的分子分类:通过基因表达监测进行分类发现和分类预测。科学。1999年;286:531–537.[公共医学][谷歌学者]
10Irizarry RA等。微阵列平台的多实验室比较。自然方法。2005;2:345–350.[公共医学][谷歌学者]
11Shi L等人。MicroArray质量控制(MAQC)项目显示了基因表达测量的平台间和平台内再现性。国家生物技术。2006年;24:1151–1161. [PMC免费文章][公共医学][谷歌学者]
12Leek JT等。解决高吞吐量数据中批量效应的广泛和关键影响。Nat Rev基因。2010;11:733–739. [PMC免费文章][公共医学][谷歌学者]
13蒙哥马利·SB等人。在高加索人群中使用第二代测序的转录组遗传学。自然。2010;464:773–777. [PMC免费文章][公共医学][谷歌学者]
14Pickrell JK等人。通过RNA测序了解人类基因表达变异的机制。自然。2010;464:768–772. [PMC免费文章][公共医学][谷歌学者]
15Stranger BE等。核苷酸和拷贝数变异对基因表达表型的相对影响。科学。2007年;315:848–853. [PMC免费文章][公共医学][谷歌学者]
16Choy E等。体外人类特征的遗传分析:淋巴母细胞系中的药物反应和基因表达。公共科学图书馆-遗传学。2008;4:e1000287。 [PMC免费文章][公共医学][谷歌学者]