跳到主要内容
  • 研究
  • 出版:

通过多个内部控制基因的几何平均实现实时定量RT-PCR数据的精确归一化

摘要

背景

基因表达分析在生物学研究中越来越重要,实时逆转录聚合酶链反应(RT-PCR)成为高通量和准确表达所选基因的分析方法。鉴于该方法的敏感性、再现性和较大的动态范围增加,对正常化的适当内部控制基因的要求越来越严格。尽管据报道家政基因的表达差异很大,但没有一项系统的调查能够正确地确定与只使用一个控制基因的常见做法有关的错误,也没有提出解决这个问题的适当方法。

结果

我们概述了一种稳健且创新的策略,以确定给定组织中最稳定表达的控制基因,并确定计算可靠标准化因子所需的最小基因数。我们评估了不同人类组织中不同丰度和功能类别的十个家政基因,并证明了常规使用单个基因进行标准化会导致相当大比例的测试样本出现相对较大的误差。通过分析公开可用的微阵列数据,验证了多个精心选择的家政基因的几何平均值是一个准确的归一化因子。

结论

这里提出的标准化策略是准确RT-PCR表达谱分析的先决条件,除其他外,这为研究小表达差异的生物学相关性开辟了可能性。

背景

基因表达分析在生物学研究的许多领域中越来越重要。理解表达基因的模式有望深入了解复杂的调控网络,并极有可能导致识别与新生物过程相关或与疾病相关的基因。最近开发的两种测量转录物丰度的方法得到了广泛应用。微阵列可以并行分析两个不同标记RNA群体中的数千个基因[1]实时RT-PCR可以同时测量有限数量的基因在许多不同样本中的基因表达,特别适用于只有少量细胞可用的情况[2,,4]. 与传统的定量方法相比,这两种技术都具有速度、吞吐量和高度的自动化潜力,例如北区分析、核糖核酸酶保护分析或竞争性RT-PCR。然而,这些新方法需要与传统的mRNA定量方法相同的标准化。

基因表达分析中需要控制几个变量,例如起始物质的数量、酶的效率以及组织或细胞之间的整体转录活性差异。已经采用了各种策略来规范这些变化。在可重复提取高质量RNA的受控条件下,理想情况下,基因转录本数量标准化为细胞数量,但通常无法准确计数细胞,例如从实体组织开始时。另一个经常应用的标准化标量是RNA质量,特别是在northern印迹分析中。有几个论点反对使用质量量。未考虑RNA的质量和酶反应的相关效率。此外,在某些情况下,无法量化该参数,例如,当显微解剖组织中只有少量RNA可用时。也许反对将总RNA质量用于归一化的最有力论据是,它主要由rRNA分子组成,并不总是代表mRNA部分。最近,约7.5%的乳腺腺癌中rRNA和mRNA含量的显著不平衡证明了这一点[5]. 此外,有报道称rRNA转录受生物因素和药物的影响[6,7,8]. 使用18S或28S rRNA分子作为标准的另一个缺点是,纯化的mRNA样品中没有它们,与靶mRNA转录物相比,它们的丰度很高。后者使得实时RT-PCR数据分析中难以准确减去基线值。

迄今为止,内部控制基因最常用于使mRNA比例正常化。这种内部控制——通常被称为管家基因——不应在被调查的组织或细胞中发生变化,也不应在实验治疗的反应中发生变化。然而,许多研究使用这些组成性表达的控制基因,而没有适当验证其假定的表达稳定性。但是文献表明,家政基因表达虽然在特定的细胞类型或实验条件下偶尔保持不变,但可能会有很大差异(参见[9,10,11,12]). 随着实时RT-PCR方法的灵敏度、重复性和大动态范围的增加,对合适的内部控制基因的要求越来越严格。在本研究中,我们对13种不同人体组织中的10个常用看家基因进行了广泛评估,并概述了基于多个控制基因计算归一化因子的程序,以更准确可靠地归一化基因表达数据。此外,利用公开的微阵列数据,在与常用微阵列缩放因子的比较研究中验证了该标准化因子。

结果

家政基因的表达谱分析

引物是为十种常用的家政基因设计的(ACTB、B2M、GAPD、HMBS、HPRT1、RPL13A、SDHA、TBP、UBCYWHAZ公司)(见表1完整的基因名称、登录号、功能、染色体定位、别名、加工假基因的存在以及引物跨越内含子的指示;参见表2用于引物序列)。特别注意选择属于不同功能类别的基因,这大大减少了基因可能被共同调控的机会。这10个内部控制基因的表达水平在34个神经母细胞瘤细胞系(由不同的患者在不同的实验室独立制备)、20个来自不同个体的短期培养的正常成纤维细胞样本、13个正常白细胞样本、9个正常骨髓样本、,以及来自汇集器官(心脏、大脑、胎脑、肺、气管、肾脏、乳腺、小肠和子宫)的另外9个正常人体组织。原始表达式值以制表符分隔文件的形式提供(请参阅其他数据文件)。

表1本研究评估的内部控制基因
表2内部控制基因的引物序列

单控件规范化错误

为了确定与仅使用一个家政基因进行标准化的常见做法相关的可能错误,我们计算了两个不同样本(来自同一组织面板)中两个控制基因的比率,并将其称为单一控制标准化错误,E类(见材料和方法)。对于两个理想的内部控制基因(所有样本中基因之间的恒定比率),E类等于1。在实践中,观察到E类值大于1并构成错误E类-两个样本之间的折叠表达差异取决于用于归一化的特定看家基因。E类计算了可用组织面板中所有45个控制基因的二乘二组合和865个二乘二样本组合的值(神经母细胞瘤、成纤维细胞、白细胞、骨髓和来自Clontech的一系列正常组织;即总共38925个数据点)(图1). 此外,通过分析同一控制基因的重复运行来计算系统误差分布。平均75%和90%E类值分别为3.0(范围2.1-3.9)和6.4(范围3.0-10.9)。

图1
图1

单控制标准化错误值(E类)计算为两个不同样本中两个对照基因的比例(见材料和方法),并在这里总结为不同组织面板的累积分布图,指出管家基因表达的显著差异。

选定家政基因的遗传稳定性测量和排序

人们普遍认为,基因表达水平应该通过精心挑选的稳定的内部控制基因进行标准化。然而,为了验证给定控制基因的假定稳定表达,需要事先了解使该基因正常化的可靠措施,以消除任何非特异性变异。为了解决这个循环问题,我们开发了一种基因稳定性测量方法,以在非标准化表达水平的基础上确定对照基因的表达稳定性。这一测量依据的原则是,无论实验条件或细胞类型如何,两个理想的内部控制基因在所有样本中的表达比率都是相同的。通过这种方式,两个现实生活中管家基因表达比率的变化反映了这样一个事实,即其中一个(或两个)基因没有持续表达,随着比率的增加,相应的表达稳定性降低。对于每个控制基因,我们确定了与所有其他控制基因的成对变异,作为对数转换表达比率的标准偏差,并定义了内部控制基因稳定性度量M(M)作为特定基因与所有其他控制基因的平均成对变异。最低的基因M(M)值具有最稳定的表达式。假设控制基因不是共同调控的,逐步排除最高的基因M(M)值导致两个组成性表达的看家基因的组合,这两个基因在测试样本中具有最稳定的表达。为了管理大量的计算,我们为Microsoft Excel编写了一个名为geNorm的Visual Basic应用程序(VBA),它可以自动计算基因稳定性指标M(M)对于给定样本集中的所有控制基因(geNorm可根据要求从作者处免费获得)。该程序可以消除得分最差的家务基因(即具有最高得分的基因M(M)值)和重新计算新M(M)其余基因的值。使用这个VBA小程序,我们根据表达稳定性对五个组织面板中的十个控制基因进行了排序(图2,表). 此外,系统变异被计算为两两变异,V、,用于对同一基因进行重复的RT-PCR实验,反映固有的机器、酶和移液管变异。

图2
图2

平均表达稳定性值(M(M))在逐步排除不同组织面板中最不稳定的控制基因(黑圈,神经母细胞瘤;白圈,正常池;白方块,骨髓;黑方块,白细胞;灰圈,成纤维细胞;灰方块,系统误差)期间,剩余控制基因的数量。另请参见表根据其表达稳定性对基因进行排序。

表3按表达稳定性排序的控制基因*

基于多个控制基因几何平均值的归一化因子计算

我们的结论是,为了准确测量表达水平,需要用多个看家基因而不是一个来进行标准化。因此,必须根据表现最好的家政基因的表达水平计算归一化因子。为了准确平均控制基因,我们建议使用几何平均值而不是算术平均值,因为前者可以更好地控制不同基因之间可能的离群值和丰度差异。用于几何平均的基因数量是实际考虑和准确性之间的权衡。很明显,准确的标准化因子不应包括在某些组织中观察到的相当不稳定的基因。另一方面,量化八个控制基因仍然相对不切实际,例如,当只需要研究几个目标基因时,或者当只有少量RNA可用时。此外,如果所有基因都相对稳定地表达,并且归一化因子没有显著改变是否包含更多基因,那么量化更多的基因是浪费资源。考虑到所有这些因素,我们建议在计算RT-PCR标准化因子(NF)时尽量少使用三个最稳定的内部控制基因 n个 ,n个=3),逐步包含更多控制基因,直到(n个+1)th基因对新计算的归一化因子(NF)没有显著贡献n个+ 1). 为了确定包括三个以上基因进行标准化的可能需要或效用n个/n个+ 1在两个连续归一化因子(NF)之间计算 n个 和NFn个+ 1)对于同一纸巾面板内的所有样本(带有 ij公司 =核因子 n、 我 伊克 =NFn个+ 1,,n个用于归一化的基因数量(3≤n个≤9),以及样本指数;参见方程式2材料和方法)。较大的变异意味着添加的基因具有显著的影响,最好包括在计算可靠的标准化因子中。对于所有组织类型,计算了三个最稳定的对照基因(即那些具有最低水平的对照基因M(M)值)和通过逐步包含最稳定的剩余控制基因的七个额外因子。随后计算每一系列NF的成对变化 n个 和NFn个+ 1归一化因子,反映添加(n个+1)th基因(图3a年). 很明显,包含第四个基因没有显著影响(即,低3/4值)用于白细胞、成纤维细胞和骨髓。NF之间近乎完美的相关性也说明了这一点和NF4值,如图中的成纤维细胞所示3亿根据这些数据,我们决定以0.15作为截止值,低于该值则不需要包含额外的控制基因。对于神经母细胞瘤和正常组织池,分别需要一个和两个额外的基因来实现可靠的正常化(参见图3亿). 8/99/10正常细胞池、神经母细胞瘤和白细胞的数值很好地证实了逐步排除得分最差的控制基因所获得的结果(图2). 该分析显示平均值最初急剧下降M(M)值,指出白细胞的两个异常表达控制基因和神经母细胞瘤和正常组织的一个不稳定基因。此外,如图所示,需要为最后两个组织面板包括额外的控制基因,这与控制基因表达的高变异一致2.

图3
图3

确定用于归一化的最佳控制基因数。(a)成对变化(n个/n个+ 1)归一化因子NF之间的分析 n个 和NFn个+ 1确定精确归一化所需的控制基因数量(箭头=归一化的最佳控制基因数量)。(b)之前选择的归一化因子散点图(x个-轴)和之后(-轴)包含(n个+1)th控制基因(第页=斯皮尔曼等级相关系数)。低变化值,,对应于高相关系数。很明显,对于成纤维细胞(A)、神经母细胞瘤(B)和正常混合组织(D),不需要包含三个以上、四个或五个以上的控制基因。相反,C组显示,对于正常的混合组织,至少需要包含第四个控制基因。

拟定实时RT-PCR标准化因子的验证

评估已建立的基因稳定性测量的有效性,即具有最低水平的基因M(M)值确实具有最稳定的表达,我们确定了每个对照基因的基因特异性变异作为归一化后表达水平的变异系数。对于适当的家政基因,这个系数应该是最小的。根据分别具有最低(NF3(1-3)),最高(NF3(8-10))、和中间M(M)值(NF3(6-8))(由geNorm确定)。随后,我们测定了每个标准化因子和每个组织面板内三个表达最稳定(即变异系数最低)的基因的平均基因特异性变异(图4a类). 很明显,当数据归一化为NF时,所有组织面板中的基因特异性变化是迄今为止最小的3(1-3)这表明基因稳定性测量有效地确定了表达最稳定的控制基因。要验证高M(M)值是不稳定或差异表达基因的特征,我们分析了MYCN公司-神经母细胞瘤中一个高差异表达的原癌基因及其预后价值[13]-以及一组十个家政基因。MYCN公司很容易被确定为差异表达最多的基因M(M)最不稳定控制基因的值为6.02比2.17(企业对企业)神经母细胞瘤。进一步观察到,使用单个控制基因进行标准化处理后,其他控制基因的基因特异性变异显著增加(数据未显示),这强调了使用多个看家基因后标准化处理的改进。

图4
图4

验证基因稳定性测量和仔细选择的用于归一化的控制基因的几何平均值。(a)基因稳定性测定的验证。用三个不同的因子进行归一化后,每个组织面板内变异最小的三个控制基因的平均基因特异性变异(确定为变异系数,单位为%),计算为三个最低(NF)的控制基因的几何平均值3(1-3)),最高(NF3(8-10))和中间体(NF3(6-8))基因稳定性值(由geNorm确定)。NB,神经母细胞瘤;POOL,正常集合组织;LEU,白细胞;BM,骨髓;纤维蛋白原、成纤维细胞。(b)几何平均。比较常用的微阵列比例因子和基于所选控制基因几何平均值(NF)的拟议RT-PCR标准化因子5,五个控制基因的几何平均值最低M(M)价值;法国试验标准M(M)< 0.7,控制基因的几何平均值M(M)< 0.7; 见结果),根据公开的微阵列数据计算出八个杂交[14]。

为了证明最佳控制基因之间的关联与细胞增殖无关,我们分析了增殖标记的表达水平PCNA公司在神经母细胞瘤细胞系中,测定了四个最佳管家的原始表达水平与标记基因之间的Spearman秩相关系数PCNA。从这一分析中,可以清楚地看出,控制基因与预期显著相关(第页<0.001,相关系数在0.60和0.76之间)。相反,在PCNA公司和四个控制基因中的三个,只有微弱的相关性(第页=0.024,系数=0.43)PCNA公司和控制基因HPRT1。这些数据有力地证明,最稳定的控制基因(由geNorm算法识别)不是本身与样本细胞增殖状态有关。

为了进一步验证仔细选择的用于归一化的控制基因的几何平均值的准确性,将从公开可用的微阵列数据中获得的管家基因表达水平的几何平均数与为相同数据计算的常用微阵列归一化因子进行比较。为此,一个8000个基因阵列数据集[14]选择包含本次RT-PCR研究中评估的十个控制基因中的九个。两种常用的微阵列标准化因子(基于中值比率标准化和总强度标准化)[15,16,17]对8个随机选择的杂交集进行测定。随后,对于每个杂交集,将两个荧光通道的九个看家基因的背景校正表达水平导入geNorm并进行排序,如RT-PCR数据所述。由于这些微阵列数据来源于不同组织学来源的细胞系与多个参考细胞系的杂交,我们计算了五个最稳定的控制基因(NF)的几何平均数5)对于每个杂交集,根据异质组织小组内可靠标准化的建议(见上一段)。或者,内部控制基因被逐步排除,直到M(M)剩余基因的值低于0.7(实验值显示消除了该微阵列数据集中最可变和最外围的基因)。根据杂交集,7到9个基因符合这一标准,据此计算几何平均值(NFM(M)< 0.7). 两个归一化因子(NF5和NFM(M)< 0.7)与计算的微阵列标准化因子相似(图4b个).

组织特异性看家基因表达

为了比较所有13个受试组织的异质组中的控制基因表达水平,应使用相同的控制基因集进行标准化。因此,我们计算了在消除两个最高的基因后,从十个基因中保留的六个控制基因的几何平均数M(M)每个纸巾面板内的值(即,B2M、RPL13A、ACTBHMBS公司)(见表). 鉴于受试组织种类繁多,这是消除大多数变异并允许不同样本之间直接比较的最佳策略。在假设不同基因的转录数量相等的PCR阈值周期值相等的情况下,可以估计各种控制基因的转录丰度。5结果表明,这10个被测基因属于不同的丰度等级,在最丰富的基因之间的表达差异约为400倍(ACTB公司)和最稀有的(HMBS公司)成绩单。虽然不同组织中给定控制基因的总体丰度相对相似,但我们清楚地观察到组织特异性表达差异,例如,企业对企业白细胞的表达水平是胎儿大脑的112倍ACTB公司成纤维细胞和心脏组织的表达差异为22倍。很明显,一些基因的表达水平相对恒定(例如,UBC公司HPRT1型)与其他人的差异表达模式相比(例如,百万美元ACTB公司).

图5
图5

在13种不同人体组织中测定的10个内部控制基因表达水平的对数直方图,归一化为6个控制基因的几何平均值(GAPD公司,HPRT1型,SDHA公司,待定,UBC公司,是的). 在表达量最多和最少的基因之间,以及特定基因表达水平的组织特异性差异(例如,B2M(M)).

讨论

基因表达水平的准确规范化是获得可靠结果的绝对前提,特别是在研究基因表达细微差异的生物学意义时。然而,很少有人关注规范化程序的系统研究及其对结论的影响。对于RT-PCR,人们普遍同意使用单个控制基因进行标准化。1999年发表在高影响力期刊上的表达研究的综合文献分析表明GAPD、ACTB在90%以上的病例中,18S和28S rRNA被用作单一控制基因进行正常化[11]. 正如许多研究报道的那样,家政基因的表达可能会有很大差异[6,9,10,11,12],结论的有效性在很大程度上取决于所应用的控制。一些实验室试图为其实验系统找到最佳控制基因,通常rRNA分子被推荐为最佳参考。这些研究应该谨慎进行,因为通常只评估了受试基因表达相对于总RNA质量负荷的变化。由于rRNA分子构成了总RNA的大部分,它们确实应该与总RNA质量密切相关,但这并不一定使它们成为良好的控制基因。如引言所述,总RNA和rRNA水平不是适当的参考值,因为观察到rRNA和mRNA部分之间的不平衡。

除了寻找稳定的控制基因外,我们还旨在确定与单一控制标准化的常见做法相关的错误。在这项研究中,我们提供了证据表明,基于单个家政基因的传统标准化策略在25%和10%的病例中分别导致3.0倍和6.4倍的错误标准化,零星病例的错误值超过20。该分析表明,一些控制基因是不稳定的,并且在一些组织面板中有显著差异表达,这表明神经母细胞瘤的第90百分位单控标准化误差值从5.9下降到4.5企业对企业基因被省略(数据未显示)。这一发现与报道的企业对企业在神经母细胞瘤中,对应于肿瘤细胞的分化阶段[18]. 误差分布曲线不仅反映了所用对照组表达的稳定性,而且还反映了组织面板内的样本异质性,如与其他相对均匀的组织面板相比,异质性正常集合组织的曲线不太陡峭所示。在这方面,有人提出了一个问题,即在处理不同组织来源的组织时,找到合适的控制基因更为重要[9].

单个控制标准化误差值表明,控制基因的表达水平存在固有的噪声振荡,这一发现已在其他大规模研究中得到证实,其中通过微阵列分析在不同细胞或组织中测量了数千个基因。在一组60个细胞系中,在一个8000-特征阵列上没有发现不以至少两倍的比率变化的基因[14]以及一组常用于标准化的基因(包括GAPD公司ACTB公司)被发现在表达上有7到23倍的差异[9]. 综上所述,我们的数据和这些研究清楚地表明,理想和通用的控制基因并不存在。这保证了在每个实验系统中搜索稳定表达的基因,并制定准确的标准化策略。

为了在不预先假设标准化指标的情况下验证受试控制基因的表达稳定性,我们首先测量了任何两个控制基因的原始、非标准化表达水平之间的相关性,这对于适当的控制基因来说应该是近乎完美的。然而,我们观察到,最小和最大表达水平之间的数据范围,或任何外围值,可能会对回归线的斜率产生深刻影响,从而影响相关系数的值。这使得皮尔逊和斯皮尔曼相关系数不适合进行这种分析。因此,我们开发了一种新的稳定性测量方法,其原理是,无论实验条件或细胞类型如何,两个适当的控制基因在所有样本中的表达比率都应相同,随着一个(或两个)被测基因表达稳定性的降低,比率变化也相应增加。所提出的对数转换控制基因比率的标准偏差是对两个控制基因之间变化的稳健度量,因为它对数据点的正态性或同方差没有任何要求。此外,该测量值独立于基因之间的丰度差异,同样受任何离群或极端比率的影响(即,总体表达水平低或高的样本的离群值,或由上调或下调基因引起的离群数,成对变异的增加相等). 为了在零附近对称分布数据,需要对比率进行对数变换,从而使给定比率和相反比率的绝对值相等(但符号相反)。因此,对数转化率的标准偏差与对数转化反比的标准偏差相同,这使得这一测量对于两个基因的每个组合都具有特征。

在建立了一个稳健的测量方法来评估两个控制基因表达的变化后,我们随后定义了一个基因稳定性测量方法M(M)作为特定基因和所有其他控制基因之间的平均成对变异。使用内部开发的VBA小程序geNorm,我们根据在五个测试组织面板中的表达稳定性,对十个属于不同功能和丰度类别的常用家政基因进行了排名。The clear decrease ofM(M)在逐步排除得分最差的基因的过程中,其余控制基因的差异表明基因特异性表达的稳定性存在差异,并表明其余基因的表达比排除的基因更稳定。一些组织面板显示出相对陡峭的初始下降,这反映出排除了一个或多个异常表达的控制基因(例如,ACTB公司HMBS公司对于白细胞),同样从单个对照标准化误差分析中注意到(见上文)。逐步消除最不稳定的控制基因期间,其余基因的平均基因稳定性值也表明了组织特异性差异,骨髓和正常组织池的总体表达变化分别最低和最高。后者并不奇怪,因为这个小组的组织异质性更大。神经母细胞瘤的高变异性是否是一种癌相关的放松表达现象,目前正在进一步研究中。从这些分析中可以清楚地看出,不存在适用于所有细胞类型的通用控制基因。ACTB公司企业对企业似乎是得分最差的基因,而UBC、GAPDHPRT1型似乎是最好的总体控制基因,在五分之四的测试组织中,每一个都属于四个最稳定的基因。然而,这些概括应该谨慎对待。百万美元似乎是最不稳定的控制基因之一,但却是白细胞表达水平正常化的良好选择。这清楚地表明,正确选择管家基因在很大程度上取决于所研究的组织或细胞。当考虑到不同组织之间一些控制基因转录丰度的差异时,这一点更为重要。受试组织之间的巨大表达差异企业对企业ACTB、,例如,如果将其用于标准化,肯定会导致较大的规范化错误。有趣的是,观察到的这些控制基因的组织特异性表达与其已知的作用或功能相一致:百万美元白细胞中的表达,白细胞是主要的细胞表面标记物,非肌肉细胞骨架相对较低ACTB公司心脏组织中的表达,主要来源于肌肉。

鉴于看家基因表达的固有差异,我们建议使用至少三个适当的控制基因来计算归一化因子,并提出一种程序来确定是否需要更多的控制基因,如果需要,需要多少个控制基因才能进行可靠的归一化。该分析清楚地表明,三个稳定的控制基因足以精确规范化表达变异相对较低的样本,而其他组织面板需要第四个甚至第五个控制基因来捕获观察到的变异。

归一化的目的是消除取样差异(如RNA数量和质量),以确定真正的基因特异性变异。对于适当的内部控制基因,这种变异应该是最小的或没有。验证基因稳定性测量M(M)和geNorm算法来识别一组样本中最稳定的控制基因,我们计算了每个基因的基因特异性变异作为标准化表达水平的变异系数。为此,将原始表达值标准化为不同的标准化因子,计算为最稳定、中间或最不稳定控制基因的地理平均值(由geNorm确定)。该分析的基本原理是,基于适当内部控制基因的标准化因子应消除所有非特异性变异。相反,不稳定的控制基因不能完全消除非特异性变异,甚至增加更多变异,从而导致被测控制基因出现更大的所谓基因特异性变异。该分析清楚地表明,当使用最稳定的控制基因(由geNorm确定)进行归一化时,大多数非特异性变异被消除,这证明了这里提出的新的稳定性度量和策略有效地允许评估不同组织面板中基因表达的稳定性。

进一步验证表明,仔细选择的控制基因的几何平均值是mRNA转录分数的准确估计值,这是通过与常用的微阵列标准化因子进行比较而确定的。虽然基于几何平均的两个RT-PCR标准化因子相对相似,但基于至少七个控制基因(即NFM(M)< 0.7)与微阵列尺度因子稍有等效。有两种可能的解释可以解释这一观察结果。首先,geNorm确定的五个最稳定的控制基因仅基于两个RNA样本(即Cy3标记的参考库和Cy5标记的测试样本),而RT-PCR数据则使用了9到34个样本,从而对表达稳定性进行了更可靠的估计。其次,最近的技术报告明确指出,阵列杂交分析在几个层面上经历了相当大的——往往被低估的——变化和不确定性。准确的背景荧光校正和斑点质量评估等被描述为可靠比率估计的关键问题[19,20,21]. 因此,与阵列杂交结果相关的较高变异性可能解释了需要更多的对照基因来标准化数据。然而,这项研究清楚地表明,与常用的阵列尺度因子相比,基于精心选择的控制基因的几何平均值的归一化结果是等效的比率估计,这验证了其用于RT-PCR归一化。此外,所提出的方法可以很容易地应用于归一化微阵列杂交实验产生的基因表达水平,其中仅发现有限数量的基因,包括一些家政基因。

总之,我们描述并验证了一种程序,以确定给定组织样本中最稳定的控制基因,并确定可靠标准化RT-PCR数据所需的最佳基因数。提出的策略可以应用于任何数量或种类的基因或组织,并且应该允许更准确的基因表达谱分析。这对于研究细微表达差异的生物学意义,以及通过RT-PCR对微阵列结果进行验证和/或扩展分析至关重要。

材料和方法

样品制备

根据标准培养条件,34个神经母细胞瘤细胞系生长到亚融合状态。根据制造商的说明,使用RNeasy Midi试剂盒(Qiagen)分离RNA。从克隆泰克采集了9份来自混合正常人类组织(心脏、大脑、胎脑、肺、气管、肾脏、乳腺、小肠和子宫)的RNA样本。从不同的正常健康个体获得血液和成纤维细胞活检。使用Qiagen的红细胞溶解缓冲液从5 ml新鲜血液中分离出13份白细胞样本。对20例上肢皮肤活检组织中的成纤维细胞进行短期培养(3-4代),并在亚融合状态下收获,如前所述[22]. 骨髓样本取自9名无血液恶性肿瘤的患者。根据制造商的说明,使用Trizol(Invitrogen)提取白细胞、成纤维细胞和骨髓样本的总RNA。

实时RT-PCR

如前所述进行DNA酶处理、cDNA合成、引物设计和SYBR Green I RT-PCR[23]. 简言之,根据制造商的说明(Promega),用RQ1 RNase-free DNase处理每个总RNA样品的2μg。在使用Microcon-100自旋柱(Millipore)合成cDNA之前,对处理过的RNA样品进行脱盐(以防止镁的携带)。根据制造商的说明(Invitrogen),使用随机六聚体和SuperscriptII逆转录酶合成第一链cDNA,然后用无核水(Sigma)稀释至12.5 ng/μl cDNA。RT-PCR扩增混合物(25μl)包含25 ng模板cDNA、2x SYBR Green I Master Mix缓冲液(12.5μl)(Applied Biosystems)和300 nM正向和反向引物。反应在ABI PRISM 5700序列检测器(应用生物系统)上进行。循环条件包括在95°C下10分钟的聚合酶激活,在95°C40个循环15秒,在60°C下60秒。每个分析包括(一式两份):SK-N-SH或IMR-32 cDNA的四个系列稀释点的标准曲线(范围从50 ng到50 pg),无模板对照,以及每个测试cDNA的25 ng。所有PCR效率均在95%以上。序列检测软件(1.3版)(Applied Biosystems)结果导出为以tab分隔的文本文件,并导入Microsoft Excel进行进一步分析。重复样本的中位变异系数(基于计算数量)为6%。

单控件规范化错误E类

对于任何给定的组织样本,实时RT-PCR基因表达水平 ij公司 属于n个测量内部控制基因。对于两个组织样本的每一个组合第页问题,以及两个内部控制基因的每一个组合j个k、,单控件归一化误差E类计算(方程式1)。这是样本之间的折叠表达式差异第页q个当归一化为家政基因时j个k、。

(

j、 k个[1,n个],p、 q个[1,],j个k个第页q个):

内部控制一般稳定措施M(M)

对于两个内部控制基因的每一个组合j个k、,数组A jk公司 属于计算由日志组成的元素2-转化表达比率 ij公司 / 伊克 (方程式2)。我们定义成对变化 jk公司 用于控制基因j个k个作为A类 jk公司 元素(方程式3)。基因稳定性测量M(M) j个 用于控制基因j个是所有成对变化的算术平均值 jk公司 (方程式4)。

(

j、 k个[1,n个]和j个k个):

jk公司 =标准版(A类 jk公司 )     (3)

阵列数据的规范化

公开可用的原始微阵列数据[14]以tab分隔的文件下载。随机选择8个杂交数据集并导入Microsoft Excel软件进行进一步操作(MCF7、DU-145、786-0、BC2、K562、A549、U251和SK-OV-3)。对于每个杂交阵列,所有Cy3或Cy5荧光强度低于平均总背景水平加上一个标准偏差的斑点都被丢弃。随后,对每个点应用局部背景校正。根据中位数比率归一化(中位数比率设置为1)和总强度归一化(两个通道的荧光强度相等的总和)计算每张幻灯片的两个比例因子。根据阵列上存在的cDNA克隆数据库,通过BLAST相似性或关键字搜索确定了9个看家基因(参见表中列出的IMAGE克隆1).

其他数据文件

原始表达式值可用作制表符分隔的文件.

工具书类

  1. Schena M,Shalon D,Davis RW,Brown PO:用互补DNA微阵列定量监测基因表达模式。科学。1995, 270: 467-470.

    第条 公共医学 中国科学院 谷歌学者 

  2. Fink L、Seeger W、Ermert L、Hanze J、Stahl U、Grimminger F、Kummer W、Bohle RM:激光辅助细胞拾取后的实时定量RT-PCR。《国家医学》,1998年,4:1329-1333。10.1038/3327.

    第条 公共医学 中国科学院 谷歌学者 

  3. Heid CA、Stevens J、Livak KJ、Williams PM:实时定量PCR。《基因组研究》1996,6:986-994。

    第条 公共医学 中国科学院 谷歌学者 

  4. Higuchi R、Fockler C、Dollinger G、Watson R:动力学PCR分析:DNA扩增反应的实时监测。生物技术。1993, 11: 1026-1030.

    第条 公共医学 中国科学院 谷歌学者 

  5. Solanas M,Moral R,Escrich E:在与大鼠乳腺肿瘤信使和核糖体RNA含量不平衡有关的Northern blot分析中,不适合使用核糖体核糖核酸作为负荷控制。分析生物化学。2001, 288: 99-102. 10.1006/abio.2000.4889。

    第条 公共医学 中国科学院 谷歌学者 

  6. Spanakis E:与使用普通组成转录物作为对照来解释基因表达的放射自显影数据相关的问题。《核酸研究》1993,21:3809-3819。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  7. Johnson ML、Redmer DA、Reynolds LP:使用生物素化寡核苷酸(dT)探针和化学发光检测对聚(A)RNA的线对线负荷进行量化。生物技术。1995, 19: 712-715.

    公共医学 中国科学院 谷歌学者 

  8. Warner JR:酵母中核糖体生物合成的经济学。生物化学科学趋势。1999, 24: 437-440. 10.1016/S0968-0004(99)01460-7。

    第条 公共医学 中国科学院 谷歌学者 

  9. Warrington JA、Nair A、Mahadevappa M、Tsyganskaya M:人类成人和胎儿表达的比较以及535个管家/维护基因的鉴定。生理基因组学。2000, 2: 143-147.

    公共医学 中国科学院 谷歌学者 

  10. Thellin O、Zorzi W、Lakaye B、De Borman B、Coumans B、Hennen G、Grisar T、Igout A、Heinen E:内务基因作为内部标准:使用和限制。生物技术杂志。1999, 75: 291-295. 10.1016/S0168-1656(99)00163-7。

    第条 公共医学 中国科学院 谷歌学者 

  11. 铃木T、希金斯PJ、克劳福德DR:RNA定量的控制选择。生物技术。2000, 29: 332-337.

    公共医学 中国科学院 谷歌学者 

  12. Bustin SA:使用实时逆转录聚合酶链反应分析绝对量化mRNA。分子内分泌杂志。2000, 25: 169-193.

    第条 公共医学 中国科学院 谷歌学者 

  13. Maris JM,Matthay KK:神经母细胞瘤的分子生物学。临床肿瘤学杂志。1999, 17: 2264-2279.

    公共医学 中国科学院 谷歌学者 

  14. Ross DT、Scherf U、Eisen MB、Perou CM、Rees C、Spellman P、Iyer V、Jeffrey SS、Van de Rijn M、Walterham M等:人类癌细胞系中基因表达模式的系统变异。自然遗传学。2000, 24: 227-235. 10.1038/73432.

    第条 公共医学 中国科学院 谷歌学者 

  15. Quackenbush J:微阵列数据的计算分析。Nat Rev基因。2001年,2:418-427。10.1038/35076576.

    第条 公共医学 中国科学院 谷歌学者 

  16. Hess KR、Zhang W、Baggerly KA、Stivers DN、Coombes KR:微阵列:处理海量数据并提取可靠信息。趋势生物技术。2001, 19: 463-468. 10.1016/S0167-7799(01)01792-9。

    第条 公共医学 中国科学院 谷歌学者 

  17. Duggan DJ、Bittner M、Chen Y、Meltzer P、Trent JM:使用cDNA微阵列进行表达分析。自然遗传学。1999, 21: 10-14. 10.1038/4434.

    第条 公共医学 中国科学院 谷歌学者 

  18. Cooper MJ、Hutchins GM、Mennie RJ、Israel MA:人类胚胎神经母细胞瘤中β2-微球蛋白的表达反映了其发育调节。癌症研究1990,50:3694-3700。

    公共医学 中国科学院 谷歌学者 

  19. Tseng GC,Oh MK,Rohlin L,Liao JC,Wong WH:cDNA微阵列分析中的问题:质量过滤,通道归一化,变异模型和基因效应评估。《核酸研究》2001,29:2549-2557。10.1093/nar/29.12.2549。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  20. Yang MC,Ruan QG,Yang JJ,Eckenrode S,Wu S,McIndoe RA,She JX:标记弱点的统计方法改进了微阵列中的归一化和比率估计。生理基因组学。2001, 7: 45-53.

    第条 公共医学 中国科学院 谷歌学者 

  21. Brown CS、Goodwin PC、Sorger PK:DNA微阵列数据统计分析中的图像度量。美国国家科学院院刊,2001年,98:8944-8949。10.1073/pnas.161242998。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  22. Nuytinck L、Narcisi P、Nicholls A、Renard JP、Pope FM、De Paepe A:通过分析Ehlers-Danlos综合征患者的非皮肤结缔组织来检测和表征过度修饰的III型胶原IV。医学遗传学杂志。1992, 29: 375-380.

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  23. Vandesompele J,De Paepe A,Speleman F:使用两步SYBR Green I实时RT-PCR消除原二聚体伪影和基因组共扩增。分析生物化学。2002, 303: 95-98. 10.1006/abio.2001.5564。

    第条 公共医学 中国科学院 谷歌学者 

  24. Bieche I,Laurendeau I,Tozlu S,Olivi M,Vidaud D,Lidereau R,Vidaad M:利用实时逆转录-PCR分析对散发性乳腺肿瘤中MYC基因表达进行定量。《癌症研究》,1999年,59:2759-2765。

    公共医学 中国科学院 谷歌学者 

下载参考资料

致谢

我们感谢H.De Preter为Microsoft Excel编写Visual Basic应用程序,感谢G.Berx(比利时根特)批判性阅读手稿,感谢M.Vidaud(法国巴黎)、E.Mensink和A.van De Locht(荷兰奈梅亨)为我们提供待定HMBS公司引物序列,L.Nuytinck用于成纤维细胞RNA样本,G.De Vos和P.Degraeve(比利时根特)用于培养细胞系。K.D.P.和B.P.由FWO的拨款支持。N.V.R是FWO的博士后研究员。本研究还得到了佛兰德斯促进工业科学技术研究研究所(IWT)、FWO拨款G.0028.00、GOA拨款12051397和BOF拨款011B4300和011F1200的支持。

作者信息

作者和附属机构

作者

通讯作者

与的通信弗兰克·斯佩尔曼.

电子补充材料

权利和权限

转载和许可

关于本文

引用这篇文章

Vandesompele,J.、De Preter,K.、Pattyn,F。等。通过多个内部控制基因的几何平均对实时定量RT-PCR数据进行精确归一化。基因组生物学 ,研究0034.1(2002)。https://doi.org/10.1186/gb-2002-3-7-research0034

下载引文

  • 收到:

  • 修订过的:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/gb-2002-3-7-research0034

关键词