基因表达水平的准确规范化是获得可靠结果的绝对前提,特别是在研究基因表达细微差异的生物学意义时。然而,很少有人关注规范化程序的系统研究及其对结论的影响。对于RT-PCR,人们普遍同意使用单个控制基因进行标准化。1999年发表在高影响力期刊上的表达研究的综合文献分析表明GAPD、ACTB在90%以上的病例中,18S和28S rRNA被用作单一控制基因进行正常化[11]. 正如许多研究报道的那样,家政基因的表达可能会有很大差异[6,9,10,11,12],结论的有效性在很大程度上取决于所应用的控制。一些实验室试图为其实验系统找到最佳控制基因,通常rRNA分子被推荐为最佳参考。这些研究应该谨慎进行,因为通常只评估了受试基因表达相对于总RNA质量负荷的变化。由于rRNA分子构成了总RNA的大部分,它们确实应该与总RNA质量密切相关,但这并不一定使它们成为良好的控制基因。如引言所述,总RNA和rRNA水平不是适当的参考值,因为观察到rRNA和mRNA部分之间的不平衡。
除了寻找稳定的控制基因外,我们还旨在确定与单一控制标准化的常见做法相关的错误。在这项研究中,我们提供了证据表明,基于单个家政基因的传统标准化策略在25%和10%的病例中分别导致3.0倍和6.4倍的错误标准化,零星病例的错误值超过20。该分析表明,一些控制基因是不稳定的,并且在一些组织面板中有显著差异表达,这表明神经母细胞瘤的第90百分位单控标准化误差值从5.9下降到4.5企业对企业基因被省略(数据未显示)。这一发现与报道的企业对企业在神经母细胞瘤中,对应于肿瘤细胞的分化阶段[18]. 误差分布曲线不仅反映了所用对照组表达的稳定性,而且还反映了组织面板内的样本异质性,如与其他相对均匀的组织面板相比,异质性正常集合组织的曲线不太陡峭所示。在这方面,有人提出了一个问题,即在处理不同组织来源的组织时,找到合适的控制基因更为重要[9].
单个控制标准化误差值表明,控制基因的表达水平存在固有的噪声振荡,这一发现已在其他大规模研究中得到证实,其中通过微阵列分析在不同细胞或组织中测量了数千个基因。在一组60个细胞系中,在一个8000-特征阵列上没有发现不以至少两倍的比率变化的基因[14]以及一组常用于标准化的基因(包括GAPD公司和ACTB公司)被发现在表达上有7到23倍的差异[9]. 综上所述,我们的数据和这些研究清楚地表明,理想和通用的控制基因并不存在。这保证了在每个实验系统中搜索稳定表达的基因,并制定准确的标准化策略。
为了在不预先假设标准化指标的情况下验证受试控制基因的表达稳定性,我们首先测量了任何两个控制基因的原始、非标准化表达水平之间的相关性,这对于适当的控制基因来说应该是近乎完美的。然而,我们观察到,最小和最大表达水平之间的数据范围,或任何外围值,可能会对回归线的斜率产生深刻影响,从而影响相关系数的值。这使得皮尔逊和斯皮尔曼相关系数不适合进行这种分析。因此,我们开发了一种新的稳定性测量方法,其原理是,无论实验条件或细胞类型如何,两个适当的控制基因在所有样本中的表达比率都应相同,随着一个(或两个)被测基因表达稳定性的降低,比率变化也相应增加。所提出的对数转换控制基因比率的标准偏差是对两个控制基因之间变化的稳健度量,因为它对数据点的正态性或同方差没有任何要求。此外,该测量值独立于基因之间的丰度差异,同样受任何离群或极端比率的影响(即,总体表达水平低或高的样本的离群值,或由上调或下调基因引起的离群数,成对变异的增加相等五). 为了在零附近对称分布数据,需要对比率进行对数变换,从而使给定比率和相反比率的绝对值相等(但符号相反)。因此,对数转化率的标准偏差与对数转化反比的标准偏差相同,这使得这一测量对于两个基因的每个组合都具有特征。
在建立了一个稳健的测量方法来评估两个控制基因表达的变化后,我们随后定义了一个基因稳定性测量方法M(M)作为特定基因和所有其他控制基因之间的平均成对变异。使用内部开发的VBA小程序geNorm,我们根据在五个测试组织面板中的表达稳定性,对十个属于不同功能和丰度类别的常用家政基因进行了排名。The clear decrease ofM(M)在逐步排除得分最差的基因的过程中,其余控制基因的差异表明基因特异性表达的稳定性存在差异,并表明其余基因的表达比排除的基因更稳定。一些组织面板显示出相对陡峭的初始下降,这反映出排除了一个或多个异常表达的控制基因(例如,ACTB公司和HMBS公司对于白细胞),同样从单个对照标准化误差分析中注意到(见上文)。逐步消除最不稳定的控制基因期间,其余基因的平均基因稳定性值也表明了组织特异性差异,骨髓和正常组织池的总体表达变化分别最低和最高。后者并不奇怪,因为这个小组的组织异质性更大。神经母细胞瘤的高变异性是否是一种癌相关的放松表达现象,目前正在进一步研究中。从这些分析中可以清楚地看出,不存在适用于所有细胞类型的通用控制基因。ACTB公司和企业对企业似乎是得分最差的基因,而UBC、GAPD和HPRT1型似乎是最好的总体控制基因,在五分之四的测试组织中,每一个都属于四个最稳定的基因。然而,这些概括应该谨慎对待。百万美元似乎是最不稳定的控制基因之一,但却是白细胞表达水平正常化的良好选择。这清楚地表明,正确选择管家基因在很大程度上取决于所研究的组织或细胞。当考虑到不同组织之间一些控制基因转录丰度的差异时,这一点更为重要。受试组织之间的巨大表达差异企业对企业和ACTB、,例如,如果将其用于标准化,肯定会导致较大的规范化错误。有趣的是,观察到的这些控制基因的组织特异性表达与其已知的作用或功能相一致:百万美元白细胞中的表达,白细胞是主要的细胞表面标记物,非肌肉细胞骨架相对较低ACTB公司心脏组织中的表达,主要来源于肌肉。
鉴于看家基因表达的固有差异,我们建议使用至少三个适当的控制基因来计算归一化因子,并提出一种程序来确定是否需要更多的控制基因,如果需要,需要多少个控制基因才能进行可靠的归一化。该分析清楚地表明,三个稳定的控制基因足以精确规范化表达变异相对较低的样本,而其他组织面板需要第四个甚至第五个控制基因来捕获观察到的变异。
归一化的目的是消除取样差异(如RNA数量和质量),以确定真正的基因特异性变异。对于适当的内部控制基因,这种变异应该是最小的或没有。验证基因稳定性测量M(M)和geNorm算法来识别一组样本中最稳定的控制基因,我们计算了每个基因的基因特异性变异作为标准化表达水平的变异系数。为此,将原始表达值标准化为不同的标准化因子,计算为最稳定、中间或最不稳定控制基因的地理平均值(由geNorm确定)。该分析的基本原理是,基于适当内部控制基因的标准化因子应消除所有非特异性变异。相反,不稳定的控制基因不能完全消除非特异性变异,甚至增加更多变异,从而导致被测控制基因出现更大的所谓基因特异性变异。该分析清楚地表明,当使用最稳定的控制基因(由geNorm确定)进行归一化时,大多数非特异性变异被消除,这证明了这里提出的新的稳定性度量和策略有效地允许评估不同组织面板中基因表达的稳定性。
进一步验证表明,仔细选择的控制基因的几何平均值是mRNA转录分数的准确估计值,这是通过与常用的微阵列标准化因子进行比较而确定的。虽然基于几何平均的两个RT-PCR标准化因子相对相似,但基于至少七个控制基因(即NFM(M)< 0.7)与微阵列尺度因子稍有等效。有两种可能的解释可以解释这一观察结果。首先,geNorm确定的五个最稳定的控制基因仅基于两个RNA样本(即Cy3标记的参考库和Cy5标记的测试样本),而RT-PCR数据则使用了9到34个样本,从而对表达稳定性进行了更可靠的估计。其次,最近的技术报告明确指出,阵列杂交分析在几个层面上经历了相当大的——往往被低估的——变化和不确定性。准确的背景荧光校正和斑点质量评估等被描述为可靠比率估计的关键问题[19,20,21]. 因此,与阵列杂交结果相关的较高变异性可能解释了需要更多的对照基因来标准化数据。然而,这项研究清楚地表明,与常用的阵列尺度因子相比,基于精心选择的控制基因的几何平均值的归一化结果是等效的比率估计,这验证了其用于RT-PCR归一化。此外,所提出的方法可以很容易地应用于归一化微阵列杂交实验产生的基因表达水平,其中仅发现有限数量的基因,包括一些家政基因。
总之,我们描述并验证了一种程序,以确定给定组织样本中最稳定的控制基因,并确定可靠标准化RT-PCR数据所需的最佳基因数。提出的策略可以应用于任何数量或种类的基因或组织,并且应该允许更准确的基因表达谱分析。这对于研究细微表达差异的生物学意义,以及通过RT-PCR对微阵列结果进行验证和/或扩展分析至关重要。