我们研究了27例低度恶性和间变性弥漫性胶质瘤的Affymetrix U133_Plus_2阵列生成的数据集(临床病理特征总结见表1)在顽固性癫痫手术过程中获得11例正常脑组织标本。组织是根据比利时列日大学医学院伦理委员会批准的指南收集的,所有患者都同意参与本研究。
RNA提取、靶点制备和微阵列杂交
使用Qiagen RNeasy试剂盒从冷冻切片中提取总RNA(加利福尼亚州查茨沃斯市Qiangen)。使用RNA 6000 Nano试剂盒(安捷伦)通过安捷伦生物分析仪确认RNA的完整性。我们使用了基因芯片®Expression 3’扩增单周期靶点标记试剂盒(Affymetrix,加州圣克拉拉),按照制造商协议标记RNA。根据制造商协议,将cRNA与Affymetrix Human U133_Plus2阵列杂交。简单地说,双链cDNA是由5微克总RNA经聚(dT)-T7寡核苷酸引物后常规合成的。cDNA用于在体外在37°C条件下,在T7 RNA聚合酶和生物素标记的修饰核苷酸存在下进行16小时的转录反应(IVT)。纯化生物素化cRNA,然后将其片段化(35-200核苷酸),连同杂交对照物,并在45°C下与微阵列杂交16小时。使用流体站(Affymetrix),通过与链霉亲和素R-藻红蛋白结合物、生物素化抗链霉亲和物抗体和链霉亲和力R-藻红蛋白结合物的连续反应,发现了生物素标记的cRNA。阵列最终在Affymetrix/Hewlett-Packard基因芯片扫描仪3000中进行扫描
初步数据分析
根据Affymetrix:统计算法检测文件中描述的统计程序,使用Affymetix微阵列套件软件(MAS,5.0版)进行初步数据分析[42]). MAS生成一个表达式值加上一个指数参数,指示芯片上54675个探针组中每个探针组的阳性或阴性检测(当前调用指数)(使用的设置是U133_plus_2阵列的标准设置:alpha1=0.05,alpha2=0.065,Tau=0.015,TGT=100)。使用MATLAB 6.5编写的内部软件(CHROMOWAVE)进行统计分析和后处理(The Mathworks Inc.,Natick MA,USA)。通过将强度除以阳性检测基因的中值,将单个阵列归一化为背景。log2转换后的表达式值。
将目标序列值映射到染色体位置
表达值被映射到相应的染色体位置,然后使用基因组比对信息在每个载体内进行排序。HG-U133_Plus_2芯片上每个基因的物理位置信息和每个靶序列的相应基因组比对信息来自Affymetrix网站[43].
染色体表达的Haar小波分析
通过CHROMOWAVE分析基因表达值,该方法使用基因的位置信息和统计分析来提取基因表达的染色体模式。CHROMOWAVE将小波变换(WT)应用于阵列探针的空间分布,并转换作为相邻基因表达函数的小波系数中的原始表达值。然后对小波系数进行滤波,以便只保留那些具有高信噪比和/或代表基因组距离近的探针的小波系数。逆小波变换的应用产生了一种无噪声的染色体基因表达模式。当使用多个数组时,小波系数可以与基因表达值以相同的方式用于统计分析,可以使用有监督的分析方法(t检验、方差分析、判别分析等),也可以使用无监督的方法(聚类技术、独立成分分析等)。WT算法已在别处描述(参见示例[44])这里仅对其进行总结。传统的小波变换方案受到抽取步骤的限制,这可能会“遗漏”相关的信号元素,尤其是在这种应用中噪声水平较高的情况下。因此,CHROMOWAVE采用了“循环旋转”WT,该WT具有更大的复杂性,但具有平移-变特性[45]. 基因表达的染色体模式不应该是平滑的,而是有明确的界限。因此,小波变换采用最简单的小波,即经典的Haar小波[46],这允许对RNA图谱进行恒定的分段近似。因此,WT可以描述如下。首先,如前所述,根据其染色体位置对从微阵列测量中获得的基因表达值进行分类。然后计算WT第一级的系数,作为相邻两个探针之间的表达差异。第二级的小波系数是相邻两个探针平均值之间的差值。然后,将下一水平的系数计算为P相邻探针平均值之间的差异,其中P以2的幂增加(P=1、2、4、8…)。WT是一个正交算子,因此在原始原始数据和所有WT级别上,噪声级别都是相同的。相反,具有相似表达水平的基因簇产生的WT系数随分辨率水平增加而增加。换言之,当基因聚集在一起时,由于其个体表达低于噪声水平而无法检测到的基因通过小波变换进行检测,因为它们的组合能量浓缩为更大的小波系数。
请注意,标准WT通常应用于等间距数据,但这里的情况并非如此,因为基因在染色体上的间距不相等。Sardy等人[47]已经表明,基于Haar小波变换的小波估计器提供的估计至少与适用于不等间距情况的任何其他Haar小波实现恢复的估计一样好。
无监督分析
使用奇异值分解算法进行无监督分析[48](SVD)。将奇异值分解应用于Haar小波系数集[49]. 这产生了与阵列数量相等的染色体表达模式。每个案例对每个模式的贡献被计算为一个单独的数字,即“案例加载”。案例加载量化了每个数组表示的模式数量。然后使用案例载荷进行进一步的统计分析。以下各节详细描述了该方法
符号与Haar小波变换
设C(h,k)是k=1,2,..的矩阵。。,构成实验的M个阵列包含在位置h=1,2。。。,2n个有序的探针。注意,出于算法原因,探测数必须是2的幂,如果不是这样,则矩阵必须为零填充。将Haar WT应用于每列产生2的n级n个串行存储在矩阵C中的小波系数W公司(i,k)其中i=1,2。。。,氮气n个.
个体与全球染色体分析
矩阵CW公司到目前为止,只包含M个阵列和一条染色体的Haar小波分解。这允许独立分析每个染色体。在本研究中,该选项用于比较个体染色体表达和FISH检测到的结构变化。然而,这项工作的核心是同时分析整个基因组,以检测该数据集以及可能的胶质瘤的染色体模式组合特征。通过连续添加C行,可以将分析扩展到整个基因组W公司所有其他染色体的Haar小波系数。下面的部分对这两种类型的分析都有效,而符号只是指CW公司无论它是包含单个染色体的WT还是所有染色体的WT。
小波空间中的奇异值分解
C的SVD计算W公司由于协方差矩阵的大尺寸,无法直接求解[CW公司*]大小为n2的n个×n2n个。可以通过使用协方差Cov(CW公司) =*C类W公司如下[48].
矩阵CW公司首先通过删除行平均值进行归一化,然后应用奇异值分解来生成分解:
Cov(CW公司) =*C类W公司=VW公司S公司W公司 (1)
V(V)W公司是MxM矩阵。每列[VW公司]我,或“奇异向量”,包含阵列最大变化的M个方向之一。这些方向彼此正交,每个方向由M个系数组成,表示每个阵列对该特定方向的贡献。我们将这些系数标记为“箱荷载”
案例载荷可用于任何类型的统计分析。例如,通过将每个阵列的负载与相应的外部测量值(例如,特定患者的生存率)相关联,可以将它们输入双变量相关性中,以测试相应的染色体模式与临床参数的关联。
S公司W公司是带有对角元素S的MxM对角矩阵ii(ii)=S我M对角元素S我是C的奇异值W公司并且,在不损失一般性的情况下,可以假设它们是按降序排列的,因此S1≥S2≥ ... ≥ S公司M(M).由任何单独列解释的表达式数据集中总可变性的分数[VW公司]我可以计算为
(f)[对W公司]我=S我/∑(S我) (2)
这意味着第一个奇异向量解释了最大的数据可变性;第二个奇异向量包含方差第二大的变化方向,依此类推。预计第一个奇异向量包含“真实”(生物)信号引起的变化,而噪声贡献将包含在最后一个奇异向量中[48].
通过投影矩阵C可以恢复奇异向量对应的Haar小波模式W公司在旋转轴V上W公司.
U型W公司=CW公司*V(3)
与之前类似,第一列[UW公司]我对应于第一个奇异向量,应该主要包含真实信号。然而,通过从矩阵U中移除,可以进一步降低噪声W公司所有系数都小于合适的阈值。
在CHROMOWAVE中,根据下一节所述的过程,滤波过程结合了降噪和在盈利间基因组距离模型中的引入。
探针间距与噪声治理
染色体基因分布的小波模型[20,21]基于一个简化的假设,即相邻探针之间的关系(如果存在)不取决于绝对物理距离(以基线测量),而仅取决于相邻性。这种假设可能会带来误差,特别是对于涉及极少数基因的局部过程,因为小波系数(2级及以上)将探针或探针组的表达汇集在一起,这些探针或探针之间的距离可能相差很大。
在CHROMOWAVE中,Haar小波的可能性与小波系数表示的探针或探针组之间的距离成正比。通过在去噪过程中添加惩罚函数,在CROMOWAVE中建立了盈亏似然模型。
在小波分析中,根据数据中的噪声水平,通过抑制所有低于适当阈值的小波系数来实现去噪。此操作需要估计数据的噪声方差。用微阵列测量的基因表达差异通常是异质的,例如,不同基因之间的差异。然而,CHROMOWAVE的目的只是检测基因簇;因此,对应于WT第一级的单个基因表达没有意义,并且受到抑制。WT的其他级别都是通过合并2、4、8、…、。。。,因此,基因表达值及其方差更为均匀。此外,由于小波变换是一个正交算子,所有的Haar小波水平都具有大致相同的方差,可以通过稳健估计计算得出:
(1)
=MAD(UW公司)/0.6745 (4)
MAD表示与0的中位数绝对偏差,选择系数0.6745进行正态分布校准[50].
因此,通过抑制矩阵U中的所有系数来实现空间建模和去噪W公司低于阈值:
P(w)是以下形式的罚款:
P(w)=1-G(ln(d),μ,ν)(6)
在(6)中,d是由Haar小波系数w表示的基因或基因组之间的基因组距离,G是平均μ和标准偏差ν的高斯累积分布。这种惩罚的形式是合理的,因为我们使用探针位置的可用信息预先计算的小波间基因组分布对于所有小波级都是高斯型的。参数μ和ν直接由HG-U133_Plus2芯片的基因组对齐信息获得。
非整倍体引起的困惑和归一化误差
当应用于整个染色体集时,SVD分析和小波的组合具有识别数据归一化中的误差的额外实用性(如果是线性的)。对于CHROMOWAVE,应用低效的标准化程序会导致全基因组恒定的染色体表达模式,SVD会识别并从数据中删除该模式。此外,值得注意的是,非整倍体引起的全球RNA变化也会导致相同的全基因组扩散模式,这种模式似乎可以从总体数据变量中删除。
染色体模式重建
阈值(5)抑制所有不太可能成为信号的系数,因为它们与噪声相比的相对高度和/或因为它们包含相距很远的探针/探针簇。所有那些在阈值(5)下幸存的系数都可能是对真实信号的贡献,并通过逆WT产生染色体变异C的M滤波模式F类(h,k)其中h=1,2。。。,2n个k=1,2。。。,M。
单剖面生成(Turkheimer等人,2004年重访)
CHROMOWAVE还可以提取单个病例和对照组之间的差异表达谱(监督分析)。此应用程序已在前面描述[20]这里只是总结一下。对于每条染色体,差异轮廓定义为:
d日C(i)=C(i)-(i) (7)
C(i)包含i=1,2。。。,2n个感兴趣的单个案例的有序探测表达式。如前所述,探测数必须是2的幂,如果不是这样,则矩阵必须为零填充。
(2)
(i) 是控制数据库探测的平均表达式。WT的应用d日C(i)生成2的n个级别n个串行存储在矩阵中的小波系数d日CW公司(i,j)。与i=1,2,…,之前不同。。。,2n个现在索引2n个位置和j=1,2。。。,n表示n个小波分辨率。通过抑制方程(5)中定义的阈值以下的系数来消除微分轮廓的噪声,其中惩罚P(w)与方程(6)中的相同,并且方差计算为
(3)
=摩洛哥迪拉姆(d日CW公司(i,1))/0.6745(8)
d日CW公司(i,1)是小波变换的最佳分辨率。
逆小波变换在滤波矩阵中的应用d日CW公司(i,j)获得单个图案的去噪近似d日C(i)。
我们使用CHROMOWAVE提取单个肿瘤患者的染色体表达模式,方法是将其微阵列测量值与11个正常脑样本的正常数据库的平均表达进行对比。从这些病例中提取的RNA与Affymetrix U133_Plus2阵列杂交,并按照前面所述处理数据。
荧光原位杂交(FISH)
这27个肿瘤也都用FISH进行了研究。在与微阵列实验所用组织块相同的8μm厚冷冻切片上进行双色分析。我们对六条染色体进行了检测,发现了染色体的主要变化。LSI检测到第1和19号染色体的缺失或扩增®1p36/LSI 1q25和LSI 19q13/LSI 19p13双色探头组(美国伊利诺伊州唐纳斯·格罗夫市威西公司)。用LSI ABL/BCR ES探针系统(Vysi)的ABL(9q34)探针对9q染色体进行了研究。对于第4、13、15和18号染色体,我们使用了Vysi探针CEP4、LSI13(440 kb,包括13q14中的RB基因)、CEP15和CEP18。样品按照制造商的协议进行处理。使用配备适当荧光过滤器的奥林巴斯BX51荧光显微镜(美国纽约州梅尔维尔市奥林巴斯)对结果进行评估。至少检查100个细胞的所有信号,并记录平均信号数。对正常大脑冰冻切片进行分析,以确定参考FISH拷贝数。正常阈值上限和下限计算为平均+/-2标准偏差(SD)。平均信号低于下限的肿瘤样本报告为单体。使用皮尔逊积矩相关系数计算FISH平均拷贝数和CHROMOWAVE负荷之间的相关性。