Chromosomal patterns of gene expression from microarray data: methodology, validation and clinical relevance in gliomas

Turkheimer, Federico E; Roncaroli, Federico; Hennuy, Benoit; Herens, Christian; Nguyen, Minh; Martin, Didier; Evrard, Annick; Bours, Vincent; Boniver, Jacques; Deprez, Manuel

doi:10.1186/1471-2105-7-526

研究文章
开放式访问
出版：2006年12月1日

微阵列数据中基因表达的染色体模式：胶质瘤的方法学、验证和临床相关性

BMC生物信息学 体积 7，物品编号：526(2006)引用这篇文章

9961访问
29引文
韵律学细节

摘要

背景

表达微阵列是同时研究数千个基因的强大技术。有证据表明，基因在基因组中不是随机分布的，它们的协调表达取决于它们在染色体上的位置，这突出表明需要用数学方法来利用这种依赖性来分析表达数据集。

结果

我们设计了一种基于Haar小波变换的新型数学技术（CHROMOWAVE），并将其应用于使用Affymetrix获得的数据集^®27例胶质瘤的HG-U133_Plus_2阵列。CHROMOWAVE产生的多染色体模式在1p、4、9q、13、18和19q染色体中低表达。这种模式不仅在统计上稳健，而且在临床上具有相关性，因为它预测了良好的结果。这一发现在另一个实验室独立获取的数据集上得到了复制。FISH分析表明，单体1p和19q是显示CHROMOWAVE模式的肿瘤的常见特征，但染色体4、9q、13和18上的等位基因缺失则不太常见。

结论

CHROMOWAVE能够检测空间相关基因的表达变化并绘制其在染色体上的位置，这使得它成为一种有价值的筛选方法，用于识别和显示具有临床相关性的区域基因表达变化。在本研究中，FISH数据显示，单体经常与1p和19q染色体上的弥漫性低基因表达相关，但与4、9q、13和18染色体上的低基因表达无关。比较基因组杂交、等位基因多态性分析和甲基化研究正在进行中，以确定这种多染色体表达模式的各种机制。

背景

基因不是随机分布的，它们的协调表达是由它们在染色体上的位置调节的[1–三]. 因此，需要新的数学方法来分析表达微阵列，以确定空间相关基因表达的变化，并沿着染色体进行映射。DNA拷贝数的变化和mRNA表达的变化之间的关系以前已经过研究（例如[4–7])但只有少数研究使用微阵列检测大型染色体异常[7–12].

在这里，我们提出了一种基于单值分解（SVD）和Haar小波的新型数学模型，命名为CHROMOWAVE，该模型检测空间相关基因表达的变化并在染色体上可视化。小波是最近引入的一种数学工具，用于处理具有“非平稳行为”的信号[13]（如锤击、飞机飞越噪音等）。小波变换的对应物是实现周期信号最佳编码的傅里叶变换。小波用于数据编码、传输和压缩现在在许多领域都很普遍，包括基因序列分析和功能基因组数据[14]. 已提出将微阵列应用于微阵列板的光信号分析[15–17]或去噪微阵列时间序列[18]. 只有三项研究应用小波来探索基因簇表达的变化并确定其在染色体上的位置[19–21]. Allen等人[19]首先采用小波变换和平滑小波研究不同启动子诱导的mRNA表达的周期性模式大肠杆菌基因组。使用监督统计方法，我们引入了Haar小波分析来检测神经退行性疾病中的染色体表达模式[20]. Hsu等人验证了相同的方法[22]去噪基于阵列的比较基因组杂交（array-CGH）数据。Aggarwal等人[21]将小波与经验监督方法相结合，分析一组肿瘤细胞系中的染色体表达，并将提取的簇与异常核型进行匹配。他们的技术有限，因为一次只能分析一个细胞系。这两项研究表明，小波具有识别染色体上基因表达水平相似且连贯的区域的能力。

在CHROMOWAVE中，Haar小波模型被进一步细化，通过考虑整个基因组中遗传距离的可变性，放松了之前的恒定遗传距离近似值。在这里，我们对27例低级别和间变性弥漫性胶质瘤样本应用了CHROMOWAVE（表1)我们已经证明了它能够提取和可视化大量染色体表达模式，这些模式支持有意义的生物变异，并与临床结果相关。通过将该技术应用于另一个实验室之前发布的匹配数据集，对结果进行了交叉验证[23].

表1临床病理数据

全尺寸桌子

结果

当应用于包含27个肿瘤病例的数据集时，CHROMOWAVE产生的第一个模式（总方差的40%）由多染色体变异模式组成，该模式显示染色体1p、9q和19q以及整个染色体4、13、15和18的大区域的基因表达显著降低。在其他染色体上也观察到较小的差异表达基因簇，尤其是2、3、5、7、12，而在第8、20、21和Xp染色体上的差异可以忽略不计。此模式如图所示1和相关数据包含在附加文件1。剩余模式占数据可变性的10%以下，未考虑。请注意完全去噪的轮廓的清晰显示。图2说明了使用先前开发的监督技术提取的O10病例的个人轮廓[20]（有关此特定配置文件的讨论，请参见下文）。

对于这个数据集，FISH分析显示了染色体1p、9q、4、13、15、18和19q上的各种单体组合（表2).

表2神经胶质瘤数据集的染色体和FISH结果。

全尺寸桌子

然后，我们将FISH测量值与通过CHROMOWAVE提取的单个染色体表达进行了比较。当一次应用于一条染色体时，SVD作为主要成分（总变异性>70%）在染色体4、9、13、15和18上提取染色体范围的弥漫信号，并在染色体臂1p和19q上扩散均匀表达。表中显示了这些模式的案例载荷2注意，表中的箱荷载2反映SVD执行的平均值的标准化。因此，壳体载荷越为正，表示的模式越多（在这种情况下，损失越大），载荷越为负，表示的类型越少。当我们将FISH测量值与这些病例数进行比较时，我们观察到染色体1p的显著相关性（皮尔逊相关R=0.522，第页=0.005）和19q（皮尔逊相关系数R=0.392，第页=0.043）表明遗传物质的丢失是CHROMOWAVE观察到的表达减少的主要原因。

有趣的是，一例少突胶质细胞瘤（病例010，见图2)CHROMOWAVE明确显示低表达1p/19q，但FISH检测不到结构缺失（表2). CHROMOWAVE在第4、9q、13、15和18号染色体上检测到的mRNA表达减少与FISH观察到的染色体改变不太常见（表2). 特别是，6例肿瘤显示9q低表达，而FISH未检测到改变，在7例18号染色体低表达的病变中，只有一例表现为单体。

FISH计数和表达数据之间的差异提出了几个假设。首先，这可能是FISH方法固有的，其中探针仅针对染色体上的一个短DNA序列，无法提供探针靶侧区域可能出现的大量遗传物质损失的信息。FISH探针靶向的染色体区域如图所示1第二，在没有染色体丢失的情况下，替代的遗传和表观遗传机制可以导致相邻基因的表达变化，如易位、单亲二体或甲基化/乙酰化沉默，所有这些都经常在癌症中报道。第三，恶性胶质瘤中常见的超倍性也可能是这些观察的原因之一。

相反，在三个病例中，CHROMOWAVE病例负荷为负值，而FISH显示遗传物质丢失（表2). 然而，个别案例的检查（图三)允许进行以下观察。在病例02中，CHROMOWAVE没有显示染色体范围的减少，但在第9季度，34.1显示825 Kb的区域，在FISH探针靶向的ASS基因周围选择性丢失表达（图3A级). 对于病例O17，CHROMOWAVE表现出表达缺失，但仅限于小簇，包括FISH靶基因所在的RB基因之前和周围染色体13q14中1.526 Mb的端粒区域（图3B公司). 病例O18在1p上也有表达缺失，但仅限于包含FISH探针靶向的chr1p36.32位点的10 Mb端粒片段（图3C公司). 这一发现表明，在这些情况下，FISH识别出了小的变化，而不是大的结构异常，而这些异常是由CHROMOWAVE识别的。

当我们使用Cox回归测试由CHROMOWAVE确定的病例负荷与结果（肿瘤复发和患者生存）时，我们发现图中的模式1显著预测了良好的结果(第页= 0.007). 通过测试每条染色体及其各种组合，我们观察到染色体1p、13和18的共变与存活率的相关性最强(第页= 0.002).

相比之下，通过相同的SVD分析但未经Haar小波变换获得的主要基因表达模式与生存率无关（p=0.802），这表明染色体上基因表达变化的分布与肿瘤行为的关系比其原始振幅变化的关系更大。

对个别案例的敏感性

为了验证模式的稳定性及其对单个病例的依赖性，我们进行了一项杰克刀测试，以验证在排除单个病例的情况下，相关性仍然显著。在删除一个病例（27次迭代）后，重复全基因组SVD分析，提取并存储染色体模式，并使用Cox回归重新计算结果病例负荷与存活率的相关性。该过程产生27个第页-值。经验的95%置信区间第页-通过对数变换的正态近似计算得到的值分布第页-值。在这27个排列中，恢复的整体模式与所有病例获得的模式没有区别，所有27个模式都与结果显著相关(第页<0.05）和结果第页-值分布紧密(第页-值的95%置信区间为[0.0372–0.0022]）。

染色体生物学敏感性：Y染色体和性别敏感性

为了验证目的，仅对27例肿瘤患者的Y染色体探针应用了CHROMOWAVE。提取变异的主要模式，并通过学生t检验测试结果病例数与性别之间的关联。该算法提取的主要成分占变异性的94%，是染色体上的统一模式（图4A级). 相应的箱荷载如图所示4B类并举例说明了数组按性别的完美分离（p<10^-5). 荷载的数值也包含在表中2.

对去噪参数的敏感性

这项工作中使用的设置（冗余小波变换的选择、等式（5）中的统计阈值、公式（6）中的盈亏距离惩罚）是在标准小波方法的非常保守的一端选择的，其目的是以牺牲灵敏度为代价最小化假阳性。图5说明了应用的方法（SVD、去噪、probe距离惩罚）对该数据集的Chr.1分析的增量效应。请注意，该技术能够清晰地显示Chr1p异常的轮廓，这在这里所考虑的胶质瘤类型中很常见。重要的是，盈利距离的额外惩罚（图。5天)完全消除了Chr1p上的剩余峰值，呈现出干净且具有生物敏感性的轮廓。

作为CHROMOWAVE在Chr.1上提取的模式的独立验证，我们计算了Chr1p上有序探针的功率谱。原始数据和去噪模式的频谱如图所示6注意，去噪过程去除了高频中的噪声，但保留了信号中明显存在于10 Hz以下的大结构。功率谱计算采用FFT，基于等距探头的假设。这一假设在CHROMOWAVE中得到了放宽。

敏感性/特异性分析

尽管这里提出的技术是无监督的，但通过假设信号分布已知，可以通过模拟研究来评估其灵敏度/特异性。在这种情况下，模拟的主要问题是未知染色体表达的噪声协方差结构的忠实生成。为了恢复噪声协方差，我们选择了在此数据集中具有明显Chr1p丢失模式的Chr1。我们通过将第一个奇异分量归零，从数据集中删除了这个特定的单体。其余奇异分量具有Morgera复杂性~1[24]表明剩下的只是噪音。因此，我们通过在27个阵列中的13个阵列中添加不同强度（当信号为0时，获得特异性）和不同空间尺寸（500 Kb、1.5 MB、整个“小”臂和整个染色体）的端粒模式来构建模拟。在第二次模拟中，我们保持了Chr1p损耗模式，但改变了添加该模式的阵列数量。

通过为每个强度生成100个阵列排列，从而将信号添加到随机子集中，获得检测/特异性测量。在每次迭代中，CHROMOWAVE提取小波变换数据的第一个特征向量，并在两组阵列（有信号和无信号）之间进行Student’s T检验（2条尾巴，α=0.05）。检测指标计算为拒绝的空假设数除以排列数。2次模拟的结果如图所示7在检测与强度方面。后者以对数2表示（0.5表示表达增加40%，0.05表示增加4%等）。一般来说，无论其影响的阵列大小或子集如何，任何大于约0.2（15%）的模式变化都将以1的概率被检测到。在所有测试条件下，特异性始终低于或等于规定限值（0.05），以确认噪声分布符合假设。

临床再现性：应用于Freije等人（2004）的数据集

通过评估1p、13和18号染色体之间关联的再现性以及在一组已发布的可比较肿瘤类型阵列中的结果，进行最终验证。在撰写本文时，唯一公开可用的可比数据集是由Freije等人发布的[23]. 微阵列文件（Affymetrix HG U133A和B寡核苷酸阵列）和临床数据从作者网站下载[25]. 我们排除了胶质母细胞瘤，并检查了25个阵列，其中包括10个间变性少突胶质细胞瘤、8个间变性星形细胞瘤和7个混合间变性少胶质细胞瘤。使用与我们的数据相同的程序对微阵列文件进行预处理和标准化，然后输入到CHROMOWAVE。通过对每条染色体独立应用SVD，获得染色体表达。在我们的数据集中，在染色体1p、4、9、13、18和19q中发现了弥漫性表达模式。然后，将1p、13和18号染色体的病例数输入Cox回归模型，以测试其与存活率的关联，结果非常强大（p=0.0028），与我们的数据集中发现的结果相似。

讨论

CHROMOWAVE允许在无监督的情况下识别表达均匀变化的相邻基因簇及其在染色体上的映射，从而显示多染色体基因表达模式。在这里，我们已经证明了这些模式是可靠的、可重复的和统计上稳健的，但它们也具有临床相关性。在此应用中，SVD是小波空间中统计分析的首选方法：然而，此方法易于使用任何其他无监督技术（独立成分分析、聚类等）进行处理。

低度恶性和间变性弥漫性胶质瘤是一个有趣的模型，用于探索空间相关基因表达的变化，而非其个体表达。研究发现，在某些肿瘤组织学亚型中，特征性遗传和表观遗传改变可预测良好的结果，而在其他亚型中则无信息，甚至预后不良。例如，广泛研究的染色体1p/19q的等位基因缺失或耐药基因O6-甲基鸟嘌呤-DNA甲基转移酶启动子的甲基化与化疗敏感性相关，因此在少突胶质瘤亚群中存活时间更长[26–30]但对星形细胞瘤和混合性少星形细胞瘤的预后价值尚不明确，甚至与更具侵袭性的行为相关[28]. 此外，在这些经常丢失的染色体片段上，还没有发现强有力的候选肿瘤抑制/启动子基因[31]. 一些研究使用表达微阵列来研究弥漫性胶质瘤[9,23,32–41]但没有人研究基因簇的表达变化，这些基因簇可能与肿瘤进展有关，与它们在染色体上的分布有关。

在我们针对27例WHO II级和III级胶质瘤的微阵列数据集中，CHROMOWAVE产生了与结果相关的多染色体变异模式。该模式包括1p和19q以及4、9q、13和18的扩散损失。其中，1p、13和18的变化与生存率的相关性最强。这一发现是在另一个实验室之前发布的一组可比较的微阵列数据上重复的[23].

值得注意的是，虽然SVD提取的染色体变异主模式与存活率相关，但SVD从原始数据中提取的RNA变异主模式（未应用空间变换）与存活率无关。这表明染色体RNA调节在肿瘤行为中的主要作用，而不是大部分基因表达的变化。

FISH研究表明，在我们的数据集中，染色体1p和19q的低表达通常是这些区域大量等位基因丢失的结果，这种改变在少突胶质瘤中常见。然而，FISH计数不能解释4、9q、13和18的表达普遍减少的原因，这提出了几个假设：基因丢失发生在FISH探针靶点两侧的区域，基因改变不会导致FISH检测到的基因丢失，例如易位和单亲双体，或表观遗传改变，如甲基化基因沉默。显然，需要进行广泛的辅助研究来确定CHROMOWAVE基因表达模式的各种机制。

我们实验室目前正在进行比较基因组杂交（CGH）、等位基因多态性分析和甲基化研究。无论其发病机制如何，发现第4、9q、13和18号染色体的大基因表达变化在II级和III级弥漫性胶质瘤中频繁发生，并且它们具有预后信息，这是一个新发现。

结论

总之，我们提出了一个新的数学模型，该模型在我们的数据集中被证明是强大的，可以检测和映射到染色体上具有生物学意义的基因表达变化。可视化空间相关基因的变化及其在染色体上的位置的可能性使CHROMOWAVE成为探索微阵列数据集的一种有价值的筛选方法。促成这些表达模式的机制可能是多重而复杂的。显然需要结合FISH、CGH/aCGH、等位基因多态性和甲基化分析的其他研究，并应以CHROMOWAVE确定的染色体区域为目标，以支持临床相关的基因表达变化。

方法

我们研究了27例低度恶性和间变性弥漫性胶质瘤的Affymetrix U133_Plus_2阵列生成的数据集（临床病理特征总结见表1)在顽固性癫痫手术过程中获得11例正常脑组织标本。组织是根据比利时列日大学医学院伦理委员会批准的指南收集的，所有患者都同意参与本研究。

RNA提取、靶点制备和微阵列杂交

使用Qiagen RNeasy试剂盒从冷冻切片中提取总RNA（加利福尼亚州查茨沃斯市Qiangen）。使用RNA 6000 Nano试剂盒（安捷伦）通过安捷伦生物分析仪确认RNA的完整性。我们使用了基因芯片^®Expression 3’扩增单周期靶点标记试剂盒（Affymetrix，加州圣克拉拉），按照制造商协议标记RNA。根据制造商协议，将cRNA与Affymetrix Human U133_Plus2阵列杂交。简单地说，双链cDNA是由5微克总RNA经聚（dT）-T7寡核苷酸引物后常规合成的。cDNA用于在体外在37°C条件下，在T7 RNA聚合酶和生物素标记的修饰核苷酸存在下进行16小时的转录反应（IVT）。纯化生物素化cRNA，然后将其片段化（35-200核苷酸），连同杂交对照物，并在45°C下与微阵列杂交16小时。使用流体站（Affymetrix），通过与链霉亲和素R-藻红蛋白结合物、生物素化抗链霉亲和物抗体和链霉亲和力R-藻红蛋白结合物的连续反应，发现了生物素标记的cRNA。阵列最终在Affymetrix/Hewlett-Packard基因芯片扫描仪3000中进行扫描

初步数据分析

根据Affymetrix：统计算法检测文件中描述的统计程序，使用Affymetix微阵列套件软件（MAS，5.0版）进行初步数据分析[42]). MAS生成一个表达式值加上一个指数参数，指示芯片上54675个探针组中每个探针组的阳性或阴性检测（当前调用指数）（使用的设置是U133_plus_2阵列的标准设置：alpha1=0.05，alpha2=0.065，Tau=0.015，TGT=100）。使用MATLAB 6.5编写的内部软件（CHROMOWAVE）进行统计分析和后处理（The Mathworks Inc.，Natick MA，USA）。通过将强度除以阳性检测基因的中值，将单个阵列归一化为背景。log2转换后的表达式值。

将目标序列值映射到染色体位置

表达值被映射到相应的染色体位置，然后使用基因组比对信息在每个载体内进行排序。HG-U133_Plus_2芯片上每个基因的物理位置信息和每个靶序列的相应基因组比对信息来自Affymetrix网站[43].

染色体表达的Haar小波分析

通过CHROMOWAVE分析基因表达值，该方法使用基因的位置信息和统计分析来提取基因表达的染色体模式。CHROMOWAVE将小波变换（WT）应用于阵列探针的空间分布，并转换作为相邻基因表达函数的小波系数中的原始表达值。然后对小波系数进行滤波，以便只保留那些具有高信噪比和/或代表基因组距离近的探针的小波系数。逆小波变换的应用产生了一种无噪声的染色体基因表达模式。当使用多个数组时，小波系数可以与基因表达值以相同的方式用于统计分析，可以使用有监督的分析方法（t检验、方差分析、判别分析等），也可以使用无监督的方法（聚类技术、独立成分分析等）。WT算法已在别处描述（参见示例[44])这里仅对其进行总结。传统的小波变换方案受到抽取步骤的限制，这可能会“遗漏”相关的信号元素，尤其是在这种应用中噪声水平较高的情况下。因此，CHROMOWAVE采用了“循环旋转”WT，该WT具有更大的复杂性，但具有平移-变特性[45]. 基因表达的染色体模式不应该是平滑的，而是有明确的界限。因此，小波变换采用最简单的小波，即经典的Haar小波[46]，这允许对RNA图谱进行恒定的分段近似。因此，WT可以描述如下。首先，如前所述，根据其染色体位置对从微阵列测量中获得的基因表达值进行分类。然后计算WT第一级的系数，作为相邻两个探针之间的表达差异。第二级的小波系数是相邻两个探针平均值之间的差值。然后，将下一水平的系数计算为P相邻探针平均值之间的差异，其中P以2的幂增加（P=1、2、4、8…）。WT是一个正交算子，因此在原始原始数据和所有WT级别上，噪声级别都是相同的。相反，具有相似表达水平的基因簇产生的WT系数随分辨率水平增加而增加。换言之，当基因聚集在一起时，由于其个体表达低于噪声水平而无法检测到的基因通过小波变换进行检测，因为它们的组合能量浓缩为更大的小波系数。

请注意，标准WT通常应用于等间距数据，但这里的情况并非如此，因为基因在染色体上的间距不相等。Sardy等人[47]已经表明，基于Haar小波变换的小波估计器提供的估计至少与适用于不等间距情况的任何其他Haar小波实现恢复的估计一样好。

无监督分析

使用奇异值分解算法进行无监督分析[48]（SVD）。将奇异值分解应用于Haar小波系数集[49]. 这产生了与阵列数量相等的染色体表达模式。每个案例对每个模式的贡献被计算为一个单独的数字，即“案例加载”。案例加载量化了每个数组表示的模式数量。然后使用案例载荷进行进一步的统计分析。以下各节详细描述了该方法

符号与Haar小波变换

设C（h，k）是k=1，2，..的矩阵。。，构成实验的M个阵列包含在位置h=1，2。。。，2^n个有序的探针。注意，出于算法原因，探测数必须是2的幂，如果不是这样，则矩阵必须为零填充。将Haar WT应用于每列产生2的n级^n个串行存储在矩阵C中的小波系数_W公司（i，k）其中i=1，2。。。，氮气^n个.

个体与全球染色体分析

矩阵C_W公司到目前为止，只包含M个阵列和一条染色体的Haar小波分解。这允许独立分析每个染色体。在本研究中，该选项用于比较个体染色体表达和FISH检测到的结构变化。然而，这项工作的核心是同时分析整个基因组，以检测该数据集以及可能的胶质瘤的染色体模式组合特征。通过连续添加C行，可以将分析扩展到整个基因组_W公司所有其他染色体的Haar小波系数。下面的部分对这两种类型的分析都有效，而符号只是指C_W公司无论它是包含单个染色体的WT还是所有染色体的WT。

小波空间中的奇异值分解

C的SVD计算_W公司由于协方差矩阵的大尺寸，无法直接求解[C_W公司* $C_{W公司}^{T型}$ ]大小为n2的^n个×n2^n个。可以通过使用协方差Cov（C_W公司) = $C_{W公司}^{T型}$ *C类_W公司如下[48].

矩阵C_W公司首先通过删除行平均值进行归一化，然后应用奇异值分解来生成分解：

Cov（C_W公司) = $C_{W公司}^{T型}$ *C类_W公司=V_W公司S公司_W公司 ${V（V）}_{W公司}^{T型}$ (1)

V（V）_W公司是MxM矩阵。每列[V_W公司]_我，或“奇异向量”，包含阵列最大变化的M个方向之一。这些方向彼此正交，每个方向由M个系数组成，表示每个阵列对该特定方向的贡献。我们将这些系数标记为“箱荷载”

案例载荷可用于任何类型的统计分析。例如，通过将每个阵列的负载与相应的外部测量值（例如，特定患者的生存率）相关联，可以将它们输入双变量相关性中，以测试相应的染色体模式与临床参数的关联。

S公司_W公司是带有对角元素S的MxM对角矩阵_ii（ii）=S_我M对角元素S_我是C的奇异值_W公司并且，在不损失一般性的情况下，可以假设它们是按降序排列的，因此S₁≥S₂≥ ... ≥ S公司_M（M）.由任何单独列解释的表达式数据集中总可变性的分数[V_W公司]_我可以计算为

（f）[对_W公司]_我=S_我/∑（S_我) (2)

这意味着第一个奇异向量解释了最大的数据可变性；第二个奇异向量包含方差第二大的变化方向，依此类推。预计第一个奇异向量包含“真实”（生物）信号引起的变化，而噪声贡献将包含在最后一个奇异向量中[48].

通过投影矩阵C可以恢复奇异向量对应的Haar小波模式_W公司在旋转轴V上_W公司.

U型_W公司=C_W公司*V（3）

与之前类似，第一列[U_W公司]_我对应于第一个奇异向量，应该主要包含真实信号。然而，通过从矩阵U中移除，可以进一步降低噪声_W公司所有系数都小于合适的阈值。

在CHROMOWAVE中，根据下一节所述的过程，滤波过程结合了降噪和在盈利间基因组距离模型中的引入。

探针间距与噪声治理

染色体基因分布的小波模型[20,21]基于一个简化的假设，即相邻探针之间的关系（如果存在）不取决于绝对物理距离（以基线测量），而仅取决于相邻性。这种假设可能会带来误差，特别是对于涉及极少数基因的局部过程，因为小波系数（2级及以上）将探针或探针组的表达汇集在一起，这些探针或探针之间的距离可能相差很大。

在CHROMOWAVE中，Haar小波的可能性与小波系数表示的探针或探针组之间的距离成正比。通过在去噪过程中添加惩罚函数，在CROMOWAVE中建立了盈亏似然模型。

在小波分析中，根据数据中的噪声水平，通过抑制所有低于适当阈值的小波系数来实现去噪。此操作需要估计数据的噪声方差。用微阵列测量的基因表达差异通常是异质的，例如，不同基因之间的差异。然而，CHROMOWAVE的目的只是检测基因簇；因此，对应于WT第一级的单个基因表达没有意义，并且受到抑制。WT的其他级别都是通过合并2、4、8、…、。。。，因此，基因表达值及其方差更为均匀。此外，由于小波变换是一个正交算子，所有的Haar小波水平都具有大致相同的方差，可以通过稳健估计计算得出：

\hat{σ}

(1)

=MAD（U_W公司)/0.6745 (4)

MAD表示与0的中位数绝对偏差，选择系数0.6745进行正态分布校准[50].

因此，通过抑制矩阵U中的所有系数来实现空间建模和去噪_W公司低于阈值：

τ^{U型} = P（P） (w个) \hat{σ} \sqrt{2 日志 (2^{n个})} . (5)

P（w）是以下形式的罚款：

P（w）=1-G（ln（d），μ，ν）（6）

在（6）中，d是由Haar小波系数w表示的基因或基因组之间的基因组距离，G是平均μ和标准偏差ν的高斯累积分布。这种惩罚的形式是合理的，因为我们使用探针位置的可用信息预先计算的小波间基因组分布对于所有小波级都是高斯型的。参数μ和ν直接由HG-U133_Plus2芯片的基因组对齐信息获得。

非整倍体引起的困惑和归一化误差

当应用于整个染色体集时，SVD分析和小波的组合具有识别数据归一化中的误差的额外实用性（如果是线性的）。对于CHROMOWAVE，应用低效的标准化程序会导致全基因组恒定的染色体表达模式，SVD会识别并从数据中删除该模式。此外，值得注意的是，非整倍体引起的全球RNA变化也会导致相同的全基因组扩散模式，这种模式似乎可以从总体数据变量中删除。

染色体模式重建

阈值（5）抑制所有不太可能成为信号的系数，因为它们与噪声相比的相对高度和/或因为它们包含相距很远的探针/探针簇。所有那些在阈值（5）下幸存的系数都可能是对真实信号的贡献，并通过逆WT产生染色体变异C的M滤波模式_F类（h，k）其中h=1，2。。。，2^n个k=1，2。。。，M。

单剖面生成（Turkheimer等人，2004年重访）

CHROMOWAVE还可以提取单个病例和对照组之间的差异表达谱（监督分析）。此应用程序已在前面描述[20]这里只是总结一下。对于每条染色体，差异轮廓定义为：

d日C（i）=C（i）- $\bar{C}$ （i）（7）

C（i）包含i=1，2。。。，2^n个感兴趣的单个案例的有序探测表达式。如前所述，探测数必须是2的幂，如果不是这样，则矩阵必须为零填充。

\bar{C}

(2)

（i）是控制数据库探测的平均表达式。WT的应用d日C（i）生成2的n个级别^n个串行存储在矩阵中的小波系数d日C_W公司（i，j）。与i=1，2，…，之前不同。。。，2^n个现在索引2^n个位置和j=1，2。。。，n表示n个小波分辨率。通过抑制方程（5）中定义的阈值以下的系数来消除微分轮廓的噪声，其中惩罚P（w）与方程（6）中的相同，并且方差 $\hat{σ}$ 计算为

\hat{σ}

(3)

=摩洛哥迪拉姆(d日C_W公司（i，1））/0.6745（8）

d日C_W公司（i，1）是小波变换的最佳分辨率。

逆小波变换在滤波矩阵中的应用d日C_W公司（i，j）获得单个图案的去噪近似d日C（i）。

我们使用CHROMOWAVE提取单个肿瘤患者的染色体表达模式，方法是将其微阵列测量值与11个正常脑样本的正常数据库的平均表达进行对比。从这些病例中提取的RNA与Affymetrix U133_Plus2阵列杂交，并按照前面所述处理数据。

荧光原位杂交（FISH）

这27个肿瘤也都用FISH进行了研究。在与微阵列实验所用组织块相同的8μm厚冷冻切片上进行双色分析。我们对六条染色体进行了检测，发现了染色体的主要变化。LSI检测到第1和19号染色体的缺失或扩增^®1p36/LSI 1q25和LSI 19q13/LSI 19p13双色探头组（美国伊利诺伊州唐纳斯·格罗夫市威西公司）。用LSI ABL/BCR ES探针系统（Vysi）的ABL（9q34）探针对9q染色体进行了研究。对于第4、13、15和18号染色体，我们使用了Vysi探针CEP4、LSI13（440 kb，包括13q14中的RB基因）、CEP15和CEP18。样品按照制造商的协议进行处理。使用配备适当荧光过滤器的奥林巴斯BX51荧光显微镜（美国纽约州梅尔维尔市奥林巴斯）对结果进行评估。至少检查100个细胞的所有信号，并记录平均信号数。对正常大脑冰冻切片进行分析，以确定参考FISH拷贝数。正常阈值上限和下限计算为平均+/-2标准偏差（SD）。平均信号低于下限的肿瘤样本报告为单体。使用皮尔逊积矩相关系数计算FISH平均拷贝数和CHROMOWAVE负荷之间的相关性。

可用性和要求

本工作中使用的微阵列数据保存在GEO数据库中（GEO提交GSE2817）。软件可按要求提供，学术用户免费使用。

项目名称：CHROMOWAVE

项目主页：http://www1.imperial.ac.uk/medicine/people/federico.turkheimer

操作系统：独立于平台；

编程语言：Matlab 7（R14）

许可证：GNU

非学术：需要执照。

工具书类

Jaenisch R，鸟A：基因表达的表观遗传调控：基因组如何整合内在和环境信号。 自然基因2003,33补充：245–254. 10.1038/ng1089
第条公共医学谷歌学者
Vogelstein B，Kinzler功率：癌症基因及其控制的途径。 自然·医学2004,10:789–799. 10.1038/nm1087
第条中国科学院公共医学谷歌学者
Sproul D、Gilbert N、Bickmore WA:染色质结构在调节聚集基因表达中的作用。 Nat Rev基因2005,6:775–781. 10.1038/编号1688
第条中国科学院公共医学谷歌学者
Pollack JR、Sorlie T、Perou CM、Rees CA、Jeffrey SS、Lonning PE、Tibshirani R、Botstein D、Borresen Dale AL、Brown PO：微阵列分析揭示了DNA拷贝数改变在人类乳腺肿瘤转录程序中的主要直接作用。 美国国家科学院院刊2002,99:12963–12968. 10.1073/pnas.162471999年
第条公共医学中心中国科学院公共医学谷歌学者
Myers CL、Dunham MJ、Kung SY、Troyanskaya OG：在阵列CGH和基因表达微阵列数据中准确检测非整倍体。 生物信息学2004,20:3533–3543. 10.1093/生物信息学/bth440
第条中国科学院公共医学谷歌学者
Masayesva BG、Ha P、Garrett-Mayer E、Pilkington T、Mao R、Pevsner J、Speed T、Benoit N、Moon CS、Sidransky D、Westra WH、Califano J：癌症大染色体区域的基因表达改变包括多个与恶性进展无关的基因。 美国国家科学院院刊2004,101:8715–8720. 10.1073/pnas.0400027101
第条公共医学中心中国科学院公共医学谷歌学者
Zhou Y、Luoh SM、Zhang Y、Watanabe C、Wu TD、Ostland M、Wood WI、ZhangZ：通过转录组分析对肿瘤表达增加的染色体区域进行全基因组鉴定。 癌症研究2003,63:5781–5784.
中国科学院公共医学谷歌学者
FitzPatrick博士、Ramsay J、McGill NI、Shade M、Carothers AD、Hastie ND：人类常染色体三体性的转录组分析。 人类分子遗传学2002,11:3249–3256. 10.1093/hmg/11.26.3249
第条中国科学院公共医学谷歌学者
Mukasa A、Ueki K、Matsumoto S、Tsutsumi S、Nishikawa R、Fujimaki T、Asai A、Kirino T、Aburatani H：少突胶质瘤等位基因缺失1p与不缺失1p的基因表达谱差异。 癌基因2002,21:3961–3968. 10.1038/sj.onc.1205495
第条中国科学院公共医学谷歌学者
Kano M、Nishimura K、Ishikawa S、Tsutsumi S、Hirota K、Hirose M、Aburatani H：表达失衡图：一种检测mRNA表达失衡区域的新可视化方法。 基因组学杂志2003,13:31–46.
第条中国科学院公共医学谷歌学者
Husing J、Zeschnick M、Boes T、Jockel KH：结合DNA表达和位置信息检测染色体区域的功能沉默。 生物信息学2003,19:2335–2342. 10.1093/生物信息学/btg314
第条公共医学谷歌学者
Zhou X、Cole SW、Hu S、Wong DT：通过微阵列表达分析检测DNA拷贝数异常。 人类遗传学2004,114:464–467. 2007年10月10日/00439-004-1087-9
第条中国科学院公共医学谷歌学者
Mallat新加坡：多分辨率信号分解理论：小波表示。 IEEE模式分析和机器智能汇刊1989,11:673–693. 10.1109/34.192463
第条谷歌学者
联络人：生物信息学和计算生物学中的小波：现状和展望。 生物信息学2003,19:2009年10月2日至9日/生物信息学/19.1.2
第条中国科学院公共医学谷歌学者
王杰、马JZ、李MD:使用小波回归对cDNA微阵列数据进行归一化。 梳状化学高通量筛2004,7:783–791. 10.2174/1386207043328274
第条中国科学院公共医学谷歌学者
Wang XH、Istepanian RS、Song YH：基于平稳小波变换的微阵列图像去噪增强。 IEEE跨纳米生物科学2003,2:184–189. 10.1109/TNB.2003.816225
第条中国科学院公共医学谷歌学者
Wang J、Meza-Zepeda LA、Kresse SH、Myklebost O：M-CGH：分析基于微阵列的CGH实验。 BMC生物信息学2004,5:74. 10.1186/1471-2105-5-74
第条公共医学中心中国科学院公共医学谷歌学者
Klevecz RR公司：表达微阵列数据的小波分解揭示的酵母细胞周期的动态结构。 功能整合基因组学2000,1:186–192. 2007年10月14日/101420000027
第条中国科学院公共医学谷歌学者
Allen TE、Herrgard MJ、Liu M、Qiu Y、Glassner JD、Blattner FR、Palsson BO：大肠杆菌基因组使用的基因组规模分析：异质数据集的模型驱动分析。 J细菌2003,185:6392–6399. 10.1128/JB.185.21.6392-6399.2003年
第条公共医学中心中国科学院公共医学谷歌学者
Turkheimer FE、Duke DC、Moran LB、Graeber MB：基因表达的小波分析。 2004年IEEE生物医学成像国际研讨会论文集弗吉尼亚州阿灵顿；2004:1183–1186.
谷歌学者
Aggarwal A、Leong SH、Lee C、Kon OL、Tan P：肿瘤表达谱的小波变换揭示了非整倍体在肿瘤转录组上的普遍基因组印记。 癌症研究2005,65:186–194. 10.1158/0008-5472.CAN-05-1036
第条中国科学院公共医学谷歌学者
Hsu L、Self SG、Grove D、Randolph T、Wang K、Delrow JJ、Loo L、Porter P：使用小波对基于阵列的比较基因组杂交数据进行去噪。 生物统计学2005,6:211–226. 10.1093/生物统计/kxi004
第条公共医学谷歌学者
Freije WA、Castro-Vargas FE、Fang Z、Horvath S、Cloughesy T、Liau LM、Mischel PS、Nelson SF：胶质瘤的基因表达谱强烈预测生存率。 癌症研究2004,64:6503–6510. 10.1158/0008-5472.CAN-04-0452
第条中国科学院公共医学谷歌学者
莫格拉SD：信息论复杂性及其与模式识别的关系。 IEEE系统人与控制论汇刊1985,15:608–619.
第条谷歌学者
纳尔逊·DF：弗雷杰癌症研究。2004. [http://sumo.genetics.ucla.edu/~snelson/PublicDATASETS/Freije_CancerResearch_2004]
谷歌学者
Fuller CE、Perry A：中枢神经系统肿瘤的分子诊断。 高级Anat Pathol2005,12:180–194. 10.1097/01.pap.0000175117.47918.f7
第条公共医学谷歌学者
Mischel PS、Cloughesy TF、Nelson SF：脑癌的DNA微阵列分析：治疗的分子分类。 Nat Rev神经科学2004,5:782–792. 10.1038/编号1518
第条中国科学院公共医学谷歌学者
McDonald JM、See SJ、Tremont IW、Colman H、Gilbert MR、Groves M、Burger PC、Louis DN、Giannii C、Fuller G、Passe S、Blair H、Jenkins RB、Yang H、Ledoux A、Aaron J、Tipnis U、Zhang W、Hess K、Aldape K：间变性少突胶质瘤组织学和1p/19q状态对预后的影响。 癌症2005,104:1468–1477. 10.1002/cncr.21338
第条中国科学院公共医学谷歌学者
Papagikos MA，Shaw EG，Stieber大众：成人低度恶性胶质瘤随机临床试验的经验教训。 柳叶刀Oncol2005,6:240–244. 10.1016/S1470-2045（05）70095-4
第条公共医学谷歌学者
Nutt CL、Noble M、Chambers AF、Cairncross JG：胶质细胞系中耐药基因的差异表达和化疗敏感性与少突胶质细胞瘤和星形细胞瘤对化疗的不同反应相关。 癌症研究2000,60:4812–4818.
中国科学院公共医学谷歌学者
Reifenberger G，Louis DN：少突胶质瘤：诊断神经肿瘤学中的分子定义。 神经病理学实验神经学杂志2003,62:111–126.
中国科学院公共医学谷歌学者
Mukasa A、Ueki K、Ge X、Ishikawa S、Ide T、Fujimaki T、Nishikawa R、Asai A、Kirino T、Aburatani H：染色体1p缺失的少突胶质瘤中神经元基因子集的选择性表达。 大脑病理学2004,14:34–42.
第条中国科学院公共医学谷歌学者
Rickman DS、Bobek议员、Misek DE、Kuick R、Blaivas M、Kurnit DM、Taylor J、Hanash SM：基于寡核苷酸微阵列分析的高级别和低级别胶质瘤的不同分子特征。 癌症研究2001,61:6885–6891.
中国科学院公共医学谷歌学者
Watson MA、Perry A、Budhjara V、Hicks C、Shannon WD、Rich KM：用寡核苷酸微阵列进行基因表达谱分析可区分世界卫生组织分级的少突胶质瘤。 癌症研究2001,61:1825–1829.
中国科学院公共医学谷歌学者
van den Boom J、Wolter M、Kuick R、Misek DE、Youkilis AS、Wechsler DS、Sommer C、Reifenberger G、Hanash SM：使用基于寡核苷酸的微阵列分析和实时逆转录聚合酶链反应表征与胶质瘤进展相关的基因表达谱。 美国病理学杂志2003,163:1033–1043.
第条公共医学中心中国科学院公共医学谷歌学者
Hoelzinger DB、Mariani L、Weis J、Woyke T、Berens TJ、McDonough WS、Sloan A、Coons SW和Berens ME：多形性胶质母细胞瘤侵袭表型的基因表达谱指出了新的治疗靶点。 肿瘤形成2005,7:7–16.10.1593/neo.04535
第条公共医学中心中国科学院公共医学谷歌学者
Shai R、Shi T、Kremen TJ、Horvath S、Liau LM、Cloughesy TF、Mischel PS、Nelson SF：基因表达谱鉴定胶质瘤的分子亚型。 癌基因2003,22:4918–4923. 10.1038/sj.一次1206753
第条中国科学院公共医学谷歌学者
Sallinen SL、Sallinen PK、Haapasalo HK、Helin HJ、Helen PT、Schraml P、Kallioniemi OP、Kononen J：用DNA微阵列和组织芯片技术鉴定人脑胶质瘤差异表达基因。 癌症研究2000,60:6617–6622.
中国科学院公共医学谷歌学者
Godard S、Getz G、Delorenzi M、Farmer P、Kobayashi H、Desbaillets I、Nozaki M、Diserens AC、Hamou MF、Dietrich PY、Regli L、Janzer RC、Bucher P、Stupp R、de Tribolet N、Domany E、Hegi ME：基于基因表达的人类星形胶质瘤分类：一组具有血管生成活性的相关基因是亚型的有力预测因子。 癌症研究2003,63:6613–6625.
中国科学院公共医学谷歌学者
Nutt CL、Mani DR、Betensky RA、Tamayo P、Cairncross JG、Ladd C、Pohl U、Hartmann C、McLaughlin ME、Batchelor TT、Black PM、von Deimling A、Pomeroy SL、Golub TR、Louis DN：基于基因表达的恶性胶质瘤分类与生存率的相关性优于组织学分类。 癌症研究2003,63:1602–1607.
中国科学院公共医学谷歌学者
Mischel PS、Shai R、Shi T、Horvath S、Lu KV、Choe G、Seligson D、Kremen TJ、Palotie A、Liau LM、Cloughesy TF、Nelson SF：通过基因表达谱鉴定胶质母细胞瘤的分子亚型。 癌基因2003,22:2361–2373. 2010年10月38日/星期一，邮编：1206344
第条中国科学院公共医学谷歌学者
Affymetrix：统计算法检测文档2002
HG-U133_Plus_2数据表2004.
Mallat新加坡：信号处理的小波巡视第二版。圣地亚哥，学术出版社；1999
谷歌学者
Coifman RR、Donoho DL：平移不变去噪。 统计学课堂讲稿1995,103:125–150.
第条谷歌学者
哈尔A:正交函数系统理论。 数学年刊1910,69:331–371. 2007年10月10日/BF01456326
第条谷歌学者
Sardi S、Percival D、Bruce A、Gao HY、Stuetzle W：不等间距数据的小波收缩。 统计与计算1999,9:65–75.10.1023/A:1008818328241
第条谷歌学者
Alter O、Brown PO、Botstein D：用于全基因组表达数据处理和建模的奇异值分解。 美国国家科学院院刊2000,97:10101–10106. 10.1073/pnas.97.18.10101
第条公共医学中心中国科学院公共医学谷歌学者
侯振杰：小波域自适应奇异值分解用于图像去噪。 模式识别2003,36:1747–1763. 10.1016/S0031-3203（02）00323-0
第条谷歌学者
多诺霍DL：通过软阈值消除噪声。 IEEE信息理论汇刊1995,41:613–627. 10.1109/18.382009
第条谷歌学者

下载参考资料

致谢

作者希望对Nelson S.F.博士提供微阵列数据集进行测试表示感谢。这项工作得到了2002年《Télévie》（7.4580.02号拨款）、国家科学基金会（1.5.286.05号拨款）和BTRC-Way Ahead慈善机构的资助。

作者信息

作者和附属机构

英国伦敦帝国理工学院神经科学部临床神经科学系
费德里科·特克海默
英国伦敦帝国理工学院神经科学系神经病理学系
费德里科·隆卡罗利
比利时列日大学人类遗传学系
Benoit Hennuy、Christian Herens、Annick Evrard和Vincent Bours
比利时列日大学大学医院神经外科
Minh Nguyen和Didier Martin
比利时列日大学大学医院病理学系神经病理学实验室
雅克·博尼弗和曼努埃尔·德普雷斯

作者

费德里科·特克海默
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
费德里科·隆卡罗利
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
贝诺伊·亨努伊
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
克里斯蒂安·赫伦斯
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
阮明
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
迪迪尔·马丁
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
安妮克·埃弗拉德
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
文森特·鲍尔斯
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
雅克·博尼弗
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
曼纽尔·德普雷斯
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者

通讯作者

与的通信费德里科·特克海默.

其他信息

作者的贡献

FET开发了方法和代码，进行了部分数据分析，并起草了手稿。FR参与了研究的设计，选择了案例并为手稿做出贡献。BH和VB进行RNA提取、微阵列处理并帮助进行数据分析。AE和CH进行了FISH研究，并协助数据分析和解释。MN和DM负责临床数据。JB参与了研究设计和手稿的编写。MD制定了研究设计并起草了手稿。所有作者阅读并批准了最终手稿。

电子辅助材料

12859_2006_1265_MOESM1_ESM.xls

附加文件1：图形数据1该表详细说明了图中所示的模式1。该文件包含染色体的顺序数据，由5列组成。第一列包含Affymetrix探针ID，第二列是表达式（log2尺度），第三列包含染色体位点，第四列是该染色体的确切基因组距离（零是Affymetix约定中的p端粒）。第5列包含本体。以颜色的形式提供的附加信息如下：-在log2表达>abs（0.8）的黄色簇中，PubMed在关键字“GLIOMA”下引用-在关键字“TUMOUR”下OMIM中引用的橙色基因（仅限于chr4、chr13、chr15、chr18、chrY）-在关键字“GLIOMA”下OMIM中引用的红色基因（所有染色体）但不一定在这个数据集中有高或低的表达。（XLS 5 MB）

作者提交的原始图像文件

下面是作者提交的原始图像文件的链接。

图1的作者原始文件

图2的作者原始文件

图3的作者原始文件

图4的作者原始文件

图5的作者原始文件

图6的作者原始文件

图7的作者原始文件

权利和权限

本文由BioMed Central Ltd.授权发布。这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品，前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

Turkheimer，F.E.，Roncaroli，F.，Hennuy，B。等。微阵列数据中基因表达的染色体模式：胶质瘤的方法学、验证和临床相关性。BMC生物信息学 7, 526 (2006). https://doi.org/10.1186/1471-2105-7-526

下载引文

收到:2006年10月31日
认可的:2006年12月1日
出版:2006年12月1日
内政部:https://doi.org/10.1186/1471-2105-7-526