跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
美国国家科学院院刊。2010年4月13日;107(15): 6994–6999.
2010年3月24日在线发布。 数字对象标识:10.1073/pnas.0912708107
预防性维修识别码:项目经理2872436
PMID:20335537

基于路径的人类乳腺癌分类

迈克尔·L·加扎, 约瑟夫·卢卡斯,a、,b条 威廉·巴里,a、,c(c) 金钟郁,a、,d日 王全利,a、,b条 马修·D·克劳福德, 迈克尔·达托,e(电子) 迈克尔·凯利,(f) 伯纳德·马西·普雷特,a、, 安尼尔·波蒂,a、,(f)约瑟夫·内文斯a、,日期:,1

关联数据

补充资料

摘要

人类癌症的特征是异质性,反映了肿瘤发生过程中获得的大量体细胞突变的复杂性和可变性。剖析这种异质性的能力,确定代表疾病共同机制的亚组,对于理解遗传改变的复杂性和提供制定合理治疗策略的框架至关重要。在这里,我们描述了一种人类乳腺癌分类方案,该方案利用通路活性模式,以使用固有基因表达特征构建之前的亚型特征,以提供与治疗方案相关的基因表达数据的功能解释。我们表明,已确定的亚组为分类独立样本、识别共享通路活性模式并表现出类似临床和生物学特性的肿瘤提供了可靠的机制,包括在异质性肿瘤总人群中不明显的不同染色体改变模式。我们认为,这一分类方案为理解导致这些肿瘤的复杂肿瘤发生机制和确定合理的联合治疗机会提供了基础。

关键词:肿瘤基因组学

与大多数癌症一样,乳腺癌代表着不同疾病的异质性集合,这些疾病是由肿瘤发生过程中获得的各种体细胞突变引起的(1). 这种异质性在肿瘤ER或HER2状态或基于反映肿瘤细胞起源的基因表达模式(如基底或管腔)的分子分类方案中是明显的(2,). 简而言之,乳腺癌是代表许多不同实体的非特异性描述。

分析乳腺癌异质性的能力至关重要,这有两个原因。首先,要理解乳腺癌基因组改变的重要性,这代表了疾病的潜在机制,需要了解不同的疾病状态,而不是简单地检查肿瘤的异质人群。其次,对个体患者最有效的治疗方案的开发将取决于确定患者肿瘤独特特征的能力。这对于应对标准化疗基本无效的晚期疾病的治疗挑战尤为关键。因此,有效治疗乳腺癌患者的挑战是确定最有可能对给定治疗产生反应的人群。

我们之前已经描述了预测各种致癌信号通路激活的基因表达特征的发展,证明了收集肿瘤样本分析通路活性模式的能力(4,5). 我们进一步描述了这些通路特征的使用,以揭示内在乳腺癌亚型的复杂性(6). 有鉴于此,我们现在已将重点放在开发一种基于致癌和抑癌途径放松管制的人类乳腺肿瘤分类策略上。通过这种方法,我们确定了17个乳腺癌亚群,这些亚群表现出不同的通路激活模式以及临床和生物学特征。亚组之间的区别超出了描述性分类,而是基于反映重要信号通路状态的预测性分类方案。此外,每个亚组都有不同的染色体改变模式,这表明分类方案可以作为理解肿瘤内复杂DNA畸变模式的框架。最后,我们表明,这种分类策略能够整合预测的通路活性模式,这与对通路特异性药物的敏感性相关,并预测对细胞毒性药物的反应,这可能有助于开发乳腺癌患者的潜在治疗机会。

结果

评估人类乳腺癌的分子异质性。

之前的工作使用基因组水平的基因表达测量,结合层次聚类,根据不同的表达模式识别乳腺癌亚型,并显示特定的组织学特性和临床结果,表明基因表达模式可以直接反映潜在的基因组改变(2,). 然而,这些最初的研究使用了相对较少的样本,尽管这项工作在随后的研究中得到了扩展,但每项研究仍然是对一些样本的分析,这些样本可能无法反映疾病的全部复杂性(79).

为了研究乳腺癌的表型复杂性,收集了大量乳腺癌基因表达数据(n个=1143),源自10项独立研究,并使用贝叶斯因子回归模型进行归一化(SI附录),通过无监督的层次聚类分析来揭示复杂的基因表达模式(图1A类). 先前定义的分子亚型(2,)从分析中可以明显看出;特别是基底型和大部分管腔型B亚型被清楚地描述出来。管腔A和Erbb2亚型更具多样性,这可能是因为分析了大量样本后发现了额外的复杂性。

保存图片、插图等的外部文件。对象名为pnas.0912708107fig01.jpg

乳腺癌基因表达模式的Meta分析。(A类)基于Affymetrix U133A探针的基因表达模式,通过完全连锁层次聚类法对一个乳腺癌数据集进行聚类,该数据集由来自10个独立生成的数据集的1143个样本组成。报告每个样本的固有亚型。(B类)1143个样本的随机子集中确定的簇数表明,表达模式的复杂性随着数据集大小而饱和。(C)已知ER状态的肿瘤随机亚群中确定的簇数分析(n个=828)与ER+肿瘤亚群中确定的簇数相比(n个= 596).

为了解决乳腺癌的全部表型多样性被捕获的程度,使用越来越多的肿瘤样本的随机子集进行了一系列聚类分析。如所示图1B类和中SI附录树状图中给定水平上的簇数随着样本大小的增加而增加,当样本大小达到约700个肿瘤时,簇数趋于稳定。这一结果表明,乳腺癌的复杂性相当大,并强调了荟萃分析(如本文所述)的重要性,以便能够全面了解乳腺癌的异质性。同时,这项分析表明,可以确定有限数量的乳腺癌亚组。

为了进一步验证该分析捕捉到了乳腺癌的真正生物学复杂性,我们分析了一组肿瘤,其中首先删除了一个定义明确的疾病亚类,即ER阴性肿瘤。从1143个样本的原始数据集中,共有828个已知ER状态。其中596例ER阳性,232例ER阴性。然后使用828的数据集和从中去除ER阴性样本的样本数据集重复使用随机子集的聚类分析,其中ER状态是已知的。如所示图1C,对828个完整样本集的分析再次表明,随着样本量的增加,聚类数量增加,大约有18个聚类处于稳定状态。相反,ER阳性样本的分析在12个聚类中达到了一个平台,这与该子集生物复杂性的降低一致。

途径活动模式表征乳腺癌的多样性。

尽管基因表达模式可以为描述乳腺癌的多样性提供基础,但由于无法解释这些簇的潜在生物学意义,这一点受到了限制。我们之前描述了一种评估基因表达模式的替代策略,同时通过使用通路激活的表达特征提供生物学见解(4,5). 我们现在通过开发大量的通路特征集合来扩展这项初始工作(SI附录)用于预测标准化乳腺肿瘤数据集中每个样本的通路活性概率(表S1http://data.duke.genome.edu/bream_subgroups(http://data.duke.genome.edu/bream_subgroups)). 因为每个特征都经过了独立的生化或遗传分析的验证(SI附录和表S11http://data.duke.genome.edu/breast_subgroups),路径活性的预测概率可以被视为体内路径活性的相关度量;高预测路径活性与高体内路径活性相关,而低预测路径活性概率与低体内活性相关。因此,基于这些特征的预测路径状态提供了基于通用分析(基因表达)的路径功能测量。该策略使测量的整合能够揭示通路失调的模式,这在使用不同形式的通路分析数据时是不可能的。因此,与基于探针水平杂交强度的基因表达数据聚类类似,路径激活预测概率的层次聚类揭示了路径解除调控的不同模式(图2A类).

保存图片、插图等的外部文件。对象名为pnas.0912708107fig02.jpg

乳腺癌特征的通路活性模式。(A类)热图描绘了1143个乳腺肿瘤样本和18条路径的预测概率的双向分层聚类。显示了低(蓝色)和高(红色)通路活性和预测概率。(B类)描绘通路协同调节相关系数的热图(红色表示正相关,蓝色表示负相关)。

除了样本簇外,可以从双向层次聚类中确定通路协同调节模式,从而深入了解疾病谱中通路关联的性质。双向层次聚类首次用于识别统计上共同激活的通路簇(图2A类)和皮尔逊相关性(图2B类和表S2http://data.duke.genome.edu/breast_subgroups)用于验证聚集路径之间的统计相关性。这些分析确定了ER、PR和p53通路之间的明确关系,这与以往研究的预期一致,也与干扰素α和干扰素γ的预期一致(10). 此外,MYC和RAS在乳腺肿瘤数据集中表现出强大的协同激活作用,这与先前的研究一致,表明MYC与RAS在肿瘤发生中存在遗传关系(11,12). 其他关系,不一定是从过去的工作中预测到的,在本分析中也很明显,包括E2F1和PI3K途径与β-catenin的共激活。有趣的是,E2F1被认为是p53依赖性细胞凋亡的信号,而PI3K活性则抵消了E2F1的作用(13). 最后,其他模式也很明显,包括AKT/p63/SRC以及EGFR/TGFβ和STAT3/TNFα。

基于通路活性预测模型的乳腺肿瘤亚群识别。

尽管层次聚类揭示了数据中可以构成分类基础的结构,但这种方法在很大程度上是描述性的。为了作为未来研究的框架,分类必须基于预测模型。为了应对这一挑战,我们开发了一种肿瘤分类策略,该策略利用初始亲和力传播方案和混合建模,根据通路活性模式定义乳腺肿瘤亚型(图3A类). 然后,可以使用混合模型根据每个混合成分的相对似然将新样本分配给子组。从该分析中,确定了17个亚组,其中通过欧几里德距离测量的密切相关样本(SI附录),可以最佳分配(图3B类和表S3http://data.duke.genome.edu/breast_subgroups)基于通路活性模式。

保存图片、插图等的外部文件。对象名为pnas.0912708107fig03.jpg

利用通路活性模式鉴定乳腺肿瘤亚型。(A类)路径衍生乳腺肿瘤亚群的发展计划。(B类)1143个乳腺肿瘤样本的亚组成员预测概率,其中每行代表一个样本;每个列都是一个子组(样本按子组组织)。(C)热图描绘了17个经鉴定的乳腺肿瘤亚群中的通路活动模式,这些肿瘤亚群按与固有亚型的关系进行组织。红色表示高预测概率,蓝色表示低预测概率。路径衍生亚组之间的总体生存差异分类为(D类)似基底的(P(P)=0.0039)和(E类)管腔A优势(P(P)=0.0046)通过Kaplan-Meier生存曲线进行分析,并证明生存率存在统计学显著差异(log-rank检验)。

先前的工作基于基因表达模式描述了一系列乳腺癌亚型(2,). 根据这一了解乳腺癌异质性的既定框架,我们现在利用1143个肿瘤的数据集,评估了与这些先前确定的乳腺癌固有亚型相关的路径定义亚组(图3C). 从这一分析中可以得出几个结论。首先,路径定义的亚组和固有亚型之间存在明确的关系,包括基本亚型(亚组2、5和8)、管腔a(亚组11和17)、管腔内B(亚组3、4、6、9和16)和Erbb2(亚组7和10)亚型(SI附录). 其次,很明显,总的来说,先前定义的内在亚型表现出不同的通路活动模式。例如,基本子组(2,5,8)表现出低ER和PR活性和高Myc和Ras活性,而管腔亚群1,,4,6,9,11,16、和17这些途径通常表现出相反的模式。第三,通路模式也为进一步细分内在亚型提供了基础。对于基底样肿瘤,亚组2和5的EGFR活性较低,而亚组8的EGFR表达较高。相反,对于SRC活动,子组8的活动度较低,而子组2和5的活动度较高。类似的观察结果解释了基于EGFR、β-catenin和IFN活性的管腔B肿瘤在几个亚组之间的划分。最后,从该分析中也可以明显看出,路径定义的子组可以主要由单个固有子类型组成,也可以包括多个子类型。例如,亚组1、12、13和15包含管腔a和B肿瘤的混合物,这表明管腔肿瘤既有常见的方面,也有独特的方面。

通过对Kaplan-Meier分析的检查,进一步确定肿瘤亚型的生物学意义是显而易见的,其中基础和管腔A通路衍生亚组存在生存差异,尽管先前的研究报告称基底样肿瘤通常预后较差,而管腔a肿瘤预后良好(2,14,15). 对基底和管腔A样本百分比最大的三个亚组的总生存率进行了检查,其中有足够数量的样本报告了生存数据(SI附录). 在基底样亚组中,具有统计学显著性差异(P(P)=0.0039,log-rank检验)存在于亚组8(中位生存期>130个月)和亚组5(中位存活期:80.6个月)之间的总生存期(图3D类). 同样,统计上的显著差异(P(P)=0.0046,log-rank检验)总生存率在管腔A显性亚组15和11之间存在(中位生存期分别>140个月和97.6个月)(图3E类).

乳腺癌分类的预测框架。

为了使分类策略在未来的研究中有效,所描述的分类方案必须代表一个预测框架,通过该框架可以根据通路激活模式将新的肿瘤样本定量分配给一个亚组。为了评估这种分类的可靠性,一个独立的乳腺癌数据集(n个=547)。基于预测的通路活性模式(见表S5http://data.dukegenome.edu/breast_亚组),每个样本被分配到17个亚组中的一个(图4A类和表S6,位于http://data.duke.genome.edu/breast_subgroups). 在原始数据集和验证数据集中,分配给每个亚组的样本的临床特性高度一致。例如,分配给亚组2、5和8的肿瘤是基底样的(SI附录和表S4位于http://data。duke.genome.edu/breast_子组).

保存图片、插图等的外部文件。对象名为pnas.0912708107fig04.jpg

预测子组成员。(A类)验证数据集中的乳腺肿瘤(n个=547)分为17个路径衍生亚组,并绘制每个样本的亚组分配概率(红色表示亚组成员的高概率;蓝色表示低概率)。(B类). 根据通路活性模式,将50个乳腺癌细胞株分为17个通路衍生亚群中的13个,并给出了亚群成员的预测概率;50份样本中有36份(72%)的亚组成员预测概率大于0.80。

由于建立的框架能够对新样本进行分类,因此它还提供了一种机制,可以将癌细胞系分类为给定亚组的实验模型。50个乳腺癌细胞株(8)被分配到子组(图4B类)根据路径预测(表S7和S8http://data.duke.genome.edu/breast_subgroups). 总的来说,17个肿瘤亚组中有12个肿瘤细胞系的预测概率大于0.80,并且将细胞系分配给亚组也与细胞系的固有亚型一致,无论是基底细胞还是管腔细胞(SI附录). 尽管该数据集中的几个细胞系(14/50)与单个亚组没有显著(>0.80)关联,但这些细胞系中的大多数(9/14)都有可能成为欧几里得距离高度相关的多个亚组的成员(SI附录)由具有类似内在亚型的肿瘤组成。这些数据表明,这些细胞可能在建立细胞系的过程中或在随后几年的培养生长过程中偏离了原始状态。然而,由于当前研究中检测的大多数(72%)乳腺癌细胞系很有可能被分配到单个亚组,我们的分析表明,这些特定的乳腺癌细胞系可以作为每个亚组的体外和体内研究的良好模型系统;其余的细胞系可能是给定通路的良好模型系统,但并不代表特定的亚组。

路径定义的乳腺肿瘤亚型显示出DNA拷贝数变化的独特模式。

以前关于癌症基因组测序工作的报告,包括乳腺癌,揭示了大量的基因突变,可分为两大类——大多数样本中常见的突变(有时称为癌症基因组景观中的基因山)以及在肿瘤人群中罕见的基因突变(称为基因丘)(16). 尽管这些分析提供了乳腺癌突变情况的初步描述,但它们也对理解罕见突变的重要性提出了挑战。鉴于有证据表明乳腺癌实际上是多种不同的疾病实体,在一个确定的亚组中,所谓的基因山完全有可能成为基因山;然而,目前的分类方案无法生成足够均匀的肿瘤类别来识别这些变化。因此,我们在这里描述的分类策略的一个主要目标是确定具有常见疾病分子机制的亚组,然后将其作为一个框架,用于研究同质肿瘤群体中的相关遗传改变。

为了研究途径衍生的亚组是否以常见的基因组改变为特征,一组乳腺肿瘤的联合表达数据和拷贝数变异(CNV)数据可用(9)通过比较基因组杂交分析分析与每个亚组相关的染色体异常。与以往研究一致(8,9,17),将所有样本作为一组进行分析时,可以识别出证明CNV的各种染色体区域(图5). 然而,当这些肿瘤被分配到路径衍生亚组时,CNV在染色体区域的同质性模式变得明显,当在所有乳腺肿瘤中观察时,这些染色体区域几乎没有CNV。例如,75%的亚组5肿瘤在3p14.3时表现出均匀的损失(图5B类)但只有18%的其他肿瘤具有这种改变(P(P)= 0.0009). 此外,子组7中100%的患者在4p15.1时出现缺失,子组6中60-80%的患者在11q21-24时出现缺失(图5B类),而只有8%(P(P)=0.0106)和9–23%(P(P)=0.0093)的所有其他肿瘤在这些染色体位置有拷贝数丢失。

保存图片、插图等的外部文件。对象名为pnas.0912708107fig05.jpg

路径定义的乳腺肿瘤亚群表现出独特的DNA拷贝数变化模式。计算每个亚组的DNA拷贝数变化模式。(A类)图中显示了16个亚组中每个亚组的样本百分比,这些样本具有确定的拷贝数增益和损耗。绿色表示扩增区域,红色表示染色体丢失区域;深绿色和红色分别表示具有高拷贝数增益或纯合缺失的样本的百分比。染色体边界由灰色和白色区域交替划定。(B类)与第5亚组的所有乳腺肿瘤相比,路径衍生亚组的拷贝数丢失模式越来越均匀(P(P)=0.0009,未配对t吨试验),第7子组,4p15.1(P(P)=0.0106,未配对t吨试验),第6子组,11q21-24(P(P)=0.0093,未配对t吨测试)。(C)与所有其他样本相比,乳腺肿瘤亚组的拷贝数增加模式越来越均匀。亚组5在3q25.1处出现扩增(P(P)=0.0211,未配对t吨test)和子组11在20p12-13显示扩增(P(P)<0.0001,未配对t吨测试)。(D类)类基底亚群2、5和8在8q24时显示拷贝数增加(P(P)=0.4575,方差分析);只有子组5在3p14处显示拷贝数丢失(P(P)<0.0001,方差分析)。

在总乳腺癌中,拷贝数增加的频率相对较低,也有类似的结果(图5C). 例如,75%的第5亚组患者在3q25.1时拷贝数增加,但在所有其他患者中只有11%(P(P)= 0.0211). 同样,在第11亚组中,60-80%的患者在20p12-13也表现出拷贝数增加,而在所有其他肿瘤中,只有6-14%的患者在这些染色体带上表现出拷贝数量增加(P(P)< 0.0001).

如前几节所述,通路特征使用的一个重要方面是能够揭示先前定义的内在亚型的进一步复杂性。如中所示图5D类,这一细分也揭示了不同的CNV模式。例如,基础亚群2、5和8在染色体8q24处都表现出拷贝数增加(P(P)=0.4575,方差分析),只有亚组5肿瘤表现出3p14缺失(P(P)<0.0001,方差分析)。

尽管这些分析受到少量样本的限制,这些样本的表达数据和拷贝数数据都可用,但从图5基于反映潜在生物学的通路活动模式来识别同质疾病亚群的能力,确实提供了一个机会来揭示染色体改变,而对肿瘤总人口的分析可能会忽略这些改变。因此,我们认为这为未来的研究提供了一个框架,这些研究将试图确定基因组改变的完全复杂性,包括DNA序列变化,这些变化不仅是乳腺癌的特征,也是乳腺癌的特定亚群的特征。

讨论

先前的研究详细分析了基因组水平的基因表达数据,以表征肿瘤异质性,包括识别其他方法无法识别的肿瘤亚型(2,14,1821). 目前基于临床的分类依赖于包括视觉特征、肿瘤大小和有限数量的组织化学标记物在内的参数。鉴于这些表型特征中的每一个都是独特的基因补体表达的结果,基因组尺度基因表达分析的使用仅在数据规模和提高这些测定精确度的能力方面有所不同。研究基因组异常和表观遗传修饰增加了癌症表型描述的复杂性和细节(2224). 尽管这些数据在描述癌症特征方面很重要,但开发一个统一的基础平台至关重要,该平台可以容纳复杂数据,同时将复杂性降低到能够提供生物学洞察力的形式。我们建议,通过将固有的复杂性以一种提供与定义生物学相关的可预测框架的形式组织起来,使用实验衍生的路径签名提供了应对这一挑战的方法。

使用通路特征作为肿瘤分类的基础,为基本基因表达分析增加了附加价值。首先,通路特征提供了直接的生物学解释,因为这些特征基于通路活性的实验测定。其次,考虑到预测的通路活性和对通路特异性治疗药物的敏感性之间的联系,这些信息可以为合理设计亚组患者的治疗方案奠定基础。最后,与阵列上的基因探针总数相比,相对较少的通路允许对观察到的通路活动模式进行更严格的建模,并能够预测子组成员。

人类癌症固有的异质性对预测治疗反应和理解疾病机制提出了巨大挑战。试图解释癌症基因组项目中的DNA测序信息最能说明这一挑战,在这些项目中,可以识别出大量突变,但无法明确关联哪些序列变异与癌症表型相关(16,22,25). 鉴于这种复杂性会转化为多种形式的乳腺癌,定义区分异质性的不同表型以及识别具有共同特性的肿瘤的能力对于解释DNA测序数据以及定义各种乳腺癌的分子机制的能力至关重要。

我们建议,我们在这里描述的分类方案,通过利用途径概率生成的预测模型扩展了以前定义乳腺癌亚型的工作,可以为评估乳腺癌生物学方面的未来研究提供框架。将新样本分配给特定子组的能力为建立和扩展现有知识体系提供了机会。此外,我们建议这也提供了一个框架来关联实验系统,如癌细胞系、异种移植物和遗传模型,以便对乳腺癌亚群进行特征描述。我们也认识到这种方法的局限性,验证队列中肿瘤的亚组分配存在一些不确定性,以及一部分乳腺癌细胞系不适合特定的亚组。尽管这可能反映了细胞系在培养过程中的差异,但也有可能亚组框架受到可用通路特征的限制,不能完全代表乳腺癌的全范围变异。尽管如此,鉴于大多数肿瘤或细胞系很有可能被分配到一个独特的亚组,我们相信这是进一步发展的基础。

基于通路激活的同质模式确定乳腺癌亚群也为评估和解释癌症基因组特征的复杂变化提供了一个框架,因为这些通路的放松管制反映了每个肿瘤特有的遗传变化。事实上,我们对DNA拷贝数变化的初步分析支持这一结论,认为这是一种肿瘤发生机制。最后,我们认为,所描述的通路特征提供了一个机会,通过将给定药物与基于药物靶点知识的通路联系起来,识别可能受益于特定药物的患者群体。我们已经在许多体外例子中证明了这种联系,最近的数据表明,来自初始EGFR通路信号的信号可以有效地识别对西妥昔单抗有反应的患者(26).

虽然为靶向治疗药物开发预测工具的能力很重要,但我们相信,这种方法的威力在于能够根据潜在的生物学特性合理地识别与特定患者亚群相匹配的药物组合。单一药物有限的临床效益突出了合理的联合治疗策略的重要性;西妥昔单抗、厄洛替尼、阿瓦斯丁等药物在临床活动的基础上获得批准,这些药物可以小幅度延长患者的总体生存期(2731). 虽然这项活动很重要,并且确实代表了治疗益处的真正衡量标准,但要将这项活动转化为临床成功还需要做更多的工作。临床疗效有限的一个可能依据是,任何单一药物,即使与细胞毒性药物或方案结合,也无法与肿瘤的复杂性相匹配。合理的建议是,使用多种药物的治疗策略在联合使用时可能具有显著且持久的治疗益处,每种药物单独对单个患者都显示出较小但实际的临床益处。然而,目前不可能预测新型药物组合在特定患者中的临床益处。只有在临床环境中进行研究时,才能回答这些问题,在临床环境下,可以在具有常见疾病机制的患者亚群中检查新型药物组合的疗效。因此,所提出的基于通路的分类策略为定义潜在的合理组合方案提供了一个具体的框架,可以在临床研究中进行测试。

材料和方法

人类乳腺肿瘤样本和癌细胞系。

对来自10个独立数据集(GSE1456、GSE1561、GSE2034、GSE3494、GSE3744、GSE4922、GSE5460、GSE5764、GSE6596和E-TABM-158)的1143名患者样本进行了分析(9,3240). 验证数据集(n个=547)来自两个独立的数据集(41,42). 50个乳腺癌细胞株(E-TABM-157)(8)进行了分析。

Pathway签名培训数据。

用于生成所开发的18个路径特征的训练数据如所述SI附录签名条件详见表S9和S10http://data.duke.genome.edu/breast_subgroups.

微阵列数据处理。

使用Affymetrix Expression Console软件1.0版,通过RMA或MAS5.0算法对微阵列数据进行标准化。对所有数据进行过滤,以包括U133A平台上的探针。贝叶斯因子回归模型(43,44)使用15个主成分对69个人类维持基因Affymetrix探针的数据进行标准化,从而消除多个数据集中乳腺肿瘤样本之间的技术差异。这些方法在中进行了描述SI附录.

分析用于预测通路活动的表达数据。

先前已经描述了用于开发通路活性基因表达特征的统计方法(5)和在中详细描述SI附录.

验证路径签名准确性。

为了验证通路特征,进行了两种类型的分析(SI附录). 首先,使用留一交叉验证来正式确认每个签名的有效性和稳健性,以区分两种表型状态。其次,利用遗传和生化分析验证路径活性预测概率与体内路径活性测量值之间的相关性。

路径活动模式分析。

使用Cluster3.0进行双向层次聚类(完全连锁),根据乳腺肿瘤数据集中每个样本的路径活性预测概率分析路径协同作用模式。为了验证聚类途径之间的相关性,进行了Pearson相关性;r-和P(P)值报告于SI附录.

乳腺癌亚组的产生。

有关用于定义每个子类型的统计模型的详细信息,请参阅SI附录简而言之,对1143例乳腺肿瘤样本测定了18条细胞通路的预测活性。基于路径预测,使用欧几里德距离相似函数通过亲和传播定义初步的子组特征。亲和性传播可调参数设置为−33的默认设置。然后使用路径预测的混合建模来进一步细化每个亚组。最后,使用对数似然检验来验证确定的子组。根据新样本属于混合模型各组成部分的相对可能性,计算将独立样本分配给每个确定亚型的概率。

乳腺癌亚型分析。

使用前面描述的方法确定固有亚型成员(7). 简单地说,U133A探针集经过筛选,包括684个探针(360个基因),这些探针与固有基因列表相关(14). 然后,使用前66%(451个探针)的可变探针,通过完整的连锁层次聚类,对BFRM标准化Mas5格式的基因表达数据进行聚类。识别了以前识别的固有亚型,发现每个亚型的表达特征与以前发表的研究一致(4,13,6). 具体而言,HER2+表达簇显示17q21扩增子中的基因高表达,包括HER2/ERBB2和GRB7。发现基础表达簇表达KRT5和KRT17,ESR1表达较低。内质A和B簇以ESR1和GATA3的高表达为特征,内质A簇以ADH1B的高表达区分(SI附录).

无监督分层聚类。

1143例乳腺肿瘤样本的Affymetrix U133A表达数据采用MAS5标准化,探针和样本均以平均值为中心,并使用Cluster 3.0通过完全连锁进行聚类。以一式三份的方式,选择25、50、100、200、400、600、800和1000个随机样本,并在树状图中得到给定水平上的聚类数(SI附录).

比较基因组杂交(CGH)分析。

阵列CGH数据(E-TABM-158)如前所述进行处理(表S12http://data.duke.genome.edu/breast_subgroups) (9). 根据基因表达模式将肿瘤样本分为乳腺肿瘤亚型。使用NEXUS copy number 4.0(BioDiscovery,Inc.)测定与每个亚组相关的DNA拷贝数变化,该算法依赖于秩分割算法,类似于循环二进制分割(CBS)算法来分割基因组和定位探针(45). 用于识别拷贝数变异染色体区域的显著性阈值设置为0%,以识别所有变异区域。表S13中报告了每个亚组拷贝数变化的识别区域http://data.duke.genome.edu/胸部_子组.每个酒吧图5表示在分段染色体带上拷贝数变化的亚组中样本的百分比。为了验证拷贝数变化具有统计显著性,对每个已识别染色体带中BAC的探针强度进行了平均(表S14http://data.duke.genome.edu/胸部分组)或者是一个未结婚的人t吨测试或单因素方差分析用于比较各亚组之间的探针强度。

补充材料

支持信息:

致谢

我们感谢我们实验室的成员,特别是Jeffrey Chang、Erich Huang和Jason Reeves,以及Simon Gregory和Aaron Towers的有益讨论。我们感谢凯伊·卡勒(Kaye Culler)在编写手稿过程中提供的帮助。国家癌症研究所综合癌症生物学项目通过向J.R.N.M.L.G.授予国家卫生研究所5-U54-CA112952-05和5-RO1-CA106520-05,对研究的所有方面提供了支持,该项目由国家卫生研究院HL007101-32和国立卫生研究院CA139890-01博士后奖学金提供支持。

脚注

作者声明没有利益冲突。

这篇文章是PNAS直接提交的。

本文包含在线支持信息,网址为www.pnas.org/cgi/content/full/0912708107/DC补充.

工具书类

1Hanahan D,Weinberg RA。癌症的特征。单元格。2000;100:57–70.[公共医学][谷歌学者]
2Perou CM等人。人类乳腺肿瘤的分子肖像。自然。2000;406:747–752.[公共医学][谷歌学者]
三。Sorlie T等。在独立基因表达数据集中重复观察乳腺肿瘤亚型。美国国家科学院程序。2003;100:8418–8423. [PMC免费文章][公共医学][谷歌学者]
4Huang E等。预测致癌途径活性的基因表达表型模型。自然遗传学。2003;34:226–230.[公共医学][谷歌学者]
5Bild AH等。人类癌症中的致癌途径特征作为靶向治疗的指南。自然。2006;439:353–357.[公共医学][谷歌学者]
6.Bild AH等。基因表达分析互补策略的整合,以揭示乳腺癌的新治疗机会。乳腺癌研究。2009;11:R55。 [PMC免费文章][公共医学][谷歌学者]
7.Smid M等人。乳腺癌的亚型显示复发的优先部位。癌症研究。2008;68:3108–3114.[公共医学][谷歌学者]
8Neve RM等。用于研究功能不同的癌症亚型的乳腺癌细胞系集合。癌细胞。2006;10:515–527. [PMC免费文章][公共医学][谷歌学者]
9.Chin K等。与乳腺癌病理生理相关的基因组和转录异常。癌细胞。2006;10:529–541.[公共医学][谷歌学者]
10Nielsen TO等。浸润性乳腺癌基底样亚型的免疫组织化学和临床特征。临床癌症研究。2004;10:5367–5374.[公共医学][谷歌学者]
11D’Cruz CM等。c-MYC通过涉及自发Kras2突变的首选途径诱导乳腺肿瘤发生。自然医学。2001;7:235–239.[公共医学][谷歌学者]
12Sinn E等。转基因小鼠中MMTV/v-Ha-ras和MMTV/c-myc基因的共表达:体内癌基因的协同作用。单元格。1987;49:465–475.[公共医学][谷歌学者]
13Hallstrom TC,Mori S,Nevins JR。一种决定增殖和细胞死亡之间平衡的E2F1依赖性基因表达程序。癌细胞。2008;13:11–22. [PMC免费文章][公共医学][谷歌学者]
14Sörlie T等。乳腺癌的基因表达模式区分具有临床意义的肿瘤亚类。美国国家科学院程序。2001;98:10869–10874. [PMC免费文章][公共医学][谷歌学者]
15Sotiriou C等。基于人群研究中基因表达谱的乳腺癌分类和预后。美国国家科学院程序。2003;100:10393–10398. [PMC免费文章][公共医学][谷歌学者]
16Wood LD等。人类乳腺癌和结直肠癌的基因组景观。科学。2007;318:1108–1113.[公共医学][谷歌学者]
17Bergamaschi A等。DNA拷贝数改变的不同模式与乳腺癌的不同临床病理特征和基因表达亚型相关。基因染色体癌。2006;45:1033–1040.[公共医学][谷歌学者]
18Golub TR等。癌症的分子分类:通过基因表达监测进行分类发现和分类预测。科学。1999;286:531–537.[公共医学][谷歌学者]
19Alizadeh AA等。通过基因表达谱确定的不同类型的弥漫性大B细胞淋巴瘤。自然。2000;403:503–511.[公共医学][谷歌学者]
20van de Vijver MJ等。基因表达特征作为乳腺癌生存预测因子。N英格兰医学杂志。2002;347:1999–2009.[公共医学][谷歌学者]
21West M等人。利用基因表达谱预测人类乳腺癌的临床状态。美国国家科学院程序。2001;98:11462–11467. [PMC免费文章][公共医学][谷歌学者]
22Parsons DW等。人类多形性胶质母细胞瘤的综合基因组分析。科学。2008;321:1807–1812. [PMC免费文章][公共医学][谷歌学者]
23Leary RJ等。乳腺癌和结直肠癌纯合缺失、局灶性扩增和序列改变的综合分析。美国国家科学院程序。2008;105:16224–16229. [PMC免费文章][公共医学][谷歌学者]
24Jones S等。全球基因组分析揭示的人类胰腺癌的核心信号通路。科学。2008;321:1801–1806. [PMC免费文章][公共医学][谷歌学者]
25Sjöblom T等人。人类乳腺癌和结直肠癌的共识编码序列。科学。2006;314:268–274.[公共医学][谷歌学者]
26Chang JT等。阐明致癌途径信号网络模块的基因组策略。分子细胞。2009;34:104–114. [PMC免费文章][公共医学][谷歌学者]
27Sandler A等,单独或联合贝伐单抗治疗非小细胞肺癌。N英格兰医学杂志。2006;355:2542–2550.[公共医学][谷歌学者]
28Van Cutsem E等。头孢噻肟和化疗作为转移性结直肠癌的初始治疗。N英格兰医学杂志。2009;360:1408–1417.[公共医学][谷歌学者]
29Vermorken JB等人,Open-label,非受控,多中心II期研究,旨在评估西妥昔单抗作为单一药物治疗复发和/或转移性头颈部鳞癌患者的疗效和毒性,这些患者对基于铂的治疗无效。临床肿瘤学杂志。2007;25:2171–2177.[公共医学][谷歌学者]
30Shepherd FA等人。加拿大国家癌症研究所临床试验组。埃洛替尼治疗以前治疗过的非小细胞肺癌。N英格兰医学杂志。2005;353:123–132.[公共医学][谷歌学者]
31.Tsao MS等。埃罗替尼在肺癌分子和临床预后预测中的作用。N英格兰医学杂志。2005;353:133–144.[公共医学][谷歌学者]
32Turashvili G等。通过激光显微切割和微阵列分析鉴别小叶和导管浸润性乳腺癌的新标记物。BMC癌症。2007;7:55. [PMC免费文章][公共医学][谷歌学者]
33Carroll JS等。雌激素受体结合位点的全基因组分析。自然遗传学。2006;38:1289–1297.[公共医学][谷歌学者]
34Farmer P等人。通过微阵列分析鉴定大汗腺乳腺肿瘤分子。致癌物。2005;24:4660–4671.[公共医学][谷歌学者]
35Ivshina AV等。组织学分级的基因重新分类描绘了乳腺癌的新的临床亚型。癌症研究。2006;66:10292–10301.[公共医学][谷歌学者]
36Miller LD等。人类乳腺癌中p53状态的表达特征可预测突变状态、转录效应和患者生存率。美国国家科学院程序。2005;102:13550–13555. [PMC免费文章][公共医学][谷歌学者]
37Pawitan Y等。基因表达谱使早期乳腺癌患者免于辅助治疗:在两个基于人群的队列中进行推导和验证。乳腺癌研究。2005;7:R953–R964。 [PMC免费文章][公共医学][谷歌学者]
38Richardson AL等。基底样人类乳腺癌的X染色体异常。癌细胞。2006;9:121–132.[公共医学][谷歌学者]
39Wang Y等。预测淋巴结阴性原发性乳腺癌远处转移的基因表达谱。柳叶刀。2005;365:671–679.[公共医学][谷歌学者]
40Klein A等。人类和小鼠乳腺癌基因表达数据的比较:保守乳腺癌基因集的鉴定。国际癌症杂志。2007;121:683–688.[公共医学][谷歌学者]
41Loi S等。通过基因组分级确定雌激素受体阳性乳腺癌中临床上不同的分子亚型。临床肿瘤学杂志。2007;25:1239–1246.[公共医学][谷歌学者]
42Rouzier R等人。乳腺癌分子亚型对术前化疗的反应不同。临床癌症研究。2005;11:5678–5685.[公共医学][谷歌学者]
43高维稀疏因子建模:在基因表达基因组学中的应用。美国统计协会。2008;103:1438–1456. [PMC免费文章][公共医学][谷歌学者]
44Lucas JE,Carvalho C,West M.基因表达生物标志物交叉研究翻译的贝叶斯分析策略。统计应用基因分子生物学。2009;8:11. [PMC免费文章][公共医学][谷歌学者]
45Olshen AB,Venkatraman ES,Lucito R,Wigler M.用于分析基于阵列的DNA拷贝数数据的循环二进制分割。生物统计学。2004;5:5l57–5572。[公共医学][谷歌学者]

文章来自美国国家科学院院刊由以下人员提供美国国家科学院