跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
美国国家科学院院刊。2002年5月14日;99(10): 6567–6572.
数字对象标识:10.1073/pnas.082099299
预防性维修识别码:项目经理124443
PMID:12011421

通过基因表达的收缩质心诊断多种癌症类型

摘要

我们设计了一种通过基因表达谱预测癌症类别的方法,该方法基于简单最近原型(质心)分类器的增强。我们缩小原型,从而获得比竞争方法更准确的分类器。我们的“最近收缩质心”方法确定了最能表征每个类别的基因子集。该技术具有通用性,可以用于许多其他分类问题。为了证明其有效性,我们表明该方法在寻找用于分类小圆蓝细胞肿瘤和白血病的基因方面是高效的。

类别预测问题最近在DNA微阵列的背景下受到了极大的关注。这里的任务是根据样本的基因表达谱对其诊断类别进行分类和预测。一个特别重要的问题是基于微阵列数据的癌症类型诊断。传统的癌症诊断是基于光镜下染色组织标本的形态学检查。这种方法是主观的,并且依赖于训练有素的病理学家。微阵列有望使癌症分类更加客观和准确,从而为临床医生选择最合适的治疗形式提供信息。最近解决这个问题的建议使用了统计方法(1——)和人工神经网络(4).

微阵列分类问题具有挑战性,因为:

  • 有大量的输入(基因)用于预测类别,样本数量相对较少
  • 重要的是要确定哪些基因对分类贡献最大。

在本文中,我们提出了一种简单的方法,该方法性能良好,易于理解和解释。与以前的方法相比,我们的方法有明显的优势,尤其是当有两个以上的类时。

作为一个令人鼓舞的例子,我们分析了儿童期小圆蓝细胞肿瘤(SRBCT)的数据(4)。这些数据包括2308个基因的表达测量值,是从玻璃片cDNA微阵列中获得的,该微阵列是根据美国国家人类基因组研究所标准协议制备的。肿瘤分为伯基特淋巴瘤(BL)、尤因肉瘤(EWS)、神经母细胞瘤(NB)或横纹肌肉瘤(RMS)。共提供了63个培训样本和25个测试样本,尽管其中5个不是SRBCT。使用复杂神经网络方法,参考文献。4测试误差为0%,共鉴定出96个基因用于分类。

作为一个起点,我们通过最接近中心分类的传统方法分析了这些数据(参见,例如,参考文献。5)。图。图11(浅灰色条)显示四个类中每个类的训练集质心(每个基因的平均表达)。已减去总基因表达质心,因此应将这些值视为与总质心的差异。为了应用最近质心分类方法,我们获取每个测试样本(数组)的基因表达谱,并计算其与四类质心中每个质心的平方距离。预测类的质心最接近测试样本的表达式轮廓。该程序在20个测试样本上产生5个错误(在训练样本上产生2个错误),其主要缺点是它使用了所有2308个基因。对于实际应用来说,如果需要更少的基因,这将更有吸引力。

保存图片、插图等的外部文件。对象名称为pq0820992001.jpg

SRBCT数据集的质心(灰色)和收缩质心(红色)。从每个类别的质心中减去总质心。水平单位是表达式的对数比率。从左到右,每个类的训练样本数为8、23、12和20。基因的顺序是任意的。

为了实现这个目标,我们提出了对最近中心方法的一个简单修改,称为“最近收缩质心”。这种方法使用“去噪”版本的质心作为每个类的原型。通过使用下面描述的方法导出的收缩质心是图中的红条。图1。1分类到最近的收缩质心或原型。这种方法产生零测试和零训练错误。此外,图中只有43个基因具有一个或多个类别的非零红条。图11因此,这是分类所需的唯一方法。收缩量通过交叉验证确定。

最近的收缩质心也可以用于无监督问题。例如,在表达式数组上使用层次聚类方法来发现样本中的簇是标准过程(6)。这里描述的方法可以确定简洁地描述每个簇的基因的最小子集。

方法

x个ij公司是基因的表达= 1, 2, …第页和样品j= 1, 2, …n个我们有1、2、……班…K(K),并让C类k个是的索引n个k个课堂上的样本k个. The类的质心的第th个分量k个x个̄伊克= ∑jC类k个x个ij公司/n个k个,类中的平均表达式值k个对于基因; 这个总质心的第th个分量是x个̄= ∑方程式M1x个ij公司/n个.

换句话说,在通过每个基因的类内标准偏差进行标准化后,我们将类质心收缩为整体质心。这种标准化的效果是为在同一类别的样本中表达稳定的基因赋予更高的权重。这种标准化是线性判别分析等其他常见统计方法固有的。

方程式M2
1

哪里是基因的类内标准偏差的总和:

方程式M3
2

k个=方程式M4使k个等于分子的估计标准误差伊克在分母中0是一个正常数(所有基因的值都相同),包括在内以防止伊克由低表达水平基因偶然产生的值。我们设置了0等于超过一组基因。山姆参考文献方法。7.

因此伊克是一个t吨基因统计,比较类k个到整体质心。我们重写了公式。1作为

方程式M5

我们的方法缩小了每个伊克接近零,给予伊克并产生收缩质心或原型

方程式M6
4

我们使用的收缩称为软阈值:每个伊克减去绝对值中的量Δ,如果其绝对值小于零,则设置为零。代数上,软阈值定义为

方程式M7
5

其中+表示正部分(t吨+=t吨如果t吨>0,否则为零)。因为许多x个̄伊克数值会有噪音,接近总平均值x个̄,软阈值通常会对真实均值产生更可靠的估计(8,9).

该方法具有理想的特性,即随着收缩参数Δ的增加,许多组分(基因)从类别预测中消除。具体来说,如果是基因,伊克所有类都缩小为零k个然后是基因的质心x个̄,所有类都相同。因此基因不影响最接近中心的计算。我们通过交叉验证选择Δ,如下所示。

结果

选择收缩量。

图。图22显示了收缩参数Δ不同值的训练、交叉验证和测试误差。我们使用10倍交叉验证,将一组样本随机分为10个大小大致相等的部分。这10个部分大致平衡,确保在10个部分中的每个部分之间按比例分配类别。十倍交叉验证的工作原理如下:我们在90%的样本上拟合模型,然后预测剩余10%的类标签(测试样本)。该程序重复10次,每个部分扮演测试样本的角色,将所有10个部分的误差相加,以计算总误差(参见参考文献。5详细信息)。图。图22显示了无收缩的结果(左侧)完全收缩(赖特)。交叉验证和测试误差均在Δ=4.34附近最小化,这是我们用于生成图中红色条的值。图1。1上轴显示至少有一个非零成分的活性基因数量,伊克,对于每个Δ值。Δ=4.34时,有43个活性基因。

保存图片、插图等的外部文件。对象名称为pq0820992002.jpg

SBRCT分类:训练(tr,绿色)、交叉验证(cv,红色)和测试(te,蓝色)错误显示为阈值参数Δ的函数。选择值Δ=4.34,产生43个选定基因的子集。

SRBCT分类的基因。

图。图3显示缩小的差异伊克这43个基因至少有一个非零差异。将这些基因与参考文献中确定的96个基因进行比较。4,这两个列表有27个共同的基因。图。图44显示了我们43个基因的热图。地图的水平行代表基因,而列代表样本。每个像素代表一个实验中一个基因的表达:颜色表示从蓝色(大负值)到黄色(大正值)的强度(对数表达比率)。我们使用层次聚类对每个水平分区内的基因进行排序,并对每个垂直分区内的样本进行排序。

保存图片、插图等的外部文件。对象名称为pq0820992003.jpg

缩小差异伊克这43个基因至少有一个非零差异。每类中含有非零组分的基因几乎是互斥的。

保存图片、插图等的外部文件。对象名称为pq0820992004.jpg

(顶部)所选43个基因的热图。在每个水平分区内,我们通过层次聚类对基因进行排序,对于每个垂直分区内的样本也是如此。(底部)文献中报道的三个基因的热图用于表征SRBCT肿瘤。他们是c-myc(顶部),CD45(中部)和肌生成素(底部).

考虑2308×4=9232未悬挂t吨统计学伊克第43个绝对值最大的是4.34(模型中约有43个非零分量)。在9232的背景下使用Bonferroni调整t吨统计数据表明,该值在0.05水平上几乎不显著。这个例子说明了另一种方法,在这种方法中,我们的程序不同于更常见的通过个体重要性筛选基因的方法t吨统计数据。我们的方法使用软阈值而不是筛选,并关注错误分类误差,这是类预测问题的相关度量。

类概率和判别函数。

我们将测试样本分类到最近的收缩质心,再次通过+0。我们还更正了每个类中的相对样本数。

假设我们有一个带有表达式级别的测试样本(向量)x个* = (x个*1,x个*2, …x个*第页)。我们定义类的判别分数k个

方程式M8
6

等式中的第一项。6就是标准化的平方距离x个*到k个th缩小了质心。第二项是基于类先验概率π的修正k个,其中∑方程式M9πk个= 1. 这个先验概率给出了类的总体频率k个在人口中。分类规则是

方程式M10
7

如果最小距离很近,因此不明确,则优先进行较大类的校正,因为它们可能会导致更多错误。我们通常估计πk个根据之前的样本π̂k个=n个k个/n个.如果样本先验值不能代表总体,则采用更现实的先验值或相等的先验πk个= 1/K(K)可以使用。

通过类比高斯线性判别分析,我们可以使用判别分数来构建类概率的估计值:

方程式M11
8

图。图55显示训练数据的这些概率(上部)和测试数据(下部)。大多数样本在最高概率和次高概率之间有很好的分离,这表明该方法对样本进行了明确的分类。

保存图片、插图等的外部文件。对象名称为pq0820992005.jpg

训练数据的估计概率(上部)和测试数据(下部)。样本按真类划分(上部)和预测的类(下部)。所有63个训练样本和所有20个已知为SRBCT的测试样本都被正确分类。其中五个测试样本为非SRBCT,因此不应归类为SRBCT。这五个样本中每个样本的最大估计概率用圆圈标记;它们低于每个类中其他测试样本的最大概率。

白血病分类

之前在Golub分析了来自高密度Affymetrix寡核苷酸阵列的白血病数据等。(1)。共有7129个基因和34个样本:20个为急性淋巴细胞白血病(ALL),14个为急性髓系白血病(AML)。Golub方法的结果等。和最近的收缩质心如表所示表1。1.

表1

白血病分类方法的比较

方法10-折叠CV错误测试错误基因数量
格鲁布等。(1)3/384/3450
最近收缩质心1/38第2页,共34页21

格鲁布等。报告其程序的测试错误率为4/34(定义见附录)使用50个基因获得结果。我们发现,如果基因数量减少到47个以下,测试误差就会增加。最近收缩质心法的结果如图所示。图6。6最小交叉验证误差出现在Δ=1.4附近,但留下约1000个基因。在实践中,这种最小错误解决方案可能会引起人们的兴趣。在这里,为了获得一组更易于管理的基因,我们选择了Δ=4.06,在这个点上交叉验证误差开始迅速增加,只产生21个基因。我们的方法在训练数据的交叉验证误差和测试误差方面都优于他们的程序。

保存图片、插图等的外部文件。对象名称为pq0820992006.jpg

白血病分类:训练(tr,绿色)、交叉验证(cv,红色)和测试(te,蓝色)错误。Δ=4.06的值产生21个基因的子集。

讨论

最近收缩质心方法成功地发现了准确预测类别的基因。该方法发现了一组43个基因,能够将SBRCT分配到BL、EWS、NB和RMS四类中的一类,准确率为100%。这一结果优于Khan的神经网络方法等。(4)需要96个基因。在我们的43个基因中,27个也是通过神经网络方法发现的。因此,神经网络中的69个基因不需要进行分类。

我们还鉴定了参考文献中未鉴定的六个基因。4冷休克结构域蛋白A在NB中表达不足。法尼基二磷酸法尼基转移酶1、神经纤维蛋白1、早老素2、小鼠中胚层特异转录物同源物和组织纤溶酶原激活物在RMS中过度表达。有趣的是,冷休克域蛋白A在B细胞和骨骼肌中表达,但在脑中不表达,与我们的发现一致,与BL、EWS和RMS相比,它在NB中的表达减少了6倍。然而,在RMS中表达增加的5个基因中,神经纤维蛋白2和组织纤溶酶原激活剂通常不在肌肉或心脏组织中表达,而早老素在脑、肌肉和心脏中表达。因此,预测特定肿瘤的基因并不总是反映肿瘤来源组织的表达水平。

有趣的是将我们的43个基因列表与目前被认为是SBRCT诊断基因进行比较。通过免疫染色检测几种基因产物,以区分SBRCT:普通白细胞抗原(CD45)对BL具有特异性;MIC2(CD99)针对EWS(10)、嗜铬粒蛋白A和突触素对NB具有特异性(11); 结蛋白、肌肉特异性肌动蛋白、肌生成素和MyoD1用于RMS(12,13)。MIC2在我们的基因列表中(图。(图3),),但其他7个基因不是。此外,一些基因在SBRCT中发挥致癌作用。C-myc因染色体易位到BL中的一个免疫球蛋白位点而激活。N-myc在NB中通常扩增(14)。EWS/FLI-1或EWS/ERG融合蛋白之一在EWS染色体易位中过度表达(15)。PAX3/FKHR或PAX7/FKHR融合蛋白之一在RMS中表达(16)。我们在参考文献的cDNA微阵列中只能找到上述三个基因。4; 它们的数据显示在图中。图44以证明它们与由最近收缩的质心鉴定的基因相比的缺点。

我们的方法也优于Golub的方法等。寻找白血病分类的基因。我们发现了21个区分急性髓细胞白血病(AML)和急性淋巴细胞白血病(ALL)的基因,其错误率低于参考文献中确定的基因。1我们列出的43个基因包括髓过氧化物酶和几乎没有缺失的末端脱氧核苷酸转移酶,这些基因在参考文献中没有发现。1但众所周知,它们分别是AML和ALL的优秀标记物。

我们方法的一个目标是找到能够准确分类样本的最小基因集。我们的方法在寻找相对较少数量的预测基因方面的效率将有助于寻找新的诊断工具。在实验中,基因组的表达模式往往存在显著的相关性。因此,在找到最小的基因列表后,搜索与该列表中的基因高度相关的其他基因可能是有用的。基因相互作用是另一个重要问题。因为基因通常在生物途径中工作,所以同一途径中的基因之间可能存在强烈的相互作用。小心事后(post-hoc)需要进行分析才能发现这种相互作用。

我们的方法学的成功对提高癌症的诊断具有重要意义。该方法有效地发现并排列能够区分不同类型肿瘤的基因。最终,它可能被用于搜索预测化疗反应的基因。对于本文分析的SBRCT和白血病,预测基因是产生适合免疫染色的抗体的有吸引力的候选者。免疫组织化学在分析困难标本方面具有优势,因为它允许病理学家将染色定位于肿瘤细胞。此外,我们的结果表明,基于小规模微阵列或定量PCR的RNA诊断测试可能很快变得可行。

致谢

我们感谢两位裁判的宝贵意见。R.T.得到了美国国立卫生研究院(NIH)拨款2 R01 CA72028和美国国家科学基金会(NSF)拨款DMS-9971405的支持。T.H.得到了NSF拨款DMS-9803645和NIH拨款ROI-CA-72028-01的支持。G.C.获得了国家癌症研究所5R01 CA77302拨款和Burroughs-Wellcome临床科学家奖的支持。

缩写

SRBCT公司蓝色小圆形细胞肿瘤
BL公司伯基特淋巴瘤
预警系统尤因肉瘤
神经母细胞瘤
均方根值横纹肌肉瘤

附录

与其他方法的关系。

方程式中的判别分数。6与线性判别分析(LDA)中使用的方法类似,它是由使用马哈拉诺比斯计算到质心距离的公制:

方程式M12
9

这里我们使用向量表示法,并且W公司是类内协方差矩阵的集合。包含数千个基因和数十个样本(第页n个),W公司是巨大的,并且任何样本估计都是奇异的(因此其逆是未定义的)。我们的分数可以被视为LDA的一种严格限制形式,这是应对大量变量(基因)所必需的。不同之处在于:

  • 我们假设类内协方差矩阵的对角W公司,否则本LDA将处于不利状态,并将失败;
  • 我们使用收缩质心而不是简单质心作为每个类的原型;
  • 随着收缩参数Δ的增加,越来越多的基因将具有全部的他们的伊克= 0,k个= 1, … ,K(K),因为等式中的软阈值。5这些基因在方程式中没有提供歧视性信息。6实际上在等式中取消了。8.

参考文献。12给出了两类问题的线性评分程序,它们彼此非常相似,也与我们的程序非常相似,因此在两类情况下也与LDA非常相似。这两种方法的基本原理是:

  • 基于两个样本选择一组基因t吨统计,然后
  • 在选定的x个*使用这些t吨统计作为权重。

我们依次描述这些过程,使用我们自己的重新表述和术语,但在每种情况下都忠实于原稿。裁判。2使用标准t吨在α水平测试中选择两种乳腺癌类型中差异表达的基因。然后,他们构建了一个“复合协变量”类预测因子,将样本划分为两类中的一类。它们的复合协变是

方程式M13
10

哪里x个*是待分类样本的基因表达载体,t吨t吨用于比较训练数据中两个类的统计数据,以及S公司(α) 是基因的子集t吨α级统计。它们使用相同的化合物配方作为阈值(x个̄1+x个̄2)/2. 在这里

方程式M14
11

哪里是基因的类内标准偏差的总和如前所述,因此(忽略n个1n个2)

方程式M15
12

如果满足以下条件,则将样本分配给第1类H(H)(x个*)>0,否则为2级。

裁判。1使用了非常相似的程序。格鲁布等。使用“相关测量”的绝对值筛选基因

方程式M16
13

哪里12基因的1级和2级标准差是多少。这与t吨统计数据,使用一种对共同标准偏差的非正统估计。然后他们形成“加权投票”,这相当于使用线性函数

方程式M17
14

同样,如果G公司(x个*)>0时,样本分配给类别1,否则分配给类别2。参考文献使用的实际筛选程序。1相当复杂,取决于参数(每个类别保留的基因数量);通过交叉验证确定。

我们可以在等式中重新表达我们的判别分数。6对于两类案件。而不是选择最大值方程式M181(x个*)和方程式M192(x个*),我们可以在零处形成差值和阈值。经过一点操作,可以看出这些差异

方程式M20

总数超过了集合S公司(Δ)。很明显,如果这两个基因都缩小到总平均值,那么它们就会从总和中消失。

这三个程序形式相似,但细节不同:

  • LDA分数使用分母中的方差,而其他两个分数使用标准偏差。方差是一个更自然的量,因为它来自标准距离的平方。
  • 选择方法不同。参考文献。12两者都使用坚硬的的阈值t吨统计作为选择的基础(硬阈值法只选择那些t吨统计数据低于阈值)。我们的选择基于的软阈值t吨统计数据。众所周知,软阈值在其他设置中表现更好(参见,例如,参考。17).
  • 我们使用交叉验证来选择Δ和Golub等。(1)使用它选择他们的.我们无法确定Hedenfalk是否等。(2)使用交叉验证来选择α,尽管这样做是合理的。
  • 我们的程序可以根据类的先验概率调整分类。
  • 我们的程序提供了等式中概率的估计。8对于每个类。
  • 我们最近的原型程序适用于两个以上的类。

对于两个以上的类,最近收缩质心方法对类质心和整体质心之间的所有差异使用软阈值。在这个过程中,它选择不同的基因集来表征每个类别,如图所示。图3.

神经网络方法(4)可以被解释为抑制判别分析的一种形式。在那篇论文中,Khan等。实际使用线性的网络,使用前10个主成分(特征基因)。用统计学的说法,这被称为主成分回归,不需要迭代学习过程或学习曲线。主成分回归是岭回归的硬阈值版本。可汗等。(4)务必使用与“装袋”类似的模型平均程序(18)但基于三重交叉验证,进一步规范程序。尽管他们的程序在SRBCT数据上也产生了零训练和测试错误,但它比最近的收缩质心要复杂得多。由于有这么多的基因和这么少的样本,很可能限制版本的简单统计方法会做得和神经网络一样好或更好,就像这里的情况一样。

软件和计算细节。

收缩最近质心法所涉及的计算非常简单。我们开发了一个类似于流行的山姆包来实现最近的收缩质心分类。该程序结合了自动阈值选择方法和将该过程应用于无监督聚类过程结果的图形方法。有关详细信息,请访问http://www-stat.stanford.edu/~tibs/PAM.

工具书类

1Golub T、Slonim D、Tamayo P、Huard C、Gaasenbeek M、Mesirov J、Coller H、Loh M、Downing J、Caligiuri M等人。科学。1999;286:531–536.[公共医学][谷歌学者]
2Hedenfalk I、Duggan D、Chen Y、Radmacher M、Bittner M、Simon R、Meltzer P、Gusterson B、Esteller M、Raffeld M等。N英格兰医学杂志。2001;344:539–548。[公共医学][谷歌学者]
三。Hastie T、Tibshirani R、Botstein D、Brown P。基因组生物学。2001;2:1–12. [PMC免费文章][公共医学][谷歌学者]
4Khan J、Wei J、Ringner M、Saal L、Ladanii M、Westermann F、Berthold F、Schwab M、Antonescu C、Peterson C等。自然医学。2001;7:673–679. [PMC免费文章][公共医学][谷歌学者]
5Hastie T、Tibshirani R、Friedman J。统计学习的要素;数据挖掘、推理和预测。纽约:施普林格;2001[谷歌学者]
6Eisen M、Spellman P、Brown P、Botstein D。美国国家科学院程序。1998年;95:14863–14868. [PMC免费文章][公共医学][谷歌学者]
7Tusher V,Tibshirani R,Chu C。美国国家科学院程序。2001;98:5116–5121. [PMC免费文章][公共医学][谷歌学者]
8Donoho D,Johnstone I。生物特征。1994;81:425–455. [谷歌学者]
9Tibshirani R。J R Stat Soc B.公司。1996;58:267–288. [谷歌学者]
10Kovar H、Dworzak M、Strehl S。致癌物。1990;5:1067–1070.[公共医学][谷歌学者]
11Pagani A、Macri L、Rosolen A、Toffolatti L、Stella A、Bussolati G。诊断Mol Pathol。1998年;7:36–43.[公共医学][谷歌学者]
12Altmannsberger M、Weber K、Droste R、Osborn M。《美国病理学杂志》。1985;118:85–95. [PMC免费文章][公共医学][谷歌学者]
13Wang N、Marx J、McNutt M、Rutledge J、Gown A。《美国病理学杂志》。1995;147:1799–1810. [PMC免费文章][公共医学][谷歌学者]
14Boon K、Caron H、van Asperen R、Valentijn L、Hermus M、van Slui P、Roobeek I、Weis I、Voute P、Schwab M等。EMBO J。2001;20:1383–1393. [PMC免费文章][公共医学][谷歌学者]
15Folpe A、Hill C、Parham D、O'Shea P、Weiss S。美国外科病理学杂志。2000;24:1657–1662.[公共医学][谷歌学者]
16Anderson J、Gordon T、McManus A、Mapp T、Gould S。英国癌症杂志。2001;85:831–835. [PMC免费文章][公共医学][谷歌学者]
17Donoho D,Johnstone I。生物特征。1994;81:425–455. [谷歌学者]
18布雷曼L。马赫学习。1996;26:123–140. [谷歌学者]

文章来自美国国家科学院院刊由以下人员提供美国国家科学院