摘要

总结:在癌症研究中,无监督类发现是一种非常有用的技术,在癌症研究过程中,可能存在共享生物特征的内在群体,但这些群体是未知的。一致性聚类(CC)方法为估计数据集中无监督类的数量提供了定量和视觉稳定性证据。ConsensusClusterPlus在R中实现了CC方法,并将其扩展为新的功能和可视化,包括项目跟踪、项目一致性和集群一致性图。这些新功能为用户提供了详细信息,可以在无监督的类发现中进行更具体的决策。

可利用性:ConsensusClusterPlus是一种开源软件,在GPL-2下用R编写,可通过Bioconductor项目使用(http://www.bioconductor.org/).

联系人: mwilkers@med.unc.edu

补充信息: 补充数据可在生物信息学在线。

1简介

无监督类发现是一种数据挖掘技术,用于基于内在特征而非外部信息检测未知的可能项目组。对于这项技术,研究人员试图回答两个问题:一个数据集中有多少组,组数和组成员身份的可信度是多少。共识聚类(CC)(蒙蒂等。,2003)是一种评估这些问题的方法,在癌症研究中很受欢迎[例如肺腺癌(Hayes等。,2006)]. CC提供了从重复次采样和聚类中获得的定量和可视化“稳定性”证据。CC报告了这些重复的一致性,相对于采样可变性而言,这是稳健的。CC方法可在GenePattern软件(Reich等。,2006). ConsensusClusterPlus在R语言中实现CC方法(http://www.r-project.org)并添加了新的功能和可视化。

2软件功能

ConsensusClusterPlus的输入是数据矩阵和用户特定选项。数据矩阵表示一组样本(项目)的特征集合;例如,这可能是微阵列项目和基因表达特征。输出是给定数量组的稳定性证据(k个)和集群分配。输出由R数据对象、文本文件、图形图和日志文件组成。

2.1算法

ConsensusClusterPlus扩展了CC算法,并在这里进行了简要描述。该算法首先对数据矩阵中的一部分项和一部分特征进行子采样。然后将每个子采样划分为k个通过用户特定的聚类算法进行分组:聚合层次聚类、k-means或自定义算法。此过程重复指定次数。成对共识值,定义为“两个项目[分组]在一起的聚类运行的比例”(Monti等。,2003)计算并存储在每个一致性矩阵(CM)中k个然后针对每个k个,最后一个聚合层次共识聚类使用距离1−共识值已完成并修剪为k个组,称为共识集群.

ConsensusClusterPlus算法的新功能是2D特征和项目子采样,可以根据特定分布(如基因变异性)和自定义聚类算法的选项执行。2D子抽样可评估集群对项目和特征抽样变异性的敏感性。因为可以使用自定义聚类算法来生成共识,所以用户可以使用R中提供的许多现有聚类算法,也可以编写自己的聚类算法。

2.2输出和可视化

ConsensusClusterPlus生成扩展CC可视化的图形化绘图。对于每个k个,CM图描述共识白色到蓝色刻度上的值由共识聚类,显示为树状图,并具有项目共识集群用树状图和一致值之间的彩色矩形标记(图1A) ●●●●。ConsensusClusterPlus的这一新功能可以快速准确地显示CC中未标记的簇边界。CM图的目的是找到“最干净”的簇分区,其中项目几乎总是聚集在一起,形成高度共识(深蓝色)或者不要聚集在一起,给出低一致性(白色)。经验累积分布函数(CDF)图显示了每个变量的一致分布k个(图1C) ●●●●。CDF图的目的是找到k个分布达到近似最大值时,表示稳定性达到最大值,之后的划分相当于随机选取,而不是真正的簇结构。

肺癌基因表达芯片的应用实例。(A) 共识矩阵、(B)项目跟踪图、(C)CDF图、(D)项目一致性图和(E)聚类一致性图。
图1。

肺癌基因表达微阵列的应用实例。(A类)共识矩阵(B类)项目跟踪图(C类)CDF图(D类)项目内容图和(E类)聚类-一致性图。

项目跟踪图(图1B) 显示了共识集群项(列中)在每个k个(成排)。这允许用户跨不同的k个,以识别暗示弱类成员身份的混杂项,并可视化集群大小在k个(补充图1例如混杂样品)。该图类似于彩色地图(霍夫曼等。,2007). 项目一致性(IC)为平均值共识项和成员之间的值共识集群,以便在k个对应于k个集群。IC图将项目显示为彩色矩形的垂直条,其高度与IC值相对应(图1D) 。C类onsensus集群条顶部用彩色星号标记了个项目。IC图使用户能够查看哪些样本高度代表一个簇,哪些样本具有混合簇关联,并可能选择簇代表性样本。Cluster-consensus(CLC)是共识集群CLC图将这些值显示为条形图,在每个条形图处分组k个(图1E) ●●●●。CLC图使用户能够评估添加新集群对现有集群的CLC值的影响。协调CM、项目跟踪、IC和CLC图之间的颜色方案,以便进行交叉图分析。颜色方案由以下规则定义:k个被赋予与集群相同的颜色k个−1,如果他们的大多数成员是共享的。否则,将指定新颜色。

3应用示例

为了证明这一点,我们获得了已发表的肺癌基因表达微阵列(Garber等。,2001). 我们选择了腺癌、鳞癌或正常组织学的微阵列,并试图重新发现这些已知类别。我们执行了ConsensusClusterPlus,结果产生了四个集群。这些发现的簇对应于预先选择的类(补充表1和图2). 两组完全包含并分离鳞状细胞癌和正常组织学。腺癌分布于四个组别,是两个组别中唯一的组织学表现。腺癌的表达多样性与早期报道一致(加伯等。,2001; 海耶斯等。,2006). 作为完整性检查,我们使用相同的输入执行了GenePattern CC,并发现了相同的集群分配。

项目跟踪图显示,集群分配是稳定的,新集群位于k个>4个较小。IC图显示,一些带有混合IC的项目(带有明显淡蓝色和深蓝色部分的条)k个=2成为新集群k个=3(浅绿色)(图1D) 。CLC图位于k个=4表明集群中的CLC相当高(图1E) ●●●●。项目跟踪、IC和CLC数据有助于确定聚类数,并可用于选择代表性样本进行进一步分析。

4个结论

ConsensusClusterPlus是一种开源、兼容Bioconductor的软件,用于无监督的类发现。ConsensusClusterPlus通过新的易于使用的功能和可视化扩展了CC,从而支持详细分析。

基金:美国国家癌症研究所(NCI)F32CA142039转M.D.W.,托马斯·拉布雷克基金会转Joan’s Legacy Foundation转D.N.H.,美国国立卫生研究院(NIH)U24CA126554。内容完全由作者负责,不一定代表NCI或NIH的官方观点。

利益冲突:未声明。

参考文献

加伯
肺腺癌基因表达的多样性
程序。美国国家科学院。科学。美国
2001
,卷。 
98
(第
13784
-
13789
)
海耶斯
DN(公称直径)
基因表达谱分析揭示了多个独立患者队列中可复制的人肺腺癌亚型
临床杂志。昂科尔。
2006
,卷。 
24
(第
5079
-
5090
)
霍夫曼
M(M)
甲板
R(右)
伦茨
高-J
聚类结果的优化对齐和可视化
数据分析进展。
2007
柏林-海德堡
施普林格
(第
75
-
82
)
蒙蒂
S公司
共识聚类:一种基于重采样的基因表达微阵列数据类别发现和可视化方法
机器。学习。
2003
,卷。 
52
(第
91
-
118
)
帝国
M(M)
基因模式2.0
自然遗传学。
2006
,卷。 
38
(第
500
-
501
)

作者注释

副主编:Trey Ideker

这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/2.5)它允许在任何媒体上无限制地进行非商业性使用、分发和复制,前提是正确引用了原始作品。

补充数据