A modified hyperplane clustering algorithm allows for efficient and accurate clustering of extremely large datasets

Ashok Sharma; Robert Podolsky; Jieping Zhao; Richard A. McIndoe

doi:10.1093/bioinformatics/btp123

生物信息学。2009年5月1日；25(9): 1152–1157.

2009年3月4日在线发布。数字对象标识：10.1093/生物信息学/btp123

预防性维修识别码：PMC2672630型

PMID：19261720

一种改进的超平面聚类算法允许对超大数据集进行高效准确的聚类

阿什克·沙玛,¹ 罗伯特·波多尔斯基,^1,² 赵洁平,¹和理查德·麦克因多^1,^三，^*

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

补充资料: 【补充资料】

btp123索引.html（1.4K）
GUID:131C67EB-9B52-4792-A7E2-A5C8DB7F7034

btp123_bioinf-2008-1607-文件007.doc（4.4万）
GUID:CDA8E6D8-895C-46E9-8A20-1BE8BB86F002

btp123_bioinf-2008-1607-文件008.png（255K）
GUID:003161B5-5D49-48A2-8C5B-53135D834A2F

btp123_bioinf-2008-1607-文件009.png（32K）
GUID:3BCC17FC-81C3-4D89-8E5F-A45203CD5999

btp123_bioinf-2008-1607-文件010.png（72K）
GUID:031FBC25-FAE5-4DE7-BC9A-8C15F25D96FC

btp123_bioinf-2008-1607-文件011.png（119K）
GUID:9AD9EF56-77A5-4BDD-8C25-2E3C38305A84

btp123_bioinf-2008-1607-文件012.png（136K）
GUID:84DBFB5E-CB69-4285-9250-213E4DAE9DD3

btp123_bioinf-2008-1607-文件013.png（122K）
GUID:733F7365-1EB3-4E91-B2B9-D7F860094E22

btp123_bioinf-2008-1607-文件014.png（7万）
GUID:316ACAEE-96F6-49BA-8234-DB46DA20FBB9

摘要

动机：随着公开微阵列实验数量的增加，跨多个实验分析超大数据集的能力变得至关重要。需要开发快速的算法，能够在不影响聚类质量的情况下对超大数据集进行聚类。聚类是一种应用于微阵列数据的无监督探索技术，用于发现相似的数据结构或表达模式。由于所涉及的高输入/输出成本和计算的大距离矩阵，大多数算法聚类算法在大型数据集（30000+个基因/200+个阵列）上失败。在本文中，我们提出了一种新的两阶段算法，该算法使用超平面划分与微阵列数据相关的高维空间。第一阶段是基于使用层次算法的平衡迭代约简和聚类，第二阶段是传统的k个-意思是聚类技术。该算法已在一个用于聚类基因表达数据的软件工具（HPCluster）中实现。我们将两阶段超平面算法的聚类结果与传统的聚类结果进行了比较k个-表示来自其他可用程序的算法。因为第一阶段在单个扫描中遍历数据，所以性能和速度大大提高。在算法的第一阶段完成的数据缩减减少了内存需求，使我们能够无故障地对44460个基因进行聚类，与流行的算法相比，大大缩短了完成时间k个-指程序。该软件是用C#（.NET 1.1）编写的。

可利用性：该程序是免费的，可以从http://www.amdcc.org/bioinformatics/bioinformatics.aspx.

联系人： ude.gcm.liam@eodnicmr

补充信息： 补充数据可在生物信息学在线。

1简介

聚类基因表达数据可以使用有监督或无监督的算法来完成，这些算法将具有相似表达模式的基因分组。对于无监督方法，使用距离度量计算基因表达载体之间的相似性。用于此目的的常用距离度量是欧几里得、曼哈顿和皮尔逊。聚类的目标是最小化簇内距离和最大化簇间距离。文献中有许多可用的数据聚类算法，用于聚类基因表达数据的三种最流行的聚类算法是：层次聚类；k个-手段；和自组织映射（SOM）。这些方法之所以受欢迎，是因为它们概念简单，在标准软件包中可用，而不是算法质量（Handl等。,2005).

层次聚类在科学界广泛使用，因为它易于阅读和解释，因为使用树状图可以更好地可视化聚类（假设数据集大小较小）。在这种方法中，在构建树状图之前，计算所有基因的成对距离矩阵。最初，所有基因都被视为单个簇，然后根据距离在每个后续步骤中依次合并两个最近的簇。最后一步只剩下一个簇，其中包含所有基因。树状图表示数据集中基于彼此距离的簇层次。合并两个簇时，必须计算合并簇的新距离。可以使用三种不同的方法来计算新的簇距离；单连杆、平均连杆和完全连杆。单个连杆取两个距离值中较小的一个，完整连杆取二个距离值的较大值，平均连杆取两个中的平均值。

这个k个-means和SOM是基于分区的算法，因此聚类不表示为层次结构，而是根据基因在表达上的相似性将其分组为分区。据报道，这两种方法的性能优于其他方法，例如层次聚类（Chen等。,2002; 达塔和达塔，2003; 塔拉穆图等。,2006). 随着技术的进步，单个微阵列芯片上的基因数量增加，数据集的大小成为聚类分析中的一个问题。大多数可用的算法都适用于小数据集，但在分析大数据集（例如数以百计的阵列中有成千上万的基因）时，要么失败，要么难以完成。由于大多数传统聚类算法需要多次迭代扫描数据和中间计算，因此需要大量内存和CPU时间来对大型数据集执行聚类分析。例如，使用台式计算机，使用可用的算法聚类>30000个基因×100个阵列非常耗时且困难。随着数据集大小的增加，内存需求和计算时间急剧增加，复杂性与数据集大小平方成正比。为了解决这个问题，我们开发了一种两阶段算法，用于对大型数据集进行聚类。该算法的第一阶段使用平衡迭代约简和使用层次结构的聚类（BIRCH）算法来降低数据复杂性（Zhang等。,1996). 该数据减少步骤在数据的单次扫描中完成，并减少了存储器需求。第二阶段使用第一阶段产生的分区并执行常规k个-表示简化数据集上的算法。该算法已在用于分析微阵列数据的软件应用程序中实现。

为了测试该算法，我们使用了模拟数据集和实际数据集。模拟数据集定义了具有已知结果的聚类，并用于评估算法的准确性。我们的结果表明，改进的超平面算法比现有算法速度快得多，使用的内存需求大大减少，并且与现有算法相比，在评估时提供了相当的准确性和质量。

2方法

2.1算法

改进的超平面聚类算法（HPCluster）分两个阶段工作：（i）使用聚类特征（CF）对数据集进行约简，（ii）使用传统的k个-指在第1阶段获得的CF上的聚类。算法的第一阶段是从张提出的BIRCH算法中推导出来的等。(1996). BIRCH将数据集汇总为一组CF（子聚类），以减少聚类问题的规模。彼此非常接近的密集数据点被视为单个CF而不是单独处理。

2.1.1 CF公司

CF是一组密切相关的数据点，基于三个变量定义(N个、LS、SS），总结与CF中数据点相关的信息。

(1)

N个=CF中的数据点数量。LS=线性和N个矢量数据点。

(2)

在哪里？X（X）_我是d日-维数据点向量。

SS=N个数据点。

(3)

可使用这些变量计算CF的质心、半径和直径，定义如下：

(4)

(5)

(6)

算法的第一阶段如下。

计算最大允许直径(D类_最大值)对于CF。D类_最大值是一个重要的参数，它是基于数据集中10%的基因的随机抽样计算的。下一节将解释此步骤的详细信息。
数据集中的第一个基因成为第一个CFN个= 1.
下一个基因被添加到第一个CF中。
添加该基因后，计算CF的直径。如果直径大于D类_最大值，将该基因取出，并用该基因制备新的CF。
然后将下一个基因与每个CF进行比较，并添加到最近的CF中。
重复步骤4和5，直到基因列表结束。

在第一阶段结束时，将整个数据集划分为CF，并为这些密集的数据点集合提供汇总信息。这些CF的质心、半径和直径可以使用以下等式计算(4–6). 算法的第二阶段使用传统的k个-表示聚类算法。第一阶段获得的CF现在被视为单个数据点，我们使用两个CF之间的欧几里得距离作为这些CF之间距离的度量。两个CF之间的欧氏距离是它们的质心之间的距离

(7)

算法的第二阶段如下。

初始化簇质心；下一节将解释所使用的不同初始化方案。
CF被指定给最近的质心。
重新计算簇质心。
重复步骤2和3，直到质心没有变化。

2.2 CF最大直径的估算

数据缩减程度取决于CF的最大允许尺寸，这是最大直径的函数(D类_最大值). A大型D类_最大值将导致CF数量减少，因此数据缩减程度更大，而D类_最大值将导致大量CF和较小程度的数据缩减。通过设置D类_最大值，我们可以控制CF的最大大小（在空间中）。如果我们高估D类_最大值，我们将获得很少的最终CF。如果直径太小，那么我们将得到大量最终CF。例如，D类_最大值可以设置得太大，导致单个CF包含数据集中的所有基因，或者设置得太小，导致CF的数量等于基因的数量。这意味着我们可以得到1−N个数据分区的数量取决于直径。估算初始值D类_最大值在算法的第一阶段使用是一个重要步骤。

为了估计D类_最大值对于CF，我们使用Dash建议的90-10规则等。(2003)评估集群节点之间数据的相似性。这一经验推导的规则是基于这样的观察结果：与最大最近对距离（最后10%的聚集）相比，非均匀数据分层簇中约90%的聚集最初具有非常小的距离。为了计算适当的D类_最大值，我们对随机10%的基因进行分层聚类，并创建从第一次合并到最后一次合并的距离值的距离图（迭代次数与最近对距离）。距离图的拐点表示从最小距离对到最大距离对（聚集的最后10%）急剧增加。在这个拐点以下，最近的对距离很小(图1). 这个拐点是最大直径的适当初始值，因为第一阶段的目标是合并彼此非常接近的数据点，并将它们共同考虑。

在单独的窗口中打开

图1。

示例距离图使用随机10%的实验微阵列数据集计算D类_最大值.

2.3初始质心计算方案

因为算法的第二阶段使用经典k个-means算法中，改进的超平面聚类算法的结果对第二阶段使用的初始质心值敏感。我们使用两种方法初始化质心。

数据密集区域（DEN）：数据点数量最多的CF是数据集的密集区域。完成第一阶段后，我们根据以下值对CF进行排序N个在每个CF中使用顶部k个作为初始质心的簇数。
随机初始分配（RIA）：初始质心的计算基于每个基因随机分配到一个簇，然后计算随机簇的平均值。例如，如果算法使用k个=3个簇，该方法将每个基因随机分配到三个簇中的一个。然后，它将计算每个簇的平均值，并将该向量用作每个簇的初始质心。

2.4实施

改进的超平面聚类算法在一个名为HPCluster的程序中实现。该程序是一个高性能的windows应用程序，在图形用户界面（GUI）应用程序中实现了两阶段算法。由于内存使用减少，该程序适用于大型数据集。所有软件都是使用编写的。NET Framework v1.1和C#作为编程语言。该程序的安装很容易，并且使用内置的Windows Installer（MSI文件）。HPCluster程序的屏幕截图可以在补充数字.

2.5创建模拟数据集

我们使用特定于集群的阵列模式模拟集群。在这样做的过程中，我们创建了五个时间点，每个时间点的重复次数相等。从均匀（−4，4）分布中随机选择初始时间点的平均值。随后时间点的平均值通过从均匀（0，1）分布中随机选择的值（β）进行调整。我们通过采样一个新的β并改变其符号，将“周期”引入到模式中。一个时间点内重复的平均值与该时间点的平均值的偏差是从平均值为0、方差为0.1的高斯分布中随机选择的一个值。集群中的基因数量是随机选择的。聚类中每个基因的平均向量是通过从高斯分布中取样来设置的，平均值等于聚类平均值，方差等于0.1。从卡方分布（χ²₆)添加到“平均值”的结果矩阵中。我们对基因数量使用了一系列条件(P（P）=10 000），存在的集群数量（4、10、20）和阵列数量(n个=100），以生成总共六个数据集。模拟的20个集群数据集的热图在补充资料(补充图S1).

2.5.1实验微阵列数据

我们还分析了一个真实的实验衍生微阵列数据集。数据集从NCBI基因表达总览（GEO）下载(GSE9006标准：糖尿病儿童PBMC的基因表达（凯泽等。,2007). 阵列平台是Affymetrix GeneChip Human Genome HG-U133A和HG-U1313B芯片。来自两个芯片的组合数据用于分析44760个基因数据集。仅来自一个芯片（HG-U133A）的数据用于22 283个基因数据集，从HG-U 133A数据集中随机选取的10000个基因用于10000个基因数据集中。

2.6测试算法的性能

该算法的性能与其他流行的自由聚类算法进行了比较，包括基于GUI的软件包。R是一个受欢迎的开源统计软件包，被生物医学界广泛使用，并包含许多聚类算法。在我们的测试中，我们使用了“k个-表示“和”som“函数来执行k个-我们还将我们的算法与两个版本的集群（版本2.0和3.0）（Eisen等。,1998). 由于易于分析和GUI，许多生物医学研究人员都使用这种基于Windows的软件。所有算法都是在Dell Poweredge 2650机器上运行的，该机器具有双3.06 GHz/512K高速缓存Xeon处理器和8.0 GB DDR 266 MHz RAM。

在不同条件下对基因表达模式进行有意义的比较时，常用的技术是通过将数据居中来重新缩放数据。这使得人们可以在数据集中寻找具有相对相似表达模式的基因簇，而不必考虑表达量的差异。我们分别对每个基因的数据进行标准化，以集中数据，

(8)

哪里克_ij公司是的表达式值我-th基因穿过j个-第个数组，保存图片、插图等的外部文件。对象名为btp123i1.jpg 是我-th基因和SD_我是的标准偏差我-th基因。

对中心数据和非中心数据的模拟和实际微阵列数据集进行12次聚类。测试过程中比较了三个参数：时间、准确性和稳定性。准确性反映了聚类结果与模拟数据集中真实底层分区之间的相似性。稳定性反映了使用相同程序的不同运行之间的相似性。

用于比较聚类结果的相似性度量是调整后的兰德指数（ARI），它度量两个聚类结果之间的一致性分数，可以介于0和1之间，其中1表示完全一致（Hubert和Arabie，1985; 兰德，1971).

3结果

3.1显著缩短竣工时间

为了评估新算法的速度，我们对中心和非中心数据的模拟和实际微阵列数据集进行聚类，并记录完成时间。每个数据集有100个数组，不同数量的基因（10 000、22 283和44 760），不同数量簇（4、10和20），每个运行12次。记录每次运行的时间和集群分配。表1给出了以模拟和实际微阵列为中心的数据集的分析结果。所有数据都是以分钟为单位完成聚类分析的平均时间。我们使用两种不同的质心初始化方案（HPC-DEN、HPC-RIA）运行我们的算法。为了进行比较，我们还在三个软件包中使用四种聚类算法进行了相同的分析。对于HPCluster（HPC）程序，时间包括计算D类_最大值。所有数据都是完成算法的时间，不包括加载数据集的时间。如图所示表1，改进的超平面聚类算法明显快于R函数(k个-means）和两种版本的Eisen集群程序。随着所分析数据集的规模和复杂性的增加，速度的提高最为显著。例如，完成最小数据集（10000个基因实际微阵列数据）的时间k个=4个集群显示了两个版本的集群（比v2快5倍，比v3快12倍），但R功能之间没有差异。将相同的数据与k个=20个集群（更复杂）导致HPC显著快于Rk个-指（4X）和集群版本（18X v2、29X v3）。分析的最大和最复杂的数据集（44760个基因，k个=20）明确证明HPC比除R-SOM算法以外的所有算法都快得多（7X R-KM，35X Cluster v2，48X Clusterv3）。有趣的是，对非中心数据的完成时间分析显示，速度也有同样显著的提高（参见补充表S1)除此之外，改进的超平面聚类算法的执行速度明显快于所有测试的算法，包括R-SOM（26X R-KM、2X R-SOM、42X Cluster v2、112X Clusterv3）。

表1。

使用集中数据比较各种聚类算法的完成分析时间

	模拟数据集			实验数据集
基因	10 000			10 000			22 283			44 760
集群	4	10	20	4	10	20	4	10	20	4	10	20
HPC-DEN公司	0.39±0.04	0.42±0.03	0.46±0.03	0.32±0.01	0.36±0.02	0.67±0.08	0.49±0.07	0.84±0.07	1.48±0.14	1.01±0.17	2.16±0.25	3.37±0.74
HPC-RIA公司	0.40±0.05	0.62±0.06	0.92±0.09	0.33±0.02	0.41±0.02	0.71±0.09	0.58±0.10	0.92±0.13	1.58±0.15	1.27±0.14	2.41±0.30	4.22±0.44
R公里	0.23±0.02	0.56±0.07	1.61±0.09	0.24±0.02	0.86±0.08	2.94±0.10	0.59±0.04	2.00±0.09	9.02±0.49	1.07±0.07	4.72±0.19	22.68±1.39
R-SOM公司	0.22±0.01	0.48±0.04	0.80±0.01	0.21±0.01	0.43±0.01	0.83±0.01	0.44±0.01	0.93±0.03	1.68±0.03	1.01±0.02	1.94±0.04	3.48±0.02
群集v2	0.35±0.02	0.62±0.12	1.95±0.45	1.48±0.08	5.09±0.49	11.80±1.20	4.72±0.61	25.94±1.32	45.25±8.81	9.02±2.09	47.75±9.67	118.33±6.51
群集v3	1.12±0.08	3.06±0.18	8.94±0.50	3.70±0.42	9.68±0.54	19.28±1.61	8.73±0.28	26.90±1.88	57.50±4.95	11.70±0.56	51.50±2.89	162.33±10.60

在单独的窗口中打开

HPC-DEN，数据密度；HPC-RIA，随机初始分配；R-KM、R-k个-均值；R-SOM、R自组织映射；群集v2、群集v3、，k个-表示算法。

程序的所有值都是以分钟为单位的平均完成时间和标准偏差。

N个=每个12。粗体项目表示每列中的时间明显较短。

3.1.1 HPC的可扩展性

随着数据集的大小和复杂性的增加，算法的可扩展性变得更加重要。理想的算法是随着数据集的大小和复杂性的增加而扩展良好的算法。我们使用完成时间方差的阶乘分析来比较HPC算法与其他聚类算法，使用聚类数、基因数和算法作为三个因素。然后，我们分别针对每个数量的聚类，使用对比度来比较完成时间与基因数量的线性斜率的算法。斜率的差异表明可伸缩性的差异。由于所有算法的斜率都是成对比较的，所以我们使用Tukey的HSD调整了测试。该分析的结果表明，随着数据集的大小和复杂性的增加，HPC算法的性能显著提高。例如，当使用k个=20个集群，HPC的表现明显优于所有测试的程序（经调整P（P）< 0.01). 然而，当k个=10，HPC的表现明显好于除R-SOM项目以外的所有项目（所有其他项目P（P）<0.0001，R-SOMP（P）= 0.16).

3.2集群质量评价

为了评估由改进的超平面聚类算法生成的聚类分配的质量，我们需要使用一个统计数据来衡量聚类结果之间的一致性。用于评估基因聚类方法的一个常见统计数据是Rand指数（Rand，1971). 此统计信息表示两个集群分区之间的一致性分数。协议可以是两个分区中同一组中的一对对象，也可以是两分区中不同组中的两对对象。兰德指数可以介于0和1之间，1表示完全一致。ARI（Hubert和Arabie，1985; 兰德，1971)调整分数，使得在随机分区的情况下的期望值为0。ARI是一种常用的统计数据，用于评估基因表达聚类算法（Kraj等。,2008; 塔拉穆图等。,2006; 杨等。,2003).

我们使用ARI来评估基因聚类方法生成的聚类分区的准确性和稳定性。使用输出集群分区和真实分区之间计算的ARI，在模拟数据集上评估准确性。由于真实的星团未知，因此很难用实验得出的数据来测量精确度。然而，对于模拟数据集，真正的集群是已知的。图2显示了每个程序运行12次后，10000个基因的平均ARI结果，以及中心数据和非中心数据的20个真实聚类。HPC程序使用两种不同的初始化方案运行，以确定它们对集群准确性的影响。

在单独的窗口中打开

图2。

使用模拟数据集的聚类算法的准确性。每个算法的聚类分配都使用中心数据和非中心数据记录了12次。计算每个算法的平均ARI。

有趣的是，所有测试的程序在聚类之前都对数据是否集中敏感。总的来说，程序倾向于更好地聚类集中的数据。例外的是HPC-RIA和Eisen的Cluster v2，它们都使用相同的质心初始化方案（RIA）。关于非中心化数据，HPC-RIA比其他测试程序更准确（ARI=0.75±0.01）(P（P）<0.01). 然而，与其他算法相比，R-SOM算法的准确度最低（ARI=0.54）（平均低14%）。有趣的是，在HPC程序中使用基于密度的初始化方案，其精度与R-KM函数和集群v2，但比RIA初始化方案差得多。

如前所述，与非中心数据相比，使用中心数据从所有程序中产生不同的结果(图2). 使用DEN初始化方案的HPC算法明显优于所有程序，平均ARI=0.89±0.01。事实上，HPC-DEN分析的平均准确度比所有程序高19.3%。与之前使用非中心数据的分析不同，HPC-RIA的准确度最低（ARI=0.48±0.02），其次是Eisen聚类v2（ARI=0.55±0.03）。

由于实验数据的准确性很难确定，我们对涉及实验数据的分析中的簇稳定性进行了检查。这些分析提供了有关多次运行软件时获得类似结果的程度的信息。图3使用k个=10个簇。与精度数据类似，数据居中对HPC算法的稳定性有影响，即HPC-DEN对于居中数据更稳定，而HPC-RIA对于非居中数据则更稳定。R-SOM（ARI=1.0）和Cluster v3（ARI=0.98-1.0）算法最稳定，其次是R-KM（ARI=0.87-0.95）、HPC（ARI:0.64-0.83）和Cluser v2（ARI=0.65-0.9）。

在单独的窗口中打开

图3。

使用实验数据（22283个基因）和搜索10个聚类的聚类算法的稳定性。每个算法的集群分配都被记录了12次。对每种算法的12个结果进行两两比较，计算平均ARI。每个算法的中间值显示为一个水平条。C=居中数据，U=未居中数据。

考虑到模拟数据和实验数据的一致性水平，以及模拟数据的准确性，当数据集中时，DEN初始化有望产生比其他方法更准确的解决方案。另一方面，RIA初始化方案生成的集群分区在数据不集中时更准确。

3.3簇号错误的影响

集群的分区方法要求用户提供集群的数量(k个)在执行算法之前。确定要使用的适当簇数可能很困难，并且会影响最终聚类分析的准确性和有用性。为了确定使用不正确簇数的影响，我们在不同簇数下运行了改进的超平面聚类算法。因为我们想评估准确性，我们使用了具有1000个基因和100个阵列的中心和非中心模拟四集群数据集，并确定了结果分区的ARI，程序设置为在2、4、10和20个集群上运行。为了进行比较，我们使用R函数进行了相同的聚类分析(k个-方法和SOM）以及Eisen的Cluster v2和Cluster v3。图4显示了每个程序的精度图，其中数据居中。正如预期的那样，在正确的四聚类分析中，每个项目的ARI值都达到峰值，其中R-SOM（ARI=0.83）和聚类v2（ARI=0.84）的值最低。一次k个聚类数增加到4个以上（正确的聚类数），R算法的计算ARI(k个-平均值和SOM）和集群v3下降非常快（最低ARI=0.21）。然而，HPC算法在整个范围内保持高精度k个评估了集群。例如，四个集群的HPC-DEN ARI为1.0，而20个集群的ARI为0.97。

在单独的窗口中打开

图4。

在一系列集群大小上的集群算法的准确性。每个程序使用不同数量的簇对四簇1000个基因100阵列为中心的模拟数据集进行分析，并绘制每次分析的ARI。

无中心数据提供了与中所述精度和稳定性分析类似的结果第3.2节具体而言，HPC-RIA初始化方案在整个k个用ARI=0.97-1.0评估的聚类（4–20个聚类）。有趣的是，所有其他程序，包括HPC-DEN初始化方案，都随着集群数量的增加而迅速减少(补充图S2).

4讨论

由于内存和时间的复杂性，使用现有的聚类算法对大型数据集进行聚类可能非常困难。分层聚类适用于较小的数据集，但当数据集变大时，由于创建执行聚类算法所需的大距离矩阵的内存限制，分层聚类会失败。此外，在树的低端，使用树状图对较大数据集进行图形可视化非常困难。因此，诸如k个-means或SOM更适合对较大的数据集进行聚类。

所描述的改进超平面聚类算法提供了一种快速准确的方法来聚类非常大的数据集。许多因素都会影响聚类方法的速度和准确性。这些不仅包括所分析数据的大小和复杂性，还包括在应用分区方案之前如何处理数据。在本研究中，我们研究了基因数、簇数和阵列数对完成时间的影响，以及对我们改进的超平面聚类算法的数据进行预处理的效果。

根据微阵列实验的设计，在开始聚类分析之前将数据集中可能是有利的。例如，如果数据代表一个时间过程实验，并且研究人员在不考虑变化幅度的情况下，随着时间的推移寻找类似的表达谱模式，则可能需要将数据集中。然而，如果微阵列数据代表多个组（例如四种不同类型的癌症），您可能会对组之间的绝对表达差异更感兴趣。令人惊讶的是，我们测试的所有程序在聚类分析之前都对数据是否集中很敏感。HPC算法在中心（ARI=0.89±0.01）和非中心（ARI=0.75±0.01）数据集中的精度最高。然而，与其他测试程序相比，该算法的稳定性适中。对于集群初始化方案，基于DEN的初始化在分析集中数据时更准确，而RIA对非集中数据更准确(图1). 有趣的是，其中一个最稳定的程序（R-SOM，ARI=1.0）在数据集中时的准确性最差（ARI=0.54），这表明更稳定并不一定能给你更好的答案。此外，HPC算法在广泛的k个集群。也就是说，即使研究人员使用k个这与真实的聚类数大不相同(图4).

HPC算法的优点不仅可以产生准确的结果，而且可以以可扩展和快速的方式进行分析。当数据集较小且不太复杂时（例如10000个基因，k个=4）所有算法都趋向于快速运行。然而，随着数据集的规模和复杂性的增加（例如44 760，k个=20），HPC算法的执行速度明显更快。与所提供的精度数据类似，我们还观察到，在分析之前集中数据会影响算法的完成速度(表1和补充表S1). 具体来说，R-KM、R-SOM、Cluster v2和Cluster v3在未集中的数据上的执行速度都明显较慢。然而，HPC算法没有受到影响，两个数据集的完成时间相似，特别是对于大型复杂数据。

聚类算法的速度将继续得到重视。NCBI的GEO目前有706个智人数据集和超过20万个基因表达测量。随着公开可用的微阵列实验数量的增加，跨多个实验分析超大数据集的能力变得至关重要（Butte和Kohane，2006). 需要开发快速的算法，能够在不影响聚类质量的情况下对超大数据集进行聚类。在这里，我们提出了一种改进的超平面聚类两阶段算法来解决这个问题。为了鼓励使用此算法，我们还开发了一个应用程序（HPCluster）来实现此算法，并在科学界具有实际应用性。程序的屏幕截图见补充材料.

基金：国家糖尿病消化和肾脏疾病研究所(丹麦076169至R.A.M.）。

利益冲突：未声明。

补充材料

【补充资料】

单击此处查看。

参考文献

Butte AJ，Kohane IS。现象基因组网络的创建和含义。自然生物技术。2006;24:55–62. [PMC免费文章][公共医学][谷歌学者]
Chen G，等。ES细胞基因表达数据分析中聚类算法的评估和比较。统计正弦。2002;12:241–262. [谷歌学者]
Dash M等人。快速分层聚类及其验证。数据知识。工程师。2003;44:109–138. [谷歌学者]
Datta S，Datta S.微阵列基因表达数据统计聚类技术的比较和验证。生物信息学。2003;19:459–466.[公共医学][谷歌学者]
Eisen MB等人。全基因组表达模式的聚类分析和显示。程序。美国国家科学院。科学。美国。1998;95:14863–14868. [PMC免费文章][公共医学][谷歌学者]
Handl J等。后基因组数据分析中的计算聚类验证。生物信息学。2005;21:3201–3212.[公共医学][谷歌学者]
Hubert L，Arabie P.分区比较。J.分类。1985;2:193–218. [谷歌学者]
凯泽EC等。糖尿病儿童外周血单个核细胞的基因表达。临床杂志。内分泌。Metab公司。2007;92:3705–3711.[公共医学][谷歌学者]
Kraj P等人。ParaKMeans：适用于一般实验室使用的并行K-means算法的实现。BMC生物信息学。2008;9:200. [PMC免费文章][公共医学][谷歌学者]
兰德WM。评价聚类方法的客观标准。美国统计协会。1971;66:846–850. [谷歌学者]
Thalamuthu A等。微阵列分析中基因聚类方法的评估和比较。生物信息学。2006;22:2405–2412.[公共医学][谷歌学者]
Yeung KY等。用重复测量聚类基因表达数据。基因组生物学。2003;4：R34。 [PMC免费文章][公共医学][谷歌学者]
Zhang T，et al.BIRCH：一种适用于超大数据库的高效数据聚类方法。ACM SIGMOD记录。1996;25:103–114. [谷歌学者]

文章来自生物信息学由以下人员提供牛津大学出版社