摘要

动机:(基因表达数据的)聚类分析是一种有用的工具,用于识别在多种实验条件下表现出相似表达模式的生物相关基因组。已经提出了各种方法来聚类基因表达数据。然而,大多数算法在基因表达数据聚类中都存在一些不足。在本文中,我们重点讨论了传统聚类算法的一些不足,并提出了一种新的算法,该算法能够产生比其他一些算法更好的聚类解决方案。

结果:我们提出了分割相关聚类算法(DCCA),该算法适用于寻找一组表达值具有相似变异模式的基因。为了检测具有高相关性和生物学意义的聚类,我们使用了Bansal提出的相关聚类概念。我们提出的算法DCCA生成了一个聚类解决方案,而不需要将要创建的聚类数量作为输入。DCCA以这样一种方式使用相关矩阵,即集群中的所有基因与该集群中的基因具有最高的平均相关性。为了测试DCCA的性能,我们将DCCA和一些著名的传统方法应用于一个人工数据集和九个基因表达数据集,并比较了这些算法的性能。与其他方法相比,DCCA的聚类结果与生物注释的相关性更显著。所有这些事实都表明了DCCA在基因表达数据聚类方面的优势。

可用性:该软件是使用C和Visual Basic语言开发的,可以在Microsoft Windows平台上执行。软件可以作为zip文件从下载网址:http://www.isical.ac.in/~拉贾特。然后需要安装。在安装和执行软件之前,需要查阅两个单词的文件(包含在zip文件中)。

联系人: rajat@isical.ac.in

补充信息: 补充数据可在生物信息学在线。

1简介

聚类是处理在未标记数据集合中查找结构的最重要任务之一。聚类的松散定义可以是“将对象组织成成员在某种程度上相似的组的过程”(Han和Kamber,2001). 因此,集群是以下对象的集合:类似的他们之间以及不相似的属于其他簇的对象。聚类技术使用各种距离度量来确定相似性/差异在一对对象之间,并决定它们是否属于相同或不同的簇。欧几里得距离和马霍拉诺比斯距离是这方面常用的距离测量方法。

通常,聚类算法可以是分层的,也可以是分区的。传统的层次和分区聚类方法的一些问题是:(i)这些算法发现包含共同表达基因的聚类。他们无法确定一组基因在表达谱中具有相似的变异模式。换句话说,通过这些算法获得的聚类包含具有相似表达值的基因。(ii)他们需要我们想要创建的集群数量作为输入。尽管DB指数、Dunn指数(Han和Kamber,2001; Jain和Dubes,1988; 密特拉和阿查里亚,2003)或者可以使用任何其他聚类有效性指数来确定给定数据集的最佳聚类数,对于不同的聚类有效性指标,这个数字可能会有所不同。(iii)传统的层次和分区聚类算法使用欧几里德距离或马霍拉诺比斯距离作为距离度量。基于欧几里德范数的方法主要用于发现团簇的球形(Kim.,2005)而基于Maholanobis距离检测的方法主要是椭球体方法(Kim.,2005),即使数据集中可能不存在这些形状的簇。(iv)对于大型数据集,这些算法可能会导致大量未聚类。此外,AGNES或DIANA(Han和Kamber,2001; Jain和Dubes,1988; 密特拉和阿查里亚,2003),可能会导致一个大型集群和多个单一集群。

为了克服传统聚类算法的一些缺点,开发了用于基因表达数据分析的新聚类算法。. (2002)已经提出了一种用于将一组多维基因表达数据表示为最小生成树(MST)的新框架。基于MST表示,他们实现了许多高效的聚类算法,其中包括两种具有保证全局最优性的算法。基姆. (2005)使用了古斯塔夫森-凯塞尔(GK)(古斯塔夫逊和凯塞尔,1979)微阵列基因表达数据的聚类方法,用于检测数据集中不同形状的簇。沙兰. (2003),提出了一种新的聚类算法,称为CLICK。CLICK使用图形理论和统计技术来识别可能属于同一真实簇的高度相似基因的紧密组(内核)。然后使用几个启发式过程将内核扩展为完整的簇。. (2003)描述了层次聚类算法的一种推广,称为内核层次聚类算法,然后通过内部和外部验证评估了内核层次聚类的实用性。卢卡申和福克斯(2001)提出了一种基于模拟退火方法的基因表达数据聚类新算法。Dembele和Kastner(2003)开发了一种用于基因表达数据聚类的模糊c-均值(FCM)算法的参数选择方法。

在这方面还存在几种双聚类算法。其中包括Cheng和Church的贪婪双聚类算法(2000)和Ben-Dor. (2002),Getz的迭代算法. (2000)和伊梅尔斯. (2004)塔奈的SAMBA. (2002)、柔性重叠双集群(FLOC)Kluger. (2003)Alexe的图论算法. (2002). 穆拉里和卡西夫(2003)将双簇定义为保守的基因表达基序,即xMOTIF,并设计了一种算法来找到最大的xMOTIF。普雷利克. (2006)比较了不同双聚类算法的性能,提出了一种快速的分治双聚类算法(Bimax)。

除了不同的聚类和双聚类方法外,Kim和Tidor(2003)将非负矩阵分解(NMF)的概念应用于基因阵列实验的分析。NMF能够识别与表达式空间中的局部特征相对应的数据子部分之间的相似性。这里要提到的是,该方法不适用于低维数据。

相关聚类是Bansal提出的一种新的聚类方法. (2004)基本上基于图划分的概念。这里,集群的质量是根据某些参数来衡量的,即协议和数量分歧首先,通过将基因视为节点并将基因之间的相关性视为边,从输入数据构建图。有两种类型的边,即积极的消极的如果两个基因之间的相关系数为正,则存在积极的节点之间的边缘。另一方面消极的这两个节点之间的边缘表明相应的基因是负相关的。数量协议简单地说,是放入正确簇中的数据点(基因)的数量,由积极的相同簇中的边加上消极的不同簇中基因之间的边缘。的数量积极的基因之间的边缘表明它们在同一个簇中。另一方面分歧是错误聚集的基因数量,由消极的相同簇中的边数加上积极的不同簇中节点之间的边。

在相关聚类领域.,2005; 恰里卡尔.,2003; 查里卡尔和沃思,2004; Demaine和Immorlica,2003; 德曼.,2006)已经制作了,用于处理此方法的变化。如果存在一个完美的聚类,即如果一个人将所有基因正确聚类,那么只需删除所有基因即可获得最佳聚类消极的边缘并输出剩余图形的连接组件(Cohen和Richman,2002). 已经证明,如果不存在完美聚类,则没有基于相关系数的算法可以在多项式时间内找到最优聚类(Bansal.,2004). 有两种不同的方法(Bansal.,2004)这两种方法都可以创建K(K)未采用的簇数K(K)作为输入。一种方法是基于最小化分歧而另一个是基于最大化协议.

班萨尔。,2004证明了最小化问题分歧或等效最大化协议为NP-完成。他们为最小化问题提供了常数因子近似算法分歧,以及用于最大化的多项式时间近似方案(PTAS)协议(班萨尔。,2004). 这两种算法都是基于图划分的。这两个算法的主要问题是,它们只能处理给定的未加权完整图积极的/消极的边缘上的标签。Bansal的另一个主要问题的(2004)相关聚类算法只考虑了相关系数的符号,而没有考虑大小。这可能会恶化集群在生物相关性方面的质量。

为了用上述相关聚类算法解决这些问题,我们考虑了相关系数的符号和大小。基于这个概念,我们在本文中开发了一种新的聚类算法,称为除法相关聚类算法(DCCA)。这是一种层次聚类方法,但不同于传统层次算法的概念。与分层聚类方法不同,DCCA基于输入模式生成大小几乎一致的聚类,并可以修复聚类步骤中出现的缺陷,以生成适当的聚类解决方案。DCCA使用皮尔逊相关系数作为相似性度量。与传统的层次和分区聚类方法相比,DCCA的共同优点是它可以生成K(K)不带K(K)作为输入。DCCA使用了相关聚类的概念,但算法不同于(Bansal.,2004).

DCCA考虑了所有基因对之间的皮尔逊相关系数值。所有负相关系数的基因对应该在不同的簇中。在每次迭代中,算法选择一个具有一对基因的簇(x个,x个j个)它们之间的负相关系数最大。然后将这个选定的集群划分为两个不相交的集群。分区是以这样一种方式进行的,即基因x个x个j个放置在不同的簇中。数据点(基因)与基因具有较大的相关系数x个与…相比x个j个被放置在包含x个。其他数据点(基因)位于包含该基因的簇中x个j个检查每个基因的位置是否位于最合适的簇中。如果放置不合适,则会在簇集上进行更改。位置检查和校正步骤迭代,直到所有基因都被放置在适当的簇中。直到簇内所有成对的基因只与之呈正相关时,分割才停止。DCCA产生簇,簇中的基因在其表达谱中具有相似的变异模式。与传统的聚类算法不同,这里的聚类可能包含高表达值和低表达值的基因。

在我们的研究中,DCCA的聚类能力优于许多算法,即Bansal在(Bansal)中的最小化分歧(MIND)算法。,2004),K(K)-指(Han和Kamber,2001; Jain和Dubes,1988; 密特拉和阿查里亚,2003)PAM(Han和Kamber,2001; 密特拉和阿查里亚,2003)戴安娜(Han和Kamber,2001)、FCM(Bezdek,1981; 贝兹德克.,1984; 邓恩,1973)GK(古斯塔夫森和凯塞尔,1979)以及中基于NMF的算法(Kim和Tidor,2003)通过一个人工数据集和九个基因表达数据集的实验进行了验证。

2分裂相关聚类算法

让我们考虑一组n个基因X(X)= {x个1,x个2, …,x个n个},对于每个给出了表达式值。这些n个基因将被分为K(K)不相交簇C类1,C类2, … ,C类第页, … ,C类K(K).DCCA使用皮尔逊相关系数测量两个基因表达模式之间的相似性/差异性x个x个j个,定义为
(1)
哪里x个伊尔x个jl公司的第个采样值th和j个th基因。论坛论坛是从样品th和j个th基因。皮尔逊相关系数使用一对基因的样本值x个x个j个,并返回介于+1和-1之间的值。Corr公司(x个,x个j个)>0表示x个x个j个与作为其幅度的相关程度呈正相关。另一方面,科尔(x个,x个j个)<0表示x个x个j个与数值呈负相关| Corr(x个,x个j个)|. 皮尔逊相关系数的正值表示这两个基因是共表达的,负值表示它们之间存在相反的表达模式。通过这种测量,如果两个基因在样本中的表达值变化模式相似,则具有低表达值和高表达值的基因可能位于同一簇中。

如中所述第1节欧几里得距离和马霍拉诺比斯距离的问题(Kim.,2005)就是它们施加了一个固定的几何结构,并找到了这种形状的簇,即使它们不存在。基于欧几里德范数的方法主要发现簇的球形,而基于Maholanobis距离的方法主要找到椭球形,即使这些簇的形状可能不存在于数据集中。皮尔逊相关系数被用作相似性/差异性的度量,以聚类具有相似表达模式的基因;具有相反表达模式的基因被分配到不同的簇。在详细描述算法之前,我们定义了在这方面使用的以下术语和度量。

吸引力:两个基因x个x个j个,如果Corr(x个,x个j个)大于零,则之间存在吸引力x个x个j个.

排斥:针对两个基因x个x个j个,如果Corr(x个,x个j个)小于零,则在x个x个j个.

吸引/排斥值:Corr的大小(x个,x个j个)是吸引力或排斥力。

平均相关值:基因的平均相关值x个关于集群C类第页定义为
(2)
哪里n个第页是中的数据点数量C类第页负极{x个}. 因此,平均值C类圆周率表示基因的平均相关性x个簇内有其他基因C类第页。该值反映了x个到群集C类第页.

DCCA考虑了一对排斥基因,它们应该在不同的簇中,因为它们的功能行为相反。最初,所有的基因都被认为是一个集群。在每次迭代中,算法选择一个具有一对基因的簇(x个,x个j个)具有最大斥力(即具有最大负斥力值)。然后将选定的簇划分为两个不相交的簇。分区的方式如下x个x个j个被放置在两个不同的簇中。具有更大吸引力的数据点(基因)x个与相比x个j个放置在包含x个。否则,它们将被放置在包含x个j个。这种分割可能会导致基因错位,因为它们仅基于两个基因的吸引力值而被放置在集群中x个x个j个.此时,每个基因的平均相关值x个k个对每个集群进行计算,并x个k个被放入集群中x个k个具有最高的平均相关值。分割一直持续到簇内没有排斥为止。当任何簇内的任何一对基因之间不存在排斥时,算法停止。DCCA确保基因x个属于群集C类第页,iff平均C类圆周率>平均值C类,对于所有人q个第页该算法还确保任何簇中的所有基因对都只具有正相关。

算法

输入:一套n个基因X(X)= {x个1,x个2, … ,x个n个},对于每个给出了表达式值。

输出: K(K)不相交簇C类1,C类2, … ,C类K(K),所以论坛.

步骤:

  1. 首先,考虑一个集群中的所有基因。设置簇数K(K)= 1.

  2. 对于每个迭代,请执行以下操作:

    • 对于每个集群C类第页,计算皮尔逊相关系数[方程式(1)]在所有的基因对之间C类第页.

    • 如果没有排斥存在于任何簇内的一对基因之间,然后停止,否则执行第三步。

    • 识别群集C类其中有一对基因x个,x个j个最消极的排斥所有集群中的值。

    • 更换组合仪表C类有两个簇C类第页C类q个,并增加簇数K(K)一个。放置基因x个C类第页x个j个C类q个对于所有其他基因x个k个在里面C类,比较Corr公司(x个,x个k个)和Corr公司(x个j个,x个k个). 如果Corr公司(x个,x个k个) >Corr公司(x个j个,x个k个)然后放置x个k个C类第页,否则放置x个k个C类q个.

    • 对于每个x个k个在里面X(X),执行:

      • 对于每个集群C类第页, 1 ≤第页K(K),计算平均相关值AVGC公司pk公司[方程式(2)].

      • 如果AVGC公司pk公司>AVGC公司qk(平方公里),每个q个, 1 ≤q个K(K)、和第页q个然后放置x个k个到新第页第个集群中国水利水电集团第页.

    • 如果论坛则在步骤v的前一次迭代中获得的簇中没有发生变化,即。中国水利水电集团1=C类1,中国水利水电集团2=C类2, … ,中国水利水电集团K(K)=C类K(K),然后转至步骤2。否则,每个第页,1≤第页K(K),套C类第页=中国水利水电集团第页.设置中国水利水电集团第页=φ,每个第页。然后转到步骤v。

DCCA确保样本中集群中所有基因表达值的增加和减少以类似的方式发生。这种形式的聚类结果也有助于我们识别出一组基因,这些基因以类似的方式改变了它们从正常样本到患病样本的行为。如果我们考虑一个包含正常和患病样本的数据集,那么在该数据集上应用DCCA将产生一组簇,其中每个簇包含正常和疾病状态下的共表达基因。If基因x个k个x个j个属于同一集群,并且x个k个在患病样本中过度表达x个j个在疾病样本中也过度表达,反之亦然。我们可以识别疾病状态下包含过表达/欠表达基因的簇,因此我们将能够识别可能导致特定疾病的基因组。然而,选择可能导致特定疾病的基因的问题在这里没有被考虑。传统的聚类算法不能保证簇内不存在排斥现象,也不能保证簇中基因之间具有最高的平均吸引力。由于这个原因,DCCA能够将具有相似行为的基因聚类在一起,与其他传统聚类算法相比具有更高的准确度。与传统的聚类算法相比,DCCA还有另一个优势,它可以创建K(K)仅基于输入数据的簇数,不考虑K(K)作为输入。

2.1使用合成数据集对DCCA与一些现有算法的性能进行比较分析

在详细讨论现实生活中基因表达数据的结果之前,我们在这里展示了DCCA相对于使用人工数据集ADS的一些现有算法的优越性能(图1). ADS包含115个三维样本,分布在三个集群中。这些样本在三个集群中的值主要在x、 年z方向。图2显示了DCCA、PAM和GK的结果。很明显图2DCCA、PAM和GK能够成功地获得这三个集群。另一方面,MIND(补充图3),K(K)-手段(补充图4)、FCM(补充图5)和戴安娜(补充图6)无法获取ADS数据集所需的群集。

数据集ADS。
图1。

数据集ADS。

DCCA、PAM和GK的集群输出。
图2。

DCCA、PAM和GK的集群输出。

3结果

DCCA的有效性在9个基因表达数据集上得到了验证。这些数据集处理五种酵母(http://yfgdb.princeton.edu/download/yeast_datasets/)和四个哺乳动物数据集(http://www.ncbi.nlm.gov/projects/geo/gds). DCCA对五个酵母数据集的聚类结果如所示补充图7-11使用TreeView软件生成的(http://rana.lbl.gov/EisenSoftware.htm). DCCA的性能优于其他聚类算法,即Bansal中的MIND. (2004),K(K)-指(Han和Kamber,2001; Jain和Dubes,1988; 密特拉和阿查里亚,2003),PAM(Han和Kamber,2001; 密特拉和阿查里亚,2003)戴安娜(Han和Kamber,2001)、FCM(Bezdek,1981; 贝兹德克.,1984; 邓恩,1973)GK(古斯塔夫森和凯塞尔,1979)算法和基于NMF的算法(Kim和Tidor,2003)也可以使用几个指数(如补充材料). 补充材料中也描述了用于比较分析的数据集。

补充数据补充材料中显示了DCCA为酵母ATP生成的五个明显不同的簇。对于酵母PHO,补充数据补充材料中显示了DCCA产生的52个不同簇。同样,对于酵母AFR、酵母AFRt、Cho获得的酵母数据.,簇数为(补充图9-11)分别为67、41和138。DCCA获得的野生型聚类数为39,IL-13敲除小鼠哮喘数据聚类数为40,GDS1423聚类数为14,GDS2745聚类数为43。

3.1性能比较

为了进行性能比较,我们使用了z-得分。表1提供以下值z-使用数据集对上述算法获得的聚类计算得分。z-得分(吉本斯和罗斯,2002; 按下。,2003)通过研究聚类结果与聚类中基因的功能注释之间的关系来计算。要计算z-五个酵母数据集的得分,Gibbons ClusterJudge(Gibbons和Roth,2002; 按下。,2003)使用工具。酵母基因的酵母基因组数据库(SGD)注释,以及基因本体联盟(Ashburner)开发的基因本体.,2000; Issel-Tarver公司.,2002)已被ClusterJudge用于计算z-得分。ClusterJudge仅支持酵母数据集。对于GDS958、GDS1423和GDS2745,相应的注释数据集GPL339、GPL96和GPL97(http://www.ncbi.nlm.gov/projects/geo/gds)已被使用。我们分别考虑GDS958剔除样本和野生型样本进行聚类z这表明基因可以更好地按功能进行聚类,表明聚类结果具有更高的生物学相关性。

表1。

z-不同算法得到的聚类得分

数据集基因/条件方法z-分数K(K)
酵母ATP6215/3DCCA公司21.95
思维4.56
K(K)-手段18.35
PAM公司18.95
戴安娜−0.8255
流式细胞仪18.15
GK公司19.65
酵母PHO6013/8DCCA公司29.852
思维0.862
K(K)-手段20.252
PAM公司1852
戴安娜9.0252
流式细胞仪19.552
GK公司23.652
酵母AFR6184/8DCCA公司26.267
思维10.45
K(K)-手段21.567
PAM公司19.9267
戴安娜3.6667
流式细胞仪23.667
GK公司22.767
酵母AFRt6190/7DCCA公司31.441
思维15.75
K(K)-手段26.241
PAM公司27.441
戴安娜2.5641
流式细胞仪28.441
GK公司30.641
酵母6457/17DCCA公司49.4138
.思维39.26
K(K)-手段44.6138
PAM公司46.5138
戴安娜18.8138
流式细胞仪35.8138
GK公司39138
GDS95822690/6DCCA公司18.739
通配符思维1.565
K(K)-手段9.139
PAM公司10.339
戴安娜−0.91539
流式细胞仪12.939
GK公司15.339
GDS95822690/6DCCA公司17.940
淘汰赛思维1.394
K(K)-手段10.740
PAM公司10.140
戴安娜−0.83140
流式细胞仪11.340
GK公司14.640
GDS1423型22283/4DCCA公司37.114
思维12.47
K(K)-手段33.614
PAM公司35.414
戴安娜3.4314
流式细胞仪29.214
GK公司31.614
GDS274522645/6DCCA公司30.743
思维3.44
K(K)-手段26.343
PAM公司28.543
戴安娜4.143
流式细胞仪24.643
GK公司29.443
数据集基因/条件方法z-分数K(K)
酵母ATP6215/3DCCA公司21.95
思维4.56
K(K)-手段18.35
PAM公司18.95
戴安娜−0.8255
流式细胞仪18.15
GK公司19.65
酵母PHO6013/8DCCA公司29.852
思维0.862
K(K)-手段20.252
PAM公司1852
戴安娜9.0252
流式细胞仪19.552
GK公司23.652
酵母AFR6184/8DCCA公司26.267
思维10.45
K(K)-手段21.567
PAM公司19.9267
戴安娜3.6667
流式细胞仪23.667
GK公司22.767
酵母AFRt6190/7年DCCA公司31.441
思维15.75
K(K)-手段26.241
PAM公司27.441
戴安娜2.5641
流式细胞仪28.441
GK公司30.641
酵母6457/17DCCA公司49.4138
.思维39.26
K(K)-手段44.6138
PAM公司46.5138
戴安娜18.8138
流式细胞仪35.8138
GK公司39138
GDS95822690/6DCCA公司18.739
通配符思维1.565
K(K)-手段9.139
PAM公司10.339
戴安娜−0.91539
流式细胞仪12.939
GK公司15.339
GDS95822690/6DCCA公司17.940
淘汰赛思维1.394
K(K)-手段10.740
PAM公司10.140
戴安娜−0.83140
流式细胞仪11.340
GK公司14.640
GDS1423型22283/4DCCA公司37.114
思维12.47
K(K)-手段33.614
PAM公司35.414
戴安娜3.4314
流式细胞仪29.214
GK公司31.614
GDS274522645/6DCCA公司30.743
思维3.44
K(K)-手段26.343
PAM公司28.543
戴安娜4.143
流式细胞仪24.643
GK公司29.443
表1。

z-不同算法得到的聚类得分

数据集基因/条件方法z-分数K(K)
酵母ATP6215/3DCCA公司21.95
思维4.56
K(K)-手段18.35
PAM公司18.95
戴安娜−0.8255
流式细胞仪18.15
GK公司19.65
酵母PHO6013/8DCCA公司29.852
思维0.862
K(K)-手段20.252
PAM公司1852
戴安娜9.0252
流式细胞仪19.552
GK公司23.652
酵母AFR6184/8DCCA公司26.267
思维10.45
K(K)-手段21.567
PAM公司19.9267
戴安娜3.6667
流式细胞仪23.667
GK公司22.767
酵母AFRt6190/7DCCA公司31.441
思维15.75
K(K)-手段26.241
PAM公司27.441
戴安娜2.5641
流式细胞仪28.441
GK公司30.641
酵母6457/17DCCA公司49.4138
Cho公司.思维39.26
K(K)-手段44.6138
PAM公司46.5138
戴安娜18.8138
流式细胞仪35.8138
GK公司39138
GDS95822690/6DCCA公司18.739
通配符思维1.565
K(K)-手段9.139
PAM公司10.339
戴安娜−0.91539
流式细胞仪12.939
GK公司15.339
GDS95822690/6DCCA公司17.940
淘汰赛思维1.394
K(K)-手段10.740
PAM公司10.140
戴安娜−0.83140
流式细胞仪11.340
GK公司14.640
GDS1423型22283/4DCCA公司37.114
思维12.47
K(K)-手段33.614
PAM公司35.414
戴安娜3.4314
流式细胞仪29.214
GK公司31.614
GDS274522645/6DCCA公司30.743
思维3.44
K(K)-手段26.343
PAM公司28.543
戴安娜4.143
流式细胞仪24.643
GK公司29.443
数据集基因/条件方法z-分数K(K)
酵母ATP6215/3DCCA公司21.95
思维4.56
K(K)-手段18.35
PAM公司18.95
戴安娜−0.8255
流式细胞仪18.15
GK公司19.65
酵母PHO6013/8DCCA公司29.852
思维0.862
K(K)-手段20.252
PAM公司1852
戴安娜9.0252
流式细胞仪19.552
GK公司23.652
酵母AFR6184/8DCCA公司26.267
思维10.45
K(K)-手段21.567
PAM公司19.9267
戴安娜3.6667
流式细胞仪23.667
GK公司22.767
酵母AFRt6190/7DCCA公司31.441
思维15.75
K(K)-手段26.241
PAM公司27.441
戴安娜2.5641
流式细胞仪28.441
GK公司30.641
酵母6457/17DCCA公司49.4138
.思维39.26
K(K)-手段44.6138
PAM公司46.5138
戴安娜18.8138
流式细胞仪35.8138
GK公司39138
GDS95822690/6DCCA公司18.739
通配符思维1.565
K(K)-手段9.139
PAM公司10.339
戴安娜−0.91539
流式细胞仪12.939
GK公司15.339
GDS95822690/6DCCA公司17.940
淘汰赛思维1.394
K(K)-手段10.740
PAM公司10.140
戴安娜−0.83140
流式细胞仪11.340
GK公司14.640
GDS1423型22283/4DCCA公司37.114
思维12.47
K(K)-手段33.614
PAM公司35.414
戴安娜3.4314
流式细胞仪29.214
GK公司31.614
GDS274522645/6DCCA公司30.743
思维3.44
K(K)-手段26.343
PAM公司28.543
戴安娜4.143
流式细胞仪24.643
GK公司29.443

表1说明了这一点z-所有九个数据集的DCCA对应分数都远大于其他算法对应的分数。这表明DCCA得到的结果比其他方法得到的结果在生物学上更具相关性。

3.2功能充实:分析和比较

DCCA在九个数据集上获得的每个簇的丰富功能类别如下所示补充表3–29.MIND获得的酵母ATP数据集的一些丰富功能类别,K(K)-表示PAM、FCM和GK补充表30每个聚类中每个GO类别的功能富集度通过其P(P)-值。要计算P(P)-我们使用了Funcassociate(Berriz)软件.,2003).P(P)-值表示观察每个簇内特定GO功能类别的基因数量的概率。A低P(P)-值表明,属于丰富功能类别的基因在相应的簇中具有生物学意义。在本文中,只有具有P(P)-值<5.0×10−7是为了限制文章的大小。

3.2.1分析

酵母ATP数据集的五个聚类中(补充表3),集群中高度丰富的类别C类是“非膜结合的细胞器”和“细胞内非膜结合细胞器”P(P)-值1.1×10−11每个。集群C类4包含“胞质核糖体”上的几个丰富类别。集群中高度丰富的类别C类4是“细胞溶质核糖体(感觉真核生物)/80S核糖体”P(P)-值5.2×10−14.对于酵母PHO数据集(补充表4和5),群集C类1包含几个关于“生物成因”的丰富类别。集群中高度丰富的类别C类1核糖体生物生成P(P)-值为1.5×10−63、“细胞质组织和生物发生”和“核糖体生物发生和组装”P(P)-值3.4×10−63每个。集群C类包含“核糖体”上的几个丰富类别。集群C类包含“细胞溶质核糖体”P(P)-值5.9×10−39作为高度丰富的类别。GO类别“核糖体/核糖体蛋白的结构成分”在该簇中也高度富集P(P)-1.4×10的值−35.集群C类19包含了几个关于“生物合成”的丰富类别。集群中高度丰富的类别C类19是“生物合成/合成代谢”P(P)-2.5×10的值−25。GO类“细胞生物合成”也在该集群中高度富集P(P)-值4.4×10−19.

酵母AFR数据集(补充表6和7),集群中高度丰富的类别C类4是“生物合成/合成代谢”P(P)-值1.1×10−9。GO类“细胞生物合成”也在该集群中高度富集P(P)-值1.9×10−9.集群C类11包含了关于“生物起源”的几个丰富类别。核糖体生物发生P(P)-值4.2×10−13、“细胞质组织和生物发生”和“核糖体生物发生和组装”P(P)-值1.1×10−11每个都是集群中的一些丰富类别C类11.集群C类30包含“核糖体”上的几个丰富类别。集群中高度丰富的类别C类30是“细胞溶质核糖体(感觉真核生物)/80S核糖体”P(P)-值为1.7×10−14和“核糖体”P(P)-1.4×10的值−12.

如上述数据集所示,对于酵母AFRt数据集(补充表8和9),群集C类4包含了关于“生物起源”的几个丰富类别。集群中高度丰富的类别C类4是“细胞质组织和生物发生”和“核糖体生物发生和组装”P(P)-值6.1×10−33每个,“核糖体生物发生”P(P)-值为2.2×10−32.集群C类17包含“核糖体”上的几个丰富类别。集群中高度丰富的类别C类17核糖核蛋白复合物/RNPP(P)-1.4×10的值−28和“核糖体”P(P)-值2.1×10−28.

就酵母Cho而言.数据集(补充表10-12),群集C类1包含了关于“生物起源”的几个丰富类别。集群中高度丰富的类别C类1核糖体生物生成P(P)-值4.1×10−24、“细胞质组织和生物发生”和“核糖体生物发生和组装”P(P)-值1.9×10−23每个。集群C类128包含“核糖体”上的几个丰富类别。集群中高度丰富的类别C类128是“细胞溶质核糖体”P(P)-值为1×10−132.集群中另外两个高度丰富的类别C类128核糖体P(P)-值3.2×10−108和“核糖体/核糖体蛋白的结构成分”P(P)-2.5×10的值−99.

核糖体(inC类4对于酵母ATP,C类对于酵母PHO,C类30对于酵母AFR,C类17酵母AFRt和inC类128酵母Cho.dataset)和“生物发生”(inC类对于酵母ATP,C类1对于酵母PHO,C类11对于酵母AFR,C类4酵母AFRt和inC类1酵母Cho数据集)在所有酵母数据集的至少一个簇中富集。类似地,“生物合成”类别(inC类4对于酵母ATP,C类19对于酵母PHO,C类4对于酵母AFR,C类17酵母AFRt和inC类128酵母Cho.datasets)也在所有酵母数据集的至少一个簇中富集。不同数据集结果的相似性表明了DCCA的一致性。

对于GDS958 Wildtype数据集(补充表13),集群中高度丰富的类别C类“运动活动”P(P)-值1.9×10−15,“跨膜受体蛋白丝氨酸/苏氨酸激酶活性”和“转化生长因子β受体活性”P(P)-2.5×10的值−15每个。集群中高度丰富的类别C类27水解酶活性P(P)-2.4×10的值−15以及“MHC II类受体活性”P(P)-值2.7×10−15对于GDS958 IL-13 Knockedout数据集(补充表14),集群中高度丰富的类别C类4水解酶活性P(P)-值2.1×10−16和“受体活性”P(P)-值5.7×10−15GO类别“核糖体的结构成分”在簇中高度富集C类8具有P(P)-值1.1×10−9和在群集中C类10具有P(P)-值7.3×10−8.

对于GDS1423数据集(补充表15-26),所有14个簇均富含1000个富集属性。集群中高度丰富的类别C类8是“多细胞生物过程”P(P)-值3.3×10−94.

集群C类1从GDS2745数据集获得(补充表27–29)包含“细胞内细胞器”的几个丰富类别。集群中高度丰富的类别C类1是“细胞内膜结合细胞器”P(P)-值1.0×10−23.

从补充材料表3–29的结果中,我们可以看到DCCA获得的簇显示功能类别高度丰富。

3.2.2比较

在这里,我们描述了通过上述聚类算法检测功能丰富的簇/类别的能力。补充数据补充材料中显示,酵母ATP数据集的DCCA产生的五分之三的簇包含功能丰富的类别。同样,对于GK(补充表30),酵母ATP数据集的五个簇中有三个簇功能丰富,但DCCA生成的簇的富集类别总数(28)大于GK生成的簇(25)。对于MIND,K(K)-酵母ATP数据集生成的五个聚类中的平均数PAM和FCM(补充表30),只有两个集群包含功能丰富的类别。DIANA找不到任何丰富的功能类别。对于酵母ATP数据集,这个结果清楚地表明,DCCA比我们分析中考虑的其他聚类算法产生更好的聚类解决方案。使用上述算法对其他数据集进行了类似的调查。在所有情况下,DCCA都提供了更多的丰富类别(表2)与其他算法相比。

表2。

不同聚类算法在检测功能丰富的聚类/类别方面的比较得分。这里我们考虑了以下类别P(P)-值<5.0×10−7

数据集方法总计丰富浓缩的
集群集群属性
酵母ATPDCCA公司528
思维22
K(K)-手段5211
PAM公司5213
戴安娜500
流式细胞仪5215
GK公司5225
酵母PHODCCA公司528113
思维00
K(K)-手段52689
PAM公司52681
戴安娜52217
流式细胞仪52573
GK公司527106
酵母AFRDCCA公司671089
思维5218
K(K)-手段67771
PAM公司67662
戴安娜6700
流式细胞仪67869
GK公司67878
酵母AFRtDCCA公司417107
思维546
K(K)-手段41691
PAM公司41799
戴安娜4100
流式细胞仪41686
GK公司417101
酵母DCCA公司13818187
.心智6115
K(K)-手段13814143
PAM公司13815157
戴安娜138439
流式细胞仪13815107
GK公司13814131
GDS958DCCA公司391650
通配符思维526
K(K)-手段391136
PAM公司391341
戴安娜3900
流式细胞仪391443
GK公司391446
GDS958DCCA公司401157
淘汰赛思维400
K(K)-手段40941
PAM公司40944
戴安娜4000
流式细胞仪40949
GK公司401051
GDS1423型DCCA公司14141000
思维7126
K(K)-手段1413856
PAM公司1414931
戴安娜14279
流式细胞仪1411788
GK公司1411814
GDS2745DCCA公司4332202
思维4116
K(K)-手段4330179
PAM公司4330187
戴安娜43119
流式细胞仪4329174
GK公司4331192
数据集方法总计丰富丰富
集群集群属性
酵母ATPDCCA公司528
思维22
K(K)-手段5211
PAM公司5213
戴安娜500
流式细胞仪5215
GK公司5225
酵母PHODCCA公司528113
思维00
K(K)-手段52689
PAM公司52681
戴安娜52217
流式细胞仪52573
GK公司527106
酵母AFRDCCA公司671089
思维5218
K(K)-手段67771
PAM公司67662
戴安娜6700
流式细胞仪67869
GK公司67878
酵母AFRtDCCA公司417107
思维546
K(K)-手段41691
PAM公司41799
戴安娜4100
流式细胞仪41686
GK公司417101
酵母DCCA公司13818187
.思维6115
K(K)-手段13814143
PAM公司13815157
戴安娜138439
流式细胞仪13815107
GK公司13814131
GDS958DCCA公司391650
通配符思维526
K(K)-手段391136
PAM公司391341
戴安娜3900
流式细胞仪391443
GK公司391446
GDS958DCCA公司401157
被击倒思维400
K(K)-手段40941
PAM公司40944
戴安娜4000
流式细胞仪40949
GK公司401051
GDS1423型DCCA公司14141000
思维7126
K(K)-手段1413856
PAM公司1414931
戴安娜14279
流式细胞仪1411788
GK公司1411814
GDS2745DCCA公司4332202
思维4116
K(K)-手段4330179
PAM公司4330187
戴安娜43119
流式细胞仪4329174
GK公司4331192
表2。

不同聚类算法在检测功能丰富的聚类/类别方面的比较得分。这里我们考虑了以下类别P(P)-值<5.0×10−7

数据集方法总计丰富丰富
集群集群属性
酵母ATPDCCA公司528
思维22
K(K)-手段5211
PAM公司5213
戴安娜500
流式细胞仪5215
GK公司5225
酵母PHODCCA公司528113
思维00
K(K)-手段52689
PAM公司52681
戴安娜52217
流式细胞仪52573
GK公司527106
酵母AFRDCCA公司671089
思维5218
K(K)-手段67771
PAM公司67662
戴安娜6700
流式细胞仪67869
GK公司67878
酵母AFRtDCCA公司417107
思维546
K(K)-手段41691
PAM公司41799
戴安娜4100
流式细胞仪41686
GK公司417101
酵母DCCA公司13818187
.心智6115
K(K)-手段13814143
PAM公司13815157
戴安娜138439
流式细胞仪13815107
GK公司13814131
GDS958DCCA公司391650
通配符思维526
K(K)-手段391136
PAM公司391341
戴安娜3900
流式细胞仪391443
GK公司391446
GDS958DCCA公司401157
淘汰赛思维400
K(K)-手段40941
PAM公司40944
戴安娜4000
流式细胞仪40949
GK公司401051
GDS1423型DCCA公司14141000
思维7126
K(K)-手段1413856
PAM公司1414931
戴安娜14279
流式细胞仪1411788
GK公司1411814
GDS2745DCCA公司4332202
思维4116
K(K)-手段4330179
PAM公司4330187
戴安娜43119
流式细胞仪4329174
GK公司4331192
数据集方法总计丰富丰富
集群集群属性
酵母ATPDCCA公司528
思维22
K(K)-手段5211
PAM公司5213
戴安娜500
流式细胞仪5215
GK公司5225
酵母PHODCCA公司528113
思维00
K(K)-手段52689
PAM公司52681
戴安娜52217
流式细胞仪52573
GK公司527106
酵母AFRDCCA公司671089
思维5218
K(K)-手段67771
PAM公司67662
戴安娜6700
流式细胞仪67869
GK公司67878
酵母AFRtDCCA公司417107
思维546
K(K)-手段41691
PAM公司41799
戴安娜4100
流式细胞仪41686
GK公司417101
酵母DCCA公司13818187
.思维6115
K(K)-手段13814143
PAM公司13815157
戴安娜138439
流式细胞仪13815107
GK公司13814131
GDS958DCCA公司391650
通配符思维526
K(K)-手段391136
PAM公司391341
戴安娜3900
流式细胞仪391443
GK公司391446
GDS958DCCA公司401157
淘汰赛思维400
K(K)-手段40941
PAM公司40944
戴安娜4000
流式细胞仪40949
GK公司401051
GDS1423型DCCA公司14141000
思维7126
K(K)-手段1413856
PAM公司1414931
戴安娜14279
流式细胞仪1411788
GK公司1411814
GDS2745DCCA公司4332202
思维4116
K(K)-手段4330179
PAM公司4330187
戴安娜43119
流式细胞仪4329174
GK公司4331192

我们还发现Kim和Tidor的NMF技术(2003)能够获得酵母Cho的87个富集属性数据集,而DCCA能够为同一数据集获得187个丰富的属性,表明DCCA优于基于NMF的技术。为了限制文章的大小,我们没有包括详细的结果。

4结论

我们在这里提出了一种新的聚类算法,称为DCCA,它能够从具有很高生物学意义的基因表达数据集中获得聚类解。DCCA能够检测到包含在表达谱模式中具有类似变异的基因的簇,而无需将期望的簇数作为输入。该算法继续聚类,直到所有聚类只包含正相关的基因集。与其他一些算法一样,DCCA也属于层次划分聚类算法的范畴。对结果的分析表明,DCCA得到的聚类解比其他一些算法(即MIND、,K(K)-平均值、PAM、DIANA、FCM、GK和基于NMF的算法。尽管DCCA有这些好处,但仍有几个问题需要进一步调查。首先,需要降低DCCA修复聚类步骤中出现的任何错位的计算成本。其次,DCCA获得的聚类质量取决于相关系数的选择。在本文中,我们使用皮尔逊相关系数作为相似性度量。然而,具有类似性质的其他措施也可以用于进一步研究。第三,如果数据集包含的样本少于三个,则DCCA将不起作用。在这种情况下,计算出的相关值将为+1或-1。第四,需要修改DCCA的概念,以开发合适的双聚类算法。

利益冲突:未声明。

参考文献

亚历克斯
G公司
生成所有最大双液的一致性算法
技术报告TF-DIMACS。
2002
阿龙
N个
图的二次型
第37届美国计算机学会计算理论研讨会(STOC)。
2005
阿什伯恩
M(M)
生物学统一的工具。基因本体联盟
自然遗传学
2000
,卷。 
25
(第
25
-
29
)
班萨尔
N个
相关聚类
机器。学习。,特别发行
2004
,卷。 
56
(第
89
-
113
)
Ben-Dor公司
A类
发现基因表达数据中的局部结构:顺序保护子矩阵问题
第六届国际计算生物学会议记录(RECOMB'02)
2002
(第
49
-
57
)
贝里斯
FG公司
用functassociate刻画基因集
生物信息学
2003
,卷。 
19
(第
2502
-
2504
)
贝兹德克
JC公司
模糊目标函数算法的模式识别。
1981
纽约
增压器压力
贝兹德克
JC公司
FCM:模糊c-均值算法
计算。地质科学
1984
,卷。 
10
(第
191
-
203
)
恰里卡尔
M(M)
沃思
A类
二次规划最大化:grothendieck不等式的推广
第45届IEEE计算机科学基础研讨会论文集。
2004
(第
524
-
533
)
恰里卡尔
M(M)
使用定性信息进行聚类
第44届IEEE计算机科学基础研讨会论文集。
2003
(第
524
-
533
)
Y(Y)
教堂
总经理
表达式数据的双聚类
程序。国际竞争情报。系统。分子生物学
2000
,卷。 
8
(第
93
-
103
)
Cho公司
RJ公司
有丝分裂细胞周期的全基因组转录分析
分子电池
1998
,卷。 
2
(第
65
-
73
)
科恩
W公司
里奇曼
J
学习匹配和聚类大型高维数据集以进行数据集成
第八届ACM SIGKDD国际知识发现和数据挖掘会议(KDD)。
2002
德曼
预计起飞时间
Immorlica公司
N个
具有部分信息的相关聚类
第六届组合优化问题近似算法国际研讨会和第七届计算机科学随机和近似技术国际研讨会论文集(RANDOM-APPROX 2003)。
2003
新泽西州
普林斯顿大学
(第
1
-
13
)
德曼
预计起飞时间
一般加权图的相关聚类
理论。计算。科学
2006
,卷。 
361
(第
172
-
187
)
登贝莱
D类
卡斯特纳
P(P)
微阵列数据聚类的模糊c均值方法
生物信息学
2003
,卷。 
19
(第
973
-
980
)
邓恩
JC公司
isodata过程的模糊关系及其在检测紧密分离簇中的应用
J.网络
1973
,卷。 
(第
32
-
57
)
盖兹
G公司
基因芯片数据的双向耦合聚类分析
程序。美国国家科学院。科学美国。
2000
美国
(第
12079
-
12084
)
吉本斯
F类
罗斯
F类
利用基因注释判断基于基因表达的聚类方法的质量
基因组研究
2002
,卷。 
12
(第
1574
-
1581
)
古斯塔夫森
电气工程师
凯塞尔
厕所
基于模糊共经验矩阵的模糊聚类
IEEE CDC会议记录。
1979
加利福尼亚州圣地亚哥
(第
761
-
766
)
汉族
J
坎贝尔
M(M)
数据挖掘:概念和技术。
2001
加利福尼亚州,美国
摩根考夫曼
伊梅尔斯
J
使用大规模基因表达数据定义转录模块
生物信息学
2004
,卷。 
20
(第
1993
-
2003
)
Issel-Tarver公司
L(左)
酵母菌基因组数据库
酶学方法
2002
,卷。 
350
(第
329
-
346
)
贾恩
阿拉斯加州
迪布
钢筋混凝土
聚类数据的算法。
1988
新泽西州
普伦蒂斯·霍尔
基姆
数据仓库
检测微阵列基因表达数据中不同几何形状的簇
生物信息学
2005
,卷。 
21
(第
1927
-
1934
)
基姆
颗粒物
潮汐
B类
基于大规模基因表达数据降维的子系统识别
基因组研究
2003
,卷。 
13
(第
1706
-
1718
)
克鲁格
Y(Y)
微阵列癌症数据的光谱双聚类:基因和条件的共聚类
基因组研究
2003
(第
703
-
716
)
卢卡申
成人影片
富克斯
R(右)
时间基因表达谱分析:模拟退火聚类和确定最佳聚类数
生物信息学
2001
,卷。 
17
(第
405
-
414
)
密特拉
S公司
阿查里亚
数据挖掘:多媒体、软计算和生物信息学。
2003
纽约
约翰威利
穆拉里
TM(TM)
卡西夫
S公司
从基因表达数据中提取保守的基因表达基序
太平洋生物计算研讨会论文集。
2003
(第
77
-
88
)
普雷利克
A类
基因表达数据双聚类方法的系统比较与评价
生物信息学
2006
,卷。 
22
(第
1122
-
1129
)
按下
W公司
数字互惠——科学计算的艺术。
2003
剑桥
剑桥大学出版社
J
基于微阵列表达数据的核层次基因聚类
生物信息学
2003
,卷。 
19
(第
2097
-
2104
)
沙兰
R(右)
点击和扩展:一个用于聚类和可视化基因表达数据的系统
生物信息学
2003
,卷。 
19
(第
1787
-
1799
)
塔纳伊
A类
在基因表达数据中发现具有统计意义的双聚类
生物信息学
2002
(第
136美元
-
S144标准
)
Y(Y)
用图理论方法聚类基因表达数据:最小生成树的应用
生物信息学
2002
,卷。 
18
(第
536
-
545
)

作者注释

副主编:Trey Ideker

补充数据