摘要

总结:除了层次聚类等经典聚类方法外,近年来,双聚类已成为分析生物数据集(例如基因表达数据)的一种流行方法。双聚类分析工具箱(BicAT)是一个用于基于聚类的数据分析的软件平台,它根据通用图形用户界面集成了各种双聚类和聚类技术。此外,BicAT为数据准备、检查和后处理提供了不同的设施,例如离散化、根据特定标准过滤双聚类或进行基因对分析以构建基因互连图。在单个图形工具中使用不同的双聚类算法的可能性允许用户比较聚类结果并选择最适合特定生物场景的算法。该工具箱在基因表达分析的上下文中进行了描述,但也适用于其他类型的数据,例如,来自蛋白质组学或合成致死实验的数据。

可利用性:BicAT工具箱可从以下网址免费获得:作者网页并在所有操作系统上运行。该网站还提供了该程序的Java源代码和开发人员指南。因此,用户可以修改程序并添加进一步的算法或扩展。

联系人: barkow@tik.ee.ethz.ch

微阵列技术已成为生物学研究的中心工具,识别具有相似表达模式的基因组是分析基因表达数据的关键步骤。传统的聚类算法将表达式矩阵划分为覆盖整个条件集的子矩阵,使所有条件的权重相等。然而,对于特定的生物学问题,假设所有基因在所有条件下都具有相似的行为可能过于严格。为了说明这一点,双聚类方法同时在两个维度上进行分组:基因和条件。这允许找到在一个子集条件下表现出相同反应的基因亚组,例如,如果细胞过程仅在这些条件下活跃。此外,如果一个基因参与了多种不同调控的途径,人们会期望该基因包含在多个簇中;这是传统集群无法实现的。

文献中提出了几种双聚类算法,每种算法在不同生物场景中的应用都有优缺点(马德拉和奥利维拉,2004年)。最近的一项比较研究表明,根据所研究的生物问题,双聚类方法在性能上存在显著差异(普雷利克., 2006)。由于每种算法都受特定数学问题公式的约束,因此不能期望单一方法适用于所有场景。因此,在实践中尝试不同的方法并选择能够提供最佳结果的算法是有用的。虽然一些拟议的双聚类算法可以实现,但每个程序可能会附带不同的用户界面,并使用不同的输入和输出格式,这反过来又使几种方法的应用成为一项耗时的任务。据我们所知,Desireable是一个软件工具,它在一个公共框架内提供不同的双集群方法,目前还没有这样的工具。BicAT试图填补这一空白,并提供以下功能:

  • 数据处理:树形结构的数据处理,允许(1)访问所有分析步骤,以及(2)双聚类和过滤结果的数据导出

  • 数据预处理:规范化(日志2,以平均值为中心)和离散化

  • 聚类:五种双聚类算法和两种传统聚类算法

  • 数据可视化:双星团的热图和剖面可视化

  • 后处理:分析基因对出现情况以导出基因互连图

在下文中,将分别针对上述各个方面描述该工具的主要特征。

数据处理。所有数据,无论是从外部文件加载的整个基因表达矩阵,还是由特定双聚类算法生成的子矩阵集,都组织在图形用户界面左侧面板中描述的树结构中。图1。加载的数据集构成树的顶层层次结构。第二个层次结构是由聚类、搜索和筛选过程以及生成的双聚类列表建立的。此结构允许访问每个执行的分析步骤,这特别有用,例如用于比较不同的集群运行。每个搜索和筛选操作都会生成一个新的双簇列表,可以在接下来的分析步骤中进一步检查或导出到文件中。

图1

BicAT软件的图形用户界面。左侧的窗口以树状结构显示加载的数据集和执行的分析步骤。右侧的面板显示了表达式矩阵的热图视图,其中所选的双簇以黄色框显。

数据预处理。输入数据文件可以是任何选项卡分隔的文本文件,包括基因和条件的注释。加载的基因表达数据可以通过归一化和离散化进行转换。对于规范化,日志2或者可以计算出原始值的平均中心;可以基于用户定义的阈值对上调、下调或互补表达模式执行离散化。

聚类方法BicAT实现了以下双聚类方法:(1)Cheng和Church基于均方残差得分的算法(Cheng和Church,2000年); (2) 搜索表示不动点的子矩阵的迭代签名算法(伊梅尔斯., 2002,2004); (3) 序表示子矩阵算法,它试图识别大的子矩阵,对于这些子矩阵,列的诱导线性顺序对于所有行都是相同的(Ben-Dor公司., 2003); (4) xMotif算法,一种迭代搜索方法,用于寻找具有准常量表达式值的双聚类(穆拉里和卡西夫,2003年); (5) Bimax是一种基于分治策略的精确双聚类算法,能够在相应的基于图形的矩阵表示中找到所有最大双链(普雷利克., 2006)。此外,还有两个标准的聚类过程,即层次聚类和K(K)-意味着聚类。

可视化。表达式矩阵显示为热图。条件注释沿顶部排列,基因注释列在左侧。鼠标单击heatmap中的任意矩形,即可显示特定数据点的注释。双簇可以通过两种不同的方式可视化:(1)在热图中,或(2)作为基因表达谱的集合。关于第一种可能性,热图的重新排列方式是,定义所考虑的双簇的基因和条件出现在图的左上角,图1或者,双集群的表达式视图,图2,显示在双簇中分组的那些基因的配置文件。这里,对于每个基因,一条彩色线连接不同条件下的表达值。注意,表达式视图显示了所有条件;双星簇中包含的条件用竖条标记。在表达谱的帮助下,生物学家可以评估特定双簇的相关性。

图2

查看所选双簇基因的表达谱。彩色曲线代表集群中的单个基因。右侧竖直的黑色条表示双星团中包含的条件。红线表示离散化阈值。

后处理为了进一步研究,BicAT提供了进行基因对分析的可能性,该分析总结了双聚类的整体结果。特别是,对于每对基因,计算出这些基因在同一个双簇中同时出现的频率。这种共现数量表明哪些基因可能在功能上相关。生成的具有相应计数的基因-基因矩阵可以导出,以便进一步可视化和使用外部工具推导基因互连图,例如EBI UK的BioLayout(Enright和Ouzounis,2001年).

作者要感谢苏黎世联邦理工学院逆向工程小组的所有成员进行了宝贵的讨论并提出了宝贵的建议。A.P.、S.B.和P.Z得到了保利项目TH-8/02-2下苏黎世联邦理工学院SEP项目的支持。Simon Barkow得到了欧盟玛丽·居里研究培训网络SY-STEM的支持。

利益冲突:未声明。

参考文献

Ben-Dor公司
答:。
发现基因表达数据中的局部结构:顺序保护子矩阵问题
J.计算。生物学。
2003
,卷。 
10
(第
373
-
384
)
年。
教堂
总经理。
表达式数据的双聚类
程序。国际竞争情报。系统。分子生物学。
2000
,卷。 
8
(第
93
-
103
)
恩赖特
A.J.公司。
Ouzounis公司
首席执行官。
BioLayout——一种用于相似性可视化的自动图形布局算法
生物信息学
2001
,卷。 
17
(第
853
-
854
)
伊梅尔斯
J。
揭示酵母转录网络中的模块化组织
自然遗传学。
2002
,卷。 
31
(第
370
-
377
)
伊梅尔斯
J。
使用大规模基因表达数据定义转录模块
生物信息学
2004
,卷。 
20
(第
1993
-
2003
)
马德拉
美国。
奥利维拉
答:。
生物数据的双聚类算法
IEEE/ACM传输。计算。生物信息。
2004
,卷。 
1
(第
24
-
45
)
穆拉里
总经理。
卡西夫
美国。
从基因表达数据中提取保守的基因表达基序
派克靴。交响乐团。生物计算机。
2003
,卷。 
8
(第
77
-
88
)
普雷利克
答:。
基因表达数据双聚类方法的系统比较与评价
生物信息学
2006
,卷。 
22
(第
1122
-
1129
)

作者注释

副主编:Thomas Lengauer