BicAT: a biclustering analysis toolbox

Barkow, Simon; Bleuler, Stefan; Prelić, Amela; Zimmermann, Philip; Zitzler, Eckart

doi:10.1093/bioinformatics/btl099

摘要

总结：除了层次聚类等经典聚类方法外，近年来，双聚类已成为分析生物数据集（例如基因表达数据）的一种流行方法。双聚类分析工具箱（BicAT）是一个用于基于聚类的数据分析的软件平台，它根据通用图形用户界面集成了各种双聚类和聚类技术。此外，BicAT为数据准备、检查和后处理提供了不同的设施，例如离散化、根据特定标准过滤双聚类或进行基因对分析以构建基因互连图。在单个图形工具中使用不同的双聚类算法的可能性允许用户比较聚类结果并选择最适合特定生物场景的算法。该工具箱在基因表达分析的上下文中进行了描述，但也适用于其他类型的数据，例如，来自蛋白质组学或合成致死实验的数据。

可利用性：BicAT工具箱可从以下网址免费获得：作者网页并在所有操作系统上运行。该网站还提供了该程序的Java源代码和开发人员指南。因此，用户可以修改程序并添加进一步的算法或扩展。

联系人： barkow@tik.ee.ethz.ch

微阵列技术已成为生物学研究的中心工具，识别具有相似表达模式的基因组是分析基因表达数据的关键步骤。传统的聚类算法将表达式矩阵划分为覆盖整个条件集的子矩阵，使所有条件的权重相等。然而，对于特定的生物学问题，假设所有基因在所有条件下都具有相似的行为可能过于严格。为了说明这一点，双聚类方法同时在两个维度上进行分组：基因和条件。这允许找到在一个子集条件下表现出相同反应的基因亚组，例如，如果细胞过程仅在这些条件下活跃。此外，如果一个基因参与了多种不同调控的途径，人们会期望该基因包含在多个簇中；这是传统集群无法实现的。

文献中提出了几种双聚类算法，每种算法在不同生物场景中的应用都有优缺点(马德拉和奥利维拉，2004年)。最近的一项比较研究表明，根据所研究的生物问题，双聚类方法在性能上存在显著差异(普雷利克等., 2006)。由于每种算法都受特定数学问题公式的约束，因此不能期望单一方法适用于所有场景。因此，在实践中尝试不同的方法并选择能够提供最佳结果的算法是有用的。虽然一些拟议的双聚类算法可以实现，但每个程序可能会附带不同的用户界面，并使用不同的输入和输出格式，这反过来又使几种方法的应用成为一项耗时的任务。据我们所知，Desireable是一个软件工具，它在一个公共框架内提供不同的双集群方法，目前还没有这样的工具。BicAT试图填补这一空白，并提供以下功能：

数据处理：树形结构的数据处理，允许（1）访问所有分析步骤，以及（2）双聚类和过滤结果的数据导出
数据预处理：规范化（日志₂，以平均值为中心）和离散化
聚类：五种双聚类算法和两种传统聚类算法
数据可视化：双星团的热图和剖面可视化
后处理：分析基因对出现情况以导出基因互连图

在下文中，将分别针对上述各个方面描述该工具的主要特征。

数据处理。所有数据，无论是从外部文件加载的整个基因表达矩阵，还是由特定双聚类算法生成的子矩阵集，都组织在图形用户界面左侧面板中描述的树结构中。图1。加载的数据集构成树的顶层层次结构。第二个层次结构是由聚类、搜索和筛选过程以及生成的双聚类列表建立的。此结构允许访问每个执行的分析步骤，这特别有用，例如用于比较不同的集群运行。每个搜索和筛选操作都会生成一个新的双簇列表，可以在接下来的分析步骤中进一步检查或导出到文件中。

图1

新标签中打开下载幻灯片

BicAT软件的图形用户界面。左侧的窗口以树状结构显示加载的数据集和执行的分析步骤。右侧的面板显示了表达式矩阵的热图视图，其中所选的双簇以黄色框显。

数据预处理。输入数据文件可以是任何选项卡分隔的文本文件，包括基因和条件的注释。加载的基因表达数据可以通过归一化和离散化进行转换。对于规范化，日志₂或者可以计算出原始值的平均中心；可以基于用户定义的阈值对上调、下调或互补表达模式执行离散化。

聚类方法BicAT实现了以下双聚类方法：（1）Cheng和Church基于均方残差得分的算法(Cheng和Church，2000年); （2）搜索表示不动点的子矩阵的迭代签名算法(伊梅尔斯等., 2002,2004); （3）序表示子矩阵算法，它试图识别大的子矩阵，对于这些子矩阵，列的诱导线性顺序对于所有行都是相同的(Ben-Dor公司等., 2003); （4） xMotif算法，一种迭代搜索方法，用于寻找具有准常量表达式值的双聚类(穆拉里和卡西夫，2003年); （5） Bimax是一种基于分治策略的精确双聚类算法，能够在相应的基于图形的矩阵表示中找到所有最大双链(普雷利克等., 2006)。此外，还有两个标准的聚类过程，即层次聚类和K（K）-意味着聚类。

可视化。表达式矩阵显示为热图。条件注释沿顶部排列，基因注释列在左侧。鼠标单击heatmap中的任意矩形，即可显示特定数据点的注释。双簇可以通过两种不同的方式可视化：（1）在热图中，或（2）作为基因表达谱的集合。关于第一种可能性，热图的重新排列方式是，定义所考虑的双簇的基因和条件出现在图的左上角，图1或者，双集群的表达式视图，图2，显示在双簇中分组的那些基因的配置文件。这里，对于每个基因，一条彩色线连接不同条件下的表达值。注意，表达式视图显示了所有条件；双星簇中包含的条件用竖条标记。在表达谱的帮助下，生物学家可以评估特定双簇的相关性。

图2

新标签中打开下载幻灯片

查看所选双簇基因的表达谱。彩色曲线代表集群中的单个基因。右侧竖直的黑色条表示双星团中包含的条件。红线表示离散化阈值。

后处理为了进一步研究，BicAT提供了进行基因对分析的可能性，该分析总结了双聚类的整体结果。特别是，对于每对基因，计算出这些基因在同一个双簇中同时出现的频率。这种共现数量表明哪些基因可能在功能上相关。生成的具有相应计数的基因-基因矩阵可以导出，以便进一步可视化和使用外部工具推导基因互连图，例如EBI UK的BioLayout(Enright和Ouzounis，2001年).

作者要感谢苏黎世联邦理工学院逆向工程小组的所有成员进行了宝贵的讨论并提出了宝贵的建议。A.P.、S.B.和P.Z得到了保利项目TH-8/02-2下苏黎世联邦理工学院SEP项目的支持。Simon Barkow得到了欧盟玛丽·居里研究培训网络SY-STEM的支持。

利益冲突：未声明。

参考文献

Ben-Dor公司

答：。

等

发现基因表达数据中的局部结构：顺序保护子矩阵问题

,

J.计算。生物学。

,

2003

，卷。

10

（第

373

-

384

)

程

年。

,

教堂

总经理。

.

表达式数据的双聚类

,

程序。国际竞争情报。系统。分子生物学。

,

2000

，卷。

8

（第

93

-

103

)

恩赖特

A.J.公司。

,

Ouzounis公司

首席执行官。

.

BioLayout——一种用于相似性可视化的自动图形布局算法

,

生物信息学

,

2001

，卷。

17

（第

853

-

854

)

伊梅尔斯

J。

等

揭示酵母转录网络中的模块化组织

,

自然遗传学。

,

2002

，卷。

31

（第

370

-

377

)

伊梅尔斯

J。

等

使用大规模基因表达数据定义转录模块

,

生物信息学

,

2004

，卷。

20

（第

1993

-

2003

)

马德拉

美国。

,

奥利维拉

答：。

.

生物数据的双聚类算法

,

IEEE/ACM传输。计算。生物信息。

,

2004

，卷。

1

（第

24

-

45

)

穆拉里

总经理。

,

卡西夫

美国。

.

从基因表达数据中提取保守的基因表达基序

,

派克靴。交响乐团。生物计算机。

,

2003

，卷。

8

（第

77

-

88

)

谷歌学者

OpenURL占位符文本

书目数据库

普雷利克

答：。

等

基因表达数据双聚类方法的系统比较与评价

,

生物信息学

,

2006

，卷。

22

（第

1122

-

1129

)

作者注释

副主编：Thomas Lengauer

下载所有幻灯片

月份：	总浏览次数：
2016年11月	8
2016年12月	8
2017年1月	19
2017年2月	32
2017年3月	33
2017年4月	16
2017年5月	16
2017年6月	15
2017年7月	21
2017年8月	10
2017年9月	14
2017年10月	23
2017年11月	9
2017年12月	80
2018年1月	75
2018年2月	55
2018年3月	55
2018年4月	56
2018年5月	76
2018年6月	56
2018年7月	58
2018年8月	62
2018年9月	40
2018年10月	54
2018年11月	51
2018年12月	56
2019年1月	39
2019年2月	74
2019年3月	55
2019年4月	95
2019年5月	70
2019年6月	59
2019年7月	79
2019年8月	55
2019年9月	53
2019年10月	34
2019年11月	42
2019年12月	41
2020年1月	31
2020年2月	33
2020年3月	48
2020年4月	23
2020年5月	31
2020年6月	38
2020年7月	29
2020年8月	32
2020年9月	26
2020年10月	32
2020年11月	19
2020年12月	23
2021年1月	22
2021年2月	33
2021年3月	32
2021年4月	42
2021年5月	23
2021年6月	34
2021年7月	39
2021年8月	35
2021年9月	39
2021年10月	68
2021年11月	68
2021年12月	37
2022年1月	55
2022年2月	38
2022年3月	65
2022年4月	49
2022年5月	45
2022年6月	45
2022年7月	57
2022年8月	58
2022年9月	77
2022年10月	68
2022年11月	54
2022年12月	27
2023年1月	18
2023年2月	48
2023年3月	42
2023年4月	38
2023年5月	42
2023年6月	39
2023年7月	38
2023年8月	32
2023年9月	24
2023年10月	17
2023年11月	27
2023年12月	34
2024年1月	29
2024年2月	38
2024年3月	53
2024年4月	43
2024年5月	32

文章内容

BicAT：双聚类分析工具箱

摘要

参考文献

作者注释

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新的

阅读次数最多

被引用次数最多

寻找你的下一个机会？

文章内容

BicAT：双聚类分析工具箱

摘要

参考文献

作者注释

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新的

阅读次数最多

被引用次数最多

寻找你的下一个机会？

此功能仅对订阅服务器可用