摘要

总结:BiVisu是一个开源软件工具,用于检测和可视化嵌入在基因表达矩阵中的双聚类。通过使用适当的相干关系,BiVius可以检测常量、恒速、恒列、加法相关以及乘法相关双聚类。然后在二维设置下显示双聚类结果,以便于检查。特别是,显示了每个双聚类的平行坐标(PC)图,从中可以进行客观和主观的聚类质量评估。

可利用性:BiVisu是在Matlab中开发的,可在http://www.eie.polyu.edu.hk/~nflaw/双聚类/

联系人: k.o.cheng@pulu.edu.hk

1简介

双聚类旨在检测微阵列实验中获得的基因表达矩阵中的共同调控基因。与基于整个基因或条件集划分数据的经典聚类方法不同,双聚类将基因子集(行)分组到条件子集(列)上。因此,可以确定在某些生物过程中共同调控的基因。众所周知,双聚类过程是NP-完全的(马德拉和奥利维拉,2004)因此,一个高效但可靠的双聚类工具是非常理想的。几种有效的方法(Cheng和Church,2000; 等。,2002; Yoon公司等。,2005)已被提议用于检测与加法相关的双簇。如果处理表达式数据的对数值,这些方法可以应用于乘法模型。然而,当存在噪声时,结果会恶化。除了双聚类检测之外,通常还需要一种有效的方法来可视化高维双聚类。为了将双聚类检测与可视化相结合,在BiVisu软件工具中实现了一种使用平行坐标(PC)图的新型双聚类算法。

2方法和实施

双聚类软件BiVisu基于使用PC图表示数据矩阵(Inselberg和Dimsdale,1990; 韦格曼,1990). 在PC绘图中,所有轴在一个平面中相互平行绘制。主要问题是,如果轴排列不当,双簇会隐藏在PC图中。然而,一旦轴排列正确,就可以看到双簇。我们提出了一种用于双聚类检测的拆分和合并算法。网页中提供了该算法的概述。

在BiVisu中,首先通过比较每两列来执行行聚类,然后确定每列对中的潜在行聚类。然后将这些行簇相交,以识别可以合并在一起形成大双簇的列对。请注意,如果在将某些列合并到当前双簇后,行数显著减少,则不会执行交集过程。找到的双聚类类型取决于列的比较方式。如果通过计算表达水平的差异来比较列对,则会发现与加法相关的双聚类。如果通过计算列对的表达式级别比率来比较列对,则会发现与乘法相关的双簇。

BiVisu是在Matlab中开发的。除了双聚类检测,BiVisu还提供预处理、过滤和双聚类分析功能。详情如下:,双聚类分析:可视化双聚类的主要工具是PC图。BiVisu允许逐个导航双集群。除了原始的表达值外,可分别为加法模型和乘法模型提供显示差异矩阵和比率矩阵的选项,以便可以主观地判断每个双聚类中基因的一致性。为了进行比较,可以绘制双簇内和/或外的基因。除了PC绘图外,还包括一种称为热图的常用可视化工具。均方残差得分(MSRS)(Cheng和Church,2000)和平均相关值(ACV)(Teng和Chan,2006)作为连贯性的客观度量提供。其他可用信息包括双簇大小、基因名称和条件。检测到的双聚类和所有摘要信息都可以保存为文本文件。

  • 预处理:用户可以决定输入数据是否需要对数函数。对数对于使用为加法模型设置的条件检测乘法相关的双簇是必要的。

  • 双聚类:这将执行双集群检测。用户选择要检测的双聚类类型,可以是加性模型,也可以是乘性模型。对于这两种模型,需要指定两个强制参数和两个可选参数。两个必需参数是噪声阈值和双集群中行的最小百分比。噪声阈值控制双集群中条件子集上基因的一致性。如果特定表达式级别和簇质心之间的差异小于噪声阈值,则认为它在簇中。双集群中的最小行百分比是增长双集群的停止标准,也是有效双集群的预设要求。这两个可选参数指定了有效双簇的另外两个要求,即双簇中的最小条件数(列)和检测到的双簇之间允许的最大重叠百分比。后者设置了两个双簇之间可以重叠的行和列的最大百分比的上限。适当的设置可以避免不必要的处理并减少处理时间。

  • 过滤:可以根据以下条件筛选双聚类:允许的最小行数、最小列数、最大双聚类数和最大重叠百分比。过滤可以在不重新执行昂贵的双聚类过程的情况下细化结果。

3结果

BiVisu程序应用于酿酒酵母细胞周期数据集(Cheng和Church,2002),该数据集由2884个基因和17种条件组成,用于演示。它在装有英特尔奔腾4 2.4 GHz CPU的计算机上运行在Matlab 6.5上。图1a显示了BiVisu程序的图形用户界面。可以从菜单栏访问预处理、模型选择、过滤和显示选项等主要功能。左面板中给出了有关单个双聚类和总体结果的统计信息。所选双集群的PC图显示在右侧面板中。PC图下方是单个双集群的导航界面。一个单独的PC图显示了所选双簇中的基因和外部基因,如图所示图1b.该图有助于比较当前双簇中基因和其他基因的表达水平。对于加性模型,双簇中的最小行百分比、噪声阈值、最小列数和允许的最大重叠百分比分别为0.6、4、6和80。检测到113个双聚类,平均MSRS为0.013751,平均ACV为1。这些值和双聚类的PC图显示,每个检测到的双聚类具有高度的同质性。对于乘法模型,使用与加法模型相同的设置,发现97个双聚类,平均MSRS(对数值)为0.003613,平均ACV为0.9996,但噪声阈值为0.025。加法模型和乘法模型的处理时间分别为~70和80秒。

图1。

()BiVisu软件的主窗口。可以从菜单栏访问核心功能。左侧面板显示有关双聚类结果的信息,而右侧面板显示当前所选双聚类的PC图。(b条)一个单独的窗口,显示当前选定的双簇条件下所有基因的PC图。选定双簇中的基因为绿色,而不在选定双簇内的基因为蓝色。

4结论

描述了一种称为BiVisu的开源软件工具,用于从基因表达矩阵中检测和可视化双聚类。该程序适用于加法模型和乘法模型。PC图用作每个检测到的双集群的可视化工具。结合均方残差得分和平均相关值,可以实现对双聚类同质性的主观和客观判断。面板中提供了每个检测到的双星簇的统计信息和PC图,以便于进一步分析。使用酵母数据集证明了BiVisu的有效性。

致谢

这项工作得到了香港理工大学电子与信息工程系信号处理中心的支持。郑国浩(K.O.Cheng)感谢大学提供的研究生奖学金。

利益冲突:没有声明。

参考文献

Y(Y)
教堂
总经理
表达式数据的双聚类
程序。国际竞争情报。系统。分子生物学
2000
(第
93
-
103
)
Inselberg公司
A类
梅斯代尔
B类
平行坐标:可视化多维几何的工具
程序。视觉
1990
(第
361
-
378
)
马德拉
联合国安全理事会
奥利维拉
美国铝业公司
生物数据分析的双聚类算法综述
IEEE/ACM传输。计算。生物信息学
2004
,卷。 
1
(第
24
-
45
)
L(左)
LW公司
加权相关系数交替排序双聚类基因表达谱
程序。IEEE国际研讨会机器。学习。信号处理
2006
(第
289
-
294
)
H(H)
基于模式相似性的大数据集聚类
程序。ACM SIGMOD Int.Conf.管理数据
2002
(第
394
-
405
)
韦格曼
EJ公司
使用平行坐标进行超维数据分析
美国统计协会
1990
,卷。 
85
(第
664
-
675
)
Yoon公司
S公司
利用零抑制二元决策图从基因表达数据中发现相干双聚类
IEEE/ACM传输。计算。生物信息学
2005
,体积。 
2
(第
339
-
354
)

作者注释

副主编:Olga Troyanskaya

这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/2.0/uk/)它允许在任何媒体上无限制地非商业性使用、分发和复制原始作品,前提是正确引用了原始作品。

补充数据