摘要
1简介
双聚类是一种经常用于探索微阵列数据的无监督数据分析方法。双聚类算法处理表达谱集合,以识别在某些条件下共同表达的基因组(样本)。我们将这些组称为模块。虽然有大量的双聚类软件可供使用[查看和比较请参见(伊梅尔斯和伯格曼,2004; 马德拉和奥利维拉,2004; 普雷利奇等。,2006)],具有直观界面的包很少,这些包允许对结果进行交互式探索。
现有方法包括Bivisu(Cheng等。,2007)和BicOverlaper(桑塔马利亚等。,2008). 前者是一个交互式双聚类程序,单独绘制模块,因此很难确定重叠模块之间的关系。后者是在抽象空间中绘制重叠模块的一种新工具。我们在ExpressionView中的方法是不同的,因为我们使用通常的基因样本空间,并在重新排序的表达式矩阵之上将所有模块可视化。重新排序确保出现在同一模块中的基因和样本保持在一起。
2包装设计和工作流程
使用ExpressionView包,双集群分析可以分为两部分。第一部分涉及使用某种算法在数据集中查找模块,可能对模块运行富集分析,并根据模块重新排列表达式矩阵的行和列。这一部分通常由生物信息学家完成。分析的第二部分涉及对结果的可视化和交互式探索。这一部分通常由缺乏广泛编程知识的研究人员完成。
ExpressionView的第一部分是用GNU R(R Development Core Team,2009)并包含矩阵重排序算法的实现。第二部分是Adobe Flash applet形式的交互式可视化工具,用户只需要一个支持Flash的web浏览器。
这种双重实现的优点是,GNU R环境和BioConductor(绅士等。,2004)软件包可用于分析本身,例如,由BioConductor支持的所有生物体都自动由ExpressionView支持。另一方面,对结果的探索不需要任何GNU R知识,在大多数情况下也不需要安装额外的软件。请参阅图1用于典型的ExpressionView工作流。
图1。
ExpressionView的工作流,显示了分析的两个部分。(A)这些步骤由生物信息学家使用GNU R执行。从生物导体形式的基因表达数据开始表达式集,第一步是找到模块。在第二步中,基因表达矩阵的行和列被重新排列,以生成易于阅读的结果概述。最后一步是将基因表达数据及其相关元数据(可能包括富集分析结果)与双聚类结果相结合,并生成ExpressionView数据文件。(B)最终用户可以使用交互式Flash小程序分发并最终浏览此文件。有关数据文件格式的详细信息,请参阅网站。
2.1基因和条件的重新排序
ExpressionView旨在以生物导体的形式处理基因表达数据表达式集。此类提供了一种用户友好的方式来访问实际的基因表达矩阵及其相关元数据。ExpressionView可以处理通过迭代签名算法(Bergmann等。,2003; 卡迪等。,2010)以及Biclust软件包中可用的任何方法(Kaiser和Leisch,2008). 由于双聚类结果的结构与算法无关,因此可以直接扩展到其他方法。
为了以视觉上吸引人的形式呈现可能重叠的模块集合,有必要对基因表达矩阵的行(条件)和列(基因)进行重新排序,使双簇形成连续的矩形。由于通常不可能为两个以上相互重叠的模块找到这样的安排,因此我们在此提出一个近似解决方案,通过最大化最大连续模块子集的总面积来优化原始数据中的安排。[另一种方法是根据需要重复行和列(格罗斯等。,2006),但对于许多模块来说,这会产生非常大的表达式矩阵。]
这个优化任务本身就是一个有趣的问题,据我们所知,文献中还没有对其进行研究。我们在这里简要概述了我们的战略(详见我们的网站)。行的重新排序与列的重新排序无关,因此可以对行和列分别应用相同的优化方法。对于给定的元素顺序(基因或条件),我们为每个模块进行计算我最大相邻元素序列的大小(即相邻元素的最大数量N个最大值我). 然后,作为质量的衡量标准(问)在订单中,我们对所有模块的数量求和(问= ∑我N个最大值我). 要优化问,使用层次聚类计算初始序列。然后对其应用两个操作:(i)交换模块内两个元素的排列,以及(ii)将同一模块的多个元素序列移动到不同位置。我们使用贪婪的迭代方案,在所有可能的位置执行这些操作,如果改进,则保持最佳的新序列问。如果在给定的操作次数后问实现了。
我们已经研究了大量完全可排序但最初混乱的测试用例。我们发现,该算法找到的顺序恢复了>99%的最优解得分,并且在大多数情况下,它恢复了正确的对齐。对于更能代表实际基因表达数据的随机样本,执行时间随簇数多项式增加米作为𝒪(米α),其中α∈[1.6,2],几乎与元素数无关n个。对于给定数量的簇,我们发现𝒪(n个α),α∈[2.5,2.7]。
一旦确定了最佳顺序,程序就会相应地重新排列基因表达矩阵,并将所有相关信息导出到XML文件中,该文件可以放在web服务器上或通过电子邮件分发,然后由交互式查看器导入。
2.2可视化
查看器的屏幕截图如所示图1界面分为两部分:在左侧,用户以通用热图形式找到基因表达数据,在该热图上覆盖模块。在右侧,与表达式数据相关的元数据以及GO(Ashburner)的浓缩计算结果等。,2000)类别和KEGG(Kanehisa等。,2004)显示了路径。只要可能,这些元素都会链接到相应的数据库。该界面本质上表现为一个图像查看器,允许用户缩放和平移表达式数据,获取所选项目的即时反馈。
基金:瑞士生物信息学研究所、瑞士国家科学基金会(3100AO-116323/1);欧洲框架项目6(通过EuroDia和AnEuploidy项目)。
利益冲突:未声明。
参考文献
等基因本体:生物学统一的工具。基因本体联盟
, 自然遗传学。
, 2000
,卷。 25
(第25
-29
) 等用于大规模基因表达数据分析的迭代签名算法
, 物理学。版本E
, 2003
,卷。 67
第页。 031902
等BiVisu:用于双集群检测和可视化的软件工具
, 生物信息学
, 2007
,卷。 23
(第2342
-2344
) 等基因表达数据的R模块化分析
, 生物信息学
, 2010
,卷。 26
(第1376
-1377
) 等生物导体:计算生物学和生物信息学的开放软件开发
, 基因组生物学。
, 2004
,卷。 5
第页。 80兰特
等双簇的自动布局和可视化
, 算法分子生物学。
, 2006
,卷。 1
第页。 15
, . 大规模基因表达数据分析的挑战与展望
, 简介。生物信息。
, 2004
,卷。 5
(第313
-327
) , . . R中双聚类分析的工具箱
, Compstat 2008年计算统计论文集
, 2008
德国海德堡Physia
慕尼黑大学
(第201
-208
) ,等人破译基因组的凯格资源
, 核酸研究。
, 2004
,卷。 32
数据库问题
(第277
-280
) , . 生物数据分析的双聚类算法研究综述
, IEEE/ACM传输。计算。生物信息。
, 2004
,卷。 1
(第24
-45
) 等基因表达数据双聚类方法的系统比较与评价
, 生物信息学
, 2006
,卷。 22
(第1122
-1129
) R开发核心团队
, R: 统计计算语言和环境。
, 2009
奥地利维也纳
R统计计算基金会
等BicOverlapper:一个用于双集群可视化的工具
, 生物信息学
, 2008
,卷。 24
(第1212
-1213
)
作者注释
©作者2010。牛津大学出版社出版。保留所有权利。有关权限,请发送电子邮件至:journals.permissions@oxfordjournals/org