跳到主要内容

BicPAM:用于生物医学数据分析的基于模式的双聚类

摘要

背景

双聚类(Biclustering)是指在一组条件中发现具有一致模式的对象集,是研究一系列生物医学问题的关键任务,其中分子单位或患者与一组属性有着重要的关联。这项任务具有挑战性的组合性质,导致了对允许的双聚类类型、数量和质量有限制的方法的发展。相比之下,最近依靠模式挖掘方法的双聚类方法可以彻底发现鲁棒双聚类的灵活结构。然而,这些方法只准备发现恒定的双簇,它们的潜在贡献仍然是分散的。

方法

拟议的BicPAM双聚类方法将最先进的基于模式的方法提供的现有原则与两个新贡献结合在一起。首先,BicPAM是第一次有效地挖掘非恒定类型双簇的尝试,包括对称性存在或不存在时的相加相乘相干性。其次,BicPAM提供了有效组合不同双簇结构的策略,并通过离散化过程处理数据固有的任意级别的噪声。

结果

结果表明,BicPAM相对于其同行具有优势,能够检索独特类型的感兴趣的双聚类,高效地提供详尽的解决方案,并成功地恢复具有不同丢失值和噪声水平的数据集中种植的双聚类。它在基因表达数据上的应用导致了具有更高生物相关性的独特解决方案。

结论

BicPAM方法整合了基于模式的双聚类的现有分散工作,并提供了第一个关键策略,以有效地发现具有不同质量和基础结构的移位、缩放和对称假设的双聚类穷尽解。此外,BicPAM动态调整其行为,以挖掘具有不同级别缺失值和噪声的数据。

介绍

双聚类是一种局部聚类方法,它寻求找到子矩阵(双聚类),即在列子集上具有高度相关表达模式的行子集。双聚类已广泛应用于基因表达数据分析[1],因为小组基因可以参与多个细胞过程或感兴趣的途径,这些过程或途径可能只在分析的条件子集中活跃。双聚类也被应用于群体突变和拷贝数变异[2],分析生物网络[],并学习翻译[4],化学[5]或营养数据[6].

双聚类涉及到困难的组合优化。特别是,当允许行和列参与多个双集群(非聚集结构)和完全不参与双集群(不穷尽结构)时,其复杂性会增加。因此,大多数现有算法要么基于贪婪方法,要么基于随机方法[1],[2],[7],[8],可能产生次优解决方案,或找到约束数量、结构或类型的双聚类[1],[2],[9].

使用模式挖掘技术解决双聚类问题的最新尝试允许进行详尽且灵活的搜索,并显示出稳定的效率水平[10],[11]. 模式挖掘研究是由可伸缩性需求驱动的[12],为执行双聚类打开了一个关键方向。有趣的是,现有的基于模式的双聚类方法–例如BiModule[13],德比[10]、RAP[14]和GenMiner[15]–为该领域提供感兴趣的补充原则。然而,这些原则尚未整合。此外,现有方法仅发现具有恒定轮廓的双聚类[10],[13],[14]和无法处理缺失的值或中到高级别的噪声。本工作旨在通过提出一种基于模式的双聚类方法BicPAM来针对这些局限性,该方法能够将最先进的基于模式的方法的现有潜力与两个重要的新贡献结合起来:

灵活的穷举解:任意数量(潜在重叠)的双簇,使用多个值范围进行加性、乘法和对称假设;

动态调整双聚类行为以处理不同级别的噪声和缺失值。

据我们所知,这是第一种能够支持并结合这两种贡献的双集群方法。这些贡献的重要性在合成和生物数据上得到了实验证明。此外,在合成数据集和实际数据集上的实验结果证明了BicPAM中提出的基于模式的双聚类算法的效率和有效性。

本文组织如下。背景涵盖了双聚类和模式挖掘的基本概念,并调查了现有基于模式的双聚类方法的贡献。BicPAM:基于模式的双聚类描述了所提出的算法。结果,我们评估了BicPAM在合成数据和实际数据上的表现。最后,综合了这项工作的贡献和影响。

背景

本节介绍了双聚类和模式挖掘的基本概念,并综述了基于模式的双聚类的相关工作。

定义 1.

给定一个矩阵,一个=(X(X),Y(Y)),具有一组行X(X)={x个1,..,x个 n个 },列Y(Y)={1,.., }、和元素 ij公司 相关行和列j个:

一个双团簇 B类=(,J型)是一个第页×的子矩阵一个,其中=(1,.., 第页 )X(X)是行的子集J型=(j个1,..,j个 )Y(Y)是列的子集;

这个双聚类任务就是识别一组双聚类={ B类 1 ,.., B类 第页 }这样每个双集群B类 k个 =( k个 ,J型 k个 )满足特定要求均匀性标准,其中 k个 X(X),J型 k个 Y(Y)、和k个.

解决双聚类任务的方法显式或隐式地依赖于价值函数来定义同质性标准。说明性函数是双聚类值的方差。优点函数既可以保证双聚类内的同质性,也可以保证双簇输出集的整体同质性(双聚类间同质性),或者两者兼而有之。当在特定搜索过程中组合时,优点函数用于定义双聚类解决方案的类型、质量和结构[1].

可以定义优点函数以局部最大化贪婪迭代搜索[7],[8],[16]–[19],以组合基于行和基于列的簇[20]–[22],递归利用矩阵[23],并对目标解进行随机建模[6],[24]. 在通常依赖于约束公式的穷举搜索中,价值函数是指导空间探索的启发式方法[9],[25].

1呈现了不同类型和结构的双团簇。双聚类可以遵循常量或更灵活的模型,行或列具有一致性[1]. 可使用基于δ-噪声偏移[17],[25],关于向量角余弦[21]或线性依赖的生成模型[2]. 具有对称性的双聚类可以通过微分双聚类方法发现[9],[26]而且很少有其他人[14]. 此外,格子呢[6]和订单保存[19]双星簇的类型也已被解决[27],[28]. 提出了多种双簇结构[1],一些方法将其限制为穷举、排他、非重叠结构,而其他方法则允许具有任意位置重叠双簇的更灵活结构[7].

图1
图1

说明性的双聚类类型和双聚类结构。

模式挖掘

模式是出现在数据集中的项集、规则或子结构,其频率不低于指定的阈值。找到模式对于从数据中导出关系至关重要。

定义 2.

设为一组有限的项,并且P(P)成为一个项目集P(P).A型交易 t吨是一对(t吨 身份证件 ,P(P))带有身份证件.一个项集数据库 over是有限的事务集{t吨1,..,t吨 n个 }.

定义 .

一笔交易(t吨 身份证件 ,P(P))包含P(P),表示P(P)(t吨 身份证件 ,P(P)),如果P(P)P(P). The新闻报道 Φ P(P) 项集的P(P)是D中所有事务的集合,其中itemsetP(P)发生:Φ P(P) ={t吨ŞP(P)t吨}. 这个支持项目集的P(P)在里面,表示 u个 第页 P(P) ,可以是绝对值,即其覆盖范围大小|Φ P(P) |,或由给出的相对阈值|Φ P(P) |/||.

定义 4.

给定项集数据库和最小支持阈值θ,的频繁项集(FIM)问题包括计算集合{P(P)ŞP(P), 啜饮 P(P) θ}.

一个频繁项集是具有的项集 u个 第页 P(P) θ。接受的模式是一个频繁项集,它满足以下任何其他放置的约束.

为了说明这些概念,请考虑以下项集数据库D ={(t1,{B,E,G}),(t2,{A,B,C,E,H,J}),(t,{A,B,D,H,J}),(t4,{D,H,J}),(t5,{A,H,J}),(t6,{A,G})}。我们有||=|{一个,..,J型}|=10, Φ { B类 , J型 } ={ t吨 2 , t吨 } u个 第页{B类,J型}=|{t吨2,t吨}|/6=0.(3). 对于θ=4,FIM任务返回{{一个},{H(H)}{J型},{H(H),J型}}.

自FIM提案以来[29]提出了多种扩展,从可伸缩的数据挖掘方法到多种浓缩和近似的模式表示。

定义 5.

给定项集矩阵,支持阈值θ,和覆盖函数Φ: 2 2 映射项目集的P(P)支持交易集:

常见项目集P(P)是一个满足|Φ(P(P))|≥θ;

一个关闭frequentitemset是一个没有具有相同支持的超集的频繁项集 P(P) P(P) | P(P) | < | P(P) | ;

一个最大frequency itemset是一个所有上标都不频繁的频繁项集, P(P) P(P) |Φ( P(P) )|<θ.

如果一个频繁项集的所有超集都是不频繁的,那么它就是最大的;如果它不是具有相同支持度的项集的子集,那么它是闭合的。考虑到前面引入的项目集数据库D ,给定阈值θ=3和|P(P)|≥2,有一个最大频繁项集({一个,H(H),J型})有两个闭合的频繁项集({一个,H(H),J型}和{H(H),J型}).

定义 6.

考虑两个项目集P(P) 2 P(P) 2 ,其中P(P)P(P)和谓词.单调的什么时候(P(P))(P(P))和反单调的何时(P(P))¬(P(P)).

这些属性是FIM的基础,无论是候选生成方法还是模式增长方法,都具有水平或垂直数据格式。

基于模式的双聚类

基于模式的双聚类方法中的同质性标准(定义1)是通过支持度和置信相关度量获得的。基于模式的方法允许进行高效且详尽的空间搜索,从而在灵活的结构中生成任意数量的双簇。

定义 7.

给定一个矩阵一个和最小支持阈值θ,一套双星团 k个 B类 k个 ,其中B类 k个 =( k个 ,J型 k个 ),可以从频繁项集集派生 k个 P(P) k个 通过任一映射( k个 , J型 k个 )=( Φ P(P) k个 , P(P) k个 )通过行上的一致性或映射来组成双聚类( k个 , J型 k个 )=( P(P) k个 , Φ P(P) k个 )在列上组成具有一致性的双簇。

基于模式的双聚类方法依赖于逐项化步骤,其中原始矩阵被转换为项集数据库,然后在低支持阈值下应用FIM方法。对于实值矩阵,应用了归一化和离散化程序。然后,将每个单元格的离散值与相应的列索引连接起来。目标项集数据库的每个事务都对应于具有这些新值的行。FIM应用于数据库以挖掘频繁模式,然后使用这些模式派生行上具有常量值的双聚类。列上的常量值可以使用转置矩阵进行挖掘。要找到更受约束的双聚类类型,例如整体常量值,需要分别挖掘每个项。2说明了如何使用频繁模式交付这种类型的双集群。

图2
图2

使用频繁项集挖掘发现跨行(a)、列(b)和整体元素(c)具有常量假设的双聚类。列标识符(y1,年2,年)与观测值{0,1,2,3}组合,并在参数化支持阈值下应用FIM(θ=2|P(P)|≥2)。可以使用转置矩阵挖掘列上的常量值。要找到具有常量值的整体双聚类,需要分别挖掘每个项。

虽然最先进的基于模式的双聚类方法遵循这种一般行为,但它们具有不同的结构特性,这些特性会影响输出的效率和质量。可以考虑两类基于PM-的双聚类方法:直接在离散矩阵上应用模式挖掘器的方法,以及通过自定义支持度量以数字矩阵为目标的方法。据我们所知,BiModule[13],德比[10],Bellay等人[30]和GenMiner[15]是第一类基于PM的双集群的最先进方法。BiModule[11],[13]允许对输入矩阵进行参数化多值项化,以使用LCM挖掘器发现从(封闭的)频繁模式导出的常量双聚类[31]. DeBi公司[10]使用MAFIA挖掘器从二值化矩阵上挖掘的(最大)频繁模式导出双聚类[32],并放置关键的后处理原则来调整双聚类,以确保其统计显著性。Bellay等人[30]使用带附加原理的Apriori挖掘器来评估所发现的双聚类对背景噪声的功能一致性。GenMiner公司[15]在输入矩阵中包含外部知识,以从关联规则中派生出双聚类,这些关联规则使用CLOSE将注释(行或列的外部分组)与来自(闭合的)频繁模式的行和列的计算聚类关联起来[33]. 尽管其他双聚类方法从这些先前的工作中获得了贡献[34],[35],如果核心挖掘任务不依赖FIM,我们不会将其称为基于PM的方法。

对于第二类方法,逐项化步骤是可选的[36]. 据我们所知,RAP[14],RCB发现[36]和ET-bicluster[37]是这方面最先进的方法。RAP公司[14]插入一个经过调整的基于范围的度量来挖掘行(或列)上的常量双聚类,而RCB发现的目标是总体上具有常量值的双聚类[36]. ET-bicluster扩展了以前的方法来发现有噪声的双簇,尽管不能保证对双簇进行详尽的枚举[37]. 文献中还提到了具有专用Apriori搜索的替代支持指标[38]–[40].

BicPAM:基于模式的双聚类

提出的基于模式的双聚类方法(BicPAM)是三个阶段的有序组合:映射,采矿(模式发现),以及关闭(或后处理)步骤。BicPAM的每一步都依赖于现有和新的原则。核心步骤是采矿步骤,对应于目标模式挖掘器的应用。这一步由考虑到的模式发现方法、目标模式和搜索属性驱动。这个映射步骤包括将实值矩阵逐项化为项集矩阵。该步骤由规范化和离散化标准驱动,可以使用不同的原则来处理离群值、数值或缺失元素。最后关闭步骤包括输出模式的后处理,以影响目标双聚类的结构和质量。阐明了BicPAM如何依赖于现有的基于模式的贡献,并指出了为每个步骤提出的新原则。

图3
图3

BicPAM的方法。BicPAM依赖于三个步骤来确定双聚类解决方案的类型、质量和结构。在每个步骤中,我们都会根据现有贡献制定可用的原则。此外,我们在每一步中提出了处理噪声的关键策略,容纳更灵活类型的双团簇(具有加法、乘法和对称性质),以及组成双团簇的替代结构。

可以有意定义同质性标准,以搜索双簇的特定类型和结构,并影响其质量。双星团类型解决方案取决于允许的一致性模式及其方向(行、列或整体)结构取决于双星团的数量、大小和位置,最后质量定义与单个双簇或一组双簇关联的允许噪声。

以下三节介绍了BicPAM。首先,我们描述了BicPAM的核心步骤(BicPAM大纲)。其次,我们进一步采用新方法来处理缺失值和任意高输入噪声水平(影响基于模式的双簇的质量)。最后,我们提出了进一步的算法解决方案,用于发现允许对称性并遵循加法和乘法假设的双簇(允许更灵活的双集群类型).

BicPAM大纲

本节通过采矿、测绘和闭合步骤的测量原理描述了BicPAM的结构行为。这些原则要么源于现有的基于模式的双聚类方法,要么源于模式挖掘领域的进展。

挖掘步骤

可以理解,非约束设置需要高效搜索,其中双簇的数量及其属性是未知的。在过去的几十年中,模式挖掘方法被调整为计算效率高。因此,它们在双聚类中的充分使用至关重要,主要取决于以下三点:1)所采用的基于模式的双聚类方法,2)目标模式表示,以及3)搜索策略。

1) 基于模式的方法

定义 8.

设一组有序项,双簇是子矩阵(,J型)一个及其元素 ij公司 定义模式配置文件。恒定的双星簇如下:i)一个总常数假设哪里 ij公司 =c(c)c(c),ii)基于列的常数假设哪里 ij公司 =c(c) j个 c(c) j个 ,或iii)基于行的常数假设哪里 ij公司 =c(c) c(c) .

.

通常情况下,基于模式的双聚类是在恒定假设下进行的。德比[10],双模块[13]或GenMiner[15]只针对这种类型的双星团。这些方法要么依赖于频繁项集挖掘(FIM),要么依赖于关联规则,这与传统方法不同[9],[18]. 支持阈值定义了双集群中的最小行数。在基因表达的背景下,低支持度至关重要,因为高表达一致性仅在少数基因组和条件下观察到。此外,可以执行对频繁项集的后修剪,以便过滤低于最小列数和高于最大行数和列数的频繁项集。

从逐项数据库的角度来看,基于FIM的双聚类是完美的双聚类,也就是说,它们不允许其任何元素中存在值变量。相比之下,从输入实值矩阵的角度来看,这些双聚类可以处理噪声,因为具有相同项目的两个元素在数字上可能距离很远。项目数量可用于控制噪声容限。然而,无论项目数量如何,当两个元素具有相似的实际值但分配的项目不同时,就会出现一个常见的缺点。我们把这个缺点称为项边界问题。

双模块[11]和DeBi[10]是典型的基于FIM的双聚类方法。由于它们的运行时间与贪婪算法相当,因此它们提供了一种处理噪声和重叠结构的简单方法[13]. 然而,项目边界问题可能导致将大型双簇划分为较小的双簇(许多双簇由于不再满足支持标准而被过滤)。

为了挖掘具有不同属性的频繁项集,可以重新定义项集支持的概念。RAP公司[14]使用定制的反单调范围支持价值函数。基于FIM的算法用于从实值矩阵中发现范围模式,而无需离散化。然而,效率会受到严重的惩罚。

基于模式的双聚类的另一个选项是从关联规则派生双聚类。关联规则是两个项集之间的隐含关系,它可以影响相应的双簇的属性,因为它限制行之间的置信度。或者,可以采用相关性度量来使用新的兴趣度标准来增强信任支持度量。GenMiner[15]使用关联规则组成双聚类。然而,只有在了解行(或列)之间的依赖关系时,才会优先采用关联规则,而不是基于FIM的方法。

BicPAM使用频繁项集作为双聚类的默认基于模式的选项。基于范围的方法仅适用于中小型数据集。最后,在存在领域知识(例如基因的功能组或对条件的依赖性)的情况下,BicPAM依赖关联规则来组成双聚类解决方案。

2) 模式表示法

目标模式表示主要取决于:1)双星簇的选定类型和结构,以及2)后处理需求。效率并不是一个强有力的标准,因为对于以约束表示为目标的方法,如封闭表示和最大表示,只会观察到细微的收益。

使用所有频繁项集会导致具有大量(潜在冗余)双簇的双簇解决方案(如果包含在另一个双簇中),这可能会降低挖掘和关闭步骤的性能。相反,使用最大项集会导致列大小最大化的双聚类。DeBi中采用了用于双聚类的最大项集[10]. 当需要执行一个扩展步骤来包含发现的双簇的新行时,这种扁平的双簇特别有趣。然而,由于避免了垂直和较小的双聚类,基于最大值的双聚类会导致不完整的解决方案,因为它们只是所有有效双聚类的子集。

最后,通过使用封闭项集,只有当特定双簇的列数减少导致行数增加时,我们才允许重叠双簇。请注意,要获得最大双簇–不需要删除行和列就无法扩展的双聚类–需要使用闭合模式而不是最大模式。基于FIM的BiModule[13]和基于规则的GenMiner[15]使用封闭项集作为组成双簇的方法。

BicPAM使用频繁的闭合模式作为默认表示。BicPAM中还提供了所有和最大频繁模式的集合。图中提供了不同类型的模式表示如何导致结构不同的双聚类解决方案的说明4.

图4
图4

使用频繁项集、最大频繁项集和闭频繁项集的双聚类解的比较。

3) 搜索策略

搜索设置的定义主要取决于:1)搜索与目标双聚类任务的匹配性,以及2)选择的实现。

是否使用Apriori-based的选择[41],图案增长[42]或组合方法[43],主要取决于数据集密度和固定的支持阈值。低支持阈值下的致密基质受益于模式生长或组合方法。选择是否使用具有垂直数据格式还是水平数据格式的挖掘方法[43]基本上取决于我们所瞄准的双簇的类型。如果我们想找到跨行或两个维度的常量值,我们通常会受益于对水平数据格式的搜索[35]. 对于基因总数大大超过疾病总数的大多数GE矩阵来说,这一点尤其正确。如果我们想跨列查找常量值(当n个>),应该选择垂直数据格式,因为基于性能搜索的水平格式会随着项目数量的增加而呈指数级下降。

针对每种搜索策略开发了几种算法。然而,应该仔细评估它们的属性,因为它们的性质大多针对特定的数据集集进行了优化。在DeBi[10],双模块[11]和GenMiner[15]双重聚集任务、黑手党[32]、LCM[31]和CLOSE[33]分别是算法选择。

BicPAM提供了FP-Growth的一个变体,用于跟踪每个频繁模式的事务集[44](默认选项),Charm[45],4月TID[41]和Eclat[43]. 最后,卡彭特[46]和科布勒[47]是BicPAM中的额外算法选择,用于组成具有大量列的双聚类和大规模数据集。

映射步骤

规范化通常需要使用技术来增强行和/或列之间的差异。已报告替代方法[34],[48]. BicPAM允许在行、列或整个矩阵的上下文中应用规范化标准。此外,它还提供了一个零位值,以允许对称性,并为概率分布的近似值提供简单设置。在存在缺失元素和异常元素的情况下,可以使用掩蔽位图将其从平均值和离散度度量的计算中排除。

离散化对于依赖项集数据库的基于模式的方法来说,是一个额外的关键步骤。尽管离散化可能意味着信息的丢失,但它缓解了噪音困境[26]这是为详尽搜索支付的成本。BicPAM提供了多个离散化选项,对目标解决方案具有关键影响。考虑两个轴:1)项目数量(也称为符号)和2)将标准化实值矩阵映射到项集数据库的target方法。增加项目数量通常用于提高质量,但它会降低双簇的平均大小和生成的双簇数量。在拜登进行了关于选择不同数量项目的影响的敏感性分析[34]和BiModule[13].

BicPAM中可用的三种离散化方法如图所示5。使用固定范围(观测到的最大值和最小值之间可能相等的间隔)是最简单的离散化选项,但通常会导致项目的弱分布加剧,并容易出现项目边界问题。第一个问题可以使用基于百分比的项目深度划分方法进行纠正,该方法导致包含大致相同数量的项目的间隔。拜登[34]在临时删除离群值的数据上下文中使用此等深分区方法。最后,可以使用替代分布来组合前面解决方案的属性,例如Nordi中提出的设置[15]. 通过找到多条合适的曲线(每行或每列)或一条合适的整体曲线来近似矩阵,我们可以使用阈值方法或直接计算统计截止点来创建均匀分布的区域。在图中,选择高斯分布以最小化潜在相关双簇的损失。

图5
图5

BicPAM中可用离散化选项的影响。

关闭步骤

与挖掘和映射选项类似,可以使用后处理标准来最小化噪声困境的两个挑战。一个挑战来自过于严格的噪声容限,通常与考虑大量项目有关,这导致了许多小尺寸的双聚类。另一个挑战是噪声容限水平的提高,通常出现在二值化分区中,并且支持或信任程度较低。为了应对这些挑战,并解决有效双簇爆炸的问题(通常与重叠双簇相连),BicPAM允许使用根据三个阶段构建的标准:1)扩展,2)合并和3)过滤。

1) 扩展选项

可以使用三种可选的非结论性策略来扩展发现的双聚类,以使得到的解决方案仍然满足一些预定义的同质性标准。第一种策略是使用统计测试来包括DeBi中建议的每个双聚类上的行或列[10]. 第二种策略依赖于传统方法及其优点函数进行进一步扩展,只要解决方案满足集群内或集群间同质性标准。最后,我们提出了第三种策略,它使用在更宽松的标准下发现的模式(如较低的支持置信阈值)以指导扩展步骤。考虑下部支撑时,可以在原始频繁模式中添加新的列和行。类似地,可以使用更宽松的关联规则来指导扩展步骤,对前导后继进行分组的方式限制更少。使用简单阈值、统计测试或价值函数来验证双聚类是否有效,可以使用离散化矩阵(项目匹配)计算,或者更有趣的是,可以使用与原始实值矩阵的距离。

2) 合并选项

合并操作有两个目标:噪声容限和整体双簇结构操作。第一个目标是基于这样的观察:当两个双簇共享一个重要区域时,它们的合并很可能构成一个更大的双簇,但仍遵循一些同质性标准。通常,这种分解与项边界问题或缺少值有关。允许合并的最简单标准是依赖重叠区域(作为较小双星簇的百分比),计算合并后的总噪声百分比,或使用高级同质性标准(可能依赖输入矩阵提供的实际值)。高效合并基于模式的双簇的最新程序包括[49],[50].

3) 筛选选项

可以在两个级别进行过滤:1)在双团簇水平,以及2)在行-列级别。第一种类型的过滤需要删除包含在较大的双簇中的重复项和双簇。较大的双簇中包含的双簇的存在是扩展合并选项的必然结果,并且在采用不依赖浓缩模式表示的挖掘方法时,这是一个常见的问题。都是DeBi[10]和BiModule[13]提供替代的启发式方法来有效地执行这种类型的过滤。

第二种类型的过滤可以用于将行或列从特定的双聚类中排除,以增强其均匀性。当考虑的项目数较少时,通常会出现这种情况,从而导致高噪声耐受性的双簇。为此,与扩展选项类似,我们可以采用三种策略:1)对特定双星簇的每一行和每一列进行统计测试,以确定删除量,2)依赖现有的贪婪迭代方法并最大化其优点函数(这可能意味着减少双聚类的大小),以及3)在更严格的条件下发现模式(如更高的支持和置信阈值)。

影响基于模式的双簇的质量

影响解决方案质量的BicPAM选项包括:

挖掘步骤选项,包括方法、支持信心阈值和模式表示;

映射步骤选项,包括项目数量和规范化筛选技术;

结束步骤选项,包括选定的扩展、合并和过滤方法及其标准阈值(噪声百分比、重叠程度、统计显著性水平)。

下面,我们描述了BicPAM提供的新策略,用于处理不同级别的缺失值和输入噪声,以及组成双簇的多种结构。

处理缺少的值

输入矩阵可以有任意多个缺失值,这在GE矩阵中很常见。未创建的缺失值可能会导致在一个或多个双簇中丢失关键行和列。可以使用三种不同的策略来处理缺失的值:1)拆卸,2)更换,以及3)作为特殊值处理。最简单的方法是删除包含的行或列(通常是尺寸较小的维度)。

人们提出了许多换孔方法[51]–[53],缓解了所提到的问题,尽管引入了额外的噪声,可以显著降低输出双聚类的均匀性。出于这个原因,我们建议使用一个额外的项目,该项目是根据用户处理的放松程度专门处理的,如图所示6.最低约束设置(轻松的)将丢失的项目替换为所有其他采用的项目,这再次导致不同规模的交易。中等约束设置(δ-替换)围绕其价值估计考虑多个项目。如果估计值与离散化范围的中心值之间的差值小于δ,然后添加分配给该范围的项。在BicPAM中,默认插补方法基于四个最近邻行的平均值。BicPAM默认δ距离保证了两个项目的下限和三个项目的上限。最高约束设置(限制性的)删除缺少的项目。

图6
图6

处理缺失的映射方法:放松、保守( δ-替换 )以及插补的限制性替代方法。

处理不同级别的噪音

基于模式的双聚类的一个关键方向是按照图中所示的三种策略之一考虑多个噪声级别7.弗斯特策略(减少项目数)分层连接相邻项目(项目被视为有序的,不再是标称的),以在具有不同项目数的矩阵上挖掘双聚类。该策略的优化可以通过仅对矩阵中一些关键区域的项目进行折叠来实现,其中双簇的存在较为稀少。可以理解,每个双簇应该保持噪声水平,以便根据目标双簇的质量调整关闭步骤。第二策略(放宽到限制的扩展)只考虑挖掘后不同级别的噪声。例如,常量双聚类的合并可以遵循对不同项目的接近程度敏感的统计测试(还应考虑基于重叠行和列的启发式)。第三策略(多个项目)基于参数化阈值将一个或多个项目关联到每个元素。可以定义不同的标准来为每个元素分配不同数量的项目 ij公司 。根据到质心的距离,每个元素可以映射为两到三个项目,从而导致具有多个大小的事务。

图7
图7

应对噪音放松的策略。

产生替代的双簇结构

由于双簇的数量既不固定,也不取决于局部覆盖标准的满足程度,因此基于模式的方法为不同双簇结构的组合提供了更高的灵活性。基于模式的解决方案是非穷尽、非决定性的,并且允许重叠。构成不同结构的任务在文献中没有得到很好的阐述,而是被视为双聚类方法的副产品[1]. 下面,我们将介绍一组组成BicPAM中可用的多个结构的原则。

对于详尽的结构(整体、跨行或跨列),可以根据基于邻近度和双簇面积的分层标准,逐步合并双簇,直到覆盖所有矩阵。如果目标是排他性的结构(总体上,跨行或跨列),一个简单的策略是合并双聚类,以减少跨一个或两个维度的重叠,此外,根据相关标准(如大小或噪声级别)过滤共享行或列的双聚类,直到保证排他性。关闭选项可以专门用于生成其他可用性强的替代结构(无需更改基于模式的方法的核心任务)。

允许更灵活的双集群类型

下面,我们扩展BicPAM以考虑更灵活的表达式模式:加法、乘法和对称相干。

加性乘法假设下的相干性

定义 9.

双星簇(,J型)跟随可加模型如果 ij公司 =c(c)+α +β j个 +η ij公司 ,其中c(c)是双集群内的典型值,α 是行的调整,β j个 是列的调整j个J型η ij公司 是与元素关联的噪波。双星簇(,J型)跟随a乘法模型如果 ij公司 = c(c) × α × β j个 + η ij公司 ,当c(c)= c(c), α =日志 α β j个 =日志 β j个 .

我们提出了两种基于模式的策略来发现具有非恒定相干模型的双簇。第一种策略是使用局部归一化过程纠正基于行或列的差异,然后将任务映射到搜索常量双聚类。

第二种策略是默认的BicPAM选项,它是在每一列(或行)上迭代执行对齐。这可以确保考虑组成这些双簇所需的所有对齐。因此,选择的模式采集器要么被应用(或n个)时间,导致更高的计算复杂度。8说明了这一策略。

图8
图8

在加法和乘法假设下基于模式的双聚类发现。

目标列上的累加对齐 j个 可以通过对行上的每个元素进行相加来计算x个 列的最大值与离散值之间的差异 x个( j个 )− ij公司 。目标列上的乘法对齐 j个 可以通过对行上的每个元素进行相加来计算x个 ,列的最大值和离散化值之间的最小公共倍数 c(c) ( x个( j个 ), ij公司 )。在最坏的情况下,加性假设下得出的项目数量是最初考虑的项目数量的两倍。乘法模型下的最终项目数是生命周期管理初始项目的组合。如图所示8,基于距离δ-在乘法模型中,由于发现相干双星簇的概率较低,因此可以考虑在聚集闭合项时出现误差,因为结果是大量的项。

对称假设下的相干性

一种关键但较少研究的双簇是在对称假设下具有相干值的双簇,在文献中也称为带符号变换的双簇[1]. 允许对称性的双星簇中的两行或两列可能具有符号不同的类似绝对值。这种双星簇可以同时捕获生物过程中的激活和抑制机制。

定义 10.

双星簇(,J型)跟随a对称模型具有以下任一项:i)行上的对称性 â ij公司 = c(c) × ij公司 ,其中c(c) {−1,1}是双簇中每一行的对称因子,并且 ij公司 是根据常数、加法或乘法模型定义的双簇元素,或ii)在列上 â ij公司 = c(c) j个 × ij公司 ,其中c(c) j个 {−1,1}是柱对称系数 ij公司 是具有相干值的双簇元素。

为了找到具有对称性的双团簇,归一化应满足零位准则。此外,如果考虑的项目数是奇数,则有一个项目是其自身对称的,必须进行特殊处理。

一种选择是对齐每一行(或列)的活动符号,以确保目标列(或行)的信号一致。图中的顶部示例9说明了这一策略。虽然可以对每一列(或每一行)进行迭代映射,但在完成所有符号组合后,可以通过停止搜索来提高效率。然而,最坏的情况需要应用模式挖掘器时间(或n个次)。请注意,过滤是删除行(或列)子集重复对齐所导致的潜在重复项所需的关键步骤。

图9
图9

基于模式发现具有恒定相干(a)和非恒定相干(b)对称性的双团簇。

将此策略与在加法或乘法模型下搜索双聚类相结合可能代价高昂(×时间迭代)。因此,BicPAM提供了一个附加选项,可以将符号的使用和每列(或每行)的加法或乘法调整结合在一起。该模型(组合符号和相干模型)与之前的模型(符号加相干模型)不等价,因为它假设加法或乘法不是绝对的,而是取决于活动斜率符号。这里,特定元素的值调整也受符号的影响,这可能会导致更多的项目。该策略如图的底部示例所示9.

BicPAM算法及其复杂性分析

算法1描述了BicPAM的算法基础。虽然BicPAM遵循即插即用的风格,但可以使用默认和数据驱动的参数化。特别地,第40-44行37描述缺少用户驱动参数化时的BicPAM行为。这可以通过依赖估计程序或基于阈值的收敛标准来实现,例如双聚类覆盖的相对面积或最小数量的双聚类。

BicPAM的计算复杂度受模式挖掘任务和双聚类相似性计算的限制。对于此分析,我们涵盖了与BicPAM三个主要步骤中的每个步骤相关的主要计算瓶颈。映射步骤:离群值检测、归一化、离散化和噪声校正程序(例如分配多个项目)与矩阵的大小呈线性关系,Θ(n个 )。还进行了可选的分布拟合测试和参数估计,以动态选择适当的离散化过程Θ(n个 )。这些测试和估计依赖于近似统计比率的计算[54]. 通过移除相应元件或用专用物品替换元件来处理丢失的情况Θ(n个 )。然而,当选择插补方法时,复杂度的上限为Θ(小时 n个 ),其中小时是缺失值的数量。在BicPAM实现中,计算最近邻行和列以估计每个缺失值。

成本采矿台阶取决于两个因素:模式挖掘器的复杂性和发现非常量配置文件所需的迭代。模式挖掘任务的成本主要取决于:事务的数量和大小(γ n个 ,其中γ≥1表示与噪音和丢失处理程序相关的尺寸增加),项目的频率分布({×Y(Y)}),最小支撑θ模式表示和选定的挖掘过程。文献中曾尝试对这种复杂性进行详细分析[55]这超出了本文的范围。读者还应该记住,已经有一些建议可以保证模式挖掘器重复使用分区和近似方法的可伸缩性[12]. Θ((γ,n个,,||,θ)),或者简单地说Θ(),成为模式挖掘任务的复杂性。当需要对核心挖掘过程进行迭代应用时,总体搜索范围为Θ(d日×),其中d日=最小值 n个 2 , 当允许对称时,d日=最小值 n个 | | , 允许换班时,以及d日=最小值 n个 生命周期管理 , 当允许缩放因子时。

成本关闭step基本上取决于两个因素:计算双聚类之间相似性的复杂性(合并和过滤双聚类所需)以及扩展和减少双聚类的复杂性。为了计算相似性,创建了一个树结构,其中每个节点代表一个基因,每个叶子对应一个双簇。只有在基于输入重叠度的阈值上共享分支的双簇才有可能进行合并和筛选。筛选双簇会导致删除其叶节点和专用节点。合并两个双聚类会导致目标分支的组合。这些任务的平均复杂性为Θ k个 k个 / 2 第页 ̄ ̄ ,其中k个是双簇数 第页 ̄ ̄ 它们的平均大小。扩展双聚类依赖于基于每个新列或新行的一致性的快速测试,因此此任务的复杂性分别是Θ( k个 第页 ̄ )Θ( k个 n个 ̄ ),其中k个是合并和筛选后的双簇数。从双簇中删除行或列是Θ( k个 第页 ̄ ̄ ).

在这种情况下,BicPAM的复杂性受到以下因素的限制Θ hnm公司 + d日 + k个 k个 / 2 第页 ̄ ̄ + k个 ( 第页 ̄ + n个 ̄ ) ,用于在挖掘步骤后产生大量双簇的设置(k个k个)大约为Θ d日 + k个 k个 / 2 第页 ̄ ̄ .

结果

在本节中,我们提供了一个广泛的实验评估,表明BicPAM是有效的,计算效率高。BicPAM是用Java实现的(JVM版本1.6.0-24)。以下实验是在Intel Core i3 1.80 GHz和6GB RAM中进行的。

分四个步骤收集和分析结果。“合成数据中双聚类方法的比较”部分将BicPAM的性能与最先进的双聚类方法进行了比较。在“合成数据的性能分析”一节中,BicPAM的行为在具有不同大小、噪声、稀疏性和背景分布的合成数据集中进行了广泛评估。“真实数据中的结果”一节分析了BicPAM结果的生物学相关性。最后,“基于模式的双聚类方法的比较”一节进一步比较了BicPAM及其基于模式的同行。下面,我们描述了所使用的评估指标和数据设置。

评估指标。使用多种评估标准评估了双聚类解决方案。在存在隐藏/种植双聚类的情况下,={ H(H) 1 ,.. H(H) },群集度量,匹配分数[2],[58]和相对不相交区域(RNAI)[59],[60]已被使用。匹配分数(MS)[58]根据雅卡指数评估解决方案的相似性。微软(,)定义找到的双聚类与隐藏的双聚类匹配的程度,而微软(,)反映了隐藏的双星团的恢复情况(1)。RNIA公司[59]测量隐藏和发现的双簇之间的重叠区域。为了区分发现的几个或几个双团簇是否覆盖了隐藏的双团簇,聚类误差(CE)[60]是一个关键的扩展。Hochreiter等人[2]通过计算所有双聚类对之间的相似性引入一致性得分(2)。我们将此指标称为FABIA共识(FC)。S公司1S公司2分别是来自{,}、和MP公司使用基于重叠区域的Munkres方法指定对[61],MC和FC定义为:

微软(,)= 1 | | ( 1 , J型 1 ) 最大值 ( 2 , J型 2 ) | 1 2 | | 1 2 | ,
(1)
常设费用 ( , ) = 1 | S公司 1 | ( ( 1 , J型 1 ) S公司 1 , ( 2 , J型 2 ) S公司 2 ) MP公司 × | 1 2 | × | J型 1 J型 2 | | 1 | × | J型 1 | + | 2 | × | J型 2 | | 1 2 | × | J型 1 J型 2 | .
(2)

在没有隐藏的双聚类的情况下,只要不偏向于比较方法中使用的绩效标准,就可以使用绩效函数。示例包括常用的均方残差(MSR)[62]及其扩展[16]或皮尔逊相关系数[59]对缩放特性的变化敏感。最后,特定领域的评估可以通过计算统计浓缩来使用第页-生物学背景下的价值观[10],[63].

数据设置。基因表达数据和两组合成数据用于评估BicPAM性能。第一组对应于Hochreiter等人生成的数据集[2]. 这些数据集使用三种设置模拟基因表达数据的特定特征,例如重尾特性:信号下的乘法模型和加法模型N个(±2,0.52)和N个(±4,0.52)分配[64]. 每个设置有100个数据集,包含1000个基因、100个条件和10个种植的双聚类。

在这项工作的背景下,生成了第二组不同大小的合成数据集和不同表达程度的种植双聚类[65](表中描述的设置1)。我们将矩阵的大小更改为4.000行和400列,保持了基因表达数据中常见的行和列之间的比例。种植的双星簇的数量和形状也不同。为了遵循类似研究的特性,仔细选择了生成矩阵的特性[10],[13].

表1生成的合成数据集集的属性

生成的矩阵根据预先指定的项目数进行参数化(||{5,10,20})以及输入的双簇类型假设(常数、加法、乘法和/或对称)。每个双簇的行数和列数在表中给出的范围内遵循均匀分布1。我们允许重叠的双簇,这可能会使原始种植的双簇难以恢复。最后,在背景值上随机添加噪声因子。该噪声系数高达数值范围的±15%(例如。 ij公司 ij公司 U(−1.5,1.5),当有10项可用时)。

对于这些设置中的每一个,我们实例化了40个矩阵:20个矩阵的背景值遵循均匀分布,U型(1,||)和20个矩阵,其背景值根据高斯分布生成,N个 | | 2 , | | 6 BicPAM的性能是这40个矩阵的平均值。

合成数据中双聚类方法的比较

我们选择了五种最先进的方法,能够在加性乘法假设下发现双聚类:带有稀疏先验选项的FABIA[2]、Bexpa[66]、ISA[67],格子[6]和OPSM[19]. 此外,我们考虑了CC[62]、桑巴[9],x主题[18],以及三种基于模式的双聚类方法:BiModule[13],德比[10]和RAP[14]. 尽管最后六种双聚类方法使用了更简单的同质性标准,但它们的加入对于研究BicPAM解决方案的生物学意义以及在考虑具有常数模型的双聚类时测试BicPAM的性能改进至关重要。

我们使用以下软件运行这些方法:R包fabia[68]和biclust[69]、BicAT[70],(Evo-)Bexpa公司[66]和扩展器[71]. FABIA(有和没有稀疏方程)、Bexpa、CC和ISA(起点数)的双聚类的指定数量是隐藏双聚类的数量加上10%:||×1.1请注意,此所需规范可用于指导针对其他双聚类方法和乐观偏差FABIA共识(FC)水平的搜索空间探索。OPSM的默认迭代次数从10到200次不等。其余方法是使用默认参数化执行的。为了进行此比较,BicPAM参数化为使用离散化方法发现的闭合模式,其中包含三组不同的项(||{3,5,7}),在简单的合并选项(70%的重叠)下,以及基于相对于较大的双集群超过30%的重叠区域对双集群进行过滤。此外,有两个项目被分配给项目边界附近的值,导致交易规模增加了8-11%。当发现的双聚类覆盖了输入矩阵的最小面积(>5%×|X(X)|×|Y(Y)|)。

这些方法使用FABIA数据设置检索隐藏双聚类的能力如图所示10.FC公司(,)通过为每个设置生成的100个矩阵进行测量。BicPAM是双聚类的最佳表现者,它遵循具有不同信号特性的加性模型(Wilcoxon检验为0.01%),并且与FABIA一起是乘法模型的最佳选择。BicPAM搜索的彻底性以及依赖多个离散化级别而不存在引入噪声风险的能力(通过为范围边界附近的值分配多个项目)支持这些观察结果。FABIA是一种竞争性的非耗竭性替代品,对种植的噪音很敏感。然而,它需要事先了解双星团的数量。由于ISA被调整为发现值逐渐变化的双聚类,因此其用于发现具有自我一致性的模块的评分模式不适合发现由加法信号建模的双聚类。格子能够局部识别附加因素。可以理解,无法发现具有缩放和移动因子的双聚类的一组方法的效果要差得多。OPSM的FC水平受到强烈惩罚,因为OPSM输出大量大小不同的双聚类(包括具有少量基因或条件的双聚类)。

图10
图10

使用FABIA数据集跨双聚类方法的FC级别。

图中提供了使用FABIA生成的数据集时两种聚类方法的匹配分数水平的比较11结果证实了BicPAM在MS方面的优越性能(,)分数(正确性)和MS(,)得分(完整性)。BicPAM能够穷尽挖掘解空间,并结合多级离散化阈值。BicPAM的平均效率水平表明,它能够在有用的时间内对计算复杂的设置执行穷举搜索。FABIA是最有效的方法。

图11
图11

使用FABIA数据集匹配双聚类方法的得分。

数字1213评估分析的双聚类方法发现具有不同一致性标准(使用具有10个表达级别的字母表)和不同行数和列数(根据均匀分布种植)的种植双聚类的能力。12表明BicPAM的性能(在没有发现非恒定双簇的扩展的情况下)优于三种基于对等模式的方法。13在考虑相加和相乘相干时捕获性能的相关变化。为了提高这些图表的可读性,我们排除了在这些假设下不准备发现双聚类的方法的性能。结果证实了BicPAM在MS方面的优越性能(,)也就是说,大多数发现的双聚类都由隐藏的双聚类(正确性)和MS很好地描述(,)也就是说,大多数隐藏的双簇可以映射到发现的双簇(完整性)。尽管FABIA是非恒定一致性的第二选择,但它不准备处理重叠,并且它容纳高水平的噪音,因为它不准备区分所有10个表达水平,从而导致含有大量假阳性基因的双聚类。

图12
图12

使用具有常数模型的数据集匹配双聚类方法的分数。

图13
图13

使用非恒定模型的数据集匹配双聚类方法的分数。

最后,图14结果表明,尽管所有方法都可用于中型矩阵,但OPSM、BicPAM和CC的效率下降更快。基于对等模式的方法的效率略低于BicPAM,因为它们没有利用FP-growth搜索的优点。

图14
图14

使用生成的数据集的双聚类方法的效率。

合成数据中的性能分析

在本节中,我们研究了BicPAM的效率极限。然后,我们评估了BicPAM为具有不同规律的数据发现不同类型双聚类的能力。最后,我们进一步了解使用与挖掘、绘图和结束步骤相关的不同策略的影响。

效率限制

为了显示BicPAM效率的边界,我们考虑了具有10.000行(人类基因组大小)的矩阵。结果如图所示15.我们改变了条件的数量、项目的数量(||{5,7})以及本评估的基本一致性假设。我们考虑关闭步骤的默认合并过程。我们种植了15个双聚类以占据生成矩阵面积的2%,并使用Charm算法[45],一个高效的模式挖掘器,用于交付闭合模式(最大双聚类)。通常,我们观察到,BicPAM能够发现10.000×350以下矩阵的常数双簇,以及10.000×200以下矩阵的加法/乘法双簇。可以理解,项目数对效率有很大影响,因为它定义了相应项目集数据库的密度,因此,挖掘步骤的复杂性。另外,请注意,基于模式挖掘方法扩展的广泛研究的可伸缩性原则——并行化、分布、流和错误边界原则[12]–可以轻松包含在BicPAM的挖掘步骤中,以确保其在较难的数据设置中的可扩展性。

图15
图15

10000行BicPAM的效率界限(人类基因组的大小)。

(非)常数双团簇的恢复

虽然BicPAM依赖于穷举搜索,但其性能在很大程度上取决于处理噪声、离散化错误和一致性假设的能力。16显示了BicPAM的性能,对于在恒定假设下生成的数据集,项的数量可以参数化。FC级别很有吸引力,尽管由于种植噪音导致行被排除在外,允许种植的双聚类之间重叠,并且发现的双聚类数量通常高于种植的双簇数量。

图16
图16

恒定假设下的BicPAM性能。

项目数越少,矩阵密度越大,BicPAM的效率边界越小。使用类似的实验设置,图17说明了在附加假设下,BicPAM对种植双聚类的数据集的性能。虽然观察到的FC分数很高,但由于背景值形成非植物加性双聚类的概率较高,因此它们比恒定数据集的分数更差。有趣的是,尽管是一个na?ve搜索加性双聚类的成本将与|Y(Y)|当搜索恒定的双聚类时,经过深思熟虑的修剪可以提高效率。

图17
图17

加性假设下的BicPAM性能。

最后,图18说明了BicPAM在乘法假设下的性能。与之前的分析相比,对于较大的矩阵,FC级别会降低,因为乘法因子更容易出现局部不匹配。然而,这个问题可以通过关闭选项来纠正。与搜索可加双簇类似,BicPAM通过修剪搜索空间来获取效率增益。此外,乘法假设在结构上比加法假设更有效,因为由于每次迭代中观察到的项目范围更广,虚假双聚类的数量相当低,这导致矩阵更稀疏。

图18
图18

乘法假设下BicPAM的性能。

为了补充之前的分析,图19提供BicPAM的MS(,)不同表达水平的级别。观察到的MS水平高于FC水平,因为没有惩罚输出比种植的双簇数量更多的双簇。特别是,对于常量、加法和乘法,中大型数据集的MS水平分别高于95%、91%和87%。

图19
图19

在常数、加法和乘法假设下匹配BicPAM的分数水平。

表中提供了BicPAM在考虑7项和默认噪声处理、合并和过滤选项时的性能详细信息2结果根据双簇类型、基质大小(和种植双簇的结构)和背景值的潜在分布进行组织。当输入值由高斯分布生成时,稍差的性能与背景值形成非种植双簇的概率增加无关(因为值已适当离散化),但与用统一值建模种植双簇增加了难度。我们发现MS(,)低于MS(,)因为BicPAM的穷尽性质导致至少一个发现的双簇与每个隐藏的双簇直接对应。

表2不同环境下BicPAM的FC和MS水平(20个数据集的平均值和方差)

采矿选项

20说明了算法选择对BicPAM效率的影响。基于以下实现测试了频繁项集挖掘的三种主要范式(Apriori、FPGrowth和基于垂直的Eclat):SPMF公司[72]软件。为了能够交付支持每个频繁项集的事务集,对这些方法进行了扩展。在这个评估中,我们使用了一个离散化步骤,其中包含10个项目和基于所有频繁模式的恒定种植双聚类。收集1000×100生成数据集设置的结果。当处理非常小的支持阈值时,FPGrowth和Eclat是最具竞争力的选择。特别是,FPGrowth是用于支持接近或低于1%的设置的最佳执行者。最后,Apriori是中大型支持级别的最佳选择。

图20
图20

1000×100设置的模式挖掘算法比较。

选择替代模式表示(简单、封闭、最大)对效率和MS级别的影响如图所示21。在本次评估中,我们使用了三种不同的方法:FPGrowth[42]输出简单图案,Charm[45]输出闭合模式(最大双簇)和CharmMFI[45]输出最大模式。同样,我们考虑了1000×100的设置和10个项目。

图21
图21

选择替代模式表示对1000×100数据设置的影响。

从这个分析中可以检索到三个主要的观察结果。首先,应避免使用最大模式进行双聚类,因为它优先选择具有大量列的双聚类,并丢弃具有这些列子集的双聚类(即使它们具有更多行)。可以理解,这会惩罚微软(,)水平。微软(,)当每个最大的双簇被一个种植的双簇覆盖时,分数不会受到太大的影响。其次,使用简单的模式进行双聚类可以降低微软(,)与封闭模式相比。即使发现的双簇具有高度的同质性,这一分数也会对较大种植双簇中包含的双簇的发现产生不利影响。第三,由于额外的修剪过程,搜索封闭模式和最大模式的效率略高于搜索简单模式。这些观察结果支持闭合模式的使用。此外,它们对应于最大双聚类,这通常是有效双聚类算法的目标[1],[13],[73].

映射选项

为了评估拟议映射策略的影响缺少值(图6),对于1000×100设置,我们从生成的矩阵中随机删除了不同数量的元素。22说明了BicPAM(使用Charm和10项离散化)的性能如何随着0到10%(即0到10.000个元素)的丢失百分比而变化。请注意,10%已经被认为是一个非常关键的丢失数量,这可能会影响检索真正的双星团的能力。我们发现,由于BicPAM缺少处理程序,这个问题可以得到缓解。

图22
图22

比较不同噪声水平数据的丢失处理。

分析图中的结果时22,可以检索到三个观测值。第一,微软(,)在基线策略下(删除遗漏),当遗漏百分比达到10%时,从97%显著降低到接近70%。虽然此解决方案很容易在BicPAM中实现(从各个事务中删除元素),但大多数现有的双聚类算法只允许删除发生缺失的列或行(即使在出现少数缺失的情况下也不可行,如图所示)。其次,相对于只考虑最接近值或所有可能值的策略(放松策略),考虑最接近的2-3个值时,检索种植的双聚类的能力会增加。有两个因素可以证明这一点:1)当估计一个缺失值的多个值时,恢复原始值的机会增加,因此,不会损坏种植的双星簇;2)当考虑缺失的所有可能值时,会增加噪声量,并可能导致虚假双聚类的出现。第三,尽管插入多个值来替换缺失的值在准确性方面是一个很有吸引力的选择,但随着逐项矩阵变得更加密集(与发现的双聚类数一致),其效率会受到影响。尽管如此,当只考虑最接近的2-3个值时,可伸缩性可以保持在高达10%的噪声级别。

交割期权

我们种植了额外水平的噪音评估收盘期权。这是通过将特定元素的值更改为一个随机距离值(距离>域范围的25%)来实现的。噪声元素的百分比从0到10%不等。我们使用了1000×100的设置、魅力和总共10个项目。

23描述替代策略对延伸双星簇。当没有植入噪声时,基于合并的策略能够获得稍高的匹配分数,因为它们可以覆盖由于离散化错误或植入的双簇之间允许的重叠而最初丢失的元素。增加植入噪声时,扩展选项的存在对于保持有趣的精度水平至关重要。包含新的行和列(重复进行统计测试或通过降低模式挖掘器的支持度)和合并生成的双聚类都能够将匹配分数保持在90%以上(比基线选项高20个百分点)。

图23
图23

扩展双聚类对具有不同噪声水平的数据的影响。

24(a) 说明了合并具有较大重叠区域的双集群,假设种植噪音水平为5%。基线案例对应于100%的重叠区域。放松重叠标准时,微软(,)(以及微软(,))增加,因为合并步骤允许恢复丢失的行和列。然而,这种行为的改善只有在达到一定的重叠阈值(对于这种实验设置,接近70%)之前才能观察到。比赛得分低于此阈值。正确识别最佳阈值可以带来显著的收益(对于这个实验设置,接近15个百分点)。

图24
图24

合并和过滤(减少)对1000×100设置的影响。 (a)不同重叠度的合并(5%的植入噪声)。(b)过滤不同的均匀度(2%的植入噪声)。

最后,使用过滤策略还可以提高恢复种植的双簇的能力。虽然对同质性较弱的双聚类进行过滤会影响准确性,但此分析的目标是删除不满足特定同质性阈值的行和列(在每个双聚类上)。24(b) 说明了假设植入噪声水平为2%,删除可能错误的行和列的影响。这种影响只有在考虑低到中等数量的项目时才显著,因为在这些情况下,过滤能够纠正与每个项目的大范围值相关的错误,这些值会导致错误的双聚类。与合并选项类似,与基线情况(同质性程度为0%)相比,匹配分数增加了75%,由1−汽水分离再热器[62]. 从这个上限值开始,比赛分数下降,因为同质性标准变得过于严格。

实际数据中的结果

为了评估BicPAM在实际数据中的性能,我们使用三个不同的基因表达数据集比较了BicPAM解决方案与最先进的双聚类解决方案的生物学意义[74],[75]:1) dlblc公司研究化疗反应的数据集(660个基因,180种条件)[76],2) 休斯数据集(6300个基因,300个条件)来表征核小体占有率[77]、和3) 裂缝数据集(6152个基因,176种条件),用于测量酵母对环境刺激的反应[78]. 对于裂缝数据集,我们考虑了每个条件的多个时间点,并对稳态的重复进行了平均。由于BicPAM可以处理这些缺失的值,因此没有删除这些值。对于最先进的双聚类方法,我们保留了上一节中使用的参数化。特别是,基于模式的方法被参数化为多个表达水平(||{4..7})。BicPAM输出包括常数、加法、乘法和对称双簇,在不同的闭合选项下发现。选择的收盘选项为:合并(70%重叠);放松合并(55%重叠),过滤行;与出现在另一个双集群中至少共享50%条件的行上的扩展紧密合并(90%重叠)。在下文中,我们重点分析了以下三点获得的结果:1)功能丰富,2)转录调控,和3)连贯性。

功能富集

使用GoToolBox计算的基因本体(GO)注释,获得了不同双聚类解决方案中双聚类的生物相关性[79]. 为了发现丰富的GO项,我们计算了使用超几何分布获得的p值,以访问特定项的过表示。为了认为双聚类是显著的,我们要求其基因通过(Bonferroni校正)p值低于0.05,在一个或多个“生物过程”本体术语中显示丰富。

对比较方法的生物学意义提供了一个简明的观点。BicPAM能够发现数量最多的(非相似的)双聚类,每个数据集的术语都非常丰富。对这些术语与其他双聚类解决方案中发现的重要术语进行的分析表明了BicPAM解决方案的完整性(因为它们涵盖了每个数据集收集的大多数生物功能),以及BicPAM解决方案的排他性和相关性(因为它们使用其他方法未发现的显著丰富的GO-术语对双聚类进行建模)。虽然基于对等模式的解决方案也发现了大量具有显著丰富术语的双聚类,但这些术语的重要性较低。这是因为这些方法没有提供噪声校正程序来最小化项目边界问题,并且不能发现非常数双簇。此外,其余的双聚类解决方案提供了不完整的GO-项集,因为它们的算法无法提供具有多重相干的灵活双聚类结构。此外,其中一些方法既无法发现具有多个表达水平(或同质性水平)的双聚类,也无法对原始双聚类解决方案进行后处理。尽管如此,一些比较方法还是能够提供一些小的双聚类,其术语比使用BicPAM发现的术语更重要。后续分析(表4,56)为BicPAM解决方案的相关性、完整性和排他性提供进一步的经验证据。

表3比较不同双聚类解决方案的生物相关性和新颖性
表4BicPAM双簇的生物学相关性综述
表5BicPAM双簇中高度丰富的术语
表6具有不同属性和高度生物相关性的双星簇示例集( 第页 -Bonferroni校正后的值)

4显示了BicPAM在使用闭合策略时发现的具有生物学意义的双聚类数。在该分析中,如果一个双聚类至少有一个富集项,且校正的p值低于0.01,则认为该双聚类非常重要。为了补充这一分析,表5列出了与每个数据集的丰富术语相关的一些最重要的生物过程[80].

6显示了一组具有统计相关性的基于模式的双聚类。这种双簇很难通过对等双簇方法发现,因为它们中的许多包括具有多个表达程度(B1、B2和B5)和非恒定分布(B8)的条件。根据Bonferroni修正后的高富集项数量,所有这些双团簇都具有更高的生物学意义。有趣的是,我们还观察到,不同的关闭选项会导致具有不同形状的双聚类,即使项目数相同(B4和B5)。

虽然详细的生物分析超出了本文的范围,但我们对每个数据集的一个双聚类进行了简要分析。表中确定的双集群67作为地下一层年发现,共有83个人类基因在7个样本中有一致表达dlblc公司使用6级表达式(在高斯离散化下)。这些基因在2个样本上表现出非常低的表达(A),在1个样本上显示出低表达(B),在4个样本上则表现出非常高的表达(F)。超过40个GO术语具有高度显著性,其中最重要的一组术语与免疫防御反应(例如免疫系统过程、免疫系统过程的调节)和与免疫调节剂(例如细胞因子)相关的信号功能有关。与高尔基体和膜结合隔室形成相关的重要术语暗示了它们在化疗后诱导先天免疫反应中的关键作用[81]. 当表达水平减少或不包括噪声松弛时,不会发现类似的双聚类,因此激发了对BicPAM的需求。插图中的双星团休斯裂缝数据集,分别在研究核小体占有率和对不同应激条件的反应的背景下分析了酿酒酵母的相关基因。双团簇B4的富集项与羧酸和有机氮化合物的形成有关,在中等噪声耐受性存在的情况下,富集程度最佳。Bicluster B7捕获来自三个不同热冲击(17、21和25°C的冲击)的多个时间点上具有一致表达的基因。GO术语的分析显示了与核糖核蛋白复合物相关的功能(第页-值1.24E-81),与热应力响应期间小颗粒的重新组装和保护有关[82]. 有趣的是,在裂缝能够捕捉不同刺激的连贯表达水平。一个例子是双星团B8,它集成了与氮耗尽、热应激和双星移有关的条件。B8有521个基因,在10种条件下表达的连贯加性水平,以及超过10个高度显著的富集项。

表7三个说明性BicPAM双星簇的丰富GO项

转录调控

为了补充功能富集的结果,我们使用TFCONES数据库分析了高富集转录因子(TFs)[83](人类基因组)和Yeastract数据库[84](酵母基因组)使用修正的超几何统计测试。

考虑表中提供的示例性双聚类7.一些富集的转录因子调节双簇中的基因B类1(与人类基因组中的免疫系统反应相关)包括:HCLS1基因,该基因在调节淋巴细胞克隆扩增和缺失中起关键作用[85],IRF1蛋白作为肿瘤抑制因子,不仅在对抗肿瘤细胞生长中发挥作用,而且在刺激对肿瘤细胞的免疫反应中发挥作用[85]和参与细胞天然免疫的TRIM22抗病毒蛋白[83]. 其他调节增殖和转化的高浓缩TF(肿瘤抑制剂)是ANP32A和RUNX3[85]. 调节双簇基因的TFsB类有4个第页-修正后的值低于1E-15,每个值调节50%至95%的双簇基因。它们与符合丰富术语的监管功能相关联。其中一些TF包括组氨酸生物合成(Bas1p)、氨基酸生物合成(Gcn4p)、环AMP受体蛋白调节(Sok2p)以及其他与羧酸和有机氮化合物调节相关的TF[86]. 现在考虑双集群B类7来自裂缝一些富集TF包括Sfp1p、Mga2p、Ace2p、Tup1p、Spt10p和Swi5p(第页-值低于1E-15),每个值调节55%-97%的B7基因。已知这些因子参与应激反应,因为它们调节冷却和氧水平(Mga2p)、修复细胞损伤(Sfp1p和Spt10p)、重塑染色质(Tup1p)和调节细胞壁保护(Swi5p和Ace2p)[86]–[88]. 最后,考虑双集群B类8,其基因一致地调节热量、氮消耗和迁移。Sfp1p、Bas1p、Ste12p和Tec1p是该双聚类中最重要的TF(第页-值<1E-7)。Sfp1p控制核糖体生物发生基因的表达以应对应激和DNA损伤反应[86]. Bas1p调节生物合成途径的基因表达,如与组氨酸代谢相关的途径,这些途径对影响pH校准的环境刺激(如氮)作出反应[86]. 最后,Ste12p和Tec1p共同调节与侵袭性生长相关的基因,在这种应激条件下,预期会产生侵袭性生长基因[86].

表中提供了与人类和酵母基因组的BicPAM双簇相关的TF的扩展分析8。在此分析中,我们检索到了更多的TF代表–双聚类中基因的高覆盖率–以及重要的–高功能浓缩(第页-值<1E-3)–表中披露的25个不同双聚类中的每一个5与关联dlblc公司裂缝数据集。符合这些实验的目标[76],[78],我们观察到已鉴定的TF与化疗反应直接或间接相关(人类)[83],[85]和压力条件(酵母)[84],[86]. 因此,该分析进一步支持了BicPAM的域相关性和充分性。

表8表中提供的BicPAM双聚类给出的假定调控模块的TF分析 5 对于人类基因组( dlblc公司 数据集)和酵母基因组( 裂缝 数据集)

考虑表中提供的富集TF8对于BicPAM在dlblc公司数据集。确定了不同的TF组,每一组都与特定的化疗结果相关。一些被认为是肿瘤抑制因子的TF包括:ANP32A、LZTS1(在快速转移和转移的肿瘤细胞中蛋白编码沉默)、RUNX3(与白血病病毒核心部位结合的蛋白,在癌症中也经常沉默)、HCLS1(淋巴细胞中抗原受体信号缺失)、,IRF1(刺激免疫反应和调节肿瘤细胞分化的蛋白质)、HIf1A(负责肿瘤血管生成和缺血性疾病病理生理学的基因)、HDAC1(与视网膜母细胞瘤抑癌蛋白的复合物相互作用)、,TCF3(蛋白调节性淋巴生成,因为其缺失与淋巴母细胞和急性白血病恶性肿瘤相关)[83],[85]. 其他致力于调节细胞增殖的TF包括STAT家族、CREG1、MEF2B、ARID5B和BCL3[85]. 可以理解的是,我们还观察到B细胞淋巴瘤蛋白(BCL6及其副编码基因BCL6B)和其他与白血病相关的疾病基因参与淋巴瘤的病因,如BCL11A[83]. 作为补充,免疫应答与TRIM22抗病毒蛋白、CEBPB、NFATC2复合物和GTF2I有关,用于在B淋巴细胞激活时激活免疫球蛋白重链转录[85].

最后,考虑表中提供的富集TF8对于BicPAM在裂缝数据集。由于发现了大量富集TF,表8仅提供了一个包含TF的说明性集合,TF调节与每个双簇相关的50%以上的基因。虽然浓缩TF调节非常独特的过程(见表5),大多数TF在应激条件下被激活,即:氧化应激期间的Yap1p、Cin5p和Hap2p[86]; 氨基酸饥饿期间的Gcn4p、Msn2p和Msn4p[86]; 包括高温在内的可变热休克因素期间的Hsf1p[86]; DNA损伤期间的Sfp1p[84]; 冷却期间的Spt23p和Mga2p[87]. 应激条件与侵袭性生长(由Tec1p、Ste12p、Ash1p和Sok2p调节)、染色质重塑(由Snf6p、Snf2p、Spt20p、Tup1p和Swi3p调节)和DNA修复(例如由Abf1p和Spt10p调节)的需要有关[84],[86].

一致性

25说明了在裂缝数据集,与酵母基因在不同时间点对热休克的反应有关。与其他双聚类方法相比,BicPAM的行为特别有利于发现这些双聚类。特别是具有对称性的常数模型、具有对称性的乘法模型、具有多个表达水平的加法模型和具有对称性的加法模型的组合。对这些双聚类的分析显示了结合多个表达水平的相关性(||5)通过噪声松弛来发现有意义的双星团。此外,该分析支持允许跨多个表达水平的符号转换来捕获调控过程中的激活和抑制机制的重要性。

图25
图25

在对称性(c和d)缺失和存在的情况下,从gasch数据集中提取具有常数模型(a)、乘法模型(b)和加法模型的双聚类。

基于模式的双聚类方法的比较

在前面的章节中,我们提供了大量的实证证据,证明了与基于对等模式的方法(如BiModule、DeBi和RAP)相比,BicPAM的性能有所提高。第一,数字1011显示了BicPAM发现非恒定双簇的独特能力(MS和FC相对于BiModule、DeBi和RAP>50个百分点)。第二,图12显示了与BicPAM处理项边界问题和充分后处理双聚类解决方案的能力相关的常数双聚类发现的改进。此外,BicPAM能够组合在多个表达级别下发现的解决方案,并发现所有最大双聚类(闭合模式表示),这超越了某些现有方法中发现的特定缺陷。第三,结合了可伸缩性原则和最简FP-树(图20)即使在使用处理噪声和调整双聚类结构的过程时,也能保证其具有竞争力的计算复杂性。第四,数字2224显示了BicPAM的显著性能改进,因为它具有处理中高水平缺失值和噪音的独有能力。最后,表中评估了BicPAM解决方案与同行方法提供的解决方案的生物相关性4并在随后的分析中得到进一步支持。特别是,我们表明BicPAM的解决方案涵盖了与基于对等模式的解决方案相关的(丰富的)生物过程(表6)。此外,它们还能够发现独特的、具有生物意义的双星簇(表56)如图中的四个说明性双星簇25.

结论

提出了一种新的灵活鲁棒的基于模式的双聚类方法(BicPAM),其目标是进行穷举搜索,以在放松的条件下(任意数量和结构的双聚类)发现具有多重相干的双聚类解,从而提高效率。BicPAM是将基于模式的双聚类的现有分散贡献与新的关键方法相结合的结果,以处理更灵活的表达式配置文件,并处理不同级别的缺失值和噪声。

BicPAM超越了现有基于模式的方法所做的恒定假设,并将双聚类任务扩展到新类型的双聚类,包括可以适应对称性的加法和乘法假设。这是在基于模式的方法下对这些一致性进行建模的首次尝试。这一点至关重要,因为基于模式的搜索是穷尽的,支持灵活的双聚类结构,并考虑多个表达级别(而不是差异表达)。

此外,BicPAM能够克服与离散化过程相关的常见缺陷,因为它能够在单个元素上分配多个项目来解决项目边界问题。这样,从输入矩阵派生的事务数据库可以包含比原始矩阵中元素数量更多的项。

BicPAM依靠动态参数化跨不同设置调整性能,包括模式表示、处理缺失值的策略以及噪声后处理和柔性结构合成的后处理选项。尽管默认选项是根据目标数据集的属性动态派生的,但用户也可以定义它们,而无需调整核心挖掘任务。

合成数据集和实际数据集的结果都表明,BicPAM能够在超过10000行、多达400列的矩阵上找到最优解。针对基于对等模式的方法和其他最先进的双聚类算法,对BicPAM的性能进行评估,支持其更高的灵活性和对噪声的鲁棒性。此外,我们观察到,BicPAM在基因表达数据集中发现的大多数双聚类在功能上相关,而其他双聚类方法无法发现。对其转录调控的分析显示出显著而有意义的关联。

软件可用性

数据集和BicPAM可执行文件可在http://web.ist.utl.pt/rmch/software/bicpam/.

尾注

聚类度量衡量正确分组行(或列)的能力,即获得较高的集群内相似性和较低的集群间相似性。熵和F度量指标是常见的选择[56],[57]. F-measure可以根据召回率(隐藏簇对发现的行的覆盖率)和精确度(其他隐藏簇中不存在行)进一步分解。

工具书类

  1. Madeira SC,Oliveira AL:生物数据分析的双聚类算法:一项调查。IEEE/ACM传输。计算。生物。生物信息学。2004, 1: 24-45. 10.1109/TCBB.2004.2。

    第条 中国科学院 谷歌学者 

  2. Hochreiter S、Bodenhofer U、Heusel M、Mayr A、Mitterecker A、Kasim A、Khamiakova T、Van Sanden S、Lin D、Talloen W、Bijnens L、Göhlmann HWH、Shkedy Z、Clevert DA:FABIA:双集群收购的因子分析。生物信息学。2010, 26 (12): 1520-1527. 10.1093/bioinformatics/btq227。

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  3. Bebek G,Yang J:PathFinder:从蛋白质相互作用网络中挖掘信号转导途径片段。BMC生物信息学。2007, 8: 335-10.1186/1471-2105-8-335.

    第条 公共医学 公共医学中心 谷歌学者 

  4. 丁C,张毅,李T,霍尔布鲁克SR:双聚集蛋白复合物与双液查找算法的相互作用。ICDM。2006年,IEEE计算机协会,美国华盛顿特区,178-187。

    谷歌学者 

  5. 刘杰,王伟:OP-聚类:高维空间中的趋势聚类。ICDM。2003年,IEEE计算机学会,美国华盛顿特区,187-

    谷歌学者 

  6. Lazzeroni L,Owen A:基因表达数据的格子模型。中国统计局。2002, 12: 61-86.

    谷歌学者 

  7. Odibat O,Reddy C:挖掘任意位置重叠的联合簇的通用框架。传感与诊断模块。2011年,美国亚利桑那州SIAM,343-354。

    谷歌学者 

  8. 张磊,陈C,步J,陈Z,蔡D,韩J:局部歧视协同聚类。知识数据工程IEEE Trans。2012, 24 (6): 1025-1035. 10.1109/TKDE.2011.71。

    第条 谷歌学者 

  9. Tanay A,Sharan R,Shamir R:在基因表达数据中发现具有统计意义的双聚类。生物信息学。2002, 18: 136-144. 10.1093/bioinformatics/18.suppl_1.S136。

    第条 谷歌学者 

  10. Serin A,Vingron M:DeBi:使用频繁项集方法发现差异表达的双簇。算法分子生物学。2011, 6: 1-12. 10.1186/1748-7188-6-18.

    第条 谷歌学者 

  11. Okada Y,Okubo K,Horton P,Fujibuchi W:基因表达模块的穷尽搜索方法及其在人体组织数据中的应用。IAENG IJ计算机科学。2007, 34: 119-126.

    谷歌学者 

  12. 韩杰,程浩,辛丁,严X:频繁模式挖掘:现状和未来方向。数据最小知识。发现。2007, 15: 55-86. 2007年10月10日/10618-006-0059-1。

    第条 谷歌学者 

  13. Okada Y,Fujibuchi W,Horton P:使用封闭项集枚举算法发现基因表达模块的双聚类方法。IPSJ生物信息学汇刊。2007年,48(SIG5):39-48。

    谷歌学者 

  14. Pandey G、Atluri G、Steinbach M、Myers CL、Kumar V:双聚类的关联分析方法。KDD。2009年,美国纽约州纽约市ACM,677-686。

    第章 谷歌学者 

  15. Martinez R、Pasquier C和Pasquier N:GenMiner:从基因组数据中挖掘信息关联规则。圣经。2007年,IEEE CS,美国硅谷,15-22。

    谷歌学者 

  16. Yang J,Wang W,Wang H,Yu P:Delta聚类:捕获大数据集中的子空间相关性。集成电路驱动单元美国圣何塞;2002年5月17日至528日。

  17. Califano A,Stolovitzky G,Tu Y:表型分类的基因表达微阵列分析。程序。国际竞争情报。系统。摩尔生物美国圣何塞;2000:75–85.

  18. Murali TM,Kasif S:从基因表达数据中提取保守的基因表达基序。太平洋生物计算研讨会.美国夏威夷州利休;2003:77–88.

  19. Ben-Dor A,Chor B,Karp R,Yakhini Z:发现基因表达数据中的局部结构:序提供子矩阵问题。重组。2002年,美国纽约州纽约市ACM,49-57。

    谷歌学者 

  20. Getz G,Levine E,Domany E:基因芯片数据的耦合双向聚类分析。美国国家科学院院刊。2000, 97 (22): 12079-12084. 10.1073/pnas.210134797。

    第条 中国科学院 谷歌学者 

  21. Tang C,Zhang L,Ramanathan M,ZhangA:相关双向聚类:基因表达数据分析的无监督方法。比贝。2001年,IEEE计算机协会,美国华盛顿特区,41-

    谷歌学者 

  22. Busygin S,Jacobsen G,KrÃd’mer E,Ag C:双重共轭聚类应用于白血病微阵列数据。ICDM IW对高维数据进行聚类。2002年,IEEE,比利时布鲁塞尔,

    谷歌学者 

  23. Hartigan JA:数据矩阵的直接聚类。美国统计协会杂志。1972, 67 (337): 123-129. 10.1080/01621459.1972.10481214.

    第条 谷歌学者 

  24. Sheng Q,Moreau Y,Moor BD:Gibbs采样的双聚类微阵列数据。出口控制委员会.法国巴黎;2003:196–205.

  25. 王浩,王伟,杨杰,于PS:基于大数据集中模式相似性的聚类。SIGMOD公司。2002年,美国纽约州纽约市ACM,394-405。

    谷歌学者 

  26. Carmona-Saez P、Chagoyen M、Rodriguez A、Trelles O、Carazo J、Pascual-Montano A:通过关联规则发现对基因表达进行综合分析。BMC生物信息学。2006, 7: 1-16. 10.1186/1471-2105-7-1.

    第条 谷歌学者 

  27. Henriques R,Madeira SC:BiP:使用灵活的格子模型有效发现重叠的双星簇。BIOKDD、ACM SIGKDD。2014年,美国纽约州纽约市ACM,

    谷歌学者 

  28. Henriques R,Madeira S:BicSPAM:使用顺序模式的灵活双聚类。BMC生物信息学。2014, 15: 130-10.1186/1471-2105-15-130.

    第条 公共医学 公共医学中心 谷歌学者 

  29. Agrawal R,Imieliński T,Swami A:挖掘大型数据库中项目集之间的关联规则。SIGMOD Rec.1993,22(2):207-216。10.1145/170036.170072.

    第条 谷歌学者 

  30. Bellay J、Atluri G、Sing TL、Toufighi K、Costanzo M、Ribeiro PSM、Pandey G、Baller J、VanderSluis B、Michaut M、Han S、Kim P、Brown G、Andrews B、Boone C、Kumar V、Myers C:通过全球模块分解将遗传交互置于上下文中。基因组研究,2011,21(8):1375-1387。10.1101/gr.117176.110。

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  31. Uno T,Kiyomi M,Arimura H:LCM第3版:数组、位图和前缀树的协作,用于频繁项集挖掘。OSDM。2005年,ACM,伊利诺伊州芝加哥,77-86。

    第章 谷歌学者 

  32. Burdick D,Calimlim M,Gehrke J:MAFIA:事务数据库的最大频繁项集算法。ICDE。2001年,IEEE CS,德国海德堡,443-452。

    谷歌学者 

  33. Pasquier N,Bastide Y,Taouil R,Lakhal L:使用闭项集格高效挖掘关联规则。信息系统。1999, 24: 25-46. 10.1016/S0306-4379(99)00003-4。

    第条 谷歌学者 

  34. Mahfouz M,Ismail M:BIDENS:基于迭代密度的双聚类算法及其在基因表达分析中的应用。世界学院。《科学、工程和技术》第37卷。2009年,美国河滨WASET.org,342-348。

    谷歌学者 

  35. Alves R、Rodríguez-Baena DS、Aguilar-Ruiz JS:基因关联分析:基因表达数据的频繁模式挖掘调查。生物信息学简介。2010, 11 (2): 210-224. 10.1093/bib/bbp042。

    第条 中国科学院 公共医学 谷歌学者 

  36. Atluri G、Bellay J、Pandey G、Myers C、Kumar V:发现遗传相互作用数据中的相干值双链。生物识别码:ACM;2000

  37. Gupta R,Rao N,Kumar V:从噪声基因表达数据中发现容错双聚类。BMC生物信息学。2011, 12 (12): 1-17. 10.1186/1471-2105-12-S12-S1。

    第条 谷歌学者 

  38. 黄毅,熊浩,吴伟,宋SY:挖掘定量最大超液化模式:结果总结。第十届亚太地区知识发现和数据挖掘进展会议记录,PAKDD’06。2006年,海德堡:柏林斯普林格·弗拉格,552-556。

    第章 谷歌学者 

  39. Steinbach M,Tan PN,Xiong H,Kumar V:概括支持的概念。第十届ACM SIGKDD知识发现和数据挖掘国际会议论文集,KDD’04。2004年,美国纽约州纽约市ACM,689-694。

    谷歌学者 

  40. Han EH,Karypis G,Kumar V:Min-apriori:一种在具有连续属性的数据中查找关联规则的算法。计算机科学系。明尼苏达大学,明尼阿波利斯,1997年。

  41. Agrawal R,Srikant R:大型数据库中关联规则挖掘的快速算法。VLDB中。1994年,摩根·考夫曼,美国旧金山,487-499。

    谷歌学者 

  42. 韩J,裴J,尹Y:挖掘频繁模式而不产生候选代。SIGMOD Rec.2000,29(2):1-12。10.1145/335191.335372。

    第条 谷歌学者 

  43. Zaki MJ,Gouda K:使用差异集进行快速垂直挖掘。KDD。2003年,美国纽约州纽约市ACM,326-335。

    谷歌学者 

  44. Henriques R、Madeira SC、Antunes C:F2G:高效发现完整模式。ECML/PKDD nfMCP。2013年,布拉格斯普林格,

    谷歌学者 

  45. Zaki MJ,Xiao CJ:挖掘闭项集及其格结构的高效算法。IEEE TKDE。2005, 17 (4): 462-478.

    谷歌学者 

  46. Pan F,Cong G,Tung AKH,Yang J,Zaki MJ:卡彭特:在长生物数据集中寻找闭合模式。KDD。2003年,美国哥伦比亚特区华盛顿ACM,637-642。

    谷歌学者 

  47. Pan F,Tung A,Cong G,Xu X:COBBLER:结合列和行枚举进行闭合模式发现。SSDM中。2004年,IEEE,希腊圣托里尼岛,21-30。

    谷歌学者 

  48. de Souto M、de Araujo D、Costa I、Soares R、Ludermir T、Schliep A:基因表达数据集聚类分析标准化程序的比较研究。IJCNN。2008年,IEEE,中国香港,2792-2798。

    谷歌学者 

  49. Xin D,Cheng H,Yan X,Han J:提取冗余感知top-k模式。第十二届ACM SIGKDD知识发现和数据挖掘国际会议论文集,KDD’06。2006年,美国纽约州纽约市ACM,444-453。

    第章 谷歌学者 

  50. 严X,程H,韩J,辛D:总结项目集模式:基于轮廓的方法。第十一届ACM SIGKDD数据挖掘知识发现国际会议论文集,KDD’05。2005年,美国纽约州纽约市ACM,邮编:314-323。

    第章 谷歌学者 

  51. Troyanskaya O、Cantor M、Sherlock G、Brown P、Hastie T、Tibshirani R、Botstein D、Altman RB:DNA微阵列缺失值估计方法。生物信息学。2001, 17 (6): 520-525. 10.1093/bioinformatics/17.6.520。

    第条 中国科学院 公共医学 谷歌学者 

  52. Donders A、van der Heijden G、Stijnen T、Moons K:综述:缺失值插补的温和介绍。临床流行病学。2006, 59 (10): 1087-91. 10.1016/j.临床.2006.01.014。

    第条 谷歌学者 

  53. Hellem T,Dysvik B,Jonassen I:L插补:用最小二乘法准确估计微阵列数据中的缺失值。《核酸研究》2004,32(3):34+10.1093/nar/gnh026。

    第条 谷歌学者 

  54. http://cran.r-project.org/doc/contrib/Ricci-distributions-en.pdf(2014年11月11日访问)。

  55. Ramesh G,Maniatty WA,Zaki MJ:数据挖掘中的可行项集分布:理论与应用。数据原理研讨会。系统。2003年,美国圣地亚哥ACM出版社,284-295。

    谷歌学者 

  56. Assent I,Krieger R,Muller E,Seidl T:DUSC:维度无偏子空间聚类。InICDM公司; 2007

  57. Sequeira K,Zaki M:SCHISM:有趣子空间挖掘的新方法。国际J总线智能数据最小值2005,1(2):137-160。10.1504/IJBIDM.2005.008360。

    第条 谷歌学者 

  58. PrelićA、Bleuler S、Zimmermann P、Wille A、Bühlmann P,Gruissem W、Hennig L、Thiele L、Zitzler E:基因表达数据双聚类方法的系统比较和评估。生物信息学。2006, 22 (9): 1122-1129. 10.1093/bioinformatics/btl060。

    第条 谷歌学者 

  59. BozdaóD,Kumar AS,Catalysturek UV:双聚类算法的比较分析。业务连续性委员会。2010年,美国纽约州纽约市ACM,265-274。

    第章 谷歌学者 

  60. Patrikainen A,Meila M:比较子空间聚类。IEEE TKDE。2006, 18 (7): 902-916.

    谷歌学者 

  61. Munkres J:分配和运输问题的算法。Soc Ind应用数学。1957, 5: 32-38. 10.1137/0105003.

    第条 谷歌学者 

  62. Cheng Y,Church GM:表达数据的双重聚类。分子生物学智能系统:AAAI出版社;2000:93–103.

  63. Berriz GF、King OD、Bryant B、Sander C、Roth FP:用FuncAssociate表征基因集。生物信息学。2003, 19: 2502-2504. 10.1093/bioinformatics/btg363。

    第条 中国科学院 公共医学 谷歌学者 

  64. http://www.bioinf.jku.at/software/fabia/benchmark.html.

  65. http://web.ist.utl.pt/rmch/software/bicpam/.

  66. Pontes B,Giráldez R,Aguilar-Ruiz JS:基因表达数据的基于可配置模式的进化双聚类。算法分子生物学。2013, 8: 4-10.1186/1748-7188-8-4.

    第条 公共医学 公共医学中心 谷歌学者 

  67. Ihmels J,Bergmann S,Barkai N:使用大规模基因表达数据定义转录模块。生物信息学。2004, 20 (13): 1993-2003. 10.1093/bioinformatics/bth166。

    第条 中国科学院 公共医学 谷歌学者 

  68. http://www.bioinf.jku.at/software/fabia/fabia.html.

  69. http://cran.r-project.org/web/packages/biclust.

  70. Barkow S、Bleuler S、PrelićA、Zimmermann P、Zitzler E:BicAT:双聚类分析工具箱。生物信息学。2006, 22 (10): 1282-1283. 10.1093/bioinformatics/btl099。

    第条 中国科学院 公共医学 谷歌学者 

  71. http://acgt.cs.tau.ac.il/extender.

  72. http://www.philippe-fournier-viger.com/spmf/.

  73. Madeira S,Teixeira MNPC,Sá-Correia I,Oliveira A:使用线性时间双聚类算法识别时间序列基因表达数据中的调节模块。IEEE/ACM Trans-Comput生物信息学。2010, 1: 153-165. 10.1109/TCBB.2008.34。

    第条 谷歌学者 

  74. http://www.bioinf.jku.at/software/fabia/gene_expression.html.

  75. http://chemogenomics.stanford.edu/supplements/03nuc/datasets.html.

  76. Rosenwald A,dlblc团队:使用分子分析预测弥漫性大B细胞淋巴瘤化疗后的生存率。《英国医学杂志》,2002,346(25):1937-1947。10.1056/NEJMoa012914。

    第条 公共医学 谷歌学者 

  77. Lee W,Tillo D,Bray N,Morse RH,Davis RW,Hughes TR,Nislow C:酵母核小体占据的高分辨率图谱。自然遗传学。2007, 39 (10): 1235-1244. 10.1038/ng2117。

    第条 中国科学院 公共医学 谷歌学者 

  78. Gasch AP、Spellman PT、Kao CM、Carmel-Harel O、Eisen MB、Storz G、Botstein D、Brown PO:酵母细胞对环境变化响应的基因组表达程序。分子生物学细胞。2000, 11 (12): 4241-4257. 10.1091/mbc.11.12.4241。

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  79. Martin D、Brun C、Remy E、Mouren P、Thieffry D、Jacq B:GOToolBox:基于基因本体的基因数据集功能分析。基因组生物学。2004年,12:101-10.1186/gb-2004-5-12-r101。

    第条 谷歌学者 

  80. http://web.ist.utl.pt/rmch/software/bicpam/.

  81. Wlodkowic D、Skommer J、McGuinness D、Hillier C、Darzynkiewicz Z:ER–高尔基网络–抗癌治疗的未来目标。Leuk研究,2009,33(11):1440-1447。2016年10月10日/j.leukres.2009.05.025。

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  82. Bracken AP,Bond U:酵母细胞中热休克蛋白对小核糖核蛋白颗粒的重新组装和保护。雷纳。1999, 5 (12): 1586-1596. 10.1017/S13558382999991203。

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  83. Lee AP,Yang Y,Brenner S,Venkatesh B:TFCONES:脊椎动物转录因子编码基因及其相关保守非编码元件的数据库。BMC基因组学。2007, 8: 441-10.1186/1471-2164-8-441.

    第条 公共医学 公共医学中心 谷歌学者 

  84. Teixera M、Monteiro P、Guerreiro J、Gonçalves J、Mira N、dos Santos S、Cabrito T、Palma M、Costa C、Francisco A、Madeira S、Oliveira A、Freitas A、Sá-Correia I:YEASTRACT数据库:一个用于分析基因和基因组转录调控的升级信息系统酿酒酵母.核酸研究2014年(数据库问题)。

  85. Safran M、Dalah I、Alexander J、Rosen N、Stein TI、Shmoish M、Nativ N、Bahir I、Doniger T、Krug H等:基因卡第3版:人类基因积分器。数据库。2010年、2010年:baq020-10.1093/database/baq020。

    第条 公共医学 公共医学中心 谷歌学者 

  86. Cherry JM、Hong EL、Amundsen C、Balakrishnan R、Binkley G、Chan ET、Christie KR、Costanzo MC、Dwight SS、Engel SR、,:酵母基因组数据库:芽殖酵母的基因组资源。核酸研究2011年:gkr1029。

  87. Nakagawa Y、Sakumoto N、Kaneko Y、Harashima S:Mga2p是一种推测的传感器,用于低温和氧气诱导酿酒酵母中的ole1转录。生物化学与生物物理研究委员会。2002, 291 (3): 707-713. 2006年10月10日/bbrc.2002.6507。

    第条 中国科学院 公共医学 谷歌学者 

  88. Doolin MT、Johnson AL、Johnston LH、Butler G:复制酵母转录因子Ace2p和Swi5p的重叠和不同作用。摩尔微生物。2001, 40 (2): 422-432. 10.1046/j.1365-2958.2001.02388.x。

    第条 中国科学院 公共医学 谷歌学者 

下载参考资料

致谢

这项工作得到了国家基金的支持技术基金会(FCT),在Pest-OE/EEI/LA0021/2013和数据风暴(EXCL/EEI-ESS/0257/2012),并向RH授予SFRH/BD/75924/2011博士学位。

作者信息

作者和附属机构

作者

通讯作者

与的通信鲁伊·恩里克.

其他信息

竞争性利益

作者声明,他们没有相互竞争的利益。

作者的贡献

所有作者都参与了解决方案的设计和手稿的撰写。所有作者阅读并批准了最终手稿。

作者提交的原始图像文件

权利和权限

本文由BioMed Central Ltd.授权发布。这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是原始作品得到了适当的认证。知识共享公共领域专用豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有说明。

转载和许可

关于本文

检查更新。通过CrossMark验证货币和真实性

引用这篇文章

Henriques,R.,Madeira,S.C.BicPAM:生物医学数据分析的基于模式的双聚类。分子生物学算法 9, 27 (2014). https://doi.org/10.1186/s13015-014-0027-z

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/s13015-014-0027-z

关键词