跳到主要内容

BicSPAM:使用序列模式的灵活双集群

摘要

背景

双聚类是生物医学应用的关键任务。有序-保留双簇,即行值在列之间诱导相同线性排序的子矩阵,通过常量、移位、缩放和顺序假设捕获局部规律。此外,依赖于模式挖掘输出的双聚类方法提供了具有任意数量和位置的双聚类的详尽解决方案。然而,现有的订单提供服务方法存在健壮性、可扩展性和/或灵活性问题。此外,他们无法发现具有对称性和参数化噪声水平的双星团。

结果

我们提出了新的双聚类算法来执行基于序列模式的灵活、详尽和耐噪声的双聚类(BicSPAM)。提出了一些策略,以考虑对称性,并从项诱导属性和/或具有保守距离保证的分区方法中获得效率增益。结果表明,BicSPAM能够捕获对称性,处理植入的噪声,并根据记忆和时间进行缩放。在具有不同噪声分布和缺失值水平的合成数据集中,BicSPAM还可以获得恢复隐藏双聚类的最佳匹配核。最后,基因表达数据的结果导致了完整的解决方案,提供了新的双聚类,对应于具有更高生物相关性的假定模块。

结论

BicSPAM提供了一种详尽的方法来发现保序双集群的灵活结构。据我们所知,BicSPAM是第一次尝试处理考虑对称性且对不同噪声水平具有鲁棒性的保序双簇。

背景

实值矩阵上的双聚类任务旨在发现子矩阵(双聚类),其中行子集在列子集上显示相关模式。然而,现有方法强制选择特定的相关性模式,这往往导致不完整的解决方案。Ben-Dor等人引入了一个简单而强大的方向,以适应更灵活的模式——订单预留模式[1]. 如果一个双簇的列有一个排列,在这个排列下,每一行中的值序列都严格递增,那么这个双簇就是保序的。这些双簇捕获具有基因表达的移动和缩放模式的双簇,此外,对于检测疾病进展或不同阶段的细胞反应的其他有意义的特征至关重要。顺序保护双聚类可用于研究基因表达(GE)数据[2],基因组结构变异[],生物网络[4],转换数据[5,6],化学数据[7],营养数据[8],除其他外[9,10]. 举例来说,为一组条件(时间点、方法、刺激、环境背景、组织、器官或个人)保留表达水平变化的基因子集可以揭示感兴趣的功能模块。

尽管先驱方法与发现有序双聚类(OPSM)相关[1]及其扩展[11,12],这是第一类贪婪的方法有两个主要缺点:1)提供近似解决方案,但不保证最优;2)对双聚类解的结构施加限制性约束(例如非重叠假设)。第二类详尽的方法,u个-聚类(也称为OP-Clustering)[7,13],提供了克服以前方法的灵活性问题的解决方案。然而,他们的采用带来了三个挑战:1)对于超过50行的矩阵,效率严重下降;2)噪声值导致大双聚类在多个小双聚类中被分割,因为它们寻找完美的排序;3)非凝聚模式表示的使用导致了大规模的双簇解决方案。

此外,现有的顺序保护方法强加了值的单调顺序,不允许对称[1,7]. 然而,在生物领域,如转录活性分析中,调控和共调控机制密切相关,因此,某些基因的表达增加有时会伴随着其他基因的表达减少。

这项工作引入了一组新的顺序保护双聚类方法,称为BicSPAM(基于顺序PAttern挖掘的双聚类),其原理是超越现有替代方法的局限性。BicSPAM基于序列模式促进了灵活且容错的搜索,并且具有可扩展性。BicSPAM的贡献是三倍的:

  • [灵活性]发现具有多级表达式和对称性的保序双簇。提供灵活的双聚类结构,允许任意数量的双聚类和定位(解决贪婪方法的限制性假设);

  • [稳健性]发现质量不同的双星团的策略。噪声松弛可用于保证噪声容忍解决方案(避免现有穷举方法施加的同质性限制),然后使用过滤标准来保证发现的双聚类的统计显著性(避免贪婪方法的偏差);

  • [效率]基于新的挖掘方法的可伸缩搜索(以超过现有穷举方法的效率限制),这些挖掘方法从双聚类任务的项诱导属性和数据分区原则中获取效率收益。

另外提供了两项捐款:1)可参数化地选择共现度与优先关系在保序双聚类中的观测结果;2)根据双聚类解决方案中出现的参数化期望处理缺失值的策略。最后,BicSPAM将所有引入的原则集成到一个连贯的模型中,为进一步开发和扩展订单预留双聚类方法提供了一致的基础。

在合成数据集和实际数据集上的实验结果表明,BicSPAM具有优越的灵活性、鲁棒性和有效性。我们还展示了发现具有对称性的保序双簇的生物学相关性。

论文组织如下。本节的其余部分提供了订单预留双聚类和基于模式挖掘的双聚类的背景知识。方法部分介绍了BicSPAM。结果和讨论部分针对合成和实际数据集验证了BicSPAM的性能。最后,综合了这项工作的贡献和影响。

保序双聚类

定义1。

给定一个矩阵, A类= (X,Y(Y)),带有一组行 X= {x个1,..,x个 n个 },一组列 Y(Y)= {1,.., },和元素 ij公司 R(右)相关行 和列 j:

  • 双团簇 B类= (,J型)是一个 第页× 的子矩阵 A类,其中= (1,.., 第页 ) X 是行的子集 J型=(j1,。。,j ) Y(Y) 是列的子集;

  • 这个双聚类任务 就是识别一组双聚类={ B类 1 ,.., B类 第页 }这样每个双集群 B类 k个 = ( k个 ,J型 k个 )满足特定要求 均匀性标准,哪里 k个 X,J型 k个 Y(Y) k个N个.

双聚类方法通过使用价值函数由同质性标准驱动[2]. 优点函数既可以保证双聚类内的同质性,也可以保证双簇输出集的整体同质性(双聚类间同质性),或者两者兼而有之。遵循马德拉和奥利维拉提出的分类法[2],现有的双聚类方法可以根据其搜索范式进行分组,这决定了价值函数的应用方式因此,价值函数是定义双聚类类型和质量以及影响双聚类结构的简单方法。双星团类型定义允许的图案轮廓及其方向、解决方案结构约束双簇的数量、大小和位置,最后质量确定特定或一组双簇中允许的噪声。双聚类可以跨行或列遵循常量、加法、乘法或格子图案假设[1,2,8]. 还提出了多种双簇结构[2],一些方法将其限制为穷举、排他或非重叠结构,而很少有其他方法允许具有任意位置重叠双簇的更灵活方案。

顺序保护双聚类最初是为了寻找在时间进程中共同表达的基因,例如在疾病或药物反应的特定阶段的共同表达[1]. 然而,它的应用范围对于没有时间的矩阵同样具有吸引力。举例来说,检测不同条件下基因表达的相对变化可以指示功能性调节行为,此外,超出了依赖通常对噪音敏感的精确表达值的需要。

订单预留双集群可以模拟以前引入的大多数类型的双集群,从而产生更具包容性的解决方案,如图所示1这为研究与发现的双集群相关的更大功能模块提供了一个较少限制的设置。保序双簇既可以允许单调增加值(行为)或要求严格增加值(异或行为)。特别是,当考虑值单调递增的双簇时,置换π= {,2,4,1}在图中1所有行都支持{x个1,x个2,x个}. 事实上,如图所示,保序双聚类的灵活性很有吸引力,因为它们涵盖了常数、加法和乘法双聚类,从而导致更具包容性的解决方案。

图1
图1

保序双聚类解决方案的完整性和变体。顺序保护双聚类有能力捕获灵活的表达模式,包括基于表达式值的先例和共现的加法和乘法假设以及其他配置文件。它们可以跨行或列进行挖掘,并遵循行为(有序值的递增和相等之间没有区别)或更具体的异或行为。A类异或order-preserving双集群要求它的所有行对每对双集群列的观察值共享递增或相等关系。

定义2。

紧跟在 保序模型 (,J型)哪里 J型 是一组 关于a的列 π 线性排序,以及 是一组支持行,其中 相应的值根据排列进行排序 π.

有两种主要类型的方法用于保序双聚类:贪婪法和穷举法b条。穷举方法旨在识别最大子矩阵,其中行集是最大集,支持列集上的线性值顺序[7]. 相比之下,贪婪方法依赖于一个价值函数来指导递增的大/小双聚类的合成。原始贪婪订单预留方法OPSM使用的价值函数[1],是基于一个随机数据矩阵包含一个具有更多行支持它的双簇的上界概率。已经在OPSM上提出了多种扩展,包括:OPSM-RM方法[11]从重复实验获得的多个矩阵中发现保序双聚类;POPSM方法[12]基于行属于双聚类的概率范围,用连续分布对不确定数据进行建模;和MinOPSM方法[14]它实现了order-preserving任务的一个变体。

顺序保留解决方案的评估与传统的双聚类解决方案没有显著差异。当考虑隐藏双簇的知识时,相对不相交区域(RNIA)[15],匹配分数[,16]并且已经采用了聚类度量(例如熵、召回率和精确度)。RNIA公司[15]测量隐藏和发现的双簇之间的重叠区域。群集错误(CE)[17]扩展此分数以区分发现的多个或恰好一个双簇是否覆盖了隐藏的双簇。匹配分数(MS)[16]根据雅卡指数评估解决方案的相似性。为了使MS对两个集合中的双星团数量敏感,可以通过计算Munkres双星团对之间的相似性来引入共识[].

在没有隐藏双聚类的情况下,只要价值函数不偏向于比较方法中使用的价值函数,就可以采用价值函数。基于双聚类的预期发生概率提出了补充的统计评估[18,19]或者基于他们的浓缩第页-实际数据集的值[2022].

序列模式挖掘

让项是有序集的元素.安项目集 第页是一组不重复的项,第页.A型序列 是一组有序的项集。A类序列数据库是一组序列D类={1,.., n个 }.

让一个序列= <1 n个 >成为子序列属于b条= <b条1b条 > (b条),如果 1 1 < .. < n个 : 1 b条 1 ,.., n个 b条 n个 。序列是最大对于一组序列,如果它不包含在其中任何一个序列中。举例说明,1= < {},{b条 e(电子)} > =(b条 e(电子))包含在中2= ( d日)c(c)(b条 c(c) e(电子))并且是最大的w.r.t。D类= { e(电子),( b条)e(电子)}.

定义3。

这个 覆盖范围 Φ 序列的 w.r.t.到序列数据库 D类 是中所有序列的集合 D类 对于其中 是子序列: Φ ={D类}.这个 支持 序列的 在里面 D类,表示 u个 第页 ,可以是绝对值,即其覆盖范围大小 Φ ,或由以下公式给出的相对阈值 Φ /D类.

为了说明这些概念,请考虑以下序列数据库D类={1=(b条 c(c))( b条 c(c))d日,2=c(c) d日( c(c) d日),=( c(c))c(c)}. 对于这个数据库,我们有={,b条,c(c),d日}= 4,Φ{( c(c))}={1,2}、和 u个 第页{( c(c))}=2.

定义4。

给定一组序列 D类 以及一些特定于用户的最低支持阈值 θ,一个序列 D类 频繁的 至少包含在 θ 序列。这个 序列模式挖掘 (SPM)问题包括计算频繁序列集,{ u个 第页 θ}.

示例性序列数据库的最大频繁序列集,D类= {(b条 c(c))( b条 c(c))d日,计算机辅助设计( c(c) d日),( c(c))c(c)},低于支持阈值θ=3是{( c(c)),c(c) c(c)}. 现有的SPM方法依赖于(反)单调特性来有效地发现序列模式。

考虑两个序列,其中和谓词M(M).M(M)单调的什么时候M(M)()M(M)()和M(M)反单调的何时M(M)()¬M(M)()。SPM方法通常依赖于以下原则:从上方以如果那么就不经常了不常见。

定义5。

给定序列数据库和最小支持阈值 θ:

  • 频繁的序列 是一个序列 Φ θ;

  • 闭合频繁序列是指不是具有相同支持度的序列子集的频繁序列( <);

  • 最大频繁序列是所有超集都不频繁的频繁序列, Φ <θ.

频繁的子序列是最大的,如果是频繁的且所有超序列()不频繁,但如果频繁且不存在具有相同支持的超集,则为关闭。给定序列数据库D类= {(b条 c(c))( b条 c(c))d日,( c(c)),c(c) d日( c(c) d日),( c(c))c(c)},支持θ=3和约束 ≥2,有2个最大模式({( c(c)),c(c) c(c)}),3个闭合模式({( c(c)),( c(c)),c(c) c(c)})和5个简单图案({( c(c)), , c(c),( c(c)),c(c) c(c)}).

基于模式的双聚类

基于模式的双聚类方法依赖于模式挖掘方法,因此,使用支持(可能与信任相关度量相结合)作为生成双聚类的优点手段。基于模式的双聚类有两种主要模式。

一种选择是依赖顺序模式[7,13]生成订单保留双聚类(图2)。这些方法遵循一个简单的三阶段过程。首先,对于每一行,列索引都根据它们的表达式值进行线性排序。因此,每一行被视为与列索引相对应的一系列项。其次,将SPM算法应用于低支持阈值下的序列集,以发现频繁子序列。第三,顺序保护双聚类是从发现的序列模式中派生出来的——列是从子序列的项中派生出来,行是从支持频繁子序列的序列集派生出来的。通过转置输入矩阵和生成的双聚类,可以很容易地适应跨行的订单预留假设。

图2
图2

挖掘实数矩阵或逐项间隔矩阵中的保序双聚类。要发现有序双聚类,第一步是根据实际值或离散值对列索引进行排序,并根据观察到的排序(先例和共现)将它们映射到项集序列。特别是,当瞄准行为,传播共同出现n个时间,存在n个共现项目的数量,x个2= {1=0,2=2,=0}映射为(1)2根据异或行为和身份(1)(1)2行为。其次,对序列集应用SPM方法来提取序列模式集。最后,从每个序列模式的项目集和支持事务导出双聚类。

另一种选择是依赖频繁项集挖掘[2226]. 尽管这些方法只针对具有恒定模式的双聚类,但它们的分析至关重要,因为它们为灵活的穷举搜索提供了关键原则。双模块[27]允许输入矩阵的参数化多值项。DeBi[22]和Bellay等人[28]放置关键的后处理原则来调整双聚类,以确保提高统计显著性。GenMiner公司[23]在输入矩阵中包含外部知识,以从关联规则中导出双聚类。

方法

为了解决现有订单提供服务方法的可扩展性、灵活性和健壮性问题,我们提出了BicSPAM(Sequential PAttern Mining中的Biclustering)。BicSPAM定义了关键决策维度(图)。目标方法的效率、灵活性和稳健性取决于映射(或预处理),采矿、和关闭(或后处理)决策。这个映射步骤包括输入矩阵元素的逐项化和重新排序采矿步骤,对应于序列模式挖掘器的应用,用于发现顺序保护的双聚类。这个关闭步骤包括对输出模式进行后处理,以影响目标双簇的结构和质量。

图3
图3

BicSPAM方法:主要维度。保证BicSPAM方法具有可扩展性、灵活性和抗噪性的原则,分三个主要步骤进行阐述。这个映射step定义了通过不同的离散化标准和策略来处理离群值和缺失值所允许的噪声的级别和属性。核心步骤,采矿,通过SPM方法的选择和参数化定义结构性能方面。最后关闭step对后处理决策进行分组,以提高双集群解决方案的质量和/或灵活性。因此,BicSPAM方法为设计和理解与每个步骤相关的选项如何影响基于模式的方法的性能提供了路线图。

BicSPAM行为部分介绍了BicSPAM的基本选项和结构。然后,BicSPAM的核心贡献将在以下章节中进行介绍。可扩展性、灵活性和质量部分提供了BicSPAM的关键原则和扩展。最后,Default和dynamic BicSPAM parameterizations部分提供了BicSPAM选项的集成视图,以及基于数据属性进行初始化的方法。

BicSPAM行为

可以理解,如果双簇的数量和位置以前不固定,则需要高效的搜索方法才能获得最佳且灵活的解决方案。在过去二十年中,SPM方法根据可伸缩性原则进行了调整[29]. 在这种情况下,序列模式的顺序保护双聚类的合成是三个步骤的产物(图2)。输入矩阵的列根据其值重新排序,应用SPM方法,并从找到的频繁子序列映射输出双聚类。注意,当两列的值相等时,它们被视为共现,而当它们的值不同时,它们被视为先例考虑说明性行x个2= {1= 0,2= 2,=0}(图中)2,1共现,同时1先于在这种情况下,双簇是从序列模式派生出来的,如下所示:

定义6。

给定一个矩阵 A类 和最小支持阈值 θ,一套 保序双聚类 k个 B类 k个 哪里B类 k个 =( k个 ,J型 k个 )可以从 频繁序列 k个 k个通过:1)映射( k个 , J型 k个 )=( Φ k个 ,{ k个 =1.. k个 })在行上组合order-preserving双聚类,或通过2)映射( k个 , J型 k个 )=({ k个 =1.. k个 }, Φ k个 ) A类T型在列上组成order-preserving双聚类。

支持阈值定义了双集群中的最小行数。在GE分析的背景下,低支持度至关重要,因为小组基因和/或条件可能会出现显著的共表达模式。此外,对于列数低于可参数化阈值的双聚类,可以通过修剪子序列来筛选列数低于该阈值的子序列。最后,双聚类既可以依赖于SPM方法as-is,也可以通过调整SPM支持(优点函数)来针对更专用的搜索,并在基于Apriori的SPM框架中使用它。现有的支持扩展包括:Pandey等人[24],Gowtham等人[26],Huang等人[30]和Steinbach等人[31]措施。然而,这些度量并没有捕获排序关系,它们的定义需要(反)单调。

当在没有任何形式离散化的情况下对原始数值进行排序时,基于SPM的方法提供的双聚类是完美的双聚类,也就是说,它们不允许排序不匹配。如果离散化使用序数字母表,则每个序列的共现数会增加。在这种情况下,输出双聚类并不完美,但自然更稳健地处理噪声。所考虑的字母表中的项目数可用于控制噪声容限水平。然而,离散化伴随着一个缺点,即可能将两个具有相似值的元素分配给不同的项。我们把这个缺点称为项边界问题。

特别是,选择的SPM方法和目标模式表示会影响双集群任务的性能和输出。与现有方法相比,BicSPAM为两个变量提供了可用的备选方案,以实现优化行为:

  • SPM方法:当前SPM方法可以分为三大类:基于先验的、模式生长的和早期修剪[32]. 基于模式生长结构和早期修剪原则的方法为大多数生物数据设置提供了最佳性能。

  • 作为这些搜索备选方案的补充,数据库的水平和垂直投影都是可能的。SPM任务的垂直投影仅与非常平坦矩阵的备选方案竞争(n个)。当以GE矩阵为目标时,依赖垂直数据格式的方法应仅用于发现行(而非列)上具有顺序保留值的双聚类。BicSPAM使用SPADE[33]垂直数据设置的(混合方法)(n个)和前缀跨度[34](pattern-growth方法)。

  • 图案表示:简单、封闭或最大模式的使用在很大程度上影响双聚类解决方案的属性,如图所示4。在针对浓缩表示法时,可以获得效率收益。最大序列模式导致列大小最大化的双簇。然而,由于垂直和较小的双聚类都是损失的,基于最大值的双聚类会导致不完全解。另一种方法是使用所有顺序模式如中所示μ集群[7]. 此解决方案会导致大量可能冗余的双集群(如果包含在另一个双集群中),这可能会降低挖掘和关闭步骤的性能。最后,闭合序列模式仅当特定双簇的列数减少导致行数增加时,才允许重叠双簇。它们是要获得的目标表示最大双簇,如果不删除行或列,则无法扩展双集群。BicSPAM提供CloSpan[35]和BIDEPlus[36]挖掘压缩序列模式。与现有方法相比,闭合序列模式(最大双聚类)是BicSPAM的默认选项。

图4
图4

比较使用简单、封闭和最大模式的双聚类解决方案。从简单的序列模式表示派生出的双聚类解决方案包括超过最小支持阈值(行数)和模式长度(列数)的所有双聚类组合。采用最大序列模式可能会导致丢失列数适中但行数较多的双聚类,因为会丢弃项目较少但支持度较高的频繁序列。最后,使用闭合序列模式的方法能够返回所有最大双聚类,即不完全包含在另一个双聚类中的一组双聚类。

图中提供了BicSPAM的算法基础5并在以下各节中进行了描述。BicSPAM的计算复杂度受SPM任务和闭合期权双聚类相似性计算的限制。映射步骤:离群值检测、归一化、离散化、噪声校正程序、分布拟合测试和参数估计与矩阵大小呈线性关系,Θ(n个 )。成本采矿台阶取决于两个因素:SPM方法的复杂性和是否允许对称。SPM任务的成本主要取决于:事务的数量和大小(γ n个 ,其中γ≥1表示与噪音和丢失处理程序相关的尺寸增加),项目的频率分布({×Y(Y)}N个),最小支撑θ模式表示、所选SPM方法以及培养粗糙度的技术(如分区策略)。Θ((γ,n个,,,θ)),或者简单地说Θ()是SPM任务的复杂性。对称性的发现悲观地受到Θ(最小值( n个 2 ,)×)最后关闭步骤,根据作者之前介绍的原则[37],主要取决于两个因素:1)计算双簇之间的相似性(合并和过滤双簇时需要),Θ( k个 k个 / 2 第页 ̄ ̄ ),其中k个是双簇数 第页 ̄ ̄ 它们的平均大小;2)延伸双簇,Θ( k个 ( 第页 ̄ +n个 ̄ )),其中k个是合并和筛选后的双簇数。BicSPAM的复杂度由Θ(小时 n个 +最小值( n个 2 ,)+ k个 k个 / 2 第页 ̄ ̄ + k个 ( 第页 ̄ +n个 ̄ )),用于具有大量模式的数据集(k个k个)大约为Θ(最小值( n个 2 ,)+ k个 k个 / 2 第页 ̄ ̄ ).

图5
图5

BicSPAM核心步骤。

可扩展性

现有的SPM方法用于处理每个序列中项目任意重复的序列。然而,订单预留双聚类是从一种更受限制的序列形式中派生出来的,即项目诱导序列,它不允许项目重复[13]. 此外,双集群任务的一个常见输入是每个双集群的最小列数,即输出序列模式的最小项数。尽管现有的SPM方法可以在这种情况下应用,但由于在低支持阈值下序列模式的组合爆炸,它们在交付大型模式时表现出效率低下[13]. 为了避免这种情况,我们提出了两种策略来提高BicSPAM的可伸缩性。首先,我们扩展了IndexSpan算法[37]从项目可定义序列中发现效率更高的序列模式。其次,我们建议选择特定的映射和关闭选项,以促进BicSPAM在大型数据集上的可扩展性。

扣押项目相关属性

索引跨度[37],PrefixSpan上的扩展[34]这是作者之前提出的,用于从项诱导数据库(没有重复项的序列)中获取效率收益,同时保证窄的搜索空间和有效的支持计数。此方法与μ群集方法[7,13],它依赖于具有高内存复杂性的宽度搜索Θ(n个×2)这不适用于大中型数据集(即使存在修剪技术)。IndexSpan在PrefixSpan算法上考虑了以下三种结构调整。首先,IndexSpan依赖于原始序列数据库的可索引压缩版本。其次,它使用更快且节省内存的数据库投影,这是PrefixSpan中最昂贵的步骤。由于每个序列的项的索引是已知的,IndexSpan投影数据库只维护一个列表,其中包含活动序列和前缀的标识符。要知道在将一个项添加到前缀时序列是否仍然频繁,只需将其索引与前一个项的索引进行比较,以及在索引相同时它们的词法顺序。最后,每个序列模式的最小项目数,δ,用于尽早修剪搜索。如果当前前缀的项数加上后缀的项数小于δ,然后可以从投影数据库中删除与后缀相关的序列标识符,因为所有生成的模式都将有许多项低于输入的阈值。

在BicSPAM中实现了IndexSpan上的两个关键扩展。首先,在一个紧凑的树结构中表示发现的闭合频繁序列,其中使用为全模式发现提出的原则对支持事务进行注释[38]. 其次,关闭选项的参数被推送到挖掘步骤。举例说明,可以根据树的属性有效检查合并双聚类的重叠标准,这大大降低了计算所有双聚类对之间相似性的复杂性。

BicSPAM使用IndexSpan作为默认SPM方法,因为其优越的性能(相对于μ集群和传统SPM方法)通过快速数据库投影、最简数据结构以及早期修剪、合并和过滤技术提高效率。

更多效率选项

使用实值或大量项来定义排序是一种有效的方法,可以找到用于表示排序的双聚类,因为它可以保证列索引中的大量优先顺序(以及少量的共现),从而导致较小的顺序模式。相比之下,使用较少项目的离散化对于保证更高的噪声容限解决方案至关重要,但它会降低效率。这是由于频繁的序列模式在数量或大小上呈指数级增长。为了在噪音和效率之间达成折衷,BicSPAM允许任意数量的项目,并提供中到高数量的项目作为默认选项(Σ/5).

在这种情况下,可以应用使用大量项目发现的双聚类的扩展和合并来保证效率,同时保持解决方案的质量。第二种策略是增加最小支持阈值(在对噪声更鲁棒的宽松离散化下),以提高SPM效率,并在以后应用过滤器来删除双簇的行和列,以增强其同质性。BicSPAM提供了可用的扩展、合并和过滤方法。

最后,过去十年中为保证SPM方法的可扩展性而提出的许多原则可以很容易地应用于IndexSpan。这些原则包括:数据分区原则(序列间和序列内)、SPM方法在分布式环境中的应用原则以及近似序列模式的交付(在特定性能保证下发现)[29,32].

灵活性

BicSPAM依赖于灵活的搜索(无需预先确定双聚类的数量),提供了灵活的双聚类结构,并允许对其行为进行灵活的参数化(如果用户选择不使用从数据中动态学习的参数)。为了进一步保证目标BicSPAM方法的灵活性,我们:1)扩展默认的order-preserving双集群以允许对称值,以及2)定义策略以组成不同的双聚类结构。

具有对称性的保序双簇

在GE分析中,允许对称性是将调控和共调控表达水平结合在一个双簇中所必需的[24]. 双星簇中的两行可能具有符号不同的相似有序活动水平。据我们所知,这是首次尝试将对称性与有序保留模型相结合。

定义7。

带有的双星团 对称 (,J型)行上有任何对称 â ij公司 = c(c) × ij公司 或列上 â ij公司 = c(c) j × ij公司 ,哪里 c(c) {-1,1}是双星系团每行的对称因子 ij公司 R(右).

为了找到具有对称性的双团簇,归一化应满足零位准则。此外,如果离散化所考虑的项目数是奇数,则有一个项目是其自身对称的,必须进行特殊处理。

提出了一种基于迭代符号修正的方法来寻找允许对称性的保序双聚类。如果目标是找到行上的顺序保持一致性,那么每个列都有一个迭代 j .在每次迭代中j,每行x个 乘以1或-1系数,以确保 j 列具有相同的符号。更正每行的符号后,应用挖掘和关闭步骤,将发现的双聚类添加到解决方案集中,然后该方法继续下一次迭代(列j+1)。6说明了这一策略。

图6
图6

发现具有对称性的保序双簇。对于每个迭代,每一行(或列)的表达式符号都是一致对齐的,以确保目标列(或行)符号的一致性。举例说明,x个2x个矢量乘以-1因子,以保证符号的一致性1列。然后将目标双聚类方法应用于这个修改后的矩阵。当覆盖所有符号组合时,迭代结束。

尽管标志对齐可以应用于每一列 j ,当所有符号组合都已实现时,可以通过停止搜索来提高效率。然而,最坏的情况需要应用模式挖掘器次。请注意,过滤是一个关键的后处理步骤,用于删除重合路线重复导致的潜在重复。

柔性双集群结构

基于模式的双聚类方法产生了高度灵活的双聚类结构。基于模式的双簇结构允许重叠,并且是非穷举和非排他性的。此外,在这些结构上应用闭合选项可以组合具有不同属性的结构,例如没有重叠区域的结构。在文献中,塑造双簇结构的研究很少,而被视为目标双簇方法的副产品[2].

可以通过扩展和合并双簇来生成详尽的结构(整体、跨行或跨列)。穷举结构的过滤可用于组成排他结构(整体、跨行或跨列)。BicSPAM提供了这些闭合技术,可用于塑造具有任意位置双簇的解。由于无需更改核心映射和挖掘步骤,因此BicSPAM中的替代结构的合成可以以高可用性进行。

质量

本节对BicSPAM方法的健壮性进行了扩展。提出了多个映射和闭合选项来处理缺失值和处理不同级别的噪声。

处理不同级别的噪音

顺序保护双聚类的一个关键方向是通过遵循图中所示的三种策略之一来考虑多个噪声级别7.弗斯特该策略减少了项目数,在离散化程度不同的矩阵上分层连接相邻值以挖掘双聚类。第二该策略是在较低支持度下的松弛到受限扩展,只考虑挖掘后的不同噪声水平。例如,顺序保护双聚类的合并可以遵循对原始值或离散值的接近性敏感的统计测试。第三策略,多个项目,基于参数化阈值将一个或多个项目关联到每个元素。这对于避免项目边界问题(在两个项目之间的离散化边界附近具有值)至关重要。可以定义不同的标准来为每个元素分配不同数量的项目 j 。根据到质心的距离,每个元素可以有两到三个项目。因此,此方法将导致具有多个大小的序列,其中列索引可以在一个序列中重复出现。如果观察到特定序列模式的重复,则在根据该模式定义双聚类时会忽略这些重复。

图7
图7

应对不同噪声松弛的策略。本文阐述了三种策略。首先,通过将字母表中的项目数从4个减少到3个来实现放松。第二,较低的支撑(啜饮=2)与闭合选项组合构成最终的双聚类。在这个例子中,这个较低的支撑导致({x个1,x个2,x个},{1,2})和({x个2,x个},{1,2,})双星团,可以扩展或合并为一个更大的双星团({x个1,x个2,x个},{1,2,}). 第三,可以使用元素值和项目质心之间的距离为每个元素分配多个项目。举例说明,让1,1=0.5,项目0和1的质心分别为0.2和1.1,距离阈值为0.7,则1,1分配给0和1项(1.1-0.7<1,1<0.2+0.7).

处理缺少的值

输入矩阵可能有缺失的值,这是GE矩阵的常见情况。如果一个缺少的值未得到正确处理,可能会导致一个或多个双集群中的行和列丢失,这可能包含关键信息。可以使用三种不同的策略来处理缺失的值:i)拆卸,ii)更换,以及iii)作为特殊值处理。最简单的方法是删除包含的行或列(通常是尺寸较小的维度)。为了不丢失对组成双聚类至关重要的其他信息,可以使用一个特殊项来替换在列排序过程中删除的缺失值。这样,每行可以有不同数量的列。此外,还提出了许多换孔方法[3941],这缓解了所提到的问题,但也引入了额外的噪声,可以显著降低输出双聚类的均匀性。因此,我们建议使用根据用户定义的放松程度进行特殊处理的附加项目,如图所示8.最低约束设置(轻松的)用所有项替换缺少的元素。这是一种激进的替代方法,可以确保潜在相关的双簇不会因缺失值的存在而丢失。中等约束设置(δ-replace)围绕其价值评估考虑了多个项目。最高约束设置(限制性的)删除缺少的项目。

图8
图8

比较处理缺失值的策略。轻松的处理缺失值的设置,发生缺失的列索引将作为相应序列所有位置的共现项包含在内。举例说明,1=2映射为1(1)(12)1.δ-替换设置是一种更为保守的选择,因为它只考虑将其指数包含在差异较小的头寸中δ从其价值评估来看。如果1,1估计值为1.5δ=0.5,则1,1{1,2}和(自=1和2= 2)1定义为(1)(12)。最后,更保守的方法是,限制性的设置时,从相应事务中删除缺少的项目。

映射选项的鲁棒性

BicSPAM允许在行、列或整体矩阵上应用规范化和离散化方法。每个上下文都会导致不同的双簇,并且分别适合在双簇的列、行或两个维度上查找模式。规范化选项用于缩放和增强值上的差异,这在挖掘订单预留规则时至关重要。Marcilio等人[42]比较GE数据的三种标准化程序:z-score、scaling和rank-based程序。已报告其他标准化标准[43,44]. BicSPAM需要零位,因此允许对称性,并为应用多个概率分布提供简单设置。当假设存在缺失元素和异常元素时,可以采用掩蔽位图来排除它们[27].

应用的离散化决定了每个序列的共现和先验的权重,因此,它对输出的双聚类解有很大影响。尽管离散化意味着列之间的实际距离会丢失,但它缓解了噪声难题[45,46]. BicSPAM允许使用两个参数进行此控制:项目数和离散化方法。增加项目的数量会减少共现的数量,因此,会降低值更接近但没有明显顺序约束的元素的噪声容限。由于更严格的噪声容限,输出解往往由更多的面积较小的双簇组成。此外,BicSPAM提供了用于离散化的基于距离的等深度分区和高斯截止点方法(默认选项),如图所示9.

图9
图9

比较BicSPAM离散化选项。使用固定范围是最简单的离散化选项,但通常会导致项目的弱分布加剧,并容易出现项目边界问题。基于百分比的方法通过对项目进行深度分区来处理此观察结果,从而得出包含大致相同数量项目的间隔。最后,可以采用替代分布(如图所示的高斯分布)来结合先前解的性质。虽然通常选择高斯分布,但泊松分布的出现次数相当多(λ≥3)是为数据集动态选择的,在中值周围没有对称的值分布。如图所示,这些方法可以产生差异较大的双聚类解决方案。

收盘期权的稳健性

  • 合并选项[28,47]. 合并方法允许传递容错的双簇,从而恢复由于项边界问题或缺少/有噪声值而丢失的行和列。指导合并的有效标准是重叠区域(以较小的双簇的百分比表示),这是BicSPAM中的默认选项,或者是合并后双簇的同质性。

  • 筛选选项[22,27]. BicSPAM允许在两个级别进行过滤:1)在双团簇水平和2)在行-列级别。对于第一种过滤,即删除较大的双簇中重复或包含的双簇,BicSPAM遵循BiModule[27]有效执行此类筛选的启发式方法。第二种筛选可以用于从特定的双簇中排除行或列,以增强其同质性。当考虑的项目数较少时,通常会出现这种情况,从而导致高噪声耐受性的双簇。为此,BicSPAM提供了三种策略:1)对每行和每列进行统计测试,2)依赖现有的迭代方法并最大化其优点函数,以及3)在更严格的条件下发现序列模式(如更高的支持度和置信阈值)。

  • 扩展选项[22,28]. 与行-列级别的过滤选项类似,BicSPAM实施了三种非结论性策略,以扩展双聚类,从而使生成的解决方案仍然满足某些预定义的同质性。第一种策略依赖于贪婪方法的使用及其价值函数的进一步扩展。第二种策略是使用统计测试来包括每个双集群上的行或列。最后,BicSPAM提供了第三种新策略,它基于在更宽松的支持阈值下发现的序列模式的合并。

默认和动态BicSPAM参数化

影响解决方案质量和效率的BicSPAM参数为:

  • 映射步骤参数,包括:项目数(允许的噪声)、归一化和离散化方法,以及处理缺失值和噪声值的(可选)方法;

  • 挖掘步骤参数,包括:输入的最小行数和列数;SPM方法及其可扩展性扩展;以及选择的模式表示;

  • 关闭步骤参数,包括合并、筛选和扩展双簇的标准。

BicSPAM提供了可用的默认参数化(data-independent设置)和动态参数化(数据依赖设置)。默认参数化包括:面向行的零元规范化、整体高斯离散化和 4 项目(为了充分权衡先例与共现),以及使用基于行的IndexSpan和封闭序列模式,噪声松弛(为范围内的值分配2个项目c(c),b条具有 最小值 ( b条 - c(c) , c(c) - ) b条 - <10%),删除丢失的值并合并80%重叠的过程。对于默认设置,BicSPAM迭代地将支持阈值降低10%(从θ=50%),直到输出解决方案发现50个非相似的双聚类或覆盖输入矩阵中10%的元素。

动态参数化采用相同的挖掘选项,但在以下方面有所不同。测试输入矩阵的不同分布,以选择归一化和离散化过程。如果每行/列的值范围不能以低误差(在簇内平方和内)进行聚类,则采用扩展和过滤(在列/行级别)选项来增强BicSPAM的鲁棒性。如果输入矩阵分别有超过2%和5%的缺失元素,则选择中度和放松缺失处理程序。使用SPADE SPM方法进行垂直搜索[33]在以下情况下被选中> 10n个。当不满足以下条件时,可以使用数据分区原则来促进可伸缩性:(n个<20000<100)(n个<4000<200).

这些参数化提供了一个健壮且用户友好的环境来使用BicSPAM,而专家用户仍然可以进一步探索其他行为,以获得不同质量的探索性解决方案。

结果和讨论

本节综合了BicSPAM性能的实验评估结果。结果表明,所提出的方法具有计算效率高、灵活性强以及对不同输入设置的鲁棒性。这些方法是用Java(JVM版本1.6.0-24)实现的。实验使用Intel Core i5 2.30 GHz和6 GB RAM进行。

实验结果分三步收集和分析。首先,深入分析了具有不同大小、噪声和稀疏性的合成数据集的替代BicSPAM参数化的影响。其次,根据现有备选方案评估BicSPAM的性能。最后,评估了BicSPAM结果在生物环境中的重要性。

合成数据结果

为了研究BicSPAM的性能,生成了两组数据集。首先,使用表中描述的实验设置生成一组合成矩阵1我们将这些矩阵的大小(保持基因表达数据中常见的行和列之间的比例)改变到2.000行和100列。种植的双星簇的数量和形状也不同。每个双簇的行数和列数在表中给出的范围内遵循均匀分布1。统一选择允许重复选择,从而在双簇之间创建重叠,这可以加强种植的双簇的恢复。最后,对每个双集群应用噪声因子(高达域范围的±10%)。对于这些设置中的每一个,我们实例化了20个矩阵:10个具有连续均匀分布背景值的矩阵U型根据高斯分布生成背景值的(-1,1)和10矩阵N个(μ=0时,σ=1). 给出的结果是这20个矩阵的平均值。

表1生成的数据集设置的属性

生成第二组数据集,通过固定行数来研究BicSPAM的效率极限(X=20000)和改变列数(50≤Y(Y)≤ 200). 背景值作为第一组数据集生成,种植了2个双簇植物,占总面积的5%。

我们依靠匹配分数(MS)来评估双聚类方法的准确性,以恢复种植的双聚类。微软(,)定义找到的双聚类与隐藏的双聚类匹配的程度,而微软(,)反映了每个隐藏的双星团的恢复情况。

微软 ( , ) = 1 Σ ( 1 , J型 1 ) 最大值 ( 2 , J型 2 ) 1 2 1 2

双聚类方法的比较:

选择了四种最先进的双聚类方法:两种能够提供顺序保护双聚类的方法,OPSM[1]和OP-集群[7],以及两种能够在常数、加法和乘法模型下发现双聚类的方法,FABIA和稀疏先验方程[]和ISA[48]. 我们使用了以下软件:BicAT公司软件[49]运行OPSM和ISA方法以及R(右)包裹法比亚[]. OPSM方法的默认迭代次数从10到200次不等。BicSPAM用于:1)默认参数化,2)默认参数化,但使用从多个级别的表达式收集的序列模式(Σ{4,7,10}),以及3)基于动态数据的参数化。BicSPAM和OP-Clustering方法的支持阈值都逐渐降低了10%,并且当输出解决方案具有超过50个(最大)双聚类时停止。我们使用默认参数化应用了FABIA。FABIA和ISA的指定双聚类数(起点数)是隐藏双聚类数加上10%:×1.1.

这些方法在表中描述的合成数据集上的平均性能1(在顺序保护和乘法模型之后种植双聚类)如图所示10.OP-由于较大数据集的内存问题,排除了群集。对于小数据集,由于缺少关闭和噪声处理选项,OP-Clustering的性能略低于BicSPAM。这些结果证实了BicSPAM在以下方面的更高性能微软(,)也就是说,大多数发现的双聚类都由隐藏的双聚类(正确性)很好地描述,并且微软(,)也就是说,大多数隐藏的双簇可以映射到发现的双簇(完整性)。虽然OPSM在顺序保护假设下取得了合理的性能,但双聚类的迭代掩蔽降低了观察到的匹配分数水平。此外,OPSM倾向于发现大小不同的双聚类,这会导致大部分双聚类的行数或列数很少。FABIA和ISA方法不准备发现订单保留双聚类。然而,对于乘法相干性,FABIA是一个有竞争力的选择,尽管微软(,)由于每个双聚类包含假列,因此等级会受到惩罚。由于顺序保留规则比乘法规则更为普遍,因此观察到ISA(准备寻找加性规则)和OPSM的稳健性受到了惩罚。

图10
图10

使用生成的数据集比较双聚类方法的匹配分数。

效率限制:

为了显示考虑20000行(人类基因组大小)时BicSPAM效率的边界,我们考虑了第二组合成数据,结果如图所示11.BicSPAM支持减少,直到达到5%的覆盖率。描述了两个场景:一个场景中种植了双簇,另一个场景没有种植双簇。在缺乏可扩展性原则的情况下,BicSPAM可以处理高达20.000×100的矩阵。在有数据采样原则的情况下(根据[50]),BicSPAM可以针对评估的大中型数据设置进行扩展。

图11
图11

在没有和存在采样选项的情况下,BicSPAM对20000行的效率。

共现程度:

12说明了BicSPAM在生成的数据集上的性能,使用:原始值(每个项目集的平均项目数约为1);离散化以考虑每个项集平均5%的列(20个项集的序列);以及离散化,以考虑每个项集平均10%的列(包含10个项集的序列)。这些测试是使用没有关闭选项的默认参数化执行的。检索到的双聚类与种植的双聚类相匹配(微软(,)微软(,)中大型数据集超过95%)。这些分数不是最优的(100%),因为由于植入的噪声或允许的双聚类之间的重叠,从解决方案中排除了几行。这也是发现的双聚类数量显著高于种植的双聚类的主要原因c(c)如图所示,当考虑合并步骤(80%重叠)时,此问题被最小化。最后,离散化方法的使用减少了优先顺序的数量,这可能会由于频繁模式的增加而导致效率略有下降。

图12
图12

具有不同属性的数据集的BicSPAM方法的性能。

采矿方法:

算法选择对BicSPAM在时间和最大内存使用方面的效率的影响如图所示13。我们使用了SPMF框架中的PrefixSpan[51]和OPC-Tree作为比较的基础。在每个双集群中缺少和存在最小列数的情况下挖掘序列模式的影响,δ阈值是为了进行公平的比较而提出的。采用快速数据库预测可以显著提高效率,这决定了SPM任务可以根据硬设置进行扩展。δ-基于剪枝的方法也可以提高效率。与需要在遍历之前完整构造模式树的OPC-Tree相比,IndexSpan以最小的内存浪费执行搜索。对于分配的2GB内存空间,我们无法为超过40列的输入矩阵构建OPC-树。

图13
图13

不同大小的数据集上替代SPM方法的效率。

图案表示:

选择简单、封闭和最大模式表示的影响如图所示14用于10个项目的字母长度和1000×75数据集设置。如图所示,应避免使用最大模式进行双聚类,因为它优先选择具有大量列的双聚类,并放弃具有这些列子集的双聚类(即使存在大量行)。这将惩罚微软(,)水平。微软(,)当每个最大的双簇被一个种植的双簇覆盖时,分数不会受到太大的影响。此外,使用简单的模式进行双聚类可以降低微软(,)与封闭模式相比。即使发现的双星簇具有高度的同质性,这一分数也会对发现的只是较大种植双星簇的一部分的双星团的发现不利。搜索封闭模式和最大模式稍微提高了效率。这些观察结果支持使用SPM方法来发现闭合模式(对应于最大双聚类的概念[2]).

图14
图14

超过1000×75设置的可选模式类型的属性,用于不同的支持级别。

缺少值:

用于评估拟处理的策略缺少值,对于1000×75的设置,我们随机删除了生成矩阵中不同数量的元素。15说明了BicSPAM(使用带有修剪选项和10个项目的PrefixSpan)的性能如何随缺少元素的百分比而变化,该百分比的范围为0到5%(即0到10.000个元素)。5%已经被认为是一个危及检索真正双星团能力的关键数字。图中给出了三个主要观察结果15首先,当考虑最接近的2-3个值时,稳健性比仅输入一个值或所有可能的值时更大(放松策略)。这是因为恢复原始值的机会增加,因此不会损坏种植的双簇。当考虑缺失元素的所有可能值时,会增加噪音,这可能导致出现假双聚类。其次,尽管删除缺少的元素(使用SPM轻松实现)比默认选项(删除出现缺少的列或行)更可取,微软(,)当缺失值的百分比达到5%时,得分仍从97%降至近60%。第三,随着序列数据库变得更加密集(与发现的双聚类数一致),输入多个值会降低效率。然而,当仅输入最接近的2-3个项目时,可扩展性级别保持不变,噪音级别高达5%。

图15
图15

处理具有不同噪声水平的数据集的缺失值的不同技术的影响。

结束选项:

种植了不同水平的噪音,以测试拟议关闭方案的稳健性。这是通过将特定元素的值替换为新的随机生成的值来实现的。噪声元素的百分比从0到10%不等。我们为本研究选择了1000×75的设置、PrefixSpan方法,并为离散化步骤选择了20项。16描述了合并、过滤和扩展策略对处理噪声的影响。

图16
图16

的影响 合并 (不同的重叠程度和5%的噪音), 过滤 (不同的均匀度和2%的噪音)和 扩展 使用2000×100设置。

影响合并图中显示了假设5%的种植噪声水平的双集群16(左)。基线情况是合并所需的重叠区域等于100%(因为我们的目标是从闭合模式派生的双簇,所以没有合并效果)。放松重叠标准时微软(,)级别(以及微软(,)levels)增加,因为合并步骤允许恢复属于植入的双簇的缺失列和行。然而,这种行为上的改善只有在达到某个阈值(对于这种设置,接近70%)时才能观察到。正确识别最佳阈值可以带来显著的增益(对于此实验设置,接近20 pp)。

通过过滤行/列级别还增强了恢复种植的双簇的能力。移除潜在行和列(不满足输入的同质性阈值)的影响如图所示16(中间)。在考虑限制性离散化时,过滤与纠正与非植物共生相关的错误相关。与合并选项类似,从基线情况(同质性程度为0%)到75%(由1给出-M(M) S公司 R(右))。从这个上限值开始,匹配分数下降,因为同质性标准变得过于严格,这导致由于对其自然噪声水平的误解,从种植的双聚类中删除行和列。

最后,不同的影响延伸战略如图所示16(右)。当增加植入式噪声时,扩展选项的存在对于保持具有吸引力的精确度至关重要。通过统计分析或降低SPM方法的支持并合并产生的双聚类,包含新的行和列都能够将匹配分数保持在90%以上(比基线情况高出30 pp)。

对称性:

17描述了使用BicSPAM挖掘对称行为与默认BicSPAM行为(虚线)的比较。在这个评估中,我们为每个种植的双簇改变了一些行的符号。默认的BicSPAM(无对称)在相同的矩阵上进行测试,但使用的是无对称的种植双聚类。微软(,)保留级别。当考虑对称行为时,观察到的准确性差异与背景值形成非种植秩序保持双聚类的较高概率有关(通过大量发现的双聚类验证)。最后,在时间复杂性中使用对称性的影响远小于预期 Y(Y) 由于实现的启发式修剪迭代次数而导致的时间。

图17
图17

挖掘具有和不具有对称性的有序双聚类的困难。

实际数据中的结果

为了评估BicSPAM结果在生物医学背景下的相关性,我们选择了四个不同的数据集:dlbcl(180列/条件,660行/基因)[52],酵母(18列,2884行)[53],结肠癌(62列,2000行)[54]和白血病(38列,7129行)[55]. 这些数据集以前曾被具有灵活一致性标准的双聚类方法所使用[1,,13].

18比较了考虑20个项目的离散化字母表时扩展IndexSpan方法的性能,θ=8%和δ= 5. 该分析加强了从合成数据中得出的观察结果。19说明了在挖掘酵母数据集时包含对称性的影响。我们应用BicSPAM进行整体归一化,然后进行20个项目的高斯离散化。所示解决方案依赖于闭合模式,并排除相同的双簇。有趣的是,我们可以看到,允许对称行为的顺序保护解决方案能够捕获更多的平均大小较大的双簇。这是一个高度灵活性的指标,与监管和共同监管行为的综合捕获有关。

图18
图18

BicSPAM相对于实际数据的效率。

图19
图19

针对不同的数据集设置,具有对称性的订单预留解决方案的灵活性。

生物相关性:

评估生物学相关性在所发现的顺序表示双聚类中,使用GoToolBox的基因本体(GO)注释获得统计相关性[56]. 为了进行功能充实分析,我们计算了第页-使用超几何分布访问特定GO项的过表示的值。为了认为双聚类是高度显著的,我们要求其基因通过纠正Bonferroni来在一个或多个“生物过程”本体术语中表现出显著的丰富性第页-值低于0.01。如果至少一个GO项通过具有第页-值低于0.05。

当考虑到最小数量的δ=5个条件。图中显示了在酵母数据集中发现的两个说明性的保序双聚类20.

图20
图20

酵母数据集的两个具有少量条件的保序双聚类。

特别是,考虑对称性时,有效双簇的平均数量增加到80多个,平均元素数量更多。这是一个关键的观察结果,因为这意味着在考虑对称性的情况下,只有在灵活的顺序保护设置下通过双聚类才能发现具有生物相关性的基因组。

2提供了一组具有统计意义的已发现的保序双聚类的说明性集合。具有生物学意义的双聚类的属性取决于数据集类型、项目数(影响先例数)和允许的结束选项。

表2在Bonferroni校正后,以1%和5%显著性水平通过GO术语丰富测试的说明性双聚类

结论

为了在灵活的条件下执行高效的穷举搜索,提出了基于模式的订单保留双聚类方法。结果表明,他们能够在多达20000行和200列的矩阵上找到高度灵活和健壮的解决方案。合成数据和实际数据的结果都表明,BicSPAM可以超越现有顺序表示方法的缺点,即更宽松的可伸缩性边界、灵活的表达式配置文件以及对噪声和缺失值的卓越鲁棒性。

BicSPAM根据输入数据上下文提供可动态参数化的选项。BicSPAM允许:

  • 不同的SPM方法、模式表示(简单、精简和近似)以及动态优化,以获取输入数据集的特性;

  • 根据不同的松弛度,有多种选项来处理噪声和缺失值;

  • 任意数量的项目和不同的离散化选项(包括处理项目边界问题的策略)对解的影响较大;

  • 通过扩展-合并-过滤步骤,以多种方式处理柔性结构的组成和双星簇的数量,而无需调整核心任务。

此外,本文引入了具有对称性的保序双簇的概念,并提出了一种有效的发现方法。结果表明,允许对称性对于同时捕获生物过程中的激活和调节机制至关重要。

作为未来的工作,我们希望根据巨大的模式挖掘原理,通过合并在更大的支持阈值下发现的较小的顺序模式,调整挖掘步骤,以搜索冗长的顺序模式[47]. 这个方向也促进了BicSPAM的可扩展性。最后,我们希望将基于约束的模式挖掘的贡献集成到BicSPAM中,以支持生物背景下的知识引导双聚类。

软件可用性

已使用的数据集和BicSPAM可执行文件可在http://web.ist.utl.pt/rmch/software/bicspam.

尾注

贪婪的迭代搜索依赖于行和列的选择、添加和删除,直到局部价值函数最大化[1,57,58]. 穷尽搜索使用价值函数来指导空间探索[18,59]. 组合来自两个维度的聚类的方法使用相似性度量(优点函数)进行聚类和连接阶段[60,61]. 分治搜索使用全局价值函数递归利用矩阵[62]. 随机方法假设双聚类遵循多元分布[,8,63]并通过最大化似然(优点)函数来学习它们的参数。

b条现有的订单预留搜索范式也因输出双聚类的数量而异——参数化的(现有贪婪方法)或未定义的(现有穷举方法)——以及搜索迭代的次数——一次一个双聚类的(现有贪心方法)或者一次所有的双簇(现有的穷举方法)。

c(c)微软(,)揭示了隐藏的双簇是如何被最近发现的双簇所覆盖的。由于至少有一个发现的双集群与每个隐藏的双集群直接对应,因此BicSPAM微软(,)水平通常高于微软(,).

工具书类

  1. Ben-Dor A,Chor B,Karp R,Yakhini Z:发现基因表达数据中的局部结构:序提供子矩阵问题。重组。2002年,纽约:ACM,49-57。

    谷歌学者 

  2. Madeira SC,Oliveira AL:生物数据分析的双聚类算法:一项调查。IEEE/ACM Trans-Comput生物信息学。2004, 1: 24-45.

    第条 中国科学院 谷歌学者 

  3. Hochreiter S、Bodenhofer U、Heusel M、Mayr A、Mitterecker A、Kasim A、Khamiakova T、Van Sanden S、Lin D、Talloen W、Bijnens L、Göhlmann HWH、Shkedy Z、Clevert DA:FABIA:双集群收购的因子分析。生物信息学。2010, 26 (12): 1520-1527.

    第条 公共医学中心 公共医学 中国科学院 谷歌学者 

  4. Bebek G,Yang J:PathFinder:从蛋白质相互作用网络中挖掘信号转导途径片段。BMC生物信息学。2007年8月335日-

    第条 公共医学中心 公共医学 谷歌学者 

  5. 丁C,张毅,李T,霍尔布鲁克SR:双聚集蛋白复合物与双液查找算法的相互作用。ICDM。2006年,华盛顿特区:IEEE计算机学会,178-187。

    谷歌学者 

  6. Choi H,Kim S,Gingras AC,Nesvizhskii AI:通过基于模型的无标记定量AP-MS数据的双聚类分析蛋白质复合物。分子系统生物学。2010, 6: 385-

    第条 公共医学中心 公共医学 谷歌学者 

  7. 刘杰,王伟:OP-聚类:高维空间中的趋势聚类。ICDM。2003年,华盛顿特区:IEEE计算机学会,187-187。

    谷歌学者 

  8. Lazzeroni L,Owen A:基因表达数据的格子模型。中国统计局。2002, 12: 61-86.

    谷歌学者 

  9. Charrad M、Ahmed MB:同时聚类:一项调查. 2011,

    谷歌学者 

  10. Sim K,Gopalkrishnan V,Zimek A,Cong G:增强子空间聚类的调查。数据最小知识发现。2013, 26 (2): 332-397.

    第条 谷歌学者 

  11. 叶坤,高斌,朱X,崔克,李SD,张D:从重复测量的数据中挖掘序保留子矩阵。IEEE Trans Knowl Data Eng.2013,25(7):1587-1600。

    第条 谷歌学者 

  12. Fang Q,Ng W,Feng J,Li Y:从概率矩阵中挖掘保序子矩阵。ACM事务数据库系统。2014, 39: 6:1-6:43.

    第条 谷歌学者 

  13. 刘杰,杨杰,王伟:基因表达数据按趋势的双聚类。计算系统生物信息学会议。2004年,美国加利福尼亚州斯坦福:IEEE计算机学会,182-193。

    谷歌学者 

  14. Hochbaum DS,Levin A:关于保序子矩阵的最小化变量和双聚类问题的近似算法。ACM传输算法。2013, 9 (2): 19:1-19:12.

    第条 谷歌学者 

  15. 博兹达·D,库马尔AS,Catalysturek UV:双聚类算法的比较分析. 2010,

    第章 谷歌学者 

  16. PrelićA、Bleuler S、Zimmermann P、Wille A、Bühlmann P,Gruissem W、Hennig L、Thiele L、Zitzler E:基因表达数据双聚类方法的系统比较和评估。生物信息学。2006, 22 (9): 1122-1129.

    第条 公共医学 谷歌学者 

  17. Patrikainen A,Meila M:比较子空间聚类。IEEE TKDE。2006, 18 (7): 902-916.

    谷歌学者 

  18. Tanay A,Sharan R,Shamir R:在基因表达数据中发现具有统计意义的双聚类。生物信息学。2002, 18: 136-144.

    第条 谷歌学者 

  19. Madeira S,Teixeira MNPC,Sá-Correia I,Oliveira A:使用线性时间双聚类算法识别时间序列基因表达数据中的调节模块。IEEE/ACM Trans-Comput生物信息。2010, 1: 153-165.

    第条 谷歌学者 

  20. Berriz GF、King OD、Bryant B、Sander C、Roth FP:用FuncAssociate表征基因集。生物信息学。2003, 19: 2502-2504.

    第条 公共医学 中国科学院 谷歌学者 

  21. Young SS:基于重采样的多重测试:p值调整的示例和方法。1993年,美国新泽西州霍博肯:John Wiley&Sons

    谷歌学者 

  22. Serin A,Vingron M:DeBi:使用频繁项集方法发现差异表达的双聚类。分子生物学算法。2011, 6: 1-12.

    第条 谷歌学者 

  23. Martinez R、Pasquier C和Pasquier N:GenMiner:从基因组数据中挖掘信息关联规则。圣经。2007年,华盛顿特区:IEEE计算机学会,15-22。

    谷歌学者 

  24. Pandey G,Atluri G,Steinbach M,Myers CL,Kumar V:双聚类的关联分析方法。KDD。2009年,纽约:ACM,677-686。

    第章 谷歌学者 

  25. Okada Y,Okubo K,Horton P,Fujibuchi W:基因表达模块的穷尽搜索方法及其在人体组织数据中的应用。IAENG IJ计算科学。2007, 34: 119-126.

    谷歌学者 

  26. Atluri G、Bellay J、Pandey G、Myers C、Kumar V:发现遗传相互作用数据中的相干值双链。程序。第九届生物信息学数据挖掘国际研讨会(BIOKDD),KDD。2000年,美国华盛顿特区:ACM数字图书馆,

    谷歌学者 

  27. Okada Y,Fujibuchi W,Horton P:使用封闭项集枚举算法发现基因表达模块的双聚类方法。IPSJ跨生物信息学。2007年,48(SIG5):39-48。

    谷歌学者 

  28. Bellay J、Atluri G、Sing TL、Toufighi K、Costanzo M、Ribeiro PS、Pandey G、Baller J、VanderSluis B、Michaut M、Han S、Kim P、Brown GW、Andrews BJ、Boone C、Kumar V、Myers CL:通过全球模块分解将遗传相互作用置于上下文中。《基因组研究》2011,21(8):1375-1387。

    第条 公共医学中心 公共医学 中国科学院 谷歌学者 

  29. 韩杰,程浩,辛丁,严X:频繁模式挖掘:现状和未来方向。数据最小知识发现。2007, 15: 55-86.

    第条 谷歌学者 

  30. 黄毅,熊浩,吴伟,宋SY:挖掘定量最大超液化模式:结果总结。PAKDD。2006年,柏林,海德堡:斯普林格·弗拉格,552-556。

    谷歌学者 

  31. Steinbach M,Tan PN,Xiong H,Kumar V:概括支持的概念。KDD。2004年,纽约:ACM,689-694。

    谷歌学者 

  32. Mabroukeh NR,Ezeife CI:序列模式挖掘算法的分类。ACM计算调查。2010, 43: 3:1-3:41.

    第条 谷歌学者 

  33. Zaki MJ:SPADE:挖掘频繁序列的有效算法。马赫学习。2001, 42 (1–2): 31-60.

    第条 谷歌学者 

  34. Pei J,Han J,Mortazavi-Asl B,Wang J,Pinto H,Chen Q,Dayal U,Hsu MC:通过模式增长挖掘序列模式:前缀跨度方法。IEEE Trans Knowl Data Eng.2004,16(11):1424-1440。

    第条 谷歌学者 

  35. Yan X,Han J,Afshar R:CloSpan:在大型数据集中挖掘闭合序列模式。程序。SIAM IC关于数据挖掘(SDM)的报告。2003年,美国加利福尼亚州旧金山:SIAM,166-177。

    谷歌学者 

  36. 王杰,韩杰:BIDE:频繁闭序列的高效挖掘。IEEE计算机学会。2004年,华盛顿,79-79。

    谷歌学者 

  37. Henriques R,Antunes C,Madeira SC:高效发现大项目可诱导序列模式的方法。Lect Notes艺术智能。2014, 8399: 94-108.

    谷歌学者 

  38. Henriques R、Madeira SC、Antunes C:F2g:高效发现完整模式。ECML/PKDD IW关于采矿复杂模式的新前沿。2013年,捷克共和国布拉格:施普林格出版社,

    谷歌学者 

  39. Troyanskaya O,Cantor M,Sherlock G,Brown P,Hastie T,Tibshirani R,Botstein D:Altman RB:DNA微阵列缺失值估计方法。生物信息学。2001, 17 (6): 520-525.

    第条 公共医学 中国科学院 谷歌学者 

  40. Donders AR、van der Heijden GJ、Stijnen T、Moons KG:综述:缺失值插补的温和介绍。临床流行病学杂志。2006, 59 (10): 1087-1091.

    第条 公共医学 谷歌学者 

  41. Hellem T,Dysvik B,Jonassen I:L插补:用最小二乘法准确估计微阵列数据中的缺失值。核酸研究2004,32(3):34-

    第条 谷歌学者 

  42. de Souto M,de Araujo D,Costa I,Soares R,Ludermir T,Schliep A:基因表达数据集聚类分析标准化程序的比较研究。IEEE神经网络国际联合会议。2008年,中国香港:IEEE,2792-2798。

    谷歌学者 

  43. Mahfouz MA,Ismail MA:BIDENS:基于密度的迭代双聚类算法及其在基因表达分析中的应用。世界科学技术学院。2009, 3 (1): 331-337.

    谷歌学者 

  44. Calders T、Goethals B、Jaroszewicz S:挖掘数值属性的等级相关集。KDD。2006年,纽约:ACM,96-105。

    谷歌学者 

  45. Carmona-Saez P、Chagoyen M、Rodriguez A、Trelles O、Carazo J、Pascual-Montano A:通过关联规则发现对基因表达进行综合分析。BMC生物信息学。2006, 7: 1-16.

    第条 谷歌学者 

  46. Creighton C,Hanash S:关联规则的基因表达数据库挖掘。生物信息学。2003, 19: 79-86.

    第条 公共医学 中国科学院 谷歌学者 

  47. 朱峰,闫X,韩杰,于鹏,程华:通过核心模式融合挖掘海量频繁模式。ICDE。2007年,土耳其伊斯坦布尔:IEEE,706-715。

    谷歌学者 

  48. Ihmels J,Bergmann S,Barkai N:使用大规模基因表达数据定义转录模块。生物信息学。2004, 20 (13): 1993-2003.

    第条 公共医学 中国科学院 谷歌学者 

  49. Barkow S、Bleuler S、PrelićA、Zimmermann P、Zitzler E:BicAT:双聚类分析工具箱。生物信息学。2006, 22 (10): 1282-1283.

    第条 公共医学 中国科学院 谷歌学者 

  50. Toivonen H:为关联规则对大型数据库进行采样。1996年第22届超大数据库国际会议论文集。1996年,旧金山:Morgan Kaufmann Publishers Inc.,134-145。

    谷歌学者 

  51. Fournier Viger P,Gomariz A,Soltani A,Lam H,Gueniche T:SPMF:开源数据挖掘平台。2014, [http://www.philippe-fournier-viger.com/spmf/],

    谷歌学者 

  52. Alizadeh AA、Eisen MB、Davis RE、Ma C、Lossos IS、Rosenwald A、Boldrick JC、Sabet H、Tran T、Yu X、Powell JI、Yang L、Marti GE、Moore T、Hudson JJ、Lu L、Lewis DB、Tibshirani R、Sherlock G、Chan WC、Greiner TC、Weisenburger DD、Armitage JO、Warnke R、Levy R、Wilson W、Grever MR、Byrd JC、Botstein D、Brown PO、,等:通过基因表达谱确定的不同类型的弥漫性大B细胞淋巴瘤。自然。2000, 403 (6769): 503-511.

    第条 公共医学 中国科学院 谷歌学者 

  53. Tavazoie S、Hughes JD、Campbell MJ、Church RJ和Church GM:基因网络结构的系统测定。自然遗传学。1999, 22 (3): 281-285.

    第条 公共医学 中国科学院 谷歌学者 

  54. Alon U、Barkai N、Notterman DA、Gish K、Ybarra S、Mack D、Levine AJ:通过寡核苷酸阵列探测的肿瘤和正常结肠组织的聚类分析揭示了广泛的基因表达模式。国家科学院院刊。1999, 96 (12): 6745-6750.

    第条 公共医学中心 公共医学 中国科学院 谷歌学者 

  55. Golub TR、Slonim DK、Tamayo P、Huard C、Gaasenbeek M、Mesirov JP、Coller H、Loh ML、Downing JR、Caligiuri MA、Bloomfield CD、Lander ES:癌症分子分类:通过基因表达监测进行类别发现和预测。科学。1999, 286 (5439): 531-537.

    第条 公共医学 中国科学院 谷歌学者 

  56. Martin D、Brun C、Remy E、Mouren P、Thieffry D、Jacq B:GOToolBox:基于基因本体的基因数据集功能分析。基因组生物学。2004年5月(12)日:R101-

    第条 公共医学中心 公共医学 谷歌学者 

  57. Yang J,Wang W,Wang H,Yu P:Delta聚类:捕获大数据集中的子空间相关性。ICDE公司。2002年,加利福尼亚州圣何塞:IEEE计算机科学,517-528。

    谷歌学者 

  58. Califano A,Stolovitzky G,Tu Y:表型分类的基因表达微阵列分析。程序。IC分子生物学智能系统。2000年,美国加利福尼亚州圣地亚哥:AAAI出版社,75-85。

    谷歌学者 

  59. 王浩,王伟,杨杰,于PS:基于大数据集中模式相似性的聚类。SIGMOD公司。2002年,纽约:ACM,394-405。

    谷歌学者 

  60. Getz G,Levine E,Domany E:基因芯片数据的耦合双向聚类分析。国家科学院院刊。2000, 97 (22): 12079-12084.

    第条 公共医学中心 公共医学 中国科学院 谷歌学者 

  61. Tang C,Zhang L,Ramanathan M,ZhangA:相关双向聚类:基因表达数据分析的无监督方法。比贝。2001年,华盛顿:IEEE计算机协会,41-41。

    谷歌学者 

  62. Hartigan JA:数据矩阵的直接聚类。美国统计学会杂志,1972,67(337):123-129。

    第条 谷歌学者 

  63. Sheng Q,Moreau Y,Moor BD:Gibbs采样的双聚类微阵列数据。欧洲中央银行。第19卷。2003年,法国巴黎:Citeser,196-205。

    谷歌学者 

下载参考资料

致谢

这项工作得到了FCT在项目下的支持PTDC/EIA-EIA/111239/2009(神经病学)和PEst-OE/EEI/LA0021/2013和博士学位SFRH/BD/75924/2011年.

作者信息

作者和附属机构

作者

通讯作者

通信至鲁伊·恩里克.

其他信息

竞争性利益

作者声明,他们没有相互竞争的利益。

作者的贡献

所有作者都参与了解决方案的设计和手稿的撰写。所有作者阅读并批准了最终手稿。

作者提交的原始图像文件

权利和权限

本文由BioMed Central Ltd.授权发布。这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是原始作品得到了适当的认证。

转载和许可

关于本文

检查更新。通过CrossMark验证货币和真实性

引用这篇文章

Henriques,R.,Madeira,S.C.BicSPAM:使用顺序模式的灵活双聚类。BMC生物信息学 15, 130 (2014). https://doi.org/10.1186/1471-2105-15-130

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1471-2105-15-130

关键词