实值矩阵上的双聚类任务旨在发现子矩阵(双聚类),其中行子集在列子集上显示相关模式。然而,现有方法强制选择特定的相关性模式,这往往导致不完整的解决方案。Ben-Dor等人引入了一个简单而强大的方向,以适应更灵活的模式——订单预留模式[1]. 如果一个双簇的列有一个排列,在这个排列下,每一行中的值序列都严格递增,那么这个双簇就是保序的。这些双簇捕获具有基因表达的移动和缩放模式的双簇,此外,对于检测疾病进展或不同阶段的细胞反应的其他有意义的特征至关重要。顺序保护双聚类可用于研究基因表达(GE)数据[2],基因组结构变异[三],生物网络[4],转换数据[5,6],化学数据[7],营养数据[8],除其他外[9,10]. 举例来说,为一组条件(时间点、方法、刺激、环境背景、组织、器官或个人)保留表达水平变化的基因子集可以揭示感兴趣的功能模块。
尽管先驱方法与发现有序双聚类(OPSM)相关[1]及其扩展[11,12],这是第一类贪婪的方法有两个主要缺点:1)提供近似解决方案,但不保证最优;和2)对双聚类解的结构施加限制性约束(例如非重叠假设)。第二类详尽的方法,u个-聚类(也称为OP-Clustering)[7,13],提供了克服以前方法的灵活性问题的解决方案。然而,他们的采用带来了三个挑战:1)对于超过50行的矩阵,效率严重下降;2)噪声值导致大双聚类在多个小双聚类中被分割,因为它们寻找完美的排序;和3)非凝聚模式表示的使用导致了大规模的双簇解决方案。
此外,现有的顺序保护方法强加了值的单调顺序,不允许对称[1,7]. 然而,在生物领域,如转录活性分析中,调控和共调控机制密切相关,因此,某些基因的表达增加有时会伴随着其他基因的表达减少。
这项工作引入了一组新的顺序保护双聚类方法,称为BicSPAM(基于顺序PAttern挖掘的双聚类),其原理是超越现有替代方法的局限性。BicSPAM基于序列模式促进了灵活且容错的搜索,并且具有可扩展性。BicSPAM的贡献是三倍的:
-
[灵活性]发现具有多级表达式和对称性的保序双簇。提供灵活的双聚类结构,允许任意数量的双聚类和定位(解决贪婪方法的限制性假设);
-
[稳健性]发现质量不同的双星团的策略。噪声松弛可用于保证噪声容忍解决方案(避免现有穷举方法施加的同质性限制),然后使用过滤标准来保证发现的双聚类的统计显著性(避免贪婪方法的偏差);
-
[效率]基于新的挖掘方法的可伸缩搜索(以超过现有穷举方法的效率限制),这些挖掘方法从双聚类任务的项诱导属性和数据分区原则中获取效率收益。
另外提供了两项捐款:1)可参数化地选择共现度与优先关系在保序双聚类中的观测结果;和2)根据双聚类解决方案中出现的参数化期望处理缺失值的策略。最后,BicSPAM将所有引入的原则集成到一个连贯的模型中,为进一步开发和扩展订单预留双聚类方法提供了一致的基础。
在合成数据集和实际数据集上的实验结果表明,BicSPAM具有优越的灵活性、鲁棒性和有效性。我们还展示了发现具有对称性的保序双簇的生物学相关性。
论文组织如下。本节的其余部分提供了订单预留双聚类和基于模式挖掘的双聚类的背景知识。方法部分介绍了BicSPAM。结果和讨论部分针对合成和实际数据集验证了BicSPAM的性能。最后,综合了这项工作的贡献和影响。
保序双聚类
定义1。
给定一个矩阵, A类= (X,Y(Y)),带有一组行 X= {x个1,..,x个
n个
},一组列 Y(Y)= {年1,..,年
米
},和元素 相关行 我 和列 j:
-
一双团簇 B类= (我,J型)是一个 第页×秒 的子矩阵 A类,其中我= (我1,..,我
第页
)⊂ X 是行的子集 J型=(j1,。。,j
秒
)⊂ Y(Y) 是列的子集;
-
这个双聚类任务 就是识别一组双聚类这样每个双集群 B类
k个
= (我
k个
,J型
k个
)满足特定要求 均匀性标准,哪里 我
k个
⊂ X,J型
k个
⊂ Y(Y) 和.
双聚类方法通过使用价值函数由同质性标准驱动[2]. 优点函数既可以保证双聚类内的同质性,也可以保证双簇输出集的整体同质性(双聚类间同质性),或者两者兼而有之。遵循马德拉和奥利维拉提出的分类法[2],现有的双聚类方法可以根据其搜索范式进行分组,这决定了价值函数的应用方式一因此,价值函数是定义双聚类类型和质量以及影响双聚类结构的简单方法。双星团类型定义允许的图案轮廓及其方向、解决方案结构约束双簇的数量、大小和位置,最后质量确定特定或一组双簇中允许的噪声。双聚类可以跨行或列遵循常量、加法、乘法或格子图案假设[1,2,8]. 还提出了多种双簇结构[2],一些方法将其限制为穷举、排他或非重叠结构,而很少有其他方法允许具有任意位置重叠双簇的更灵活方案。
顺序保护双聚类最初是为了寻找在时间进程中共同表达的基因,例如在疾病或药物反应的特定阶段的共同表达[1]. 然而,它的应用范围对于没有时间的矩阵同样具有吸引力。举例来说,检测不同条件下基因表达的相对变化可以指示功能性调节行为,此外,超出了依赖通常对噪音敏感的精确表达值的需要。
订单预留双集群可以模拟以前引入的大多数类型的双集群,从而产生更具包容性的解决方案,如图所示1这为研究与发现的双集群相关的更大功能模块提供了一个较少限制的设置。保序双簇既可以允许单调增加值(或行为)或要求严格增加值(异或行为)。特别是,当考虑值单调递增的双簇时,置换π= {年三,年2,年4,年1}在图中1所有行都支持{x个1,x个2,x个三}. 事实上,如图所示,保序双聚类的灵活性很有吸引力,因为它们涵盖了常数、加法和乘法双聚类,从而导致更具包容性的解决方案。
定义2。
紧跟在 保序模型 是(我,J型)哪里 J型 是一组 秒 关于a的列 π 线性排序,以及 我 是一组支持行,其中 秒 相应的值根据排列进行排序 π.
有两种主要类型的方法用于保序双聚类:贪婪法和穷举法b条。穷举方法旨在识别最大子矩阵,其中行集是最大集,支持列集上的线性值顺序[7]. 相比之下,贪婪方法依赖于一个价值函数来指导递增的大/小双聚类的合成。原始贪婪订单预留方法OPSM使用的价值函数[1],是基于一个随机数据矩阵包含一个具有更多行支持它的双簇的上界概率。已经在OPSM上提出了多种扩展,包括:OPSM-RM方法[11]从重复实验获得的多个矩阵中发现保序双聚类;POPSM方法[12]基于行属于双聚类的概率范围,用连续分布对不确定数据进行建模;和MinOPSM方法[14]它实现了order-preserving任务的一个变体。
顺序保留解决方案的评估与传统的双聚类解决方案没有显著差异。当考虑隐藏双簇的知识时,相对不相交区域(RNIA)[15],匹配分数[三,16]并且已经采用了聚类度量(例如熵、召回率和精确度)。RNIA公司[15]测量隐藏和发现的双簇之间的重叠区域。群集错误(CE)[17]扩展此分数以区分发现的多个或恰好一个双簇是否覆盖了隐藏的双簇。匹配分数(MS)[16]根据雅卡指数评估解决方案的相似性。为了使MS对两个集合中的双星团数量敏感,可以通过计算Munkres双星团对之间的相似性来引入共识[三].
在没有隐藏双聚类的情况下,只要价值函数不偏向于比较方法中使用的价值函数,就可以采用价值函数。基于双聚类的预期发生概率提出了补充的统计评估[18,19]或者基于他们的浓缩第页-实际数据集的值[20–22].
序列模式挖掘
让项是有序集的元素.安项目集 第页是一组不重复的项,.A型序列 秒是一组有序的项集。A类序列数据库是一组序列D类={秒1,..,秒
n个
}.
让一个序列一= <一1…一
n个
>成为子序列属于b条= <b条1…b条
米
> (一⊆b条),如果。序列是最大对于一组序列,如果它不包含在其中任何一个序列中。举例说明,秒1= < {一},{b条 e(电子)} > =一(b条 e(电子))包含在中秒2= (一 d日)c(c)(b条 c(c) e(电子))并且是最大的w.r.t。D类= {一 e(电子),(一 b条)e(电子)}.
定义3。
这个 覆盖范围 Φ
秒
序列的 秒 w.r.t.到序列数据库 D类 是中所有序列的集合 D类 对于其中 秒 是子序列: Φ
秒
={秒′∈D类∣秒⊆秒′}.这个 支持 序列的 秒 在里面 D类,表示 秒 u个 第页
秒
,可以是绝对值,即其覆盖范围大小 ∣ Φ
秒
∣,或由以下公式给出的相对阈值 ∣Φ
秒
∣/∣D类∣.
为了说明这些概念,请考虑以下序列数据库D类={秒1=(b条 c(c))一(一 b条 c(c))d日,秒2=c(c) 一 d日(一 c(c) d日),秒三=一(一 c(c))c(c)}. 对于这个数据库,我们有=∣{一,b条,c(c),d日}∣= 4,Φ{一(一 c(c))}={秒1,秒2}、和秒 u个 第页{一(一 c(c))}=2.
定义4。
给定一组序列 D类 以及一些特定于用户的最低支持阈值 θ,一个序列 秒∈D类 是 频繁的 至少包含在 θ 序列。这个 序列模式挖掘 (SPM)问题包括计算频繁序列集,{秒∣秒 u个 第页
秒
≥θ}.
示例性序列数据库的最大频繁序列集,D类= {(b条 c(c))一(一 b条 c(c))d日,计算机辅助设计(一 c(c) d日),一(一 c(c))c(c)},低于支持阈值θ=3是{一(一 c(c)),c(c) c(c)}. 现有的SPM方法依赖于(反)单调特性来有效地发现序列模式。
考虑两个序列秒和秒′,其中秒′⊆秒和谓词M(M).M(M)是单调的什么时候M(M)(秒)⇒M(M)(秒′)和M(M)是反单调的何时M(M)(秒′)⇒¬M(M)(秒)。SPM方法通常依赖于以下原则:秒从上方以秒′如果秒′那么就不经常了秒不常见。
定义5。
给定序列数据库和最小支持阈值 θ:
频繁的子序列秒是最大的,如果是频繁的且所有超序列秒′(秒⊆秒′)不频繁,但如果频繁且不存在具有相同支持的超集,则为关闭。给定序列数据库D类= {(b条 c(c))一(一 b条 c(c))d日,(一 c(c)),c(c) 一 d日(一 c(c) d日),一(一 c(c))c(c)},支持θ=3和约束∣ 秒 ∣≥2,有2个最大模式({一(一 c(c)),c(c) c(c)}),3个闭合模式({一(一 c(c)),(一 c(c)),c(c) c(c)})和5个简单图案({一(一 c(c)),一 一,一 c(c),(一 c(c)),c(c) c(c)}).
基于模式的双聚类
基于模式的双聚类方法依赖于模式挖掘方法,因此,使用支持(可能与信任相关度量相结合)作为生成双聚类的优点手段。基于模式的双聚类有两种主要模式。
一种选择是依赖顺序模式[7,13]生成订单保留双聚类(图2)。这些方法遵循一个简单的三阶段过程。首先,对于每一行,列索引都根据它们的表达式值进行线性排序。因此,每一行被视为与列索引相对应的一系列项。其次,将SPM算法应用于低支持阈值下的序列集,以发现频繁子序列。第三,顺序保护双聚类是从发现的序列模式中派生出来的——列是从子序列的项中派生出来,行是从支持频繁子序列的序列集派生出来的。通过转置输入矩阵和生成的双聚类,可以很容易地适应跨行的订单预留假设。
另一种选择是依赖频繁项集挖掘[22–26]. 尽管这些方法只针对具有恒定模式的双聚类,但它们的分析至关重要,因为它们为灵活的穷举搜索提供了关键原则。双模块[27]允许输入矩阵的参数化多值项。DeBi[22]和Bellay等人[28]放置关键的后处理原则来调整双聚类,以确保提高统计显著性。GenMiner公司[23]在输入矩阵中包含外部知识,以从关联规则中导出双聚类。