生物计量学。作者手稿;PMC 2021年3月1日提供。
以最终编辑形式发布为:
预防性维修识别码:项目管理委员会7028479
尼姆斯:尼姆斯1045122
基于稀疏聚类的双聚类
,* ,* ,、和
埃里卡·希尔格森
明尼苏达州明尼阿波利斯明尼苏打大学生物统计学系,邮编55414
刘谦(音)
北卡罗来纳大学生物统计系,北卡罗来那州教堂山,邮编27599
陈冠华
威斯康星州麦迪逊市威斯康星大学生物统计学和医学信息学系,邮编53792
迈克尔·科索罗克
北卡罗来纳大学生物统计系,北卡罗来那州教堂山,邮编27599
埃里克·拜尔
北卡罗来纳大学牙髓与生物统计学系,北卡罗来那州教堂山,邮编:27599
埃里卡·希尔格森,明尼苏达州明尼阿波利斯明尼苏打大学生物统计学系,邮编55414;
*裕利安怡和QL为这项工作做出了同等贡献。
- 补充资料
补充材料。
GUID:79E68245-DEDE-4C36-937B-754896473F50
总结:
在确定异质性疾病或条件的亚组时,通常需要确定不同亚组之间的观察结果和特征。例如,根据基因子集的表达谱,可能有一组患有某种疾病的个体与其他人群不同。通过确定患者亚组和基因子集,可以实现更好的靶向治疗。
我们可以将个体和基因的亚群表示为更大数据矩阵X的双聚类子矩阵U,这样U中的特征和观察结果与U中未包含的不同。我们提出了一种新的两步方法SC-Biclust,用于识别U。在第一步中,识别双聚类中的观测值,以最大化聚类特征差异之间的加权和。在第二步中,根据特征对观测值聚类的贡献来识别双聚类中的特征。这种通用的方法可以用于识别基于特征均值、特征方差或更一般的差异而不同的双聚类。通过几项模拟研究说明了SC Biclust的双聚类识别准确性。SC-Biclust在疼痛研究中的应用说明了其识别生物学意义亚群的能力。
关键词:双聚类、层次聚类、高维数据、K-means聚类、稀疏聚类
1 介绍
在了解疾病的病因时,不仅要确定疾病患者的亚组,还要确定亚组之间的不同特征,如基因,这一点也很重要。聚类方法,如k-means和层次聚类,可以看作是一个单向分区,其中观察值根据其整体特征模式被分为子组。尽管聚类分析有助于识别诸如乳腺癌等疾病的亚组(Perou等人,2000年)和肺癌(Hayes等人,2006年;Bhattacharjee等人,2001年)仅聚类方法并不能揭示子组的差异。此外,如果基础子组仅在某些功能方面存在差异,则聚类方法可能会失败。双聚类通过使用双向划分方法来避免这一限制,即识别子矩阵和双聚类,从而使子矩阵内的观测特征模式不同于外部的观测特征。除了在探索性数据分析中的实用性,如去噪异质数据和可视化高维基因组数据中的模式外,双聚类还具有仅基于部分基因的遗传特征来识别生物学相关亚组的潜力。使用这种方法可以帮助识别个性化治疗的候选基因。
已经提出了许多在双聚类定义和数学框架上不同的双聚类策略(拉兹泽尼和欧文,2002年;Turner等人,2005年)和大平均子矩阵(LAS)算法(Shabalin等人,2009年)使用混合模型识别双聚类。稀疏双聚类(SparseBC)(Tan和Witten,2014年)和凸双聚类算法(COBRA)(Chi等人,2017年)设计用于恢复非重叠的棋盘格模式,假设每个数据条目都是独立的且呈正态分布的。稀疏奇异值分解(SSVD)(Lee等人,2010年)惩罚奇异值以标识底层的双簇层。该方法的两个最新进展包括纳入稳定性选择,S4VD(Sill等人,2011年)以及用于捕获差异结构的扩展HSSVD(Chen等人,2013).
虽然这些方法对许多问题都很有用,但每种方法都有局限性。SparseBC和COBRA只能识别非重叠结构。格子和S4VD使用任意阈值来选择双聚类,阈值的选择会产生截然不同的结果。除HSSVD外,这些方法只能识别平均双聚类。然而,变异双簇可能与DNA甲基化特别相关,因为具有高变性的双簇可能揭示基因组中可能的功能区域(Hansen等人,2011年).
在本文中,我们使用一个新的两步过程来处理双聚类问题。我们首先应用特征加权聚类来识别观测值。然后根据特征在聚类中的权重来识别特征。该过程可用于检测均值或方差不同以及差异更复杂的双聚类。我们详细介绍了该方法,并将其与广泛模拟研究中的现有方法进行了比较,并说明了其在颞下颌关节紊乱病研究中识别生物相关双簇的实用性。
2 方法
2.1. 双星团观测识别
为了识别双聚类中的观测值并生成特征权重,我们使用了一种改进的稀疏聚类方法Witten和Tibshirani(2010)。稀疏群集假定在n个观察依据第页特征数据集X只负责聚类。稀疏聚类是该问题的解决方案:
哪里(f)j(X(X)j,θ)是仅涉及第j个特征的函数;θ是一个参数,通常是聚类指数,限制在一个集合中,D类; 和w个j是第j个功能的权重。当θ保持不变时,Witten和Tibshirani(2010)重写(1)关于重量,w个作为:
哪里一j=(f)j(X(X)j, Θ). 假设有一个唯一的最大元素,Witten和Tibshirani(2010)提议(2)可以通过软阈值解决:
哪里一+表示的积极部分一,Δ=0,如果这导致||w个||1≤秒,否则选择Δ>0,以便||w个||1=秒哪里秒是指定的调整参数。软阈值运算符定义为S公司(x、 c(c)) =签名(x个)(|x |−c)+。请参阅Witten和Tibshirani(2010)有关如何操作的更多详细信息(三)根据卡鲁什-库恩-塔克条件。
稀疏k均值聚类是解决(1)与(f)j(X(X)j, Θ) =b条j哪里b条j是群集平方和之间的特定特征:
在这里n个k个是簇中的观察数k个;C类k个是属于集群的观测指标集k个;和.
稀疏层次聚类是解决方案(1)与(f)j(X(X)j, Θ) = Σi、 i′
d日i、 i′j(i′j)五i、 我′以及附加约束,其中V是相异矩阵{∑j
d日i、 i′j(i′j)}i、 i′.
在我们提出的方法中,我们通过继续求解(1)对于两个簇,但通过以下方式放宽稀疏性约束.在此框架下L(左)1约束,||w个||1≤秒,不再在解决方案中扮演角色(三),导致Δ=0。我们提出的方法在下文中称为SC-Biclust,是对该方法的“稀疏聚类”起源的认可,尽管没有软阈值权重。
此过程产生的簇指数将双簇U中的观测值与其余观测值分开(). 在中介绍的应用程序中第3节和4我们假设一个双聚类包含了少数观察结果,其动机是寻找最能从靶向治疗中受益的患者亚群。然而,如果应用程序保证了由大多数观测值组成的双聚类的可能性,则可以将这些聚类与其余数据在特征均值、特征方差或一般差异性度量方面进行比较,以确定哪些观测值属于双聚类。
所提出的SC-Biclust算法的说明。(a) 数据中存在两个重叠的双聚类。请参见第3.2节有关如何生成数据的详细信息。(b) 使用特征加权聚类方法识别双聚类中的观测值。(本例中的稀疏k均值)。(c) 分位数-用该方法获得的特征权重与近似零分布下的权重的分位数图。为双簇选择权重超过零分布(三角形点)的特征。(d) 第一个确定的双星团由确定的观测值和特征组成。(e) 在搜索其他双簇之前,将删除来自第一个双簇的信号。(f) 重复步骤1-2和可选步骤3,并识别第二个双簇。
2.2。双聚类特征识别
为了识别双簇特征,将特征权重与没有簇的预期零分布进行比较。为双集群选择权重大于预期的特征。让w个(1),周(2),…w(第页)表示订购重量(三)和表示有序的空权重。如果没有双星簇,那么适用于所有功能。然而,如果米我们期望的双星系团的特征对于j>米和对于j<米。要查找米解决。直观地选择米这样的话w个(p−m(平方米)+1)在“线上”,并且w个(p−m(平方米))“在直线或直线以下”().
为了生成空的特征权重,可以在计算特征权重时排列X行,同时保持簇索引不变。这将提供预期权重的估计值,但计算成本较高。相反,我们建议在温和假设下使用精确分布生成参考权重,从而使过程更快。
稀疏k均值聚类解决方案(1)与(f)j(X(X)j, Θ) =b条j具有b条j在中给出(4). 如果我们通过以下方式修改此标准和,然后解决(2)由给定。以下为(三)Δ=0且一j=b条j假设X被缩放为特征平均值等于零,方差等于一。当不存在集群时,两个已识别集群的含义相同,这意味着对于所有j。如果b条j那么的是独立的。因此,为了确定区别特征,我们可以比较w个j到由数值逼近生成哪里B类~贝塔(1/2, (p−1)/2) 。除非另有说明,否则我们将使用此方法来近似所有后续示例中权重的零分布。
2.3. 双聚类显著性测试
为了防止在特征权重可能偏离零分布但不存在双聚类的情况下识别虚假双聚类(请参见Web附录F),SC-Biclust实施集群显著性测试。一个实现使用SigClust(刘等人,2008)测试假定簇的分布是否偏离双簇特征子集的单一多元高斯分布。另一个实现使用Kolmogorov-Smirnov(KS)测试测试特征权重是否偏离预期分布。在需要识别高度相关特征的场景中,此实现可能很有用。
2.4. SC-Biclust算法
SC-Biclust从信号最大的双簇开始逐个识别双簇。为了识别额外的双聚类,将X中的U项替换为随机噪声,并重复双聚类搜索过程。如果没有此更换步骤,则只能识别一个双集群。此迭代过程允许识别重叠的双聚类,不需要预先指定双聚类的数量。SC-Biclust算法可以总结如下():
步骤1。解决(1)与对于θ=的2簇解{C类1,C2},聚类指数。对于K-means聚类使用具有b条j在中给出(4). 用于分层群集(f)j(X(X)j, Θ) = Σi、 i′
d日i、 我′j五i、 我′具有.选择C类k个从较小的双星团簇。如果只选择了一个观测值,则终止该过程。
第2步。比较w个j的分配。为双集群选择权重超过预期空分布的特征。如果只选择了一个特征,则终止该过程。
步骤3。或者,对观测簇或特征权重进行显著性测试。如果显著性检验没有拒绝零假设,则终止该过程。
步骤4。要识别其他双簇,请删除先前识别的双簇U的特征信号k个.对于基于均值的双聚类k个=1,…,K−1定义矩阵包含个条目如果x个ij公司∈Uk个、和x′ij公司=x个ij公司,否则。
步骤5。重复步骤1–4,将之前的数据集替换为.
2.5. 方差双聚类
SC-Biclust算法的框架可以用于产生两个集群的任何集群过程。一个重要的应用是识别与其余数据相比具有异常高(或低)方差的双聚类。方差双聚类解的SC-Biclust(1)使用具有哪里。使用对数可以减少差异较大的特征对簇分配的影响。对于初始化过程,根据所有特征的方差将观测值分配到两个大小相等的簇中,会产生类似的结果,但比简单的随机化更快收敛。
估计w个j0我们利用这个事实和为所有人j在无方差双聚类的零假设下。让和。然后(f)j(X(X)j,θ)’s,因此产生的重量(三)可以通过以下方式进行数值近似S公司1和S公司2并计算w个j0每组模拟值的。
要在搜索其他双聚类之前删除特征信号,请缩放先前识别的双聚类中元素的方差。具体替换X(X)具有定义为如果x个ij公司∈Uk个和,否则。
三。 模拟研究
在本节中,我们通过几项模拟研究来评估双星簇识别准确性和再现性,说明了SC-Biclust与COBRA、SSVD、S4VD、HSSVD、Plaid、LAS和SparseBC的性能对比。CRAN上提供了“SCBiclust”R包。S4VD实现了四组列和行的逐比较错误率(呃v(v),呃u个):(0.05、0.05)、(0.5、0.01)、(0.01、0.5)和(0.5、0.5)。格子采用三种不同的行(行第页)和列(科尔第页)修剪阈值:0,0.5或0.7。COBRA的调节参数γ的选择是为了在给定的双簇数下最小化验证误差。对于SparseBC,选择调谐参数λ以最小化BIC标准。请参见Web附录A了解更多详细信息。
在模拟1.1和5中,我们评估了每种方法在识别模拟数据X中真实主双星簇U时的准确性,并计算了与已知U相比,识别出的双星簇U*的观测误分类率(OMR)、特征假阴性率(FNR)和特征假阳性率(FPR)。我们还通过将X的观测值等分为两个子矩阵,X来评估双聚类方法的再现性1和X2,并识别主双聚类,U1和U2,在每个子矩阵中。我们认为U*是“正确的”双簇。对于每个模拟,此过程重复10次。
模拟4和6是用两个双聚类构建的。每种方法都被设置为找到两个双聚类或适当数量的行和列聚类。我们记录了每种方法识别双簇1、双簇2或包含双簇1和双簇2的更大双簇的次数(称为双簇1+2),以及条目假阳性率(EFPR)和条目假阴性率(EFPR)。
我们评估了在模拟1.1和4中,如果没有设置为识别一个或两个双聚类,则每种方法都可以识别的双聚类总数。对于这些仿真,我们使用样本协方差估计值和Kolmogorov-Smirnov检验,使用SigClust实现了SC-Biclust,如第2.3节。所有模拟设置都复制了100次。我们定义了一个有效的双聚类是一个由至少两个观测值和两个特征组成的双聚类。只有有效的双聚类用于计算平均精度。结果中记录的计算时间用于实现一个或两个双簇的方法。
其他模拟研究见Web附录C,D类、和E类.
3.1. 模拟1.1:主要双星团识别(高斯)
我们首先评估了SC-Biclust在包含100个观测值和200个特征的数据集中识别主双聚类的能力,其中包括一个主双聚类和三个额外的非重叠正态分布双聚类。背景条目后面是N个(0,1)分布,其中N个(a、 b条)表示具有平均值的正态随机变量一和标准偏差b条。四个双簇按以下方式构建:双簇1,由观察值1–20和特征1–20(表示为[1–20,1–20])组成,添加了一个N个(2,1)层,双集群2[16–30,51–80]添加了一个N个(3,1)层,双星簇3[51–90,61–130]添加了一个N个(3,1)层,双簇4[66–100,151–200]添加了N个(2,1)层到背景。双星簇3是主要的双星簇,因为它的大小最大,与背景的平均差异最大。Web图1显示了一个模拟的结果。
通过合并前20个特征之间的相关性(结果见Web附录C). 中还提供了具有Cauchy分布特征的类似仿真场景的结果,表示为仿真2Web附录C.
SC-Biclust具有完美的观察鉴定准确度和良好的再现性,但在鉴定双聚类特征时有点过于严格(). SparseBC具有极好的识别准确性,但特征MR的再现性略有提高。COBRA具有良好的双聚类识别准确性,但重复性较差。SSVD、HSSVD和LAS倾向于在双集群中包含虚假特征。只有使用最高阈值实施的S4VD能够识别任何有效的双聚类,这样做具有良好的识别准确性和再现性。没有修剪阈值的Plaid具有最好的性能,但仍然有较差的结果。
表1
模拟1.1和5的主要双星团识别精度(100个模拟的平均值)和再现性(100个仿真的平均值×10个分区)的比较。BC=双集群。MR=误分类率。FNR=假阴性率。FPR=假阳性率。排第页,列第页=分别用于修剪双簇行和列的阈值。呃v(v),呃u个=分别选择双簇列和行时的逐比较错误率。
算法 | 规格 | 有效BC | 时间 | 识别准确性 | 再现性 |
---|
观察MR | 功能FNR | 功能FPR | 观察MR | 功能FNR | 功能FPR | 特征MR |
---|
模拟1.1:主要双星团识别(高斯) |
SC-Biclust公司 | | 100 | 20.6秒 | 0 | 0.147 | 0.002 | 0.050 | 0.068 | 0.050 | 0.092 |
COBRA公司 | | 85 | 121.4秒 | 0.099 | 0.034 | 0.016 | 0.104 | 0.015 | 0.481 | 0.395 |
SSVD系统 | | 95 | 20.6秒 | 0.303 | 0 | 0.504 | 0.035 | 0.080 | 0.101 | 0.136 |
S4VD系列 | (呃v(v),呃u个) = (0.05,0.05), (0.5,0.01), (0.01,0.5) | 0 | | | | | | | | |
0 | | | | | | | | |
| (呃v(v),呃u个)=(0.5,0.5) | 100 | 13.5秒 | 0.010 | 0.009 | 0.014 | 0.017 | 0.038 | 0.010 | 0.027 |
HSSVD平均值 | 全层 | 94 | 1.8秒 | 0.324 | 0.073 | 0.413 | 0.325 | 0.598 | 0.023 | 0.289 |
| 正极层 | 94 | | 0.324 | 0.073 | 0.413 | 0.357 | 0.602 | 0.022 | 0.288 |
格子花纹 | 行第页,科尔第页= 0 | 100 | 0.7秒 | 0.026 | 0.784 | 0.459 | 0.107 | 0.391 | 0.160 | 0.248 |
| 行第页,科尔第页= 0.5 | 21 | 0.6秒 | 0.339 | 0.480 | 0.005 | 0.073 | 0.905 | 0.026 | 0.075 |
| 行第页,科尔第页= 0.7 | 0 | | | | | | | | |
LAS公司 | | 100 | 18.1秒 | 0.141 | 0.002 | 0.382 | 0.090 | 0.147 | 0.023 | 0.190 |
稀疏BC | | 100 | 11.3秒 | 0 | 0 | 0.004 | 0.050 | 0.095 | 0.088 | 0.179 |
模拟5:主要双星团识别(非球形双星团) |
SC Biclest公司 | | 90 | 51.9秒 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
COBRA公司 | | 100 | 301.7秒 | 0 | 0.500 | 0 | 0 | 0 | 0 | 0 |
SSVD系统 | | 96 | 25.9秒 | 0.599 | 0 | 0.067 | 0.059 | 0.069 | 0.048 | 0.104 |
S4VD系列 | (呃v(v),呃u个) = (0.05,0.05), (0.01,.5) | 0 | | | | | | | | |
| (呃v(v),呃u个) = (0.5,0.01) | 42 | 4.1秒 | 0.401 | 0.500 | 0 | 0.012 | 0 | 0 | 0 |
| (呃v(v),呃u个) = (0.5,0.5) | 100 | 5.6秒 | 0.305 | 0.500 | 0 | 0.051 | 0 | 0 | 0 |
HSSVD平均值 | 全层 | 100 | 2.8秒 | 0.564 | 0 | 0 | 0.037 | 0 | 0 | 0 |
| 正极层 | 100 | | 0.194 | 0 | 0 | 0.010 | 0 | 0 | 0 |
HSSVD变量 | 全层 | 35 | | 0.589 | 0.330 | 0.985 | 0.100 | 0.065 | 0.466 | 0.179 |
| 正极层 | 0 | | | | | | | | |
格子花纹 | 行第页,科尔第页= 0.0 | 100 | 1.6秒 | 0.251 | 0.790 | 0.580 | 0.306 | 0.747 | 0.374 | 0.334 |
| 行第页,科尔第页= 0.5 | 100 | 1.3秒 | 0.348 | 0.790 | 0.406 | 0.421 | 0.747 | 0.336 | 0.334 |
| 行第页,科尔第页= 0.7 | 49 | 1.4秒 | 0.309 | 0.571 | 0.087 | 0.318 | 0.484 | 0.230 | 0.327 |
LAS公司 | | 100 | 28.6秒 | 0.123 | 0 | 0 | 0.005 | 0 | 0 | 0 |
稀疏BC | | 100 | 27.8秒 | 0.525 | 0.500 | 0 | 0.559 | 0 | 0 | 0 |
只有SC Biclust(使用SigClust或KS测试)和HSSVD在模拟1.1的40%以上的迭代中准确地确定了4个双簇层的存在(Web表1). HSSVD可能高估了双簇的数量,因为每个层可能包含正双簇和负双簇。SparseBC在95%的迭代中准确地识别出了五列簇(和背景层)的存在,但高估了行簇的数量。
当特征相关时,SC-Biclust具有类似的双聚类准确度和再现性(模拟1.1),但使用SigClust实现的SC-Bicrust略被低估,使用KS测试的SC-Bic lust高估了双聚类的数量(Web附录C). 当违反正态性假设时(模拟2),SC-Biclust的观测精度降低,与大多数竞争方法相比,它产生的错误率仍然较低,并且是唯一一种能够准确识别60%以上模拟中存在4个双聚类的方法(Web附录C).
3.2. 模拟4:具有观测和特征重叠的两个连续双聚类
接下来,我们评估SC-Biclust在识别两个重叠的双聚类时的性能。仅具有重叠特征(表示为仿真3)的场景的仿真结果见Web附录C模拟4的数据集由两层组成,每层由100个观测值乘以200个特征矩阵组成,具有独立的条目。背景数据为N个(0,0.5)分布。第一层包含一个双团簇[1–40,1–40]~N个(7,2)和第二层包含双团簇[21-60,21-60]~N个(−5, 3). 最后的数据集是两层的总和。观测值21–40和特征21–40包含在两个双星团中(和Web图2).
在实现SparseBC时,行和列双簇的数量被设置为四个。同样,COBRA被允许搜索非重叠的棋盘图案。为了进行比较,将属于双簇1或双簇2的部分进行组合,以评估.单独棋盘的识别精度见Web表2.
表2
仿真4和6的双集群识别精度比较(平均100个仿真)。每个模拟中都有两个双簇。对于给定的双集群,“#(only)”列中给出了它被识别的次数以及它是唯一被识别的双集群的模拟的百分比。BC=双集群。EFNR=条目假阴性率。EFPR=条目假阳性率。排第页,列第页=分别用于修剪双簇行和列的阈值。呃v(v),呃u个=分别选择双簇列和行时的逐比较错误率。
算法 | 规格 | 有效BC | 时间 | 公元前1年 | 公元前2年 | BC 1+2 |
---|
#(仅限) | EFNR(预计违约风险) | EFPR公司 | #(仅限) | EFNR(预计违约风险) | EFPR公司 | #(仅限) | EFNR(预计违约风险) | EFPR公司 |
---|
模拟4:具有观测和特征重叠的两个连续双聚类 |
SC-Biclust公司。 | | 100 | 43.7秒 | 100(0%) | 0 | 0 | 100 (0%) | 0 | 0 | 0 (0%) | | |
COBRA。 | | 100 | 1360.7秒 | 100 (0%) | 0.360 | 0.008 | 100 (0%) | 0.376 | 0.011 | 0 (0%) | | |
SSVD。 | | 97 | 72.3秒 | 0 (0%) | | | 0 (0%) | | | 97 (97%) | 0 | 0.017 |
S4VD系列 | (呃v(v),呃u个) = (0.05,0.05), (0.5,0.01), (0.5,0.01) | 0 | | | | | | | | | | |
0 | | | | | | | | | | |
| (呃v(v),呃u个) = (0.5,0.5) | 7 | 38.8秒 | 7 (0%) | 0.007 | 0.047 | 5 (0%) | 0.055 | 0.052 | 2 (0%) | 0.271 | 0.009 |
HSSVD平均值 | 正极层 | 99 | 2.9秒 | 99(99%) | 0 | 0.006 | 0 (0%) | | | 0 (0%) | | |
| 负极层 | 99 | 2.9秒 | 0 (0%) | | | 99 (99%) | 0.680 | 0.028 | 0 (0%) | | |
| 全层 | 99 | 2.9秒 | 62 (0%) | 0 | 0.046 | 0 (0%) | | | 99 (37%) | 0.040 | 0 |
格子花纹 | 行第页,列第页= 0.0 | 100 | 1.7秒 | 98 (21%) | 0.138 | 0.016 | 77(2%) | 0.058 | 0.004 | 2 (0%) | 0.892 | 0.049 |
| 行第页,列第页= 0.5 | 98 | 1.4秒 | 98 (54%) | 0.549 | 0.007 | 43 (0%) | 0.918 | 0.002 | 1 (0%) | 0.889 | 0.049 |
| 行第页,列第页= 0.7 | 90 | 1.1秒 | 90 (64%) | 0.833 | 0 | 26 (0%) | 0.944 | 0.005 | 0 (0%) | | |
拉斯维加斯。 | | 100 | 41.9秒 | 100 (0%) | 0.022 | 0 | 100 (0%) | 0.503 | 0.022 | 0 (0%) | | |
sparseBC。 | | 100 | 138.5秒 | 100(0%) | 0.010 | 0.001 | 100(0%) | 0.005 | 0.001 | 0 (0%) | | |
模拟6:方差双聚类 |
SC-Biclust公司。 | | 100 | 206.8秒 | 100 (40%) | 0.052 | 0 | 60 (0%) | 0.842 | 0.009 | 0 (0%) | | |
COBRA。 | | 76 | 1259.9秒 | 1 (0%) | 0.990 | 0.003 | 74 (72%) | 0.065 | 0.491 | 3(2%) | 0.478 | 0.562 |
SSVD。 | | 62 | 548.2秒 | 62 (62%) | 0.605 | 0 | 0 (0%) | | | 0 (0%) | | |
S4VD系列 | (呃v(v),呃u个) = (0.05,0.05) | 81 | 114.5秒 | 81 (81%) | 0.948 | 0 | 0 (0%) | | | 0 (0%) | | |
| (呃v(v),呃u个) = (0.5,0.01) | 65 | 84.5秒 | 65 (65%) | 0.850 | 0 | 0 (0%) | | | 0 (0%) | | |
| (呃v(v),呃u个) = (0.01,0.5) | 89 | 100.4秒 | 89 (89%) | 0.956 | 0.001 | 0 (0%) | | | 0 (0%) | | |
| (呃v(v),呃u个) = (0.5,0.5) | 59 | 122.9秒 | 59 (59%) | 0.311 | 0.018 | 0 (0%) | | | 0 (0%) | | |
HSSVD平均值 | 全层 | 100 | 1.9秒 | 100 (100%) | 0.590 | 0 | 0 (0%) | | | 0 (0%) | | |
HSSVD变量 | 正极层 | 100 | 1.9秒 | 100 (0%) | 0.001 | 0.005 | 10 (0%) | 0.456 | 0.214 | 90 (0%) | 0.311 | 0.006 |
| 全层 | 100 | 1.9秒 | 100 (0%) | 0.001 | 0.160 | 1 (0%) | 0.505 | 0.123 | 99 (0%) | 0.226 | 0.356 |
格子花纹 | 行第页,列第页= 0.0 | 98 | 1.5秒 | 98 (93%) | 0.913 | 0.004 | 5 (0%) | 0.969 | 0.019 | 0 (0%) | | |
| 行第页,列第页= 0.5 | 1 | 2秒 | 1 (1%) | 0.978 | 0.001 | 0 (0%) | | | 0 (0%) | | |
| 行第页,列第页= 0.7 | 0 | | | | | | | | | | |
LAS公司 | | 100 | 40.3秒 | 100 (100%) | 0.958 | 0 | 0 (0%) | | | 0 (0%) | | |
稀疏eBC | | 100 | 147.9秒 | 100 (100%) | 0.901 | 0 | 0 (0%) | | | 0 (0%) | | |
SC-Biclust在所有模拟中都能完美地识别这两个双星系团(). SSVD和HSSVD在识别双聚类1+2时具有良好的准确性。LAS在识别第一个双聚类时具有良好的准确性,但对第二个双聚类具有较高的EFNR。COBRA和Plaid具有较高的EFNR。仅S4VD配备呃v(v)和呃u个设置为0.5可以识别出任何有效的双星系团,只有7%的模拟中这样做。SparseBC在识别数据中存在的棋盘格模式方面具有良好的准确性,但无法识别重叠的双聚类。
SC-Biclust进行了显著性测试,HSSVD发现90%以上的模拟中存在两层(Web表6). 然而,每个HSSVD层可能代表一个正的和一个负的双簇。SparseBC准确地识别出,在100%的模拟中存在3行双星团和3列双星团以及背景层。
当双星团特征只有重叠,而双星团观测没有重叠时(模拟3),SC-Biclust继续具有良好的识别精度,但其中一个双星团的EFPR略有提高。未经显著性检验的SC-Biclust和经KS检验的SC-Biclust在25%以上的模拟中识别出2个双聚类。只有SparseBC在识别双集群的真实数量方面表现更好(Web附录C).
SC-Biclust无显著性检验,SC-Bicrust有KS检验,S4VD有(呃v(v),呃u个)=(0.5,0.01)在超过20%的模拟中识别出2个双聚类(Web表9). SparseBC正确识别出所有模拟中都存在两个行簇和一个列簇(以及一个背景层)。采用KS检验的SC-Biclust倾向于确定存在一个双聚类,而未进行显著性检验的SC-Biclust则倾向于过高估计双聚类的数量。
3.3. 模拟5:主要双星团识别(非球形双星团)
接下来,我们提供了一个使用单链接层次聚类实现SC-Biclust的示例。此模拟中的双聚类是非球形的,可能无法通过基于欧几里德距离的方法识别。对75个特征数据集的每1200个观测值进行如下模拟。对于j≤ 25:X(X)我,2j= −2我(我≤500)+5正弦{θ我+π我(i>(i)500)} + ∊我和X(X)我,2j−1= 5我(我≤500)+5cos{θ我+π我(i>(i)500)} +∊我。这里是∊我的是iidN个(0,0.2)和θ我s是iid均匀的(0,π)。对于【j】50,X(X)ij公司~N个(0, 1). 主双星系团被定义为由前500个观测值和前50个特征组成(Web图3).
SC-Biclust没有错误分类的观察结果或特征,并且具有良好的再现性(). 除COBRA外的所有其他方法都具有较高的OMR,但COBRA倾向于从双聚类中排除过多的特征。由于现有的双聚类方法假设双聚类是球形的,因此结果并不令人惊讶。该仿真表明,SC-Biclust框架可以用于在现有方法可能失败的情况下识别双簇。
3.4. 模拟6:方差双聚类
为了评估SC-Biclust的方差双聚类,我们模拟了两个具有异质方差的非重叠双聚类。每个数据集由150个观测值和500个特征组成。第一个双簇[1–30,1–200]中的条目是N个(1, 15). 第二个双聚类[31–50,201–400]中的条目是N个(1, 5). 背景条目为N个(1, 2) (Web图4).
SC-Biclust高精度地识别了第一个方差双聚类。它通常检测到第二个方差双聚类,但许多条目被错误地从双聚类中排除(). HSSVD具有相似的结果,在识别第一个双簇时具有良好的准确性,但在识别第二个双簇或双簇1+2时准确性较差。不出所料,其他方法表现不佳,因为它们不是设计用来识别方差双聚类的。
4 数据应用程序
接下来,我们将说明SC-Biclust在口腔面部疼痛前瞻性评估和风险评估(OPPERA)研究中收集的数据中识别双簇的实用性(Slade等人,2011年;Bair等人,2013年)与多种结果相关(慢性和首次发作的颞下颌关节紊乱病)。在Web附录G我们使用SC-Biclust在两个额外的数据集中识别具有生物学意义的双簇。我们确定了乳腺癌基因表达数据集中的平均双聚类(Van t Veer等人,2002年)这些方法对转移时间有很强的预测能力,但与竞争方法相比,其识别的基因特征更少。在从癌症和正常组织收集的甲基化数据中,我们还确定了完全由癌症样本组成的方差双聚类。(Hansen等人,2011年)
OPPERA是一项关于颞下颌关节紊乱病(TMD)的前瞻性队列研究,TMD是一组影响下颌肌肉和/或下颌关节的疼痛状况。共有3258名最初无TMD的参与者和185名慢性TMD患者参与了该研究。最初,对无TMD患者进行了中位数2.8年的随访,到研究结束时,有260名患者出现了TMD。在无TMD患者中,521人没有完成任何随访问卷,并且被排除在首次发病TMD时间的分析评估之外。测量三组TMD危险因素:自主神经,如血压和心率(44个总变量);心理社会因素,如抑郁和焦虑(39个总变量);定量感觉测试(QST)(33个总变量),用于评估对实验性疼痛的敏感性。请参见Fillingim等人(2011年),格林斯潘等人(2011)、和Maixner等人(2011年)了解这些风险因素的详细描述。
我们实现了SC-Biclust和现有的方法来识别3个双聚类。TMD病例和最初无TMD的个体均被纳入研究,因为TMD高危个体可能具有与慢性TMD病例相似的特征。稀疏聚类和COBRA被允许搜索最优行数和coBiclust算法。(a) 两个重叠的双列簇。
SC-Biclust识别的双聚类与数据集的已知结构一致:双聚类1包含30个自主功能测量值,双聚类2包含29个心理困扰测量值,而双聚类3包含6个QST测量值(Web表4). 在双星团观测中有一些重叠,303个个体属于所有三个双星团。SSVD、HSSVD平均值和SparseBC返回了包含所有观察结果的非信息性双聚类。两个HSSVD方差双聚类包括3300多个观测值和100多个特征。COBRA没有发现任何有效的双聚类。在其余方法中,只有S4VD具有呃v(v)=0.01和呃u个=0.50,格子阈值为0.5或0.7,LAS确定的双聚类仅由一个风险因素集的特征组成。
所有SC-Biclust双聚类与慢性TMD相关(). 第二个双簇与首次发病的TMD密切相关,第三个双簇表现出中度相关性(,Web图8). 只有阈值为0的格子体同样识别出与TMD密切相关的多个双簇,所有三个双簇均与慢性TMD相关,两个双簇与首次发病TMD相关。阈值为0.5的格子,S4VD呃v(v)和呃u个=0.50,LAS分别鉴定出两个与慢性TMD相关的双聚类和一个与首次发病TMD相关。
表3
OPPERA数据集中确定的双聚类与慢性和首次发病TMD之间的关联。排第页和Col第页=用于分别修剪双集群行和列的阈值。呃v(v)和eru个=分别选择双簇列和行时的逐比较错误率。
双聚类与慢性TMD的关系 |
---|
算法 | 规格 | 双星簇1 | 双星簇2 | 双星簇3 |
---|
χ2状态(df=1) | P值 | χ2状态(df=1) | P值 | χ2状态(df=1) | P值 |
---|
SC-Biclust公司 | | 15.13 | 1.00至04 | 33.75 | 6.26e-09年 | 21.34 | 3.84e-06日 |
S4VD系列 | (呃v(v),呃u个) = (0.01,0.5) | 13.39 | 2.53e-04 | 0.13 | 7.21电子01 | 0.37 | 5.42e-01号 |
| (呃v(v),呃u个) = (0.5,0.5) | 6.31 | 1月20日-02日 | 4.70 | 3.02e-02日 | 0.71 | 3.99e-01号 |
HSSVD变量。 | 全层 | 1.22 | 2.68e-01号 | 1.08 | 2.98e-01号 | 不适用 | 不适用 |
格子花纹 | 行第页,列第页=0.0 | 20.07 | 2006年7月48日 | 12.90 | 3.28e-04日 | 10.47 | 2003年1月21日 |
| 行第页,科尔第页=0.5 | 25.81 | 3.76e-07日 | 3.61 | 5.75e-02号 | 10.42 | 1.25e-03 |
| 行第页,列第页=0.7 | 1.01 | 3.16e-01日 | 0.21 | 6.46e-01号 | 0.06 | 8.06e-01日 |
LAS公司 | | 3.41 | 6.47e-02号 | 55.27 | 1.05e-13号文件 | 20.49 | 2006年6月1日 |
双星簇与首次启动TMD之间的关联 |
---|
算法 | 参数 | 双星簇1 | 双星簇2 | 双星簇3 |
---|
原木库统计(df=1) | p值 | 原木库统计(df=1) | p值 | 原木库统计(df=1) | P值 |
---|
SC-Biclust公司 | | 2.72 | 9.90e-02年9月 | 41.01 | 1.52e-10 | 3.95 | 4.68e-02号文件 |
S4VD系列 | (呃v(v),呃u个)=(0.01,0.5) | 0.43 | 5.12e-01条 | 5.44 | 1.97e-02号 | 0.08 | 7.71e-01号文件 |
| (erv,eru)=(0.5,0.5) | 1.85 | 1.73e-01号文件 | 1.64 | 2001年2月2日 | 6.37 | 1.16e-02 |
HSSVD变量。 | 全层 | 0.40 | 5.26e-01号 | 0.26 | 6.09电子01 | 不适用 | 不适用 |
格子花纹 | 行第页,列第页=0.0 | 7.21 | 2003年7月23日 | 31.48 | 2.01e-08年 | 0.50 | 4.79e-01号 |
| 行第页,科尔第页=0.5 | 8 | 4.68e-03页 | 2.37 | 1.24e-01 | 2.14 | 1.43e-01号 |
| 行第页,列第页=0.7 | 2.87 | 2002年9月2日 | 0.27 | 6.01电子01 | 0.07 | 7.96e-01号 |
LAS公司 | | 0.50 | 4.81e-01 | 31.18 | 2008年3月35日 | 1.71 | 1.90e-01号 |
5 讨论
双聚类是一种无监督的学习方法,可以在大型、复杂的数据集中发现同质的观测聚类和特征。在本文中,我们提出了一个基于稀疏聚类的双聚类框架。我们给出了该框架用于识别平均值、方差和层次聚类双聚类的具体案例,但还可以开发许多其他适应性。
我们通过大量的仿真和数据分析表明,SC-Biclust与现有方法相比具有一些显著的优点。首先,SC-Biclust并没有假设双集群中的所有特征都具有相同的平均值,这一假设在许多数据集中可能被违背。相反,双聚类中的特征是通过它们对观测值聚类的贡献来确定的。(请参见Web附录D其次,SC-Biclust需要最小的参数规范。如模拟和生物数据示例所示,S4VD和Plaid可以根据阈值规格给出截然不同的结果。第三,SC Biclust可以发现具有重叠结构的双团簇。COBRA和SparseBC等棋盘方法只能识别非重叠的双聚类,从而限制了可以识别的数据模式。
我们使用简化的分布假设为SC-Biclust选择双集群特征。中提出的特征权重的零分布第2.2节取决于两个假设,第一个假设是b条j是分布式。如果每个簇中的观察数随着总样本量的增加而增加,则此假设符合大样本理论。然而,对于样本量较小的应用,可能需要将数据转换为近似高斯分布。例如,在将SC-Biclust应用于甲基化数据时(Web附录G)数据在双聚类识别之前进行logit变换。此外,由于欧氏距离用于识别平均双聚类,因此如果数据近似高斯,性能可能会更好。我们正在开发SC-Biclust的健壮版本,用于分析重尾分布数据,并将其具体应用于零膨胀的单细胞表达数据。
第二个假设是b条j的是独立的。我们提供了几个模拟。第二个假设是b条j的是独立的。我们提供了多个模拟1.1–4和6,数据中有多个双簇,以及模拟1.2和HC1-HC6(Web附录C和E类)特征之间具有很强的相关性。这种正确的识别部分是由于根据预期零“线”的最大偏差选择特征()而不仅仅是基于对空分布的任何偏离来选择特性。此外,如果特征之间存在强相关性但没有双簇信号,那么实施SigClust测试可以防止识别虚假的双簇(Web附录F). 我们的模拟结果表明,SigClust倾向于略微低估,KS-test倾向于略微高估双聚类的数量。因此,我们建议使用这两种测试来测量双聚类的强度和真实数量。总的来说,我们的模拟结果表明,SC-Biclust对偏离权重分布近似所需的假设具有鲁棒性。然而,如果预期特征之间有很强的相关性第2.2节可用于识别双簇特征。
SC-Biclust框架有几个未来的工作领域。比较SC-Bicclust和HSSVD的方差双聚类结果,我们注意到SC-Bicleast倾向于识别更小、更均匀的双聚类,而HSSVD倾向于识别更大、异质的双聚类。目前尚不清楚这一结果是否普遍正确,或者它是否只是这些特定数据集的伪影。SC-Biclust用于识别方差双聚类的方法可能会得到改进,例如使用基于奇异值分解的方法对数据进行去噪和近似处理,作为预处理步骤。
未来工作的另一个领域是改进分层双聚类算法。仿真6的结果表明,SC-Biclust可以识别具有非欧几里德距离的双聚类,但当前算法无法识别属于先前识别的双聚类的子矩阵的双聚类。识别这种子双聚类的一种可能方法是使用互补的稀疏层次聚类(Witten和Tibshirani,2010年),以在搜索子双簇之前从第一分层双簇中移除信号。我们计划对这种方法进行严格的研究,作为目前提出的方法的扩展。
致谢
裕利安怡得到了NSF GRFP的支持,批准号为DGE-1144081。MK获得了NCI拨款P01 CA142538的支持。EB得到了NIH/NIDCR拨款R03DE023592、NIH/NCATS拨款UL1RR025747和NIH/NIEHS拨款P03ES010126的支持。
参与者信息
埃里卡·希尔格森,明尼苏达州明尼阿波利斯市明尼苏打大学生物统计学系,邮编:55414。
刘谦,北卡罗来纳大学生物统计系,北卡罗来那州教堂山,邮编27599。
陈冠华,威斯康星大学麦迪逊分校生物统计学和医学信息学系,威斯康星州麦迪逊,邮编53792。
迈克尔·科索罗克,北卡罗来纳大学生物统计系,北卡罗来那州教堂山,邮编27599。
埃里克·拜尔,北卡罗来纳大学教堂山分校口腔正畸和生物统计学系,邮编27599。
工具书类
- Bair E、Brownstein NC、Ohrbach R、Greenspan JD、Dubner R、Fillingim RB等人(2013年)。研究方案、样本特征和随访损失:OPPERA前瞻性队列研究.疼痛杂志
14,T2–T19。[PMC免费文章][公共医学][谷歌学者]
- Bhattacharjee A、Richards WG、Staunton J、Li C、Monti S、Vasa P等人(2001年)。mRNA表达谱对人肺癌的分类揭示了不同的腺癌亚类.美国国家科学院院刊
98, 13790–13795.[PMC免费文章][公共医学][谷歌学者]
- Chen G、Sullivan PF和Kosorok MR(2013年)。具有异质方差的双聚类.美国国家科学院院刊
110, 12253–12258.[PMC免费文章][公共医学][谷歌学者]
- Chi EC、Allen GI和Baraniuk RG(2017年)。凸双簇.生物计量学
73,10–19. [公共医学][谷歌学者]
- Fillingim RB、Ohrbach R、Greenspan JD、Knott C、Dubner R、Bair E等人(2011年)。慢性TMD的潜在心理社会风险因素:OPPERA病例对照研究的描述性数据和经验确定的领域.疼痛杂志
12,T46–T60。[PMC免费文章][公共医学][谷歌学者]
- Greenspan JD、Slade GD、Bair E、Dubner R、Fillingim RB、Ohrbach R等人(2011年)。慢性TMD的疼痛敏感性危险因素:OPPERA病例对照研究的描述性数据和经验确定的领域.疼痛杂志
12,T61–T74。[PMC免费文章][公共医学][谷歌学者]
- Hansen KD、Timp W、Bravo HC、Sabunciyan S、Langmead B、Mcdonald OG等(2011年)。不同癌症类型表观遗传域甲基化变异增加.自然遗传学
43,768–775页。[PMC免费文章][公共医学][谷歌学者]
- Hayes DN、Monti S、Parmigiani G、Gilks CB、Naoki K、Bhattacharjee A等人(2006年)。基因表达谱分析揭示了多个独立患者队列中可复制的人肺腺癌亚型.临床肿瘤学杂志
24, 5079–5090. [公共医学][谷歌学者]
- Lazzeroni L和Owen A(2002年)。基因表达数据的格子模型.中国统计局
12, 61–86.[谷歌学者]
- Lee M、Shen H、Huang JZ和Marron JS(2010)。基于稀疏奇异值分解的双聚类.生物计量学
66, 1087–1095. [公共医学][谷歌学者]
- Liu Y、Hayes DN、Nobel A和Marron JS(2008)。高维、低样本数据聚类的统计显著性.美国统计协会杂志
103, 1281–1293.[谷歌学者]
- Maixner W、Greenspan JD、Dubner R、Bair E、Mulkey F、Miller V等人(2011年)。慢性TMD的潜在自主风险因素:OPPERA病例对照研究的描述性数据和经验确定的领域.疼痛杂志
12,T75–T91。[PMC免费文章][公共医学][谷歌学者]
- Perou CM、Sörlie T、Eisen MB、van de Rijn M、Je rey SS、Rees CA等人(2000年)。人类乳腺肿瘤的分子图像.自然
406, 747–752. [公共医学][谷歌学者]
- Shabalin AA、Weigman VJ、Perou CM和Nobel AB(2009年)。在高维数据中寻找大平均子矩阵.应用统计学年鉴
三, 985–1012.[谷歌学者]
- Sill M、Kaiser S、Benner A和Kopp-Schneider A(2011年)。结合稳定性选择的稀疏奇异值分解鲁棒双聚类.生物信息学
27, 2089–2097. [公共医学][谷歌学者]
- Slade GD、Bair E、By K、Mulkey F、Baraian C、Rothwell R等人(2011年)。OPPERA研究中的研究方法、招募、社会人口学发现和人口统计学代表性.疼痛杂志
12,T12–T26。[PMC免费文章][公共医学][谷歌学者]
- Tan KM和Witten DM(2014)。可转置数据的稀疏双聚类.计算和图形统计杂志
23, 985–1008.[PMC免费文章][公共医学][谷歌学者]
- Turner H、Bailey T和Krzanowski W(2005年)。通过系统性能测试证明了微阵列数据的改进双聚类.计算统计学与数据分析
48, 235–254.[谷歌学者]
- Van t Veer LJ、Dai H、Van De Vijver MJ、He YD、Hart AAM、Mao M等(2002)。基因表达谱预测乳腺癌的临床预后.自然
415, 530–536. [公共医学][谷歌学者]
- Witten DM和Tibshirani R(2010年)。聚类中的特征选择框架.美国统计协会杂志
105, 713–726.[PMC免费文章][公共医学][谷歌学者]