摘要

动机:转录组数据的双聚类同时将基因和样本分组。它正在成为从基因表达测量中提取知识的标准工具。我们提出了一种新的双聚类生成方法,称为“FABIA:双聚类获取的因子分析”。FABIA基于一个乘法模型,该模型解释了基因表达和条件之间的线性依赖关系,还捕获了真实转录组数据中观察到的重尾分布。生成性框架允许使用基础良好的模型选择方法并应用贝叶斯技术。

结果:在100个具有已知真实人工植入双簇的模拟数据集上,FABIA明显优于所有11个竞争对手。在这些数据集上,FABIA能够根据双聚类的信息内容对其进行排序,从而将假双聚类与真双聚类分开。FABIA在三个具有已知子聚类的微阵列数据集上进行了测试,在比较的双聚类方法中,FABIA是最佳方法的两倍,是次优方法。

可利用性:FABIA作为生物导体上的R包提供(http://www.bioductor.org). 所有数据集、结果和软件可在http://www.bioinf.jku.at/software/fabia/fabia.html

联系人: hochreit@bioinf.jku.at

补充信息: 补充数据可在生物信息学在线。

1简介

Affymetrix阵列板和下一代测序等最新技术为高通量表达谱分析开辟了新的可能性。这些技术反过来需要先进的分析工具从海量数据中提取知识。如果实验条件已知,则支持向量机等监督技术适用于提取条件与基因表达之间的依赖关系或识别条件诱导基因。然而,条件可能未知,或者生物学家和医学研究人员对条件内或条件间的依赖性感兴趣。例如,可以细化各种条件下的途径,或者在一种条件下识别新的亚组。对于这些任务,需要无监督的方法,例如聚类,这通常是不够的,因为样本可能只在基因子集上相似,反之亦然。例如,在药物设计中,研究人员希望揭示化合物如何影响基因表达;然而,化合物的作用可能仅在一组基因上相似。在这种情况下,双聚类是正确的无监督分析技术。

A类双团簇在转录组数据集中是一对基因集和一个样本集,样本中的基因彼此相似,反之亦然。如果一个样本中存在多条通路,则它属于不同的双簇。如果一个基因在不同的条件下参与不同的途径,那么它也属于不同的双簇。因此,双簇可以重叠。

Madeira和Oliveira对双聚类方法进行了调查(2004). 原则上,存在四类双聚类方法:(1)方差最小化方法,(2)双向聚类方法,(3)模体和模式识别方法,以及(4)概率和生成方法。转录组数据通常以矩阵形式提供,其中每个基因对应一行,每个样本对应一列;矩阵条目本身就是表达式级别。

  1. 方差最小化方法:将簇定义为矩阵中元素偏差最小的块。Hartigan已经考虑过这个定义(1972)并由Tibshirani扩展等。(1999). δ-聚类方法搜索偏差(“方差”)低于δ的元素块。一个例子是δ-ks集群(加州等。,2000),其中每行的最大值和最小值的差异需要小于所选列的δ。第二个例子是δ-pClusters(Wang等。,2002)定义为两两边缘差小于δ的2×2子矩阵。第三个例子是程和教会(2000)用常数、行和列效应拟合加性模型后,均方误差小于δ的δ-双簇。FLOxible重叠双聚类(FLOC;Yang等。,2005)通过占用阈值θ处理缺失值并同时使用这两种方法扩展Cheng–Churchδ-双聚类12规范。

  2. 双向聚类方法将常规聚类应用于列和行,并(迭代地)合并结果。耦合双向聚类(CTWC;Getz等。,2000)使用先前构建的列(行)集群作为功能,迭代地执行行(列)的标准集群。同样相关的双向聚类(ITWC;Tang等。,2001)使用k个-均值和双共轭聚类(DCC;Busygin等。,2002)使用自组织映射结合列和行聚类。

  3. Motif和模式识别方法将双簇定义为共享共同模式或图案的样本。为了简化这项任务,一些方法在第一步中离散化数据,例如xMOTIF(Murali和Kasif,2003)或Bimax(Prelic等。,2006),它甚至将数据二值化,并搜索包含1的丰富块。保序子矩阵(OPSM;Ben-Dor等。,2003)搜索列中具有相同顺序值的块。使用部分模型时,只能保留子集上的列顺序。光谱聚类(SPEC;Kluger等。,2003)在标准化后对数据矩阵执行奇异值分解。SPEC提取具有相同保守基因表达模式的柱(样本),因为它们是线性相关的,并且跨越与某个奇异值相关的子空间。迭代签名算法(ISA;Ihmels等。,2004)选择具有给定基因签名的样本,然后使用这些样本定义新的样本签名。反过来,这个样本签名用于选择基因并定义新的基因签名。对于要提取的每个双聚类,该过程由随机选择的二进制基因签名初始化并迭代重复。一种相关的方法使用霍夫变换来识别线性相关基因组和样本(Gan等。,2008). 相邻柱相干(CCC双聚类;马德拉和奥利维拉,2009; 马德拉等。,2010)是一种用于基因表达时间序列的方法,可以在相邻的列中找到模式。

  4. 概率和生成方法使用基于模型的技术来定义双聚类。双聚类分析的统计算法方法(SAMBA;Tanay等。,2002)使用双分区图,其中条件和基因都是节点。从基因到条件的边缘意味着基因对条件作出反应。在概率目标下,发现子图的连通性明显高于整个图。另一种方法是Sheng等。(2003)使用Gibbs采样估计双聚类表达模式的简单频率模型的参数。然而,必须首先对数据进行离散化,然后才能在每个步骤中提取一个列值恒定的双聚类。概率关系模型(PRM;Getoor等。,2002)和他们的分机ProBic(Van den Bulcke,2009)是结合概率建模和关系逻辑的完全生成模型。另一种生成方法是cMonkey(Reiss等。,2006),通过马尔可夫链过程对双簇进行建模。PRM和cMonkey都能够集成非交易数据源。

在格子模型系列中(Lazzeroni和Owen,2002),的-通过行和列指示符变量ρ提取双聚类ki公司和κij公司每个双团簇的值由一个通用的加性模型θ解释基吉岛= μki公司ij公司。参数通过最小二乘拟合进行估计。顾和刘(2008)将格子模型推广到称为贝叶斯双聚类模型(BBC)的完全生成模型。为了避免格子模型中的高重叠百分比,BBC将双簇的重叠限制为仅一维。此外,它允许每个双簇有不同的误差方差。卡尔达斯和卡斯基(2008)还使用贝叶斯框架将格子模型扩展为完全生成模型,并发现格子模型在特定参数方面与PRM模型等效。

后一种模型(Caldas和Kaski,2008; 顾和刘,2008)是生成模型,其优点是:(i)它们使用熟悉的模型选择技术(如最大似然)选择模型,(ii)超参数选择方法(如确定双聚类数)可以依赖贝叶斯框架,(iii)可以计算信噪比,(iv)它们可以通过似然或后验来相互比较,(v)似然比检验等测试是可能的,(vi)它们生成一个全局模型来解释所有数据。这些模型是相加的,并且假设所有影响都是高斯的,以便利用吉布斯采样进行参数估计。然而,经过预过滤后,真正的微阵列数据集不是高斯分布的,并且具有重尾(Hardin和Wilson,2009),即使在日志转换之后。这可以在补充图S8、S9和S19用于基因表达数据集。在本文中,我们建议适应基因表达数据特殊特性的生成-乘法模型.

本文的结构如下。第2节介绍了乘法双集群模型类。第3节描述了新模型类的模型选择(训练)算法。第4节重点介绍了如何根据双聚类中包含的数据信息对其进行排名。第5节描述了如何从我们的新模型中提取双集群成员。最后,第6节对新方法进行了实验评估。

2 FABIA模型

出于几个原因,我们提出了一个用于分析基因表达数据集的乘法模型类。首先,乘法模型允许对重尾数据进行建模,正如在基因表达中观察到的那样。其次,它可以将基因表达模式的强度与诱导条件的特征(如经过的时间或化合物的浓度)联系起来。在对数变换之后,还可以对诸如衰变(mRNA或化合物)或饱和之类的指数动力学进行建模。请注意,有监督的乘法模型,例如支持向量机,已成功应用于对数转换基因表达数据集。此外,在数据预处理过程中引入了人为的乘法效应,例如,如果表达式值是标准化的,则噪声引起的变化会缩放信号。

我们假设对基因表达数据集进行预处理,并对包含信号的基因进行过滤(例如信息调用或信号强度)。结果数据以数据矩阵形式给出X(X)∈ ℝn个×,其中每行对应一个基因,每列对应一个样本;价值x千焦对应于k个-th基因在j个-第个样本。矩阵X(X)是双聚类方法的输入。

我们定义了一个双团簇作为行(基因)集和列(样本)集的一对,其中的行在列上彼此相似,反之亦然。在乘法模型中,如果一个向量是另一个向量的倍数,那么两个向量是相似的,也就是说,它们之间的夹角为零,或者,作为随机变量的实现,它们的相关系数为(负)一。很明显,行和列子集的这种线性依赖关系可以表示为外积λz(z)T型两个向量λ和z(z)向量λ对应于原型列向量它包含不参与双聚类的基因的零,而z(z)是的向量因素用其缩放每个样本的原型列向量;清晰地z(z)对于不参与双集群的样本,包含零。包含许多零或接近零的值的向量称为稀疏向量.图1通过稀疏向量以示意图的方式可视化此表示。

两个稀疏向量的外积λzT产生一个具有双簇的矩阵。请注意,矢量中的非零项彼此相邻,仅用于可视化目的。
图1。

外部产品λz(z)T型两个稀疏向量的结果是一个具有双簇的矩阵。请注意,矢量中的非零项彼此相邻,仅用于可视化目的。

的整体模型第页双簇和加性噪声是
(1)
其中ϒ∈ℝn个×是加性噪声;λ∈ ℝn个z(z)∈ ℝ是稀疏原型向量和因子的稀疏向量-第个双集群。上面的第二个公式成立,如果∧∈ℝn个×第页是包含原型向量λ的稀疏原型矩阵作为列和Z∈ ℝ第页×是包含转置因子的稀疏因子矩阵z(z)T型作为行。注意,方程式(1)将双聚类表示为稀疏矩阵分解。
根据方程式(1),的j个-第个样本xj个,即j个-第列,共列X(X),是
(2)
哪里εj个j个-噪声矩阵的第th列ϒ公式表示j个-矩阵的第h列Z回忆一下z(z)T型= (z(z)1,…,z(z)伊尔)是构成-th双簇(每个样本一个值),而公式是有助于j个-第个样本(每个双簇一个值)。
方程式中的公式(2)通过因子分析模型促进生成性解释第页因素(Everitt,1984)
(3)
哪里x是观察结果,Λ是加载矩阵,公式是的值-第个因子,公式是因子向量ε∈ ℝn个是加性噪声。标准因子分析假设:噪声独立于公式-分布式和ε是𝒩(0,Ψ)-分布(协方差矩阵Ψ∈ ℝn个×n个是对角表示的独立高斯噪声)。参数Λ解释从属(通用)和Ψ观测值的独立方差x基因表达中的加性噪声是正态分布的(Hochreiter等。,2006).

协方差矩阵公式是单位矩阵,表示双簇不应相关。这个假设确保了数据中的一个真正的双聚类不会被划分为依赖的小模型双聚类,从而确保了最大的模型双聚类。然而,请注意,这个假设仍然允许重叠的双簇。

标准因子分析没有考虑稀疏因子和稀疏载荷,这在我们的公式中是表示双聚类的必要条件。稀疏性是通过组件独立获得的拉普拉斯分布(Hyvärinen和Oja,1999),现在用作因子的先验值公式而不是高斯:
稀疏载荷λ因此很稀疏Λ,通过两种替代策略实现。在第一个模型中,称为FABIA公司,我们假设组件独立拉普拉斯加载前(如系数):
(4)
这个蚕豆模型包含拉普拉斯变量的乘积,该变量与第二类0阶修正贝塞尔函数(Bithas)成比例分布等。,2007). 对于较大的值,贝塞尔函数是随机变量平方根的负指数函数。因此,分布的尾部比拉普拉斯分布的尾部重。然而,高斯噪声降低了尾部的重量,使得重量介于高斯和贝塞尔函数尾部之间,大约与拉普拉斯分布的尾部一样重。这些沉重的尾巴正是所需的模型特性。
第二种模型称为FABIAS公司,仅在载荷稀疏的区域中,对非零载荷使用先验分布。以下(霍耶,2004),我们将稀疏性定义为
使用参数spL引导到先验
(5)
与独立成分分析(ICA)的关系:我们的模型与ICA(Hyvärinen,1999). ICA搜索矩阵分解,其中公式模型方程式中()无噪音ε应该相互独立。ICA的矩阵分解为
ICA导致稀疏ZICA公司,而ΛICA公司并不像我们的模型中那样稀疏。

3型号选择

为了识别双聚类,我们必须选择模型参数ΛΨ这最能解释数据。最大似然是选择生成模型的最常见方法。不幸的是,在我们的案例中,这种可能性是难以分析的。原因是我们的目标是生成稀疏值,为此我们使用拉普拉斯先验(与常用的高斯先验相反)。由此产生的定义可能性的积分不能用解析方法计算。在这种情况下,可以应用变分方法,其中似然性的下限被最大化,而不是似然性本身。

期望最大化(EM;Dempster等。,1977)是最大化可能性的最常用方法。EM算法已扩展到变分EM(Girolma,2001; 帕尔默等。,2006). 我们遵循这种方法。然而,为了使载荷也变得稀疏,我们还假设了载荷的先验值。因此,我们使用变分EM来最大化我们之前的方法(Hochreiter等。,2006; 塔伦等。,2007).

3.1稀疏因子的变分法

如上所述
无法对拉普拉斯先验函数进行分析计算公式.吉洛米(2001)引入由参数化的模型族ξ,其中该系列中模型的最大值是真实可能性:
变分EM算法不仅最大化了参数的似然下限ΛΨ,但也与变分参数有关ξ.
在以下内容中,ΛΨ表示当前迭代中的参数估计。据Girolma介绍(2001)和帕尔默等。(2006),我们得到以下变分E步:
哪里Ξj个代表diag(ξj个). 的更新ξj个

3.2稀疏加载的新更新规则

的M步骤FABIA公司(加载前拉普拉斯)是
(6)
的M步骤FABIAS公司更新诊断(Ψ新的) =Ψ相对长度单位Λ根据标准EM。然而,我们必须考虑到λ已限制支持。这是通过投影来确保的λ据霍耶介绍(2004). 投影是一个凸二次型问题,它使到原始向量的欧几里得距离最小化λ‖=1和sp(λ)=spL,见方程式(5). 最后的更新是

对于n个>第页,该算法的复杂性为(低压2n个)每次迭代,即在n个.

3.3极稀疏先验

一些微阵列数据极为稀疏。例如,我们观察到Affymetrix SNP 6阵列的峰度大于30[参见FABIA主页上的拷贝数变化(CNV)数据]。我们希望推广我们的模型类来处理此类稀疏数据集,并利用以下(伪)分布定义因子和加载的极稀疏先验:
后者只能存在于区间[ε,]ε足够小。

用于更新载荷在M步中,我们需要负对数先验的导数,它可以与|z(z)|−标准普尔对于特定指数spl,其中spl=0(β=1)对应于拉普拉斯先验,spl>0对应于稀疏先验。荷载的M阶跃最终如等式所示(6),何处标志(Λ)被替换为|Λ|−标准普尔标志(Λ)使用元素操作(绝对值、符号、求幂和乘法)。

对于因素,我们用凸变分形式表示先验。根据帕尔默等。(2006),如果公式正在增加和凹陷z(z)> 0. 我们的先验函数实现了这一点,因为一阶导数是正的,二阶导数是负的。然后更新变分参数ξj个
其中spz是的指数|z(z)|在的一阶导数中(z(z)); spz=1/2(β=1)代表拉普拉斯先验,spz>1/2导致先验稀疏。

3.4数据预处理和初始化

数据应居中于零均值、零中值或零模式(补充材料). 如果对微弱信号的相关性也感兴趣,我们建议对数据进行规范化。

迭代模型选择过程需要初始化参数Λ,Ψξj个.我们初始化变分参数向量ξj个按个,Λ随机和Ψ=诊断(最大值(δ,协方差(x) −Λ ΛT型)).

4双聚类的信息内容

双聚类算法的一个非常理想的特性是能够将提取的双聚类与主成分进行类比排序,主成分根据它们解释的数据方差进行排序。我们根据双聚类包含的数据信息对其进行排序。的信息内容公式对于j个-第th次观测xj个是双方之间的相互信息z(z)j个xj个作为
其中H是熵。独立性xj个公式穿过j个给予
为了评估一个因素的信息含量,我们考虑了该因素的情况公式从最终模型中删除,因此,解释的协方差ξλλT型必须视为噪音:
以下信息z(z)ij公司考虑到其他因素
再次独立j个给予
此信息内容提供了x那个z(z)T型传达所有示例。请注意,信息内容随着非零数量的增加而增长λ的(双集群的大小)。

5提取双原子团簇成员

在对双星簇进行模型选择和排序后-第个双集群具有软基因成员由的绝对值给出λ软样本成员资格由的绝对值给出z(z)T型软聚类的优点是,渐进成员关系能够解释基因表达数据集中出现的模糊性(硬成员关系可能被噪声掩盖)。然而,一些应用程序需要坚硬的/成员资格。我们确定-选择绝对值λ的第个双聚类ki公司z(z)ij公司分别高于阈值thresL和thresZ。

首先,将每个因子的二阶矩归一化为1,得到因子矩阵公式[根据公式]. 因此,Λ被重新缩放为公式这样的话公式现在可以选择阈值thrisZ来确定平均属于双簇的样本百分比。对于拉普拉斯先验,这个百分比可以通过公式.

我们为每个因子提取一个双聚类公式在基因表达中,基因模式要么缺失要么存在,但不是负向存在。因此-双团簇由以下正值或负值决定公式选择这两种可能性中的哪一种取决于总和是否超过公式正值或负值较大公式.

我们可能无法正常化公式对于提取载荷,因为系数已经归一化。我们建议估计公式第一。因此,我们计算公式通过
现在我们选择thresL=sdLZ/thresZ,它对应于提取那些贡献高于平均值的载荷。

6个实验

6.1评估双聚类结果

在比较双聚类方法之前,我们必须考虑如何评估双聚类方法的性能。如果已知真实双聚类,则应通过提取的双聚类集与真实双聚类集之间的一致性来评估双聚类方法的性能。

之前的共识措施,如Gu和Liu中的措施(2008)不要考虑重叠的双聚类。其他一致性度量没有考虑两组中双星团的数量(例如Prelic等。,2006,李等。,2009). 因此,真正的双聚类集将与非常大的随机双聚类集一致。我们介绍一本小说一致性得分对于避免上述缺点的两组双簇,如下所示:步骤(3)惩罚不同数量的双聚类,如上所述。

  1. 计算所有双聚类对之间的相似性,其中一个来自第一组,另一个来自第二组;

  2. 通过Munkres算法最大化分配,将一个集合的双簇分配给另一个集合中的双簇,1957);

  3. 将指定的双聚类的相似度之和除以较大集的双聚类数。

我们使用Jaccard指数计算两个双聚类的相似性。它测量两个双聚类重叠的相对比例,作为双聚类交集中包含的矩阵元素数与双聚类并集中包含矩阵元素数的商。

最高共识是1,并且仅在相同的双集群集合中获得。进一步注意,上面定义的一致性得分可以类似地应用于比较标准聚类结果。

6.2比较方法

我们比较了以下13种双聚类方法:我们使用了以下软件:(1)–(3)R包“fabia”,(4)软件http://www-stat.stanford.edu/~欧文/格子/,对于(5)R包“isa2”,对于(6)软件BicAT(Barkow等。,2006),用于(7)软件EXPANDER(Shamir等。,2005),用于(8)–(13)R包“biclust”(凯撒和利什,2008).

  1. FABIA公司:我们使用稀疏先验方程的新方法(4).

  2. FABIAS公司:我们的稀疏投影方程新方法(5).

  3. MFSC公司:稀疏约束下的矩阵分解(Hoyer,2004).

  4. 格子花呢:格子模型(Lazzeroni和Owen,2002).

  5. ISA公司:我很高兴等。(2004).

  6. OPSM公司:Ben-Dor等。(2003).

  7. SAMBA公司:塔奈等。(2002).

  8. xMOTIF公司:保守的图案(Murali和Kasif,2003).

  9. Bimax公司:分治算法(Prelic等。,2006).

  10. 科科斯群岛:Cheng–Churchδ-双簇(Cheng and Church,2000).

  11. 格子(_t):改良格子模型(特纳等。,2003)

  12. FLOC公司:Cheng–Churchδ-双簇的推广(Yang等。,2005).

  13. 规范:光谱双聚类(Kluger等。,2003).

在所有实验中,行(基因)被标准化为平均值0和方差1。为了进行公平比较,在辅助玩具数据集上优化了这些方法的参数。如果有多个设置接近最佳,则测试所有接近最佳的参数设置。在下文中,这些变体表示为方法_变体(例如。格子布). 中提供了所有设置和变体的完整列表补充材料.

在比较的方法中,不仅FABIA公司FABIAS公司而且ISA公司,OPSM公司规格用于基于乘法模型识别双聚类。此外,我们还包括MFSC公司,虽然它不是严格意义上的双聚类方法,但它是乘法因式分解的标准方法,因此为我们的比较提供了基线。

6.3已知双聚类的模拟数据集

Prelic中发布的基准数据集等。(2006)和李等。(2009)它们很小(50到100个基因),具有低噪声,大小相等的双聚类,并且只有同时的行和列重叠。FABIA公司在这些数据集上表现出色(请参阅补充S6.3.1和S6.3.2). 然而,我们使用更真实的模拟数据集,更好地匹配基因表达数据的特征,特别是在重尾方面。这可以在补充材料通过比较我们模拟数据集的密度和矩(补充图S7)用真实的基因表达数据(补充图S8、S9和S19).

我们假设n个=1000个基因和=100个样本并植入第页=10个乘性双团簇,模型由方程式给出(1).

这个λ的生成方法是(i)随机选择数字N个λ双簇基因从{10,…s,210},(ii)选择N个λ基因随机来自{1,…,1000},(iii)设置λ组件不在双集群中至𝒩(0,0.22)随机值和(iv)设置λ双集群中的组件到𝒩(±3,1)随机值,其中符号是为每个基因随机选择的。

这个z(z)的生成方法是(i)随机选择数字N个z(z)双团簇样品从{5,…,25},(ii)选择N个z(z)从{1,…,100},(iii)设置中随机取样z(z)组件不在双集群中至𝒩(0,0.22)随机值和(iv)设置z(z)双集群中的组件到𝒩(2,1)随机值。

最后,我们画出ϒ根据𝒩(0,3)的条目(所有条目上的附加噪声)2)并计算数据X(X)根据方程式(1). 使用这些设置,生成随机大小在10×5到210×25(基因×样本)之间的噪声双聚类。

通过这个过程,我们创建了100个独立的数据集。表1显示了这些数据集的双聚类结果。这些方法通过提取的双聚类和中定义的真实双聚类的平均一致性得分进行评估第6.1节.我们的新方法FABIA公司蚕豆大大优于所有其他方法。

表1。

100个模拟数据集的结果

方法分数方法分数
FABIA公司0.478(1e-2)SAMBA公司0.006(5e-5)
FABIAS公司0.564(3e-3)xMOTIF公司0.002(6e-5)
MFSC公司0.057(2e-3)Bimax公司0.004(2e-4)
格子布0.045(9e-4)科科斯群岛0.001(7e-6)
格子_ms0.072(4e-4)格子_ _ ab0.046(5e-3)
格子_ms_50.083(6e-4)格子_t_a0.037(4e-3)
ISA_10.333(5e-2)FLOC公司0.006(3e-5)
ISA_20.299(6e-2)规范_10.032(5e-4)
ISA_30.188(4e-2)规范_20.011(5e-4)
OPSM公司0.012(1e-4)
方法分数方法分数
FABIA公司0.478(1e-2)SAMBA公司0.006(5e-5)
FABIAS公司0.564(3e-3)xMOTIF公司0.002(6e-5)
MFSC公司0.057(2e-3)Bimax公司0.004(2e-4)
格子布0.045(9e-4)科科斯群岛0.001(7e-6)
格子_ms0.072(4e-4)格子_ _ ab0.046(5e-3)
格子_ms_50.083(6e-4)格子_t_a0.037(4e-3)
ISA_10.333(5e-2)FLOC公司0.006(3e-5)
ISA_20.299(6e-2)规范_10.032(5e-4)
ISA_30.188(4e-2)规范_20.011(5e-4)
OPSM公司0.012(1e-4)

数字表示具有真实双聚类的平均一致性得分,如第6.1节(括号内为标准偏差)。最好的结果用粗体突出显示,第二好的结果用斜体突出显示(“better”表示根据配对结果明显更好t吨-测试和双簇中正确元素的McNemar测试)。

表1。

100个模拟数据集的结果

方法分数方法分数
FABIA公司0.478(1e-2)SAMBA公司0.006(5e-5)
FABIAS公司0.564(3e-3)xMOTIF公司0.002(6e-5)
MFSC公司0.057(2e-3)Bimax公司0.004(2e-4)
格子布0.045(9e-4)科科斯群岛0.001(7e-6)
格子_ms0.072(4e-4)格子_ _ ab0.046(5e-3)
格子_ms_50.083(6e-4)格子_t_a0.037(4e-3)
ISA_10.333(5e-2)FLOC公司0.006(3e-5)
ISA_20.299(6e-2)规范_10.032(5e-4)
ISA_30.188(4e-2)规范_20.011(5e-4)
OPSM公司0.012(1e-4)
方法分数方法分数
FABIA公司0.478(1e-2)SAMBA公司0.006(5e-5)
FABIAS公司0.564(3e-3)xMOTIF公司0.002(6e-5)
MFSC公司0.057(2e-3)Bimax公司0.004(2e-4)
格子布0.045(9e-4)科科斯群岛0.001(7e-6)
格子_ms0.072(4e-4)格子_ _ ab0.046(5e-3)
格子_ms_50.083(6e-4)格子_t_a0.037(4e-3)
ISA_10.333(5e-2)FLOC公司0.006(3e-5)
ISA_20.299(6e-2)规范_10.032(5e-4)
ISA_30.188(4e-2)规范_20.011(5e-4)
OPSM公司0.012(1e-4)

数字表示具有真实双聚类的平均一致性得分,如第6.1节(括号中的标准偏差)。最好的结果用粗体突出显示,第二好的结果用斜体突出显示(“better”表示根据配对结果明显更好t吨-测试和双簇中正确元素的McNemar测试)。

图2说明了模拟数据集上的FABIA结果,与我们的100个基准数据集相比,为了可视化目的,双聚类被创建为连续块。

FABIA模型选择示例。这些数据有10个真正的双聚类。我们用13个双聚类对模型进行了训练。仅出于可视化目的,双簇被生成为连续块。顶部:数据(左)和无噪数据(右)。中间:系数Z。底部:由FABIA模型重建的数据为∧Z(左)和载荷∧(右)。这些线表示三个双簇,并将重建数据中的每个双簇与其对应的因子(中间)和载荷(右下角)连接起来。
图2。

以下示例FABIA公司模型选择。这些数据有10个真正的双聚类。我们用13个双聚类对模型进行了训练。仅出于可视化目的,双簇被生成为连续块。顶部:数据(左)和无噪数据(右)。中间:因子Z底部:由FABIA公司模型为ΛZ(左)和载荷Λ(右)。这些线表示三个双簇,并将重建数据中的每个双簇与其对应的因子(中间)和载荷(右下角)连接起来。

我们观察到这些方法的以下特点,也证实了顾和刘的早期发现(2008):SAMBA公司OPSM公司排除了许多相关的双聚类;SAMBA公司,Bimax公司,xMOTIF公司,科科斯群岛絮凝物发现许多小的随机双聚类(过拟合)。规范为每个基因集生成样本的分区。格子模型和ISA公司提取大的重叠聚类。

按信息内容排名:为了验证信息内容是否有助于对提取的双聚类进行排序,我们进行了双边Spearman秩相关测试,比较(i)信息内容和(ii)与指定的真实双聚类的Jaccard相似性。我们获得了P(P)-值为1.7×10−5对于FABIA公司和6.1×10−3对于FABIAS公司这表明真正的双聚类确实可以通过其信息内容来识别。

基于加性模型的数据:我们还根据加性模型结构生成了数据,以便分析效果FABIA公司FABIAS公司对不满足乘法模型假设的数据执行。我们使用上述设置生成了100个数据集,但使用了第1节,类别(4)。两者都有FABIA公司FABIAS公司优于所有其他方法,其次是格子_ms_5具体来说,对于三种不同的信号电平,FABIAS公司平均共识得分为0.15–0.27–0.55,FABIA公司0.10–0.20–0.48和格子_ms_50.10–0.14–0.22(所有其他方法的详细结果也在补充材料). 有人会假设格子图案的表现比FABIA公司FABIAS公司我们解释了我们的方法在甚至与数据生成模型不匹配的数据集上的优势,如下所示:(i)它们同时构造双聚类,从而考虑到重叠;(ii)因子的去相关最小化了双聚类的冗余;(iii)模型的低复杂性确保了低参数相关性,这有助于模型选择。

6.4基因表达数据集

我们考虑了Broad Institute提供的三个基因表达数据集,这些数据集之前由Hoshida分析等。(2007). 他们首先使用额外的数据集对样本进行聚类,然后通过基因集富集分析来确认聚类。我们的目标是研究双聚类方法在不需要任何额外信息的情况下重新识别这些簇的能力。

  • 乳腺癌数据集(范特维尔等。,2002)旨在预测乳腺癌治疗结果的基因特征。我们删除了异常值数组S54,该数组导致一个包含97个样本和1213个基因的数据集。标准化后,偏度为0.45,超额峰度为0.93。在Hoshida等。(2007),发现三个具有生物学意义的亚类,需要重新鉴定。

  • 多种组织类型数据集(苏等。,2002)是来自不同组织和细胞系的人类癌症样本的基因表达谱。该数据集包含102个样本,包含5565个基因。标准化后,偏度为0.15,过量峰度为1.3。双聚类应该能够重新识别组织类型。

  • 弥漫性大B细胞淋巴瘤数据集(罗森瓦尔德等。,2002)旨在预测化疗后的生存率。它包含180个样本和661个基因,经标准化后,偏度为-0.05,超额峰度为0.35。Hoshida发现的三类等。(2007)应重新识别。

双聚类结果总结如下表2对于假设双聚类数固定的方法,我们选择了五个比已知聚类数稍高的双聚类数,以避免对实际聚类数的先验知识产生偏见。通过比较数据集中已知类别的样本与通过双聚类确定的样本集(定义见第6.1节,在本例中是在样本簇上,而不是在双簇上。对于多组织数据集,格子表现最佳,我们的方法FABIA公司FABIAS公司是第二好的。对于乳腺癌和DLBCL数据集,我们的新方法FABIA公司FABIAS公司最准确地检测到了簇。此外,请注意FABIA公司FABIAS公司与最新方法相比,它们的双簇中的基因要少得多。

表2。

乳腺癌、多个组织样本、DLBCL数据集的结果由第6.1节

乳腺癌多个组织DLBCL(DLBCL)
方法分数#公元前#克#秒分数#公元前#克#秒分数#公元前#克#秒
FABIA公司0.5292310.535356290.3725962
蚕豆0.52144320.445435300.35210460
MFSC公司0.17587240.315431240.1855042
格子布0.395500380.5651903350.30533972
格子_ms0.395175380.505571420.28514363
格子_ms_50.29556290.23571260.2156847
格子_ _ s0.375796350.6553711310.28538968
格子_ _ ms0.345194350.585583340.2759561
格子_a_ms_50.1655260.20511250.185468
ISA_10.03255540.052923060.0156268
ISA_20.252466420.371904280.22126774
ISA_30.221742330.352856280.18238558
OPSM公司0.041217280.0419643120.0361624
SAMBA公司0.02383770.03595380.02381915
SAMBA_01型0.01793380.011285390.01701814
xMOTIF公司0.0756160.11562860.05599
Bimax公司0.0111213970.1043550.075735
科科斯群岛0.1151212数控数控数控数控0.0551010
格子_ _ ab0.24240230.385255220.17144
格子_t_a0.23224200.395274240.11624
规范_10.1213198280.375395200.052813332
规范_20.071477220.211117390.0888244
FLOC公司0.0453435数控数控数控数控0.0351675
乳腺癌多个组织DLBCL基因
方法分数#公元前#克#秒分数#不列颠哥伦比亚省#克#秒分数#公元前#克#秒
FABIA公司0.5292310.535356290.3725962
FABIAS公司0.52144320.445435300.35210460
MFSC公司0.17587240.315431240.1855042
格子花纹0.395500380.5651903350.30533972
格子_ms0.395175380.505571420.28514363
格子_ms_50.29556290.23571260.2156847
格子_ _ s0.375796350.6553711310.28538968
格子_ _ ms0.345194350.585583340.2759561
格子_a_ms_50.1655260.20511250.185468
ISA_10.03255540.052923060.0156268
ISA_20.252466420.371904280.22126774
ISA_30.221742330.352856280.18238558
OPSM公司0.041217280.0419643120.0361624
SAMBA公司0.02383770.03595380.02381915
SAMBA_01型0.01793380.011285390.01701814
xMOTIF公司0.0756160.11562860.05599
Bimax公司0.0111213970.1043550.075735
科科斯群岛0.1151212数控数控数控数控0.0551010
格子_ _ ab0.24240230.385255220.17144
格子_t_a0.23224200.395274240.11624
规范_10.1213198280.375395200.052813332
规范_20.071477220.211117390.0888244
FLOC公司0.0453435数控数控数控数控0.0351675

“nc”条目表示该方法没有收敛到此数据集。最佳结果用粗体表示,次佳结果用斜体表示(根据配对,“better”表示明显更好t吨-测试)。“#bc”、“#g”和“#s”列分别提供了双聚类数、平均基因数和平均样本数。

表2。

乳腺癌、多个组织样本、DLBCL数据集的结果由第6.1节

乳腺癌多个组织DLBCL(DLBCL)
方法分数#公元前#克#秒分数#公元前#克#秒分数#公元前#克#秒
FABIA公司0.5292310.535356290.3725962
蚕豆0.52144320.445435300.35210460
MFSC公司0.17587240.315431240.1855042
格子布0.395500380.5651903350.30533972
格子_ms0.395175380.505571420.28514363
格子_ms_50.29556290.23571260.2156847
格子_ _ s0.375796350.6553711310.28538968
格子_ _ ms0.345194350.585583340.2759561
格子_a_ms_50.1655260.20511250.185468
ISA_10.03255540.052923060.0156268
ISA_20.252466420.371904280.22126774
ISA_30.221742330.352856280.18238558
OPSM公司0.041217280.0419643120.0361624
SAMBA公司0.02383770.03595380.02381915
SAMBA_01型0.01793380.011285390.01701814
xMOTIF公司0.0756160.11562860.05599
Bimax公司0.0111213970.1043550.075735
科科斯群岛0.1151212数控数控数控数控0.0551010
格子_ _ ab0.24240230.385255220.17144
格子_t_a0.23224200.395274240.11624
规范_10.1213198280.375395200.052813332
规范_20.071477220.211117390.0888244
FLOC公司0.0453435数控数控数控数控0.0351675
乳腺癌多个组织DLBCL基因
方法分数#公元前#克#秒分数#不列颠哥伦比亚省#克#秒分数#公元前#克#秒
FABIA公司0.5292310.535356290.3725962
FABIAS公司0.52144320.445435300.35210460
MFSC公司0.17587240.315431240.1855042
格子花纹0.395500380.5651903350.30533972
格子_ms0.395175380.505571420.28514363
格子_ms_50.29556290.23571260.2156847
格子_ _ s0.375796350.6553711310.28538968
格子_ _ ms0.345194350.585583340.2759561
格子_a_ms_50.1655260.20511250.185468
ISA_10.03255540.052923060.0156268
ISA_20.252466420.371904280.22126774
ISA_30.221742330.352856280.18238558
OPSM公司0.041217280.0419643120.0361624
SAMBA公司0.02383770.03595380.02381915
SAMBA_01型0.01793380.011285390.01701814
xMOTIF公司0.0756160.11562860.05599
Bimax公司0.0111213970.1043550.075735
科科斯群岛0.1151212数控数控数控数控0.0551010
格子_ _ ab0.24240230.385255220.17144
格子_t_a0.23224200.395274240.11624
规范_10.1213198280.375395200.052813332
规范_20.071477220.211117390.0888244
FLOC公司0.0453435数控数控数控数控0.0351675

“nc”条目表示该方法没有收敛到此数据集。最佳结果用粗体表示,次佳结果用斜体表示(根据配对,“better”表示明显更好t吨-测试)。“#bc”、“#g”和“#s”列分别提供了双聚类数、平均基因数和平均样本数。

用于生物学解释FABIA公司结果,我们应用了基因本体(GO)、京都基因和基因组百科全书(KEGG)途径和蛋白质相互作用网络分析。我们提供了这些分析结果的摘要,有关详细信息,请参阅补充材料.

乳腺癌:GO和KEGG同意双簇1中的基因与细胞周期(KEGG)有关P(P)-值:9.7×10−8; GO(开始)P(P)-值:2.8×10−9)尤其是M相(GOP(P)-值:2.5×10−15). 驱动这个双簇的蛋白质是细胞分裂控制蛋白CDC2和有丝分裂相关的KIF蛋白质。双簇2中的基因与免疫反应(GO)有关P(P)-值:1.4×10−26)以及细胞因子-细胞因子受体相互作用(KEGGP(P)-值<10−10)涉及细胞因子相关蛋白,如CCR5、CCL4和CSF2RB。请注意,细胞因子是免疫反应的重要调节器和动员器。双星簇3太小,无法进行可靠的生物学解释。

DLBCL:双簇1中最重要的GO项和KEGG通路与核糖体(GO)有关P(P)-值:2.2×10−6; 凯格P(P)-值:1.3×10−8)和B细胞受体信号(KEGGP(P)-值:9.6×10−8). 后者特别适合数据来源的单元格类型。双簇2最重要的GO项和KEGG途径是免疫系统相关(GOP(P)-值:3.2×10−6; 凯格P(P)-值:5.7×10−8).

多组织:这个数据集是非常异质的,样本在许多生物过程中不同;因此,很难提供一个可理解的生物学解释。

6.5药物设计

在一个药物设计项目中,使用每个Affymetrix GeneChip HT HG-U133+PM阵列板96个样本(12×8)来分析不同化合物对基因表达的影响。这些化合物被选为对癌细胞系具有活性,并分三个重复组进行测试。

用FARMS(Hochreiter)汇总原始表达数据等。,2006)信息基因通过I/NI调用选择(塔伦等。,2007). 预处理数据矩阵为1413×95(缺少一个数组),偏斜度为-0.39,超额峰度大于3.0(即尾部比拉普拉斯重)。我们测试了蚕豆在此数据集上。以thrisZ=1.5提取双聚类,以在双聚类中获得5-6个样本的平均值(注意,对于拉普拉斯先验,公式).

FABIA公司发现了四个双星团。第一个双集群由两个复制集(6个数组)组成,第二个由五个复制集组成,其中一个复制集丢失(14个数组)。第三个双集群由三个复制集和一个额外的数组(10个数组)组成。第四个双星团由位于板的最后一列的阵列组成,与干燥的边界阵列相对应。同时,Affymetrix解决了这个问题。将重复数据聚集在一起表明了我们的双聚类方法的正确性。

信息含量最高的双聚类(两组重复)提取了与有丝分裂相关的基因(GO分析给出了一个P(P)-值<10−13). 有丝分裂基因的调控在生物学上是合理的,因为抑制细胞分裂与不杀死细胞的活性化合物是一致的。强生制药研发部目前正在研究这种双簇化合物。

7结论

我们引入了一种新的双聚类方法,即生成-乘法模型。它假设实际的非高斯信号分布具有重尾。生成模型允许根据信息内容对双聚类进行排序。按最大值进行型号选择后部通过基于变分方法的EM算法。

在100个已知真实双聚类的模拟数据集上,FABIA明显优于所有11种竞争方法。在具有先前验证过的子聚类的三个基因表达数据集上,该方法一次是第二好的方法,二次是最佳的方法。GO和KEGG分析证明了FABIA双簇的生物学相关性。最后,FABIA已成功应用于药物设计,以发现对基因表达具有类似影响的化合物。

基金:Janssen Pharmaceutica N.V.和法兰德斯科学技术促进创新研究所(IWT项目80536)。

利益冲突:未声明。

参考文献

巴尔科
S公司
,等人
BicAT:双聚类分析工具箱
生物信息学
2006
,卷。 
22
(第
1282
-
1283
)
Ben-Dor公司
A类
,等人
发现基因表达数据中的局部结构:顺序保护子矩阵问题
J.计算。生物。
2003
,卷。 
10
(第
373
-
384
)
比塔斯
PS(聚苯乙烯)
,等人
涉及相关广义伽马变量的分布
应用随机模型和数据分析国际会议论文集
2007
,卷。 
12
 
查尼娅
布瑟金
S公司
,等人
双重共轭聚类在白血病微阵列数据中的应用
第二届SIAM国际数据挖掘会议记录/高维数据聚类研讨会
2002
美国弗吉尼亚州阿灵顿
卡尔达斯
J型
卡斯基
S公司
格子模型的贝叶斯双聚类
IEEE信号处理机器学习国际研讨会论文集
2008
,卷。 
十八
 
墨西哥坎昆
(第
291
-
296
)
加利福尼亚州
A类
,等人
用于表型分类的基因表达芯片分析
计算分子生物学国际会议论文集
2000
日本东京
ACM公司
(第
75
-
85
)
Y(Y)
教堂
总经理
表达式数据的双聚类
分子生物学智能系统国际会议论文集
2000
,卷。 
8
 
日本东京
ACM公司
(第
93
-
103
)
登普斯特
AP公司
,等人
通过EM算法从不完整数据中获得最大似然
J.R.Stat.Soc.B Met.公司。
1977
,卷。 
39
(第
1
-
22
)
埃弗里特
英国标准
潜在变量模型简介。
1984
伦敦
查普曼和霍尔
X(X)
,等人
基于高维线性几何发现基因表达数据中的双聚类
BMC生物信息学
2008
,卷。 
9
第页。 
209
 
盖图
L(左)
,等人
学习链路结构的概率模型
J.马赫。学习。物件。
2002
,卷。 
(第
679
-
707
)
盖兹
G公司
,等人
基因芯片数据的双向耦合聚类分析
程序。美国国家科学院。科学。美国
2000
,卷。 
97
(第
12079
-
12084
)
吉罗拉米
M(M)
学习稀疏和过完备表示的变分方法
神经计算。
2001
,卷。 
13
(第
2517
-
2532
)
J型
线路接口单元
JS公司
基因表达数据的贝叶斯双聚类
BMC基因组学
2008
,卷。 
9
 
补充1
第页
S4系列
 
哈登
J型
威尔逊
J型
关于寡核苷酸表达值非正态分布的注记
生物统计学
2009
,卷。 
10
(第
446
-
450
)
哈蒂根
青年成就组织
数据矩阵的直接聚类
美国统计协会。
1972
,卷。 
67
(第
123
-
129
)
霍克莱特
S公司
,等人
一种新的Affymetrix探测数据摘要方法
生物信息学
2006
,卷。 
22
(第
943
-
949
)
Hoshida公司
Y(Y)
,等人
子类映射:识别独立疾病数据集中的常见亚型
公共科学图书馆
2007
,卷。 
2
第页。 
e1195(电子1195)
 
霍耶
人事军官
稀疏约束下的非负矩阵分解
J.马赫。学习。物件。
2004
,卷。 
5
(第
1457
-
1469
)
海夫里宁
A类
独立成分分析综述
神经计算。Surv公司。
1999
,卷。 
2
(第
94
-
128
)
海瓦里宁
A类
奥哈
E类
一种用于独立分量分析的快速定点算法
神经计算。
1999
,卷。 
9
(第
1483
-
1492
)
伊梅尔斯
J型
,等人
使用大规模基因表达数据定义转录模块
生物信息学
2004
,卷。 
20
(第
1993
-
2003
)
凯撒
S公司
莱施
F类
布里托
P(P)
R中双聚类分析的工具箱
Compstat 2008–计算统计论文集。
2008
海德堡
物理Verlag
(第
201
-
208
)
克鲁格
Y(Y)
,等人
微阵列数据的光谱双聚类:共聚类基因和条件
基因组研究。
2003
,卷。 
13
(第
703
-
716
)
拉泽罗尼
L(左)
欧文
A类
基因表达数据的格子模型
统计正弦。
2002
,卷。 
12
(第
61
-
86
)
G公司
,等人
QUBIC:一种用于基因表达数据分析的定性双聚类算法
核酸研究。
2009
,卷。 
37
第页。 
e101(电子101)
 
马德拉
联合国安全理事会
奥利维拉
美国铝业公司
生物数据分析的双聚类算法综述
IEEE ACM传输。计算。生物。
2004
,卷。 
1
(第
24
-
45
)
马德拉
联合国安全理事会
奥利维拉
美国铝业公司
基因表达时间序列近似表达模式的多项式时间双聚类算法
分子生物学算法。
2009
,卷。 
4
第页。 
8
 
马德拉
联合国安全理事会
,等人
用线性时间双聚类算法识别时间序列基因表达数据中的调节模块
IEEE ACM传输。计算。生物。
2010
,卷。 
7
(第
153
-
165
)
拓扑学
J型
分配和运输问题的算法
J.Soc.Ind.申请。数学。
1957
,卷。 
5
(第
32
-
38
)
穆拉里
TM公司
卡西夫
S公司
从基因表达数据中提取保守的基因表达基序
太平洋生物计算研讨会
2003
美国夏威夷
利休
(第
77
-
88
)
帕尔默
J型
,等人
非高斯隐变量模型的变分EM算法
神经信息处理系统的进展18
2006
加拿大不列颠哥伦比亚省温哥华
麻省理工学院出版社
(第
1059
-
1066
)
普雷利克
A类
,等人
基因表达数据双聚类方法的系统比较与评价
生物信息学
2006
,卷。 
22
(第
1122
-
1129
)
赖斯
流行音乐播音员
,等人
异构全基因组数据集的集成双聚类用于推断全球调控网络
BMC生物信息学
2006
,卷。 
2
(第
280
-
302
)
罗森瓦尔德
A类
,等人
分子分析在预测弥漫性大B细胞淋巴瘤化疗后生存率中的应用
新英格兰。医学杂志。
2002
,卷。 
346
(第
1937
-
1947
)
沙米尔
R(右)
,等人
EXPANDER–用于微阵列数据分析的集成程序套件
BMC生物信息学
2005
,卷。 
6
第页。 
232
 
,等人
吉布斯采样双团簇微射线数据
生物信息学
2003
,卷。 
19
 
补充2
(第
ii196年
-
ii205
)
人工智能
,等人
人类和小鼠转录体的大规模分析
程序。美国国家科学院。科学。美国
2002
,卷。 
99
(第
4465
-
4470
)
塔伦
W公司
,等人
排除非形成性基因的I/NI-call:一种高效的微阵列数据特征过滤工具
生物信息学
2007
,卷。 
23
(第
2897
-
2902
)
塔纳伊
A类
,等人
在基因表达数据中发现具有统计意义的双聚类
生物信息学
2002
,卷。 
18
 
补充1
(第
136美元
-
S144标准
)
C类
,等人
相关双向聚类:一种无监督的基因表达数据分析方法
第二届IEEE生物信息学和生物工程国际研讨会论文集
2001
贝塞斯达,医学博士,美国
IEEE计算机学会
(第
41
-
48
)
提比什拉尼
R(右)
,等人
DNA微阵列数据分析的聚类方法
技术报告
1999
斯坦福大学健康研究与政策系、遗传学系和生物化学系
特纳
H(H)
,等人
通过系统性能测试证明改进了微阵列数据的双聚类
计算。统计数据分析。
2003
,卷。 
48
(第
235
-
254
)
范登巴尔克
T型
基于基因表达测量和生物先验信息的稳健调控网络推理算法
博士论文
2009
鲁汶卡索利克大学
 
利亚斯号码:236073
范特维尔
LJ公司
,等人
基因表达谱预测乳腺癌的临床预后
自然
2002
,卷。 
415
(第
530
-
536
)
H(H)
,等人
基于模式相似性的大数据集聚类
2002年ACM SIGMOD国际数据管理会议记录
2002
(第
394
-
405
)
J型
,等人
一种改进的基因表达谱双聚类分析方法
国际艺术杂志。智力。T。
2005
,卷。 
14
(第
771
-
790
)

作者注释

副主编:Olga Troyanskaya

这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/2.5)它允许在任何媒体上无限制地进行非商业性使用、分发和复制,前提是正确引用了原始作品。

补充数据