DeBi: Discovering Differentially Expressed Biclusters using a Frequent Itemset Approach

Serin, Akdes; Vingron, Martin

doi:10.1186/1748-7188-6-18

研究
开放式访问
出版：2011年6月23日

DeBi：使用频繁项目集方法发现差异表达的双聚类

分子生物学算法 体积 6，物品编号：18(2011)引用本文

8054访问
46引文
1海拔高度
韵律学细节

摘要

背景

通过聚类算法分析海量高通量数据对于阐明生物系统中的基因功能非常重要。然而，传统的聚类方法有几个缺点。双聚类通过同时对基因和样本进行分组来克服这些限制。它发现了某些样本中共同表达的基因子集。最近的研究表明，双聚类在检测与某些组织或疾病相关的标记基因方面具有很大的潜力。已经提出了几种双聚类算法。然而，基于生物验证措施，寻找重要的双聚类仍然是一个挑战。此外，还需要一种能够在合理的时间内分析超大数据集的双聚类算法。

结果

这里我们提出了一种快速的双聚类算法DeBi（Differentially Expressed BIclusters）。该算法基于一种众所周知的数据挖掘方法，称为频繁项集。它发现了最大尺寸的均匀双聚类，其中每个基因与样本子集紧密相关。我们评估了DeBi在酵母数据集、合成数据集和人类数据集上的性能。

结论

我们证明，与使用生物验证措施（如基因本体术语和转录因子结合位点富集）的标准聚类或双聚类算法相比，DeBi算法提供了功能上更连贯的基因集。我们表明，DeBi在分析大型数据集时是一种计算效率高且功能强大的工具。该方法也适用于来自不同实验室或平台的多个基因表达数据集。

背景

近年来，各种高通量技术如cDNA微阵列、寡核苷酸微阵列和基于序列的转录组分析方法（RNA-Seq）已经开发出来。从高通量数据中检测功能相关基因集的最常见方法是聚类[1]. 传统的聚类方法，如层次聚类[2]和k-means[三]，有几个限制。首先，它们基于这样一个假设，即一组基因在所有样本中的行为都类似。然而，细胞过程可能只在特定条件下影响基因子集。其次，聚类将每个基因或样本分配到单个聚类。然而，有些基因可能在任何样本中都不活跃，有些基因也可能参与多种过程。

双聚类是一种用于检测数据中局部模式的双向聚类方法。它发现了在样本子集中表现相似的基因子集。双聚类最初由Hartigan引入[4]. 然而，它最初是由Cheng和Church应用的[5]基因表达数据。Cheng和Church试图识别低平均残留分数的子矩阵，这表明表达谱的均匀波动。由于该算法一次发现一个双聚类，因此需要在修改后的矩阵上重复应用该方法来发现多个双聚类。这有一个缺点，即导致基因集高度重叠。Ben-Dor等人[6]检测到一组基因，其表达水平与实验结果具有相同的线性顺序。这种方法的缺点是它对样本执行严格的顺序。Bergmann等人[7]确定了由一组共同调控基因组成的双簇以及诱导它们共同调控的条件。穆拉里和卡西夫[8]发现在样本子集中同时表达相似的基因子集。该算法使用关于样本表型的先验知识。Tanay等人[9]将双聚类定义为在二部图中寻找双解的问题。由于其高度复杂性，双集群可能具有的行数受到了限制。Prelic等人[10]使用快速分治方法定义了二进制包含最大双聚类（BIMAX）。然而，分而治之有一个缺点，即早期分裂可能会丢失良好的双星簇。Li等人[11]开发了一种算法，用于从包含数万个基因和数千个条件的数据集中发现具有统计意义的双聚类。马德拉和奥利维拉就不同的双聚类方法写了一篇详细的综述[12]。

在这里，我们提出了一种新的快速双聚类算法DeBi，该算法利用差异基因表达分析。在DeBi中，双集群具有以下两个主要属性。首先，双聚类是一个最大的同质基因集，其中双聚类中的每个基因应该在所有双聚类样本中高或低表达。其次，双聚类中的每个基因在双聚类和非双聚类样本之间的表达显示出统计差异。与标准聚类或双聚类算法相比，差异表达的双聚类导致功能上更连贯的基因集。

DeBi算法有几个优点。首先，该算法能够在合理的时间内发现具有22283个基因和6100个样本的人类连通性地图数据等超大数据集上的双聚类。其次，不需要预先定义双聚类的数量[5，7，10]。

我们在酵母数据集上评估了DeBi的性能[13]，在合成数据集上[10]，在连接图数据集上，该数据集是用多种药物治疗过的人类细胞基因表达谱的参考集合[14]expO（肿瘤表达项目）发布的2158例人类肿瘤样本的基因表达谱，基于弥漫性大B细胞淋巴瘤（DLBCL）数据集[15]以及来自分子特征数据库（MSigDB）C2类别的基因集。我们表明，DeBi与现有的双聚类方法，如BIMAX、SAMBA、Cheng和Church算法（CC）、保序子矩阵算法（OPSM）、迭代签名算法（ISA）和定性双聚类（QUBIC）进行了比较[5–7，9，10]。

结果

我们已经在六个数据集上评估了我们的算法（a）Prelic的基准合成数据集，其中包含植入的双聚类[10]（b）300种不同的酿酒酵母实验扰动[13]（c）弥漫性大B细胞淋巴瘤（DLBCL）数据集[15]（d）用多种药物治疗过的人类细胞基因表达谱的参考收集[14]（e）expO（肿瘤表达项目）发布的2158例人类肿瘤样本的基因表达谱（f）来自分子特征数据库（MSigDB）C2类别的基因集。对合成数据进行了研究，以显示我们的算法在恢复植入的双簇中的性能。此外，可以使用合成数据研究双聚类和噪声之间的重叠对算法性能的影响。研究酵母和人类基因表达数据集，从几个方面评估双簇的生物学相关性。我们使用fold-change 2对数据集进行二值化。所有算法生成的双聚类集都会被过滤，以便其余的最大重叠为0.5。（除非另有规定）

首先，对于每个双聚类，我们使用超几何检验计算了统计上显著丰富的基因本体（GO）术语。我们确定了不同显著性水平的GO项富集双簇的比例。其次，利用来自不同来源的转录因子结合位点数据，通过超几何检验计算转录因子结合部位（TFBS）富集[16–18]具有不同程度的重要性。GO术语和TFBS富集分析是使用Genomica进行的http://genie.weizmann.ac.il.

我们将我们的算法与BIMAX、SAMBA、Cheng and Churchs算法（CC）、保序子矩阵算法（OPSM）、迭代签名算法（ISA）和定性双聚类（QUBIC）进行了比较[5–7，9，10]. 我们使用QUBIC软件进行QUBIC，使用BicAT软件进行OPSM，使用ISA，使用BIMAX，使用Expander软件进行SAMBA，每个算法都有默认设置[10，19，20]。

Prelic的合成数据

我们将我们的算法应用于合成基因表达数据集。在人工数据集中，基于两种场景创建了双聚类（可在http://www.tik.ee.ethz.ch/sop/bimax网站在第一种情况下，产生了噪声级增加的非重叠双簇。在第二种情况下，会产生重叠增加但没有噪声的双簇。在这两种场景中，具有恒定表达式值的双簇和遵循加法模型的双簇，其中表达式值随条件变化而变化。

为了评估不同双聚类算法的性能，我们使用了Prelic等人的两个度量[10]和Hochreiter等人[21]分别是。Prelic等人引入的度量基于计算出的双簇和植入的双簇之间的Jaccard指数计算相似性。双聚类恢复分数衡量预测的双聚类的准确性，但它不考虑两组中的双聚类数。Hochreiter等人通过计算所有双聚类对之间的相似度，然后将一组双聚类分配给另一组的双聚类，从而引入了一致性得分。它通过将相似度之和除以最大集合中的双聚类数来惩罚不同数量的双聚类。有关措施的更详细描述，请参阅附加文件1.

在图中1和2基于Prelic等人的恢复分数和Hochreiter等人的一致性分数，总结了BIMAX、ISA、SAMBA、DeBi、OPSM和QUBIC算法在合成数据上的性能。这些算法生成的双聚类集将被过滤，以使其余的最大重叠为0.25。在Prelic等人的论文中，在过滤过程之后，选择了最大的10个双聚类。由于双簇数不是先验已知的，我们已经考虑了所有过滤的双簇。我们没有对xMotif和CC算法进行评估，因为它们在所有场景中都表现不佳，大多低于50%的恢复精度[10]. CC和xMotif算法产生包含未表达基因的大型双聚类。ISA和QUBIC在所有情况下都给出了较高的Prelic等人恢复分数和Hochreiter等人共识分数。与Prelic等人的恢复得分相比，SAMBA的Hochreiter等人的共识得分更低。原因是，Hochreiter等人的一致性评分同时考虑了基因和条件维度，而SAMBA在条件维度中恢复双聚类并不十分准确。根据Prelic等人和Hochreiter等人的分数，在没有噪声且重叠程度增加的情况下，BIMAX具有较高的性能。然而，BIMAX估计随着噪声水平的增加，会出现大量的双集群。算法给出的估计双聚类数与所有场景下的真实双聚类数的比较可以在附加文件中的图S1中找到1在没有与不断增加的噪声级重叠的情况下，DeBi能够在加性和常数模型中识别99%的植入双团簇。高度重叠会降低DeBi的性能，因为它将双簇的重叠部分视为一个单独的双簇。DeBi双聚类结果可以在附加文件中找到2.

酵母纲要

我们进一步将我们的算法应用于从300种不同的实验扰动中获得的基因表达谱概要酿酒酵母[13]. 我们在含有2025个基因和192种条件的酵母数据集中发现了192个双聚类。作为二值化水平，我们使用了原始论文中建议的1.58的倍数变化[13]。

图三（a）说明了六种选定的双聚类方法（ISA、OPSM、BIMAX、QUBIC、SAMBA和DeBi）在不同显著性水平上GO项和TFBS富集双聚类的比例。基于生物验证措施，DeBi表现第二好。BIMAX发现了更高比例的GO项和TFBS富集的双簇。所有双团簇，富集分析可在附加文件中找到三.

在分析的酵母数据中，条件被敲除了基因。由于双聚类发现了基因子集和条件子集，我们也可以检查聚类条件的生物学意义。与之前的分析类似，我们测量了每个发现的双星团中GO项的条件富集。DeBi是发现高比例GO项富集双团簇的第二好方法。

在发现的双聚类中，富集的基因功能与富集的样本功能有关。双簇83，基因在“共轭”GO术语中丰富，条件在“生物质量调节”中丰富。此外，STE12的TFBS富集，已知其参与细胞周期。双簇50由富含“核糖体生物生成和组装”GO术语的基因和样品组成。双簇22由富含“脂质代谢过程”GO术语的基因和样本组成，此外，基因还富含HAP1的TFBS。双簇9由下调基因和富含“细胞分裂”GO术语的样本组成，另外基因富含STE12的TFBS。

DLBCL数据

我们还在“弥漫性大B细胞淋巴瘤”（DLBCL）数据集上评估了DeBi算法。DLBCL数据集由661个基因和180个样本组成。我们应用了ISA、OPSM、QUBIC、SAMBA和DeBi算法。

图三（b）说明了五种双聚类方法在不同显著性水平上GO项和TFBS富集双聚类的比例。DeBi发现GO项和TFBS富集的双簇所占比例最高。上调双星簇16和下调双星簇4包含由[22]. 双簇16富含“核糖体”和“细胞周期”GO术语，而双簇4富含“细胞循环”和“死亡”GO词汇。这两个选定的双簇的蛋白质相互作用网络可以在图S2和S3的附加文件中找到1使用STRING生成蛋白质相互作用网络[23]. 所有双团簇和富集分析都可以在附加文件中找到4.

人类CMap数据

我们还评估了Connectivity Map v0.2（CMap）上的DeBi算法[14]. CMap是一个来自人类细胞的基因表达谱的参考集合，这些细胞已被多种药物治疗，包括6100个样本和22283个基因。图三（c）总结了DeBi和QUBIC的结果。与QUBIC相比，DeBi中GO项和TFBS富集的双团簇的比例要高得多。

DeBi发现的双聚集物可用于寻找具有共同作用机制的药物和确定新的治疗方法。此外，我们可以观察药物对不同细胞系的作用。图4显示了一些已识别的双星团的平行坐标图。在平行坐标图中，包含在双簇中的条件轮廓显示为黑色，其他条件显示为灰色。这有助于可视化双簇中条件与其余条件之间的表达式差异。双簇6含有上调的“热休克蛋白结合”基因和“热休克蛋白质抑制剂”，如格尔德霉素、阿尔维斯霉素、丹皮霉素、单醛。热休克蛋白（Hsps）在多种人类癌症中过度表达，并参与肿瘤细胞增殖[24]. 此外，双簇中的基因富含“P53结合位点”，已知其靶向热休克蛋白结合基因。双星簇11含有富含“镉离子结合”GO项和钙结合蛋白抑制剂卡米达唑的上调基因。双簇15含有富含“转录辅抑制活性”GO项的上调基因。这个双簇中的细胞系都是乳腺癌。双簇14含有富含“类固醇激素信号”GO项的下调基因。此外，所选双簇的蛋白质相互作用网络显著相连，它们可以在附加文件中的图S4、S5、S6和S7中找到1。所有双聚类和富集分析可在附加文件中找到5.

人类ExpO数据

我们将DeBi算法和QUBIC应用于肿瘤表达项目（expO）数据集网址：http://www.intgen.org/ExpO包含来自不同组织的2158个人类肿瘤样本的基因表达谱，其中40223个转录本。

图三（d）结果表明，与QUBIC相比，DeBi中GO项和TFBS富集双团簇的比例要高得多。这说明DeBi在ExpO数据中的性能优于QUBIC。70%的DeBi双簇富含GO项，p值小于0.05。此外，双簇包含大多数来自相似组织类型的肿瘤样本。附加文件中的图S81显示了一些双团簇的GO项富集。Bicluster 13包含甲状腺肿瘤样本和富含“蛋白-激素受体活性”的基因。双簇3包含前列腺肿瘤样本和富含“组织激肽释放酶活性”的基因。Bicluster 22主要包含胰腺和结肠样本以及富含“胰腺弹性蛋白酶活性”GO-Term的基因。所有双团簇和富集分析都可以在附加文件中找到6.

MSigDB数据

最后，我们将我们的算法应用于来自分子签名数据库（MSigDB）C2类别的手动筛选基因集。MSigDB的C2类由3272个基因集组成，其中2392个基因集是化学和遗传插管，880个基因集来自各种途径数据库。基因集自然地定义了一个二元矩阵，其中一个表示受影响的基因处于特定的插管/途径下。二元矩阵包含18205个基因和3272个样本。该分析有助于我们确定受化学和遗传扰动影响的途径。在这个数据集上运行QUBIC是不可能的，而QUBIC需要基因之间有一定的重叠。

图5，说明了使用BiVoc算法的所有双簇[25]. BiVoc算法重新排列行和条件，以便用最小空间表示双簇。BiVoc的输出矩阵可能具有来自原始矩阵的重复行和/或列5，每个双簇的函数是基于GO项富集指定的。双簇3包含阿尔茨海默病患者的下调基因集和蛋白酶体途径的基因集。众所周知，阿尔茨海默病患者的蛋白酶体活性显著下降[26]. 双簇3还包含胰腺癌患者的上调基因集。在以前的研究中，在胰腺癌细胞系中检测到泛素蛋白酶体途径的高活性[27]. 双簇8包含来自肝癌患者的上调基因集和来自G蛋白激活途径的基因集。G蛋白偶联受体信号通路的功能障碍与某些形式的癌症有关。所有双团簇和富集分析都可以在附加文件中找到7.

运行时间

DeBi算法能够在6分钟内分析酵母数据（大小6100×300），12分钟内分析ExpO数据（大小40223×2158），11分钟内分析MSigDB数据（大小18205×3272），11秒内分析DLBCL数据（大小610×180），3小时45分钟内分析CMap数据（大小22283×6100）。QUBIC算法在2小时55分钟内分析CMap数据，在3小时54分钟内分析ExpO数据。运行时间分析是在具有2GB内存的2.13 GHz Intel 2双核计算机上完成的。

方法

给定表达式矩阵E类带有基因G公司={克₁，克₂，克_三,...,克_n个}和样品S公司={秒₁，秒₂，秒_三,...,秒_米}双星簇定义为b条= (G’，S’)其中G’ ⊂ G公司是基因的子集S’ ⊂ S公司是样本的子集。DeBi识别功能相干双团簇B={b条₁，b条₂，b条_三,...,b条_我}分为三个步骤。下面我们详细描述每个步骤。DeBi算法概述如图所示6DeBi算法基于一种众所周知的数据挖掘方法，称为最大频繁项集[28]. 我们将其称为最大频繁基因集，如我们的问题定义所示。算法的伪代码在附加文件中1.

前期工作

输入的基因表达数据根据上调或下调进行二值化。让E类^u个和E类^d日分别表示上下调节二进制矩阵。然后是条目属于E类^u个定义如下：

(1)

和条目属于E类^d日与c折下调截止线类似定义。折变截止线c（c）通常设置为2。

用最大频繁基因集算法寻找种子双聚类

DeBi算法通过迭代应用最大频繁基因集算法来识别种子基因集。我们首先定义术语支持，我们稍后将在算法中使用。这个支持基因的克_我，我=1,...,n个，定义如下：

(2)

换句话说支持是基因向量的样本比例e（电子）_我.为1。这进一步扩展到基因集。让成为v（v）^第基因集。对于一组基因向量，我们定义了它们的表型载体C_v（v）作为它们的元素逻辑AND：

(3)

这个支持然后将基因集的部分定义为表型载体为1的样品的部分。

基因集是(c（c）₁，c（c）₂) -频繁的iff支持支持大于c（c）₁和基数在上面c（c）₂.何时c（c）₁和c（c）₂我们将简单地说一个频繁的基因集。基因集是最频繁的如果它是频繁的，并且它没有超集是频繁的。

检测最大频率基因集的最简单方法是蛮力方法，其中每个可能的子集G公司={克₁，克₂，克_三,...,克_n个}是一个候选频繁集。为了找到频繁集，我们计算每个候选集的支持度。MAFIA算法是一种高效的实现，用于查找支持高于给定阈值的最大频繁集[28]. MAFIA的搜索策略利用有效的剪枝技术对基因集格进行深度优先遍历。它通过单调性原则避免了对所有候选基因集的穷举。单调性原理表明频繁项集的每个子集都是频繁的。它使用此属性修剪具有罕见子模式的候选。

在DeBi算法的第一步中，将MAFIA迭代应用于二进制矩阵，依次降低支持阈值。最初，MAFIA应用于完整的二进制矩阵E类^u个(E类^d日)具有支持值(c（c）₁)₀等于支持度最高的基因的支持值。迭代中k个，MAFIA的支持值阈值为将识别出的最大频繁集添加到种子基因集中B以及B从二进制矩阵中删除E类^u个(E类^d日). 在每次迭代中，MAFIA应用于修改后的矩阵重复该过程，直到用户定义最小支撑已达到参数。

扩展和过滤双簇

在DeBi的第二步中，确定的种子基因集使用本地搜索进行扩展。对于每个双集群，v（v）=1，。。。，我，我们有二元表型载体C类_v（v）=∧(e（电子）₁,...,e（电子）_k个) = (C类_v（v）1,...,C类_虚拟机). 的条目C类_v（v）指示双团簇样品的指数。如果，j个= 1,...,米即样品秒_j个属于双星团b_v（v）.基因克_我，我=1,...,n个，是基因集的一个元素如果e（电子）_我.与关联C类_v（v）我们在2×2列联表上使用Fisher精确检验评估了一个双簇的表型载体与另一个基因之间的关联强度。列联表中的单元格计算包含1或0的表型向量和包含1或1的基因向量的四种可能性发生的频率。然后，Fisher精确检验检验列联表中以及两个向量之间的独立性。

A基因克_我，我=1,...,n个添加到基因集如果pvalueFisher精确测试返回的值低于参数α。它从中删除b条_v（v）如果概率高于α并添加到b条_v（v）如果概率小于α对于此过程，关联概率需要计算每个基因的双聚类。然而，我们利用超几何分布的单调性减少了计算量。我们预先计算列联表条目的截止值，这些条目产生的p值略高于α.让σ_1，英寸和σ_1，输出分别表示基因向量在双簇样本中的1个数和基因向量在两簇样本外的1个数。我们发现最小值σ_1，英寸和最大σ_1，输出在这个边界。然后，我们只对那些具有σ_1，英寸>最小σ_1，英寸和σ_{1，OUT（输出）}<最大σ_{1，OUT（输出）}.

在最后一步中，我们转向双星团之间有时非常复杂的重叠结构。目标是过滤这组双簇，使剩余的双簇很大，只重叠很少。双聚类的大小被定义为基因的数量乘以双聚类中样本的数量，当两个双聚类共享共同的样本和基因时，它们会重叠。重叠的大小是常见样本数和常见基因数的乘积。为了筛选出大部分包含在较大的双簇中的双簇，我们从最大的双簇开始，并将其与其他双簇进行比较。那些与最大的重叠超过较小的大小的L%（通常为50%）的双簇将被删除。然后从剩下的第二大双星簇开始重复此操作，依此类推。

选择最佳alpha参数

为以下各项制定最佳标准α一个需要对一组双聚类的质量进行内在度量。为此，对于双星团v（v），我们定义其分数我_v（v）作为包含基因的对数p值的负和，其中个体对_克是Fisher精确测试的p值：

(4)

然而，这个双聚类得分我_v（v）取决于双聚类的大小（基因数×条件数），为了使其在双聚类之间具有可比性，需要校正其大小。我们通过随机程序计算预期的双聚类得分。生成了大量随机表型向量，例如500个，与双簇具有相同数量的1s。对于这些随机表型载体，计算关于双聚类中每个基因的Fisher精确测试p值。一个人随机获得我_v（v）通过在双簇基因上添加对数p值来得分。这些随机双聚类得分的平均值是期望的估计值。最后，归一化镍_v（v）分数通过除法确定我_v（v）通过这个估计平均值和总的双聚类得分加拿大定义为镍_v（v）所有发现的双聚类的归一化得分。此分数用于区分不同的选择α。程序运行于α=｛10^-2, 10^-3,..., 10^-100}我们选择α使CS最大化。

讨论

我们提出了一种新的快速双聚类算法，特别是用于分析大型数据集。我们的算法旨在找到双聚类，与其他样本相比，双聚类中的每个基因应该在所有双聚类样本中高或低表达。与其他算法不同，它不需要预先定义双聚类的数量。我们将我们的方法与使用合成数据和生物数据的其他双聚类算法进行了比较。我们已经证明，DeBi算法使用GO项和TFBS富集提供了具有生物学意义的双聚类。我们还展示了我们算法的计算效率。结果表明，在分析大型数据集时，它是一个有用且强大的工具。

尽管许多作者做出了努力，但比较双聚类算法的性能仍然是一个挑战[29]. 较小的双簇更有可能生成连贯的GO注释，而较大的双簇当然更容易观察。我们的α阈值会影响此行为。对于较大数量的样本，优化的α阈值较小，这限制了被接受进入双聚类的基因数量。

为了获得布尔矩阵，对输入数据进行二值化是我们方法中的另一个关键决策。在这方面，我们与许多其他作者一起，认为它有助于将双聚类应用于来自不同实验室或平台的基因表达数据。希望我们的方法将进一步有助于建立双聚类作为功能基因组学数据分析的通用工具。

实施

DeBi代码是用UNIX环境的c++编程语言编写的。MAFIA算法c++代码用于计算最大频繁项目集。DeBi算法可在以下网站免费获得：网址：http://www.molgen.mpg.de/~serin/debi/main.html.

参考文献

Andreopoulos B，An A，Wang X，Schroeder M：集群算法路线图：寻找生物医学应用的匹配。生物信息学简介。2008, 10 (3): 297-314. 10.1093/bib/bbn058
第条谷歌学者
Sokal RR，Michener CD：评估系统关系的统计方法。堪萨斯大学科学通报。1958, 28: 1409-1438.
谷歌学者
Hartigan JA，Wong MA：算法AS 136：k均值聚类算法。应用统计学。1979, 28: 100-108. 10.2307/2346830
第条谷歌学者
Hartigan JA:数据矩阵的直接聚类。美国统计协会杂志。1972年，67（337）：123-129。10.2307/2284710
第条谷歌学者
Cheng Y，Church GM：表达数据的双聚类。Proc Int Conf智能系统分子生物学。2000, 8: 93-103.
公共医学中国科学院谷歌学者
Ben-Dor A，Chor B，Karp R，Yakhini Z：发现基因表达数据中的局部结构：序提供子矩阵问题。计算机生物学杂志。2003, 10 (3-4): 373-384. 10.1089/10665270360688075
第条公共医学中国科学院谷歌学者
Bergmann S，Ihmels J，Barkai N：用于大规模基因表达数据分析的迭代签名算法。Phys Rev E Stat非线性软物质物理。2003年，67（第3部分第1部分）：031902-
第条公共医学谷歌学者
Murali TM，Kasif S：从基因表达数据中提取保守的基因表达基序。太平洋交响乐生物计算机。2003, 77-88.
谷歌学者
Tanay A，Sharan R，Shamir R：在基因表达数据中发现具有统计意义的双聚类。生物信息学。2002年，18（补充1）：S136-S144。10.1093/生物信息学/18.suppl_1.S136
第条公共医学谷歌学者
Prelic A、Bleuler S、Zimmermann P、Wille A、Buehlmann P，Gruissem W、Hennig L、Thiele L、Zitzler E：基因表达数据双聚类方法的系统比较和评估。生物信息学。2006, 22 (9): 1122-1129. 10.1093/生物信息学/btl060
第条公共医学中国科学院谷歌学者
Li G，Ma Q，Tang H，Paterson AH，Xu Y:QUBIC：用于基因表达数据分析的定性双聚类算法。核酸研究2009，37（15）：e101-http://nar.oxfordjournals.org/cgi/content/abstract/37/15/e10110.1093/nar/gkp491
第条公共医学公共医学中心谷歌学者
Madeira SC，Oliveira AL:生物数据分析的双聚类算法：一项调查。IEEE/ACM Trans-Comput生物信息。2004, 1: 24-45. 10.1109/TCBB.2004.2
第条公共医学中国科学院谷歌学者
Hughes TR、Marton MJ、Jones AR、Roberts CJ、Stoughton R、Armour CD、Bennett HA、Coffey E、Dai H、He YD、Kidd MJ、King AM、Meyer MR、Slade D、Lum PY、Stepaniants SB、Shoemaker DD、Gachotte D、Chakraburtty K、Simon J、Bard M、Friend SH：通过表达谱概要进行功能发现。细胞。2000, 102: 109-126. 10.1016/S0092-8674（00）00015-5
第条公共医学中国科学院谷歌学者
兰姆J：连通图：生物医学研究的新工具。《自然》杂志评论《癌症》。2007, 7: 54-60. 10.1038/编号2044
第条公共医学中国科学院谷歌学者
Rosenwald A、Wright G、Chan WC、Connors JM、Campo E、Fisher RI、Gascoyne RD、Muller-Hermelink HK、Smeland EB、Giltnane JM、Hurt EM、Zhao H、Averett L、Yang L、Wilson WH、Jaffe ES、Simon R、Klausner RD、Powell J、Duffey PL、Longo DL、Greiner TC、Weisenburger DD、Sanger WG、Dave BJ、Lynch JC、Vose J、Armitage JO、Montserrat E、，Lopez-Guillermo A：分子分析预测弥漫性大B细胞淋巴瘤化疗后生存率的应用。《新英格兰医学杂志》。2002年，346（25）：1937-1947年。http://www.nejm.org/doi/full/10.1056/NEJMoa01291410.1056/NEJMoa012914
第条公共医学谷歌学者
Basehoar AD、Zanton SJ、Pugh BF:酵母TATA盒基因的鉴定和独特调控。细胞。2004, 116 (5): 699-709.http://www.cell.com/retrieve/pii/S009286740400400205310.1016/S0092-8674（04）00205-3
第条公共医学中国科学院谷歌学者
MacIsaac KD、Wang T、Gordon DB、Gifford DK、Stormo GD、Fraenkel E：酿酒酵母保守调控位点的改良地图。BMC生物信息学。2006, 7: 113-http://www.biomedcentral.com/1471-2105/7/1310.1186/1471-2105-7-113年
第条公共医学公共医学中心谷歌学者
Harbison CT、Gordon DB、Lee TI、Rinaldi NJ、MacIsaac KD、Danford TW、Hannett NM、Tagne JB、Reynolds DB、Yoo J、Jennings EG、Zeitlinger J、Pokholok DK、Kellis M、Rolfe PA、Takusagawa KT、Lander ES、Gifford DK，Fraenkel E、Young RA：真核基因组的转录调控代码。自然。2004，431（7004）：99-104.full/nature02800.htmlhttp://www.nature.com/nature/journal/v431/n7004/full/nature02800.html10.1038/自然02800
第条公共医学中国科学院公共医学中心谷歌学者
Barkow S、Bleuler S、Prelic A、Zimmermann P、Zitzler E:BicAT：双聚类分析工具箱。生物信息学。2006, 22 (10): 1282-1283. 10.1093/生物信息学/btl099
第条公共医学中国科学院谷歌学者
Shamir R、Maron-Katz A、Tanay A、Linhart C、Steinfeld I、Sharan R、Shiloh Y、Elkon R:EXPANDER——微阵列数据分析的集成程序套件。BMC生物信息学。2005, 6: 232- 10.1186/1471-2105-6-232
第条公共医学公共医学中心谷歌学者
Hochreiter S、Bodenhofer U、Heusel M、Mayr A、Mitterecker A、Kasim A、Khamiakova T、Sanden SV、Lin D、Talloen W、Bijnens L、Göhlmann HWH、Shkedy Z、Clevert DA：FABIA：双集群收购的因子分析。生物信息学。2010, 26 (12): 1520-7.http://bioinformatics.oxfordjournals.org/content/26/12/1520.long10.1093/生物信息学/btq227
第条公共医学中国科学院公共医学中心谷歌学者
Hoshida Y、Brunet JP、Tamayo P、Golub TR、Mesirov JP：子类映射：识别独立疾病数据集中的常见亚型。《公共科学图书馆·综合》。2007年，2（11）：e1195http://dx.plos.org/10.1371%2Fjournal.pone.000119510.1371/journal.pone.0001195
第条公共医学公共医学中心谷歌学者
Jensen LJ、Kuhn M、Stark M、Chaffron S、Creevey C、Muller J、Doerks T、Julien P、Roth A、Simonovic M、Bork P、von Mering C：STRING 8-630生物体内蛋白质及其功能相互作用的全球观点。《核酸研究》，2009年，D412-6。37数据库
谷歌学者
Ciocca DR，Calderwood SK：癌症中的热休克蛋白：诊断、预后、预测和治疗意义。细胞应激伴侣。2005, 10 (2): 86-103. 10.1379/CSC-99第1条
第条公共医学中国科学院公共医学中心谷歌学者
Grothaus GA、Mufti A、Murali TM：双星簇的自动布局和可视化。分子生物学算法：AMB。2006, 1: 15- 10.1186/1748-7188-1-15
第条公共医学公共医学中心谷歌学者
Keller JN，Hanni KB，Markesbery WR：阿尔茨海默病中蛋白酶体功能受损。神经化学杂志。2000, 75: 436-9.http://onlinelibrary.wiley.com/doi/10.1046/j.1471-4159.2000.0750436.x/abstract
第条公共医学中国科学院谷歌学者
倪XG，周磊，王国强，刘SM，白XF，刘F，Peppelenbosch MP，赵P：泛素蛋白酶体途径介导胰腺癌中的凝胶蛋白下调。《分子医学》2008，14（9-10）：582--9。
第条公共医学中国科学院公共医学中心谷歌学者
Burdick D，Calimlim M，Gehrke J:MAFIA:事务数据库的最大频繁项集算法。数据工程，2001年国际会议，0:0443-
第条谷歌学者
Chia BKH，Karuturi RKM：差异共表达框架，用于量化双聚类的优度并比较双聚类算法。分子生物学算法：AMB。2010年5月23日-10.1186/1748-718年5月23日
第条公共医学公共医学中心谷歌学者