跳到内容
公开可用 发布人:德古意特出版社 2015年10月13日

注释基因表达数据基于模型聚类的模型选择准则

  • 梅利娜·加洛平 电子邮件徽标 , 吉尔斯·塞勒克斯 , 弗洛伦斯·贾夫雷齐克 安德烈亚·劳

摘要

在基因表达数据的共表达分析中,根据一组外部信息解释共表达基因簇通常很有意义,例如可能对基因子集进行注释的功能属性的潜在不完整列表。基于有限混合模型的框架,我们提出了一种考虑这种外部基因注释的模型选择标准,为选择相关数量的聚类和聚类模型提供了一种有效的工具。该标准称为综合完整注释似然(ICAL),通过在惩罚似然中添加熵项来衡量聚类分区与外部注释信息之间的一致性。ICAL导致选择一个相对于已知功能基因注释更容易解释的模型。我们结合模拟基因表达数据和实际RNA-seq数据上的高斯混合模型说明了该模型选择标准的重要性。

1引言

基因组注释泛指与基因组中编码区域相关的一组元数据,通常包括识别每个基因的位置以及确定与基因产物(例如蛋白质或RNA)相关的功能。特别是,基因注释对应于与基因产物相关的已知功能,包括分子功能、生物路径或基因产物的细胞位置。利用从跨物种的书目来源收集的已知功能注释构建了各种著名的统一数据库,包括基因本体(GO)(Ashburner等人,2000)、京都基因和基因组百科全书(KEGG)(Kanehisa和Goto,2000)或MSigDB(分子签名)数据库(Liberzon等人,2011年)。尽管这样的数据库包含了大量物种基因组功能信息的丰富来源(例如。拟南芥(如人类、老鼠、老鼠、苍蝇),我们对功能注释的了解往往还远远不够完整(Tipney和Hunter,2010)。

近年来,高通量技术的实质性改进,例如微阵列(Schena等人,1995年)和最近的RNA测序(RNA-seq)(Mortazavi等人,2008年),使得可以同时测量数万个基因的表达水平。关于此类基因表达数据的适当统计分析,包括差异表达分析,目前已有大量工作可供使用(Smyth,2004;Anders和Huber,2010)以及联合表达分析,以确定在多个实验条件下或在一段时间内具有相似特征的基因组(Yeung等人,2001;Rau等人,2015)。后者对这项工作特别感兴趣,因为识别共享相同动态表达模式的基因可能有助于识别参与类似生物过程的基因组,并生成关于特征不佳基因的功能特性的假设(Eisen等人,1998年;Jiang等人,2004年)。对基因表达数据的不同聚类方法的回顾和比较可以在Datta(2003)中找到。

实际上,注释数据库通常用于执行后部通过功能富集试验验证和解释共表达基因簇(Steuer等人,2006年)。这样的功能注释可以直接集成到集群模型本身中。例如,Tari等人(2009)将GO注释作为先验知识纳入模糊c-均值聚类。Verbanck等人(2013)提出了一种基于表达谱和功能谱之间相似性共同定义的距离的聚类方法。Pan(2006)和Huang等人(2006)提出将基因注释作为分层混合模型中的先验信息。然而,以这种方式将基因注释直接包含在模型中可能是有问题的,特别是当它们也用于验证基因簇时后部此外,由于基因注释往往不完整,如果将其直接纳入模型中,可能会引入偏差,因为未注释的基因(表示已知与给定功能无关的基因以及未知功能的基因)可能会错误地与注释的基因分离。

这种方法的一种替代方法是定义一个聚类模型,该模型考虑外部基因注释,而不直接将其包含在模型本身中。为此,基于模型的聚类提供了一个方便的框架,因为它1)允许一大组聚类模型仅适用于基因表达,2)有助于在这组模型中进行选择,这是一个节约的模型,同时可以很好地拟合数据并与外部基因注释保持一致。在这项工作中,我们通过提出一个解释外部基因注释的模型选择标准来解决这些问题。

本文的其余部分组织如下。在第2节中,我们介绍了基于模型的聚类的背景,并回顾了经典模型选择标准。我们提出的带注释的模型选择标准在第3节中给出,并且在第4节中使用高斯混合模型的模拟数据上给出了其行为的数值说明。最后,我们在第5节中说明了实际RNA-seq数据的共表达分析,并进行了讨论。

2基于模型的聚类和模型选择

成为(n个×q个)观察到的基因表达矩阵,其中n个是基因数量和q个生物样本的数量。向量表示基因的表达(=1, …,n个)穿过q个样品。在基于模型的集群环境中,数据假设从有限混合物密度中取样K(K)随机变量,每个变量具有参数化密度ϕ(;k个),k个=1, …,K(K),其中混合物参数(1, …,K(K))都假定是不同的。密度因此可以写成

(1)(f)(;K(K),θK(K))==1n个k个=1K(K)第页k个ϕ(;k个),(1)

哪里θK(K)=(第页1, …,第页K(K)-1,1, …,K(K))是混合物模型的参数,以及(第页1, …,第页K(K))混合比例是第页k个全部∈(0,1)k个,k个=1K(K)第页k个=1

对于参数估计,方程(1)中的混合模型可被视为不完整数据结构模型,其中z是(n个×K(K))未知混合物标签矩阵,其中z伊克=1如果基因来自组k个否则为0。注意,这个矩阵定义了基因的划分。

使用混合物标签z,完成密度可写成如下:

(2)(f)(,z;K(K),θK(K))==1n个k个=1K(K)(第页k个ϕ(;k个))zk个.(2)

最大似然估计θ^K(K)通过替换未知标签,通过期望最大化算法(Dempster等人,1977)计算混合物参数z式(2)中z^,定义为:

z^k个={1(f)第页x个τ(θ^K(K))=k个0o个小时e(电子)第页w个e(电子),

哪里τ(θ^K(K))表示给定的条件概率th混合物成分θ^K(K):

τ(θ^K(K))=第页^ϕ(;^)=1K(K)第页^ϕ(;^).

在基于模型的集群环境中,一个重要的任务是选择合适的模型,最显著的是集群的相关数量K(K)为此,一个标准的模型选择标准是贝叶斯信息标准(BIC)(Schwarz,1978):

银行识别码(K(K))=o个(f)(;K(K)^,θ^K(K))νK(K)2o个(n个),

哪里θ^K(K)是混合参数的最大似然估计量v(v)K(K)模型中自由参数的数量K(K)组件。该标准是积分似然对数的渐近近似值:

(f)(;K(K))=θK(K)(f)(;K(K),θK(K))π(θK(K))d日θK(K),

哪里π(θK(K))是上的弱信息先验分布θK(K).

BIC的替代方法是综合完全似然(ICL)标准(Biernacki等人,2000):

(3)ICL公司(K(K))=银行识别码(K(K))Ent公司(K(K)),(3)

其中Ent(K(K))是估计的平均聚类熵

(4)Ent公司(K(K))==1n个k个=1K(K)τk个(θ^K(K))o个τk个(θ^K(K))0(4)

请注意,ICL是完整的综合似然对数的类BIC近似值:

(f)(,z;K(K))=θK(K)(f)(,z;K(K),θK(K))π(θK(K))d日θK(K).

由于方程(4)中定义了额外的熵项,ICL倾向于使用分类证据最多的模型进行数据分区。

最近,Baudry等人(2014)提出了一种ICL类标准,该标准利用了外部类别变量的潜在解释能力u个=(u个1…,u个R(右))其中u个第页=1表明基因在类别中对于第页第个外部范畴变量,否则为0。想法是选择一个分类z基于这与u个.假设u个是条件独立的给定z,监督的综合完全似然(SICL)准则是综合完全似度对数的渐近近似值:

(f)(,u个,z;K(K))=(f)(,u个,z;K(K),θK(K))π(θK(K))d日θK(K).

SICL标准定义如下:

(5)SICL公司(K(K))=C类L(左)(K(K))+第页=1R(右)=1U型第页k个=1K(K)n个k个第页o个n个k个第页n个k个·,(5)

哪里U型第页是变量的级别数u个第页,

n个k个第页=c(c)第页d日{:zk个=1n个d日u个第页=1},

n个k个.==1U型第页n个k个第页.方程式(5)中的最后一个附加项量化了类别变量之间的联系强度u个和分类z.

3考虑基因组注释

如前所述,本工作的目的是利用外部基因注释来选择一个模型,对于该模型,簇可以根据其表达谱和功能属性进行有意义的解释。为此,我们提出了一种新的模型选择标准,该标准强调了表达谱簇和与基因子集相关的功能注释之间的关联。由于基因注释是二元变量(即基因是注释的或未注释的),直接使用方程式(5)中定义的SICL似乎很自然。然而,与Baudry等人(2014)考虑的情况相反,基因注释信息通常不完整。更准确地说,对于每个G公司注释术语,索引依据,可用信息u个如下所示:

u个={1如果基因已知受到牵连的在里面功能,0如果基因已知受到牵连的在里面功能.

请注意u个=0可以指示信息缺失(即基因尚未识别注释)或者那个基因已知与注释无关.因此,u个=0不表示变量的空级别,因此表示不完整的二进制变量。因此,SICL标准不是外部注释之间链接的适当度量u个和分类z,必须定义一个特定的标准,将基因注释信息纳入模型选择步骤。为此,我们提出如下综合完整注释似然(ICAL)准则。

对于每个基因注释u个,我们首先定义随机矩阵b条表示注释在K(K)集群:

(6)b条k个={1具有可能性第页k个如果u个=1,0如果u个=0(6)

矩阵的每一行b条是具有参数的多项式分布后面的随机向量u个(第页1,,第页K(K))如果u个>0,并且是空向量0如果u个=0

为了简单起见,当单个外部注释b条1可用。ICAL旨在选择最大化综合注释可能性对数的聚类模型:

(7)(f)(,z,b条1;K(K))=θK(K)(f)(,z,b条1;K(K),θK(K))π(θK(K))d日θK(K).(7)

至于SICL的定义,变量b条1假设在给定的条件下独立z.使用贝叶斯公式,我们有

(f)(,z,b条1;K(K),θK(K))=(f)(,z;K(K),θK(K))(f)(b条1|,z;K(K),θK(K)).

请注意,自b条1假设是独立的,给定z,的条件分布b条1鉴于z不依赖于或混合物参数。因此,作为(f)(b条1|,z;K(K),θK(K))=(f)(b条1|z;K(K)),如下所示:

(8)o个(f)(,z,b条1;K(K))=o个(f)(b条1|z;K(K))+o个θK(K)(f)(,z;K(K),θK(K))π(θK(K))d日θK(K).(8)

方程(8)中的最后一项可用ICL近似(K(K))根据方程式(3),第一项可以近似为

o个(f)(b条1|z^;K(K))=k个=1K(K)n个k个1o个n个k个1n个1,

哪里n个1=卡片{:u个1=1}n个k个1=卡片{:z^k个=1u个1=1}.最后,(7)中表达式的渐近近似导致了ICAL标准:

ICAL公司(K(K))=ICL公司(K(K))+k个=1K(K)n个k个1o个n个k个1n个1.

将此标准推广到以下情况G公司>1基因注释是直接可用的。现在的目标是最大化综合注释可能性的对数:

o个(f)(,z,b条1,,b条G公司;K(K))=o个θK(K)(f)(,z,b条1,,b条G公司;K(K),θK(K))π(θK(K))d日θK(K).

假设b条1, …,b条G公司条件独立给定z,我们有

o个(f)(,z,b条1,,b条G公司;K(K))=o个(f)(b条1,,b条G公司;z,K(K))+o个θK(K)(f)(,z;K(K),θK(K))π(θK(K))d日θK(K).

此外,假设b条1, …,b条G公司是独立的,并且基因注释随机丢失,我们可以这样写

(9)(f)(b条1,,b条G公司;z,K(K))==1G公司(f)(b条|z,K(K)),(9)

导致广义ICAL标准:

(10)ICAL公司(K(K))=ICL公司(K(K))+=1G公司k个=1K(K)n个k个o个n个k个n个.(10)

比较ICAL和SICL如果我们忽略与u个=0(即该基因可以与函数无关或者该信息缺失),可以考虑使用SICL标准来选择模型尺寸K(K)在这种情况下,使用第2节中的符号并定义n个k个集群的大小k个,SICL可以写成如下:

SICL公司(K(K))=ICL公司(K(K))+SICL公司,

哪里

SICL公司==1G公司k个=1K(K)n个k个1o个n个k个1n个k个+=1G公司k个=1K(K)n个k个0o个n个k个0n个k个,==1G公司k个=1K(K)n个k个1o个n个k个1+=1G公司k个=1K(K)n个k个0o个n个k个0G公司k个=1K(K)n个k个o个n个k个.

另一方面,使用第2节中的符号并定义n个.1=k个=1K(K)n个k个1,ICAL可以写成如下:

国际电工委员会(K(K))=ICL公司(K(K))+ICAL公司,

哪里

ICAL公司==1G公司k个=1K(K)n个k个1o个n个k个1n个.1,==1G公司k个=1K(K)n个k个1o个n个k个1=1G公司n个.1o个n个.1.

我们注意到,上述方程中的最后一项是一个常数,与K(K)最后,我们可以将ICAL重写为SICL的函数:

(11)国际电工委员会(K(K))=SICL公司(K(K))=1G公司k个=1K(K)n个k个0o个n个k个0+G公司k个=1K(K)n个k个o个n个k个+常数.(11)

从方程(11)中,我们注意到SICL考虑了外部变量的模态(0和1)u个,而ICAL丢弃了空模态(=1G公司k个=1K(K)n个k个0o个n个k个0术语)。此外,可以看出,ICAL惩罚了大量的簇,而SICL没有(G公司k个=1K(K)n个k个o个n个k个术语)。因此,与SICL相比,ICAL倾向于选择聚类数量相对较少的简约模型。

考虑极端条件下ICAL和SICL标准的行为也很有帮助。如果集群数量K(K)等于1,ICAL惩罚笔ICAL公司等于零,而SICL惩罚笔SICL公司不为null(=1G公司n个1o个n个1n个+=1G公司n个0o个n个0n个).相反,如果簇的数量K(K)等于观察数,每个簇有一个基因,即SICL惩罚笔SICL公司等于零,而ICA惩罚不为零(=1G公司n个1o个n个1).一般来说,ICAL倾向于合并聚类,将为相同功能注释的基因分组,从而减少最佳聚类的数量K(K)关于ICL选择的最佳簇数。SICL倾向于分裂簇以获得仅由注释基因组成的簇,相对于ICL选择的最佳簇数,增加了最佳簇数。换句话说,SICL倾向于选择比ICL更复杂的模型,而ICL倾向于选择比ICL更节省的模型。请注意,ICAL和SICL的这种行为是一种普遍趋势,而不是规则:ICAL并不总是合并集群,SICL也不总是拆分集群,因为不同解决方案的集群不一定相互嵌套。

R包ICAL中提供了实现我们方法的代码,可以在以下网站上找到:https://github.com/Gallopin/ICA.

4数字插图

4.1模拟设置

为了说明所提出的ICA准则的行为,我们考虑了一个数值例子。我们从四个双变量高斯分布的混合物中模拟了200个观测值,100个独立的时间(参见表1). 前两个部件彼此接近,而第三个和第四个部件与前两个部件明显不同,也彼此不同。对于由索引的给定模型K(K),使用R包Rmixmod(Biernacki等人,2006;Lebret等人,2015)对具有对角方差矩阵的高斯混合模型(即第页k个L(左)k个B类k个以Rmixmod包的符号表示的模型,对应于具有可变比例、可变体积、可变形状和垂直或水平方向的集群)。我们用簇数估计模型的参数K(K)从1到10不等,并执行模型选择以选择最合适的簇数。在100个复制数据集中,BIC最频繁地选择四个集群(81次)。事实上,我们注意到这些簇对应于模拟的高斯分量。ICL标准选择三个(54次)或四个集群(46次),因为它倾向于合并来自表1).

表1

模拟数据集的参数:前两个成分彼此接近,而第三个和第四个成分与前两个明显不同,也彼此不同。

组件混合比例组件分布
10.25N个((00),(1001.7))
20.25N个((05),(1001.7))
0.25N个((98),(0.1001))
40.25N个((90),(1000.8))

我们通过模拟这些注释,并使用相应的SICL和ICAL标准执行模型选择,来说明解释外部基因注释在模型选择中的潜在效用。我们模拟了三种类型的功能注释:u个一个,u个B类u个C类(请参见图1). 为第一个功能注释的基因u个一个由两个最接近的混合物组分共享(组分1和2来自表1). 此注释设计为与组件关联从这个意义上说,这表明了合并两个集群的兴趣,因为它们共享相似的联合分布和外部注释。为第二个功能注释的基因u个B类仅由两个明显不同的组件共享(组件3和4表1). 此注释旨在与组件无关:尽管组件具有相似的功能,但从建模角度来看,它们的联合分布过于明显,无法合并。最后,为第三个功能注释的基因u个C类随机分布在四个组件上:这意味着注释是混合的(半关联/半非关联)。对于每个函数,我们使用二项式随机变量模拟注释,参数固定为平均值n个不能注释了200多个可能的基因。在下面,我们测试了两个级别的注释密度d日不能=n个不能n个:d日n个n个o个=0.05d日不能=0.25. 由于ICAL和SICL标准可以与多个外部注释一起使用,因此我们还说明了包含多个注释的潜在效用。对于我们模拟中使用的每一组注释,注释的数量从1到12不等。集合中的每个注释都是独立模拟的。

图1:模拟数据集和三种注释模式的图示。对于每个图形,200个观测值是从高斯双变量分量的混合物中得出的,其参数在表1中定义:圆、三角形、倒三角形和菱形对应于分量1-4。这三个图对应于三种注释模式:关联注释uA(A)、非关联注释uB(B)和混合注释uC(C)。对于每个注释,有注释的20个基因用彩色粗体十字表示。
图1:

模拟数据集和三种注释模式的图示。对于每个图,200个观测值来自高斯双变量分量的混合物,其参数在表1中定义:圆、三角形、倒三角形和菱形对应于分量1-4。这三个图对应于三种注释模式:关联注释u个一个(A) ,未关联注释u个B类(B) 和混合注释u个C类(C) ●●●●。对于每个注释,有注释的20个基因用彩色粗体十字表示。

4.2仿真结果

所有惩罚标准(BIC、ICL、SICL和ICAL)与一个模拟数据集的聚类数d日不能=0.05显示在图2A.在100个模拟数据集中,ICAL 72次选择三个集群,合并两个最接近的组件1和2(表2). 这三个集群解决方案对于u个一个,因为所有注释的基因都属于同一个簇。在这种情况下,关联注释提供的外部信息u个一个加强了车型选择。使用与相同的模式u个一个(注释仅由组件1和2共享),我们模拟了12个具有密度的独立关联注释d日不能=0.05. 合并集群的证据随着注释数量的增加而增加(一个注释对12个注释)。选择集合中的注释数(12个注释),以便合并簇的证据足够有力:在100个模拟数据集中,ICAL系统地选择了一个三簇解决方案(表2). 对于这组12个外部注释,ICAL的峰值显示在图2B比ICL的峰值要尖锐得多。相比之下,SICL更频繁地选择四个甚至五个集群解决方案,因为它导致偏好只包含注释基因的较小集群(即每个集群中注释的高度特异性)。这证明了ICAL标准相对于SICL的实用性,因为它没有正确考虑基因注释的特异性。

图2:BIC、ICL、SICL和ICAL信息标准与一个模拟数据集上用于信息注释的簇数:uA(A)和uA1, …, uA12${\bf{u}}_{\rm{A}}^1,{\rm}}\ldot,{\rma{}}{\bf{u}{{\rm{A}^{12}$(B)。三角形表示每个标准获得的最大值。
图2:

BIC、ICL、SICL和ICAL信息标准与一个模拟数据集上用于信息注释的簇数:u个一个(A) 和u个一个1,,u个一个12(B) 。三角形表示每个标准获得的最大值。

表2

每个模型的模拟数据集数量(K(K)=1,…,10)由BIC、ICL、SICL和ICAL为数个具有密度的外部注释选择d日不能=0.05,超过100个独立数据集,模拟参数详见表1.

K(K)1245678910
银行识别码1981
ICL公司5347
关联的批注u个一个SICL公司5149
ICAL公司7228
u个一个1,,u个一个12SICL公司2770
ICAL公司100
未关联的注释u个B类SICL公司53461
ICAL公司5347
u个B类1,,u个B类12SICL公司5344
ICAL公司5347
混合批注u个C类SICL公司5050
ICAL公司6733
多个注释u个一个,uB类,u个C类SICL公司48511
ICAL公司8119

最常为每个标准选择的模型以粗体突出显示。

对于未关联的注释u个B类具有d日不能=0.05,信息标准的行为与一个模拟数据集的簇数的关系显示在图3答:我们注意到,ICAL标准的行为与ICL类似。在100多个模拟数据集中,作为ICL的ICAL导致了一些不确定性,即三集群解决方案(53次)还是四集群解决方案(47次)是最好的(表2). 在本例中,注释u个B类与组件无关,并且对结果聚类没有影响,即使集合中的注释数量增加到12个,每个注释都使用与相同的模式进行模拟u个B类如所示图3B.

图3:BIC、ICL、SICL和ICAL信息标准与非信息性注释uB(A)和uB1的一个模拟数据集上的簇数, …, uB12${\bf{u}}_{\rm{B}}^1,{\rm}}\ldot,{\rma{}}{\bf{u}{{\rm{B}{^{12}$(B)。三角形表示每个标准获得的最大值。
图3:

BIC、ICL、SICL和ICAL信息标准与非信息性注释的一个模拟数据集上的簇数:u个B类(A) 和u个B类1,,u个B类12(B) 。三角形表示每个标准获得的最大值。

最后,对于混合注释u个C类具有d日不能=0.05,ICAL最常选择三个簇(67次)或四个簇(33次)。因为注释u个C类混合,与信息注释相比,合并左侧两个簇的证据更少u个一个。同时使用三种类型的注释(u个一个,u个B类,u个C类),ICAL标准几乎系统地选择了三个集群(表2).

以下总结的数值结果强调了解释外部基因注释在模型选择中的潜在效用表2首先,这些结果表明,SICL不适合解释模型选择中的基因注释;最好的SICL行为与ICL类似,最坏的情况是错误地分割应该合并的集群。然而,如果外部信息与组件相关,即使是部分相关,ICAL标准的使用也会在功能可解释性方面改进模型选择。如果外部信息与组件无关,则ICAL标准的行为与ICL类似。

为了评估注释密度对结果的影响,我们重复了较高密度的实验(d日不能=0.25),总结如下表3一般来说,我们注意到,当集合中注释的数量增加时,合并簇的证据更强;对于较高密度的注释,需要在集合中使用较少数量的注释来合并簇。尤其是对于较低密度的注释(d日不能=0.05),增加集合中相关低密度注释的数量(从一个增加到十二个)也会增加合并簇的可信度;集群1和集群2在72%的时间内合并为单个注释,并在所有模拟数据集中系统地合并为一组12个注释(表2). 另一方面,对于更高密度的注释(d日不能=0.25),即使是一组单个注释,簇1和簇2也会系统地合并(表3). 如果注释密度高(即簇3和簇4中超过一半的基因被注释),多个不相关的注释可能导致过度简约的解决方案,例如表3.

表3

每个模型的模拟数据集数量(K(K)=1,…,10)由BIC、ICL、SICL和ICAL为数个具有密度的外部注释选择d日不能=0.25超过100个独立数据集,模拟参数详见表1.

K(K)1245678910
银行识别码1981
ICL公司5347
关联的批注u个一个SICL公司5248
ICAL公司100
u个一个1,u个一个2,u个一个西西里岛5347
ICAL公司100
未关联的批注u个B类SICL公司5347
ICAL公司5347
u个B类1,u个B类2,u个B类SICL公司5347
ICAL公司64747
混合批注u个C类SICL公司5248
ICAL公司946
多个批注u个一个,u个B类,u个C类SICL公司5149
ICAL公司100

最常为每个标准选择的模型以粗体突出显示。

5 RNA-seq数据分析

5.1 RNA-seq数据和聚类设置的表示

Mach等人(2014)分析了健康仔猪小肠中的转录组差异,以更好地了解其免疫反应。使用RNA-seq测量了12个样本中24924个基因的表达,对应于三个不同的组织(十二指肠、空肠和回肠),每个组织都为四个不同的健康仔猪测序。原始数据可在NCBI的SRA存储库(PRJNA221286 BioProject;SRR1006118至SRR1006133的材料)中获得,测序读数已按照Mach等人(2014)的描述进行了预处理(即质量控制、比对和基因表达估算)。我们使用edgeR软件包3.4.2版中实现的负二项广义线性模型进行了差分分析(Robinson等人,2010)。在使用Benjamini和Hochberg(1995)的方法将错误发现率(FDR)控制在0.05以下后,我们确定了4021个基因在任何组织中的差异表达。对于下面的共表达分析,我们将注意力局限于这组差异表达基因。

共表达分析是根据库大小乘以100万的计数对数进行的。Law等人(2014)使用了这种转换来稳定RNA-seq数据的典型不平等变量,并能够使用高斯线性模型。count表达式ij公司基因的用于样品j个(=1, …,n个;j个=1, …,q个)转换如下:日志中央处理器(j个)=o个2(j个+0.5N个j个+1×106),哪里N个j个是样本的总计数归一化因子j个根据全套基因计算。所有的重复都包括在转化后的聚类分析中,而不是在每个条件下对重复进行平均。

随后,使用Rmixmod软件包2.0.2版(Biernacki等人,2006)对1到50个簇的变换数据进行了高斯混合模型估计。对于每个模型,我们都使用了小型EM初始化策略(Biernacki等人,2003)和重复估计10次。

5.2功能注释数据的表示

分子特征数据库(Liberzon等人,2011年)由大脑研究所建立,提供注释基因集的集合,用于基因集富集分析软件(Subramanian等人,2005年)。分子特征数据库(MSigDB)包含来自多个来源的基因集集合:定位基因集、来自在线途径数据库的精选基因集、基序基因集、计算基因集、GO基因集、致癌经典途径和免疫特征。我们使用标准通路(CP)基因集集合,从在线代谢和信号通路数据库(如KEGG)的领域专家整理的1320个生物过程的标准表示(http://www.genome.jp/kegg)、BioCarta(http://www.biocarta.com(生物艺术网))和Reactome数据库(网址:http://www.reactome.org).

在数据库中的1320个CP中,有1131个在4021个差异表达基因中表示。我们使用Fisher精确检验选择注释基因在差异表达基因集合中相对于非空基因集合过度表达的CP。由于对每个可能的注释(即每个CP)都进行了测试,因此我们选择那些经过调整的注释第页-对多次测试应用Bonferroni校正后,该值小于0.05。此过程产生10个感兴趣的CP,如中所述表4.

表4

每个典型途径(CP)注释的基因数量:在4021个差异表达(DE)基因中,以及在MSigDB数据库的完整CP基因集集合中。

人物配对关系姓名DE基因总基因数
1脂质和脂蛋白的反应体代谢141480
2小分子的反应体跨膜转运124415
反应性止血99468
4反应体SLC介导的跨膜转运73243
5反应体磷脂代谢54200
6反应体脂肪酸三酰甘油和酮体代谢53170
7KEGG PPAR信号通路3471
8KEGG ECM受体相互作用3486
9无机阳离子阴离子和氨基酸寡肽的反应体转运3396
10KEGG过氧化物酶体3180

5.3选型

我们比较了第2节和第3节中提出的四个不同标准的模型选择结果:BIC选择28个集群,ICL和SICL选择23个集群,而ICAL选择20个集群(参见图4).图56分别是ICL和ICAL解决方案产生的集群的热图。ICAL和ICL解决方案中集群之间的近似对应关系显示在表5虽然前者的结果并没有完全嵌套在后者中,但在许多情况下,在ICL解决方案中,基因归属于簇是ICL解决办法中几个簇坍塌或部分坍塌的结果。例如,ICAL合并了ICL解决方案中的大多数集群2以及集群5和18的部分,因为它们共享相似的表达式配置文件和功能注释,如图7这表明ICL倾向于一个稍微复杂一些的解决方案,正如预期的那样;我们接下来研究在给定所使用的CP集的情况下,ICAL的更简约的解是否看起来是相干的。

图4:BIC、ICL、SICL和ICAL信息标准(分别为A–D)与10次独立初始化的清管器RNA-seq数据的簇数,用每个簇数的10个灰色圆圈表示。实线表示模型集合中10次初始化的最大标准。红色十字对应于最大标准,对应于所选模型。
图4:

BIC、ICL、SICL和ICAL信息标准(分别为A–D)与10次独立初始化的清管器RNA-seq数据的簇数对比,每个簇数用10个灰色圆圈表示K(K)实线表示模型集合中10次初始化的最大标准。红色十字对应于最大标准,对应于所选模型。

图5:ICL集群的热图。以对数cpm表示的RNA-seq数据居中并按比例缩放。热图上的颜色反映了标准化表达的水平:红色低,黄色高。23个簇由热图左侧的颜色表示。
图5:

ICL集群的热图。以log-cpm表示的RNA-seq数据居中缩放。热图上的颜色反映了标准化表达的水平:红色低,黄色高。23个簇由热图左侧的颜色表示。

图6:ICAL集群的热图。以log-cpm表示的RNA-seq数据居中缩放。热图上的颜色反映了标准化表达的水平:红色低,黄色高。20个簇由热图左侧的颜色表示。
图6:

ICAL集群的热图。以log-cpm表示的RNA-seq数据居中缩放。热图上的颜色反映了标准化表达的水平:红色低,黄色高。20个簇由热图左侧的颜色表示。

表5

ICAL溶液的20个簇相对于ICL溶液的23个簇的近似组成。

ICA集群ICL集群
集群1129
集群215
集群310
集群411
集群5125+12+1220+1222
集群62+125+118
集群78
集群84+9+16
集群9+126
集群107+126
集群1113+1420+1222
集群1223
集群137+17+118
集群1421
集群1519
集群161
集群1714+118
集群181
集群191420+125
集群2016

粗体的线对应ICAL解决方案的簇,这些簇由ICL解决方案簇中的几个簇或部分组成。例如,ICAL解决方案的集群5大约由集群12和ICL解决方案集群5、20和22的一部分组成。

图7:ICAL解决方案簇6的热图。以log-cpm表示的RNA-seq数据居中缩放。热图上的颜色反映了标准化表达的水平:红色低,黄色高。热图左侧的颜色和数字表示ICL解决方案中已合并到ICAL解决方案中的相应簇。
图7:

ICAL解决方案簇6的热图。以log-cpm表示的RNA-seq数据居中缩放。热图上的颜色反映了标准化表达的水平:红色低,黄色高。热图左侧的颜色和数字表示ICL解决方案中已合并到ICA解决方案中的相应簇。

对于ICL和ICAL解决方案,我们使用Fisher精确检验检验了簇和CP之间的关联。重要第页-值汇总于表6ICAL标准产生了一个聚类,该聚类最大化了每个CP在每个聚类中注释的基因数量,同时仍然只对具有足够相似表达谱的基因进行分组。例如,我们注意到CP8与ICL解决方案中的两个不同集群相关联,而它与ICAL解决方案中的单个集群相关联;类似地,CP10在ICL解决方案中与三个簇关联,而在ICA解决方案中仅与两个簇关联。另一方面,尽管ICAL解决方案中的簇10和簇17都共享CP10的注释,但这些簇并没有使用所提出的标准折叠成一个簇,因为它们的表达动力学差异太大。因此,ICAL解决方案似乎能够识别比ICL更具生物学解释性的簇,同时仍然确保簇基因共享足够相似的表达动力学。

表6

ICL解决方案(A)和ICAL解决方案(B)的集群和CP之间的关联表。

大小CP1公司CP2型CP3(CP3)CP4类第5页CP6(CP6)CP7(CP7)CP8系列CP9系列CP10公司
(A) [ICL解决方案]
集群258
集群5203
集群647★★
集群7258
集群896★★
集群10287
集群14225★★
集群22144★★★★★
(B) [ICAL解决方案]
集群3297
集群5379★★★★★
集群6156★★
集群792
集群10267★★★★
集群17235★★

关联是通过费希尔精确测试检测出来的:恒星的数量表示第页-价值(低于0.01,★★ 低于0.001,★★★ 0.0001以下)。

最后,我们注意到,就所研究的生物过程而言,ICA溶液显示出两个特别有趣的簇:簇5(379个基因)与CP3(反应体内稳态,第页=0.0002)和CP8(KEGG ECM受体相互作用,第页=0.00001). 簇10(297个基因)与CP1(脂类和脂蛋白的反应代谢,第页=0.002),CP6(反应脂肪酸三酰甘油和酮体代谢,第页=0.005)和CP10(KEGG过氧化物酶体,第页=0.0001),均对应脂肪酸代谢。簇5和簇10都包含未知基因,这些基因可能是后续研究的良好候选基因,以确定它们是否与相应的典型路径有关。

6讨论

在本文中,我们提出了一种新的方法,将功能注释合并到基于模型的基因表达数据聚类中。为此,我们制定了一个模型选择标准,即综合完整注释可能性(ICAL),该标准旨在选择能够共同最大限度地提高数据质量以及聚类和注释关联性的模型。从生物学角度来看,ICAL标准旨在选择比BIC或ICL选择的模型具有更多可解释簇的模型。需要注意的是,功能注释不直接包含在聚类模型中,仅用于选择最佳模型。这种方法是两种相反策略之间的一种很好的折衷:直接在聚类模型中包含函数注释(Morlini,2011),或者完全排除它们,只使用它们来验证聚类后部。由于我们没有在聚类模型中包含注释,因此我们用比在聚类模型中将外部注释包含在内更有力的证据检测注释和聚类之间的关联。特别是,ICAL标准是一种很好的方法,可以在不太重要的情况下纳入先前的生物学专业知识,这是数据中可以观察到的内容与专家期望在数据中看到的内容之间的良好平衡。

如数值模拟所示,ICAL选择的模型取决于所提供的注释信息的质量。选择适当的注释以包含在ICAL中是一个重要的步骤,应该基于专家知识进行。我们还建议使用由专家手动管理的基因注释数据库,例如来自MSigDB数据库的基因集集合(Liberzon等人,2011年)。然而,注释的选择应反映特定研究所感兴趣的生物功能,因此很难提供关于在实践中如何选择此类注释的一般指导。我们注意到,如果所选择的注释与数据中存在的集群模式无关,则它们不会贡献任何信息,并且ICAL的行为往往类似于ICL标准。

在这项工作中,我们使用高斯混合模型框架应用了ICAL,但对其他混合模型的扩展是简单的;包括泊松(Rau等人,2015)或狄里克莱多项式混合模型(Holmes等人,2012)。此外,此模型选择策略可能对其他类型的数据有用,这些数据也可能与不完整的外部注释(例如社会学、市场营销)相关。


通讯作者:梅利娜·加洛平(Mélina Gallopin),数学实验室,UMR 8628,巴黎南大学,91405,法国奥赛·塞德克斯,电子邮件:; 和INRA,UMR 1313 Génétique Animale et Biologie Intégrative,78352 Jouy-en-Josas,法国

致谢

我们感谢Jordi Estellé在第5节中提供RNA-seq数据,并对外部注释和聚类结果提供了见解。

基金:分配部长rielle de recherche du ministère de l'ensignement supérieur et de la recherche。巴黎南大学。

工具书类

Anders,S.和W.Huber(2010):“序列计数数据的差异表达分析”,《基因组生物学》,11,R106。10.1186/gb-2010-11-10-r106在谷歌学者中搜索公共医学公共医学中心

Ashburner,M.,C.A.Ball,J.A.Blake,D.Botstein,H.Butler,J.M.Cherry,A.P.Davis,K.Dolinski,S.S.Dwight,J.T.Eppig,M.A.Harris,D.P.Hill,L.Issel-Tarver,A.Kasarskis,S.Lewis,J.C.Matese,J.E.Richardson,M.Ringwald,G.M.Rubin和G.Sherlock(2000):“基因本体:生物学统一的工具。基因本体联盟”,《自然遗传学》,25,25-29。10.1038/75556在谷歌学者中搜索公共医学公共医学中心

Baudry,J.-P.,M.Cardoso,G.Celeux,M.J.Amorim和A.S.Ferreira(2014):“利用外部类别变量加强基于模型的聚类选择”,《数据分析和分类进展》,第1、1–20页。在谷歌学者中搜索

Benjamini,Y.和Y.Hochberg(1995):“控制错误发现率:一种实用而有效的多重测试方法”,J.R.Stat.Soc.B Met。,57, 286–300.在谷歌学者中搜索

Biernacki,C.、G.Celeux和G.Govaert(2000):“用综合完全似然评估聚类的混合模型”,IEEE T.模式分析。,22, 719–725.在谷歌学者中搜索

Biernacki,C.、G.Celeux和G.Govaert(2003):“为em算法选择起始值,以获得多元高斯混合模型中的最大似然”,计算。统计数据An.,41,561–575。在谷歌学者中搜索

Biernacki,C.、G.Celeux、G.Govaert和F.Langrognet(2006):“利用MIXMOD软件进行基于模型的聚类分析和判别分析”,计算。统计数据An.,51,587–600。在谷歌学者中搜索

Datta,S.(2003):“微阵列基因表达数据统计聚类技术的比较与验证”,《生物信息学》,第19459–466页。10.1093/生物信息学/btg025在谷歌学者中搜索公共医学

Dempster,A.、N.M.Laird和D.B.Rubin(1977):“通过EM算法从不完整数据中获得最大似然”,J.R.Stat.Soc.B Met。,39, 1–38.在谷歌学者中搜索

Eisen,M.B.、P.T.Spellman、P.O.Brown和D.Botstein(1998):“全基因组表达模式的聚类分析和显示”,P.Natl。美国科学院。,95, 14863–14868.在谷歌学者中搜索

Holmes,I.、K.Harris和C.Quince(2012):“Dirichlet多项式混合物:微生物宏基因组学的生成模型”,《公共科学图书馆·综合》,第7期,e30126页。10.1371/日记本.0030126在谷歌学者中搜索公共医学公共医学中心

Huang,D.,P.Wei,and W.Pan(2006):“在基于模型的聚类中结合基因注释和基因表达数据:加权方法”,Omics,10,28-39。2009年10月10日至2006年10月28日在谷歌学者中搜索公共医学

Jiang,D.、C.Tang和A.Zhang(2004):“基因表达数据的聚类分析:调查”,IEEE T.Knowl。数据En。,16, 1370–1386.在谷歌学者中搜索

Kanehisa,M.和S.Goto(2000):“KEGG:基因和基因组的京都百科全书”,Nuc。《酸类研究》,28,27–30。在谷歌学者中搜索

Law,C.W.、Y.Chen、W.Shi和G.K.Smyth(2014):“Voom:精确权重解锁RNA-seq读取计数的线性模型分析工具”,《基因组生物学》,第15期,R29页。10.1186/gb-2014-15-2-r29在谷歌学者中搜索公共医学公共医学中心

Lebret,R.、S.Iovleff、F.Langrognet、C.Biernacki、G.Celeux和G.Govaert(2015年):“Rmixmod:基于模型的无监督、监督和半监督分类mixmode库的R包”,《统计软件杂志》,正在出版。10.18637/jss.v067.i06在谷歌学者中搜索

Liberzon,A.、A.Subramanian、R.Pinchback、H.Thorvaldsdóttir、P.Tamayo和J.P.Mesirov(2011):“分子签名数据库(MSigDB)3.0”,生物信息学,27、1739–1740。10.1093/生物信息学/btr260在谷歌学者中搜索公共医学公共医学中心

Mach,N.、M.Berri、D.Esquerré、C.Chevaleyre、G.Lemonnier、Y.Billon、P.Lepage、I.P.Oswald、J.Doré、C.Rogel-Gaillard和J.Estellé(2014):“转录组测序证明的猪小肠广泛表达差异”,PloS ONE,9,e88515。10.1371/journal.pone.0088515在谷歌学者中搜索公共医学公共医学中心

Morlini,I.(2011):“在高斯混合模型中聚类混合二进制和连续变量的潜在变量方法”,《数据分析和分类进展》,第6、5–28页。10.1007/s11634-011-0101-z在谷歌学者中搜索

Mortazavi,A.,B.A.Williams,K.McCue,L.Schaeffer和B.Wold(2008):“通过RNA序列绘制和量化哺乳动物转录组”,《自然方法》,5621-628。10.1038/nmeth.1226在谷歌学者中搜索公共医学

Pan,W.(2006):“将基因功能作为微阵列基因表达数据基于模型聚类的先验信息纳入”,生物信息学,22795-801。10.1093/生物信息学/btl011在谷歌学者中搜索公共医学

Rau,A.、C.Maugis-Rabusseau、M.-L.Martin-Magniette和G.Celeux(2015):“利用泊松混合模型对高通量转录组测序数据进行共表达分析”,生物信息学,311420-1427。10.1093/生物信息学/btu845在谷歌学者中搜索公共医学

Robinson,M.D.、D.J.McCarthy和G.K.Smyth(2010):“edgeR:数字基因表达数据差异表达分析的生物导体包”,生物信息学,26,139-140。10.1093/生物信息学/btp616在谷歌学者中搜索公共医学公共医学中心

Schena,M.、D.Shalon、R.W.Davis和P.O.Brown(1995):“用互补DNA微阵列定量监测基因表达模式”,《科学》,270467-470。10.1126/科学.270.5235.467在谷歌学者中搜索公共医学

Schwarz,G.(1978):“估算模型的维数”,《Ann.Stat.》,第6461–464页。在谷歌学者中搜索

Smyth,G.K.(2004):“微阵列实验中评估差异表达的线性模型和经验贝叶斯方法”,《统计应用》。遗传学。分子生物学。,3, 1–25.在谷歌学者中搜索

Steuer,R.、P.Humburg和J.Selbig(2006):“基于基因本体论的基于表达的聚类的验证和功能注释”,BMC生物信息学,7380。10.1186/1471-2105-7-380在谷歌学者中搜索公共医学公共医学中心

Subramanian,A.、P.Tamayo、V.K.Mootha、S.Mukherjee、B.L.Ebert、M.A.Gillette、A.Paulovich、S.L.Pomeroy、T.R.Golub、E.S.Lander和J.P.Mesirov(2005):“基因集富集分析:解释全基因组表达谱的基于知识的方法”,P.Natl。A.科学。,102, 15545–15550.在谷歌学者中搜索

Tari,L.、C.Baral和S.Kim(2009年):“模糊C-表示与先前生物知识的聚类”,J.Biomed。通知。,42, 74–81.在谷歌学者中搜索

Tipney,H.和L.Hunter(2010):“浓缩分析软件的有效使用简介”,《人类基因组学》,4202。10.1186/1479-7364-4-3-202在谷歌学者中搜索公共医学公共医学中心

Verbanck,M.、S.Lé和J.PagèS(2013):“一种基于将生物知识集成到表达数据的新的无监督基因聚类算法”,BMC生物信息学,14,42。10.1186/1471-2105-14-42在谷歌学者中搜索公共医学公共医学中心

Yeung,K.Y.,C.Fraley,A.Murua,A.E.Raftery和W.L.Ruzzo(2001):“基因表达数据的基于模型的聚类和数据转换”,生物信息学,17,977-987。10.1093/生物信息学/17.10.977在谷歌学者中搜索公共医学

在线发布:2015年10月13日
印刷出版:2015-11-1

©2015 De Gruyter版权所有

于2024年3月29日从下载https://www.degruyter.com/document/doi/10.1515/sagmb-2014-0095.html
滚动到顶部按钮