1引言
基因组注释泛指与基因组中编码区域相关的一组元数据,通常包括识别每个基因的位置以及确定与基因产物(例如蛋白质或RNA)相关的功能。特别是,基因注释对应于与基因产物相关的已知功能,包括分子功能、生物路径或基因产物的细胞位置。利用从跨物种的书目来源收集的已知功能注释构建了各种著名的统一数据库,包括基因本体(GO)(Ashburner等人,2000)、京都基因和基因组百科全书(KEGG)(Kanehisa和Goto,2000)或MSigDB(分子签名)数据库(Liberzon等人,2011年)。尽管这样的数据库包含了大量物种基因组功能信息的丰富来源(例如。拟南芥(如人类、老鼠、老鼠、苍蝇),我们对功能注释的了解往往还远远不够完整(Tipney和Hunter,2010)。
近年来,高通量技术的实质性改进,例如微阵列(Schena等人,1995年)和最近的RNA测序(RNA-seq)(Mortazavi等人,2008年),使得可以同时测量数万个基因的表达水平。关于此类基因表达数据的适当统计分析,包括差异表达分析,目前已有大量工作可供使用(Smyth,2004;Anders和Huber,2010)以及联合表达分析,以确定在多个实验条件下或在一段时间内具有相似特征的基因组(Yeung等人,2001;Rau等人,2015)。后者对这项工作特别感兴趣,因为识别共享相同动态表达模式的基因可能有助于识别参与类似生物过程的基因组,并生成关于特征不佳基因的功能特性的假设(Eisen等人,1998年;Jiang等人,2004年)。对基因表达数据的不同聚类方法的回顾和比较可以在Datta(2003)中找到。
实际上,注释数据库通常用于执行后部通过功能富集试验验证和解释共表达基因簇(Steuer等人,2006年)。这样的功能注释可以直接集成到集群模型本身中。例如,Tari等人(2009)将GO注释作为先验知识纳入模糊c-均值聚类。Verbanck等人(2013)提出了一种基于表达谱和功能谱之间相似性共同定义的距离的聚类方法。Pan(2006)和Huang等人(2006)提出将基因注释作为分层混合模型中的先验信息。然而,以这种方式将基因注释直接包含在模型中可能是有问题的,特别是当它们也用于验证基因簇时后部此外,由于基因注释往往不完整,如果将其直接纳入模型中,可能会引入偏差,因为未注释的基因(表示已知与给定功能无关的基因以及未知功能的基因)可能会错误地与注释的基因分离。
这种方法的一种替代方法是定义一个聚类模型,该模型考虑外部基因注释,而不直接将其包含在模型本身中。为此,基于模型的聚类提供了一个方便的框架,因为它1)允许一大组聚类模型仅适用于基因表达,2)有助于在这组模型中进行选择,这是一个节约的模型,同时可以很好地拟合数据并与外部基因注释保持一致。在这项工作中,我们通过提出一个解释外部基因注释的模型选择标准来解决这些问题。
本文的其余部分组织如下。在第2节中,我们介绍了基于模型的聚类的背景,并回顾了经典模型选择标准。我们提出的带注释的模型选择标准在第3节中给出,并且在第4节中使用高斯混合模型的模拟数据上给出了其行为的数值说明。最后,我们在第5节中说明了实际RNA-seq数据的共表达分析,并进行了讨论。
2基于模型的聚类和模型选择
让年成为(n个×q个)观察到的基因表达矩阵,其中n个是基因数量和q个生物样本的数量。向量年我表示基因的表达我(我=1, …,n个)穿过q个样品。在基于模型的集群环境中,数据年假设从有限混合物密度中取样K(K)随机变量,每个变量具有参数化密度ϕ(年我;一k个),k个=1, …,K(K),其中混合物参数(一1, …,一K(K))都假定是不同的。密度年因此可以写成
(1)(f)(年; K(K), θK(K))=∏我=1n个∑k个=1K(K)第页k个ϕ(年我; 一k个), (1)
哪里θK(K)=(第页1, …,第页K(K)-1,一1, …,一K(K))是混合物模型的参数,以及(第页1, …,第页K(K))混合比例是第页k个全部∈(0,1)k个, ∑k个=1K(K)第页k个=1
对于参数估计,方程(1)中的混合模型可被视为不完整数据结构模型,其中z是(n个×K(K))未知混合物标签矩阵,其中z伊克=1如果基因我来自组k个否则为0。注意,这个矩阵定义了基因的划分。
使用混合物标签z,完成密度年可写成如下:
(2)(f)(年, z; K(K), θK(K))=∏我=1n个∏k个=1K(K)(第页k个ϕ(年我; 一k个))z我k个. (2)
最大似然估计θ^K(K)通过替换未知标签,通过期望最大化算法(Dempster等人,1977)计算混合物参数z式(2)中z^,定义为:
z^我k个={1我(f) 一第页克 米一x个ℓτ我ℓ(θ^K(K))=k个0o个吨小时e(电子)第页w个我秒e(电子),
哪里τ我ℓ(θ^K(K))表示给定的条件概率年我的ℓ th混合物成分θ^K(K):
τ我ℓ(θ^K(K))=第页^ℓϕ(年我; 一^ℓ)∑吨=1K(K)第页^吨ϕ(年我; 一^吨).
在基于模型的集群环境中,一个重要的任务是选择合适的模型,最显著的是集群的相关数量K(K)为此,一个标准的模型选择标准是贝叶斯信息标准(BIC)(Schwarz,1978):
银行识别码(K(K))=我o个克(f)(年; K(K)^, θ^K(K))−νK(K)2我o个克(n个),
哪里θ^K(K)是混合参数的最大似然估计量v(v)K(K)模型中自由参数的数量K(K)组件。该标准是积分似然对数的渐近近似值:
(f)(年; K(K))=∫θK(K)(f)(年; K(K), θK(K))π(θK(K))d日θK(K),
哪里π(θK(K))是上的弱信息先验分布θK(K).
BIC的替代方法是综合完全似然(ICL)标准(Biernacki等人,2000):
(3)ICL公司(K(K))=银行识别码(K(K))−Ent公司(K(K)), (3)
其中Ent(K(K))是估计的平均聚类熵
(4)Ent公司(K(K))=−∑我=1n个∑k个=1K(K)τ我k个(θ^K(K))我o个克τ我k个(θ^K(K))≥0 (4)
请注意,ICL是完整的综合似然对数的类BIC近似值:
(f)(年, z; K(K))=∫θK(K)(f)(年, z; K(K), θK(K))π(θK(K))d日θK(K).
由于方程(4)中定义了额外的熵项,ICL倾向于使用分类证据最多的模型进行数据分区。
最近,Baudry等人(2014)提出了一种ICL类标准,该标准利用了外部类别变量的潜在解释能力u个=(u个1…,u个R(右))其中u个我ℓ第页=1表明基因我在类别中ℓ 对于第页第个外部范畴变量,否则为0。想法是选择一个分类z基于年这与u个.假设年和u个是条件独立的给定z,监督的综合完全似然(SICL)准则是综合完全似度对数的渐近近似值:
(f)(年, u个, z; K(K))=∫(f)(年, u个, z; K(K), θK(K))π(θK(K))d日θK(K).
SICL标准定义如下:
(5)SICL公司(K(K))=我C类L(左)(K(K))+∑第页=1R(右)∑ℓ=1U型第页∑k个=1K(K)n个k个ℓ第页我o个克n个k个ℓ第页n个k个·, (5)
哪里U型第页是变量的级别数u个第页,
n个k个ℓ第页=c(c)一第页d日{我:z我k个=1 一n个d日 u个我ℓ第页=1},
和n个k个.=∑ℓ=1U型第页n个k个ℓ第页.方程式(5)中的最后一个附加项量化了类别变量之间的联系强度u个和分类z.
3考虑基因组注释
如前所述,本工作的目的是利用外部基因注释来选择一个模型,对于该模型,簇可以根据其表达谱和功能属性进行有意义的解释。为此,我们提出了一种新的模型选择标准,该标准强调了表达谱簇和与基因子集相关的功能注释之间的关联。由于基因注释是二元变量(即基因是注释的或未注释的),直接使用方程式(5)中定义的SICL似乎很自然。然而,与Baudry等人(2014)考虑的情况相反,基因注释信息通常不完整。更准确地说,对于每个G公司注释术语,索引依据克,可用信息u个克如下所示:
u个我克={1如果 基因 我 是 已知 到 是 受到牵连的 在里面 功能 克,0如果 基因 我 是 不 已知 到 是 受到牵连的 在里面 功能 克.
请注意u个我克=0可以指示信息缺失(即基因我尚未识别注释克)或者那个基因我已知与注释无关克.因此,u个我克=0不表示变量的空级别,因此表示不完整的二进制变量。因此,SICL标准不是外部注释之间链接的适当度量u个克和分类z,必须定义一个特定的标准,将基因注释信息纳入模型选择步骤。为此,我们提出如下综合完整注释似然(ICAL)准则。
对于每个基因注释u个克,我们首先定义随机矩阵b条克表示注释在K(K)集群:
(6)b条我k个克={1具有 可能性 第页k个克 如果 u个我克=1,0如果 u个我克=0 (6)
矩阵的每一行b条克是具有参数的多项式分布后面的随机向量u个我克和(第页1克, …, 第页K(K)克)如果u个我克>0,并且是空向量0如果u个我克=0
为了简单起见,当单个外部注释b条1可用。ICAL旨在选择最大化综合注释可能性对数的聚类模型:
(7)(f)(年, z, b条1; K(K))=∫θK(K)(f)(年, z, b条1; K(K), θK(K))π(θK(K))d日θK(K). (7)
至于SICL的定义,变量年和b条1假设在给定的条件下独立z.使用贝叶斯公式,我们有
(f)(年, z, b条1; K(K), θK(K))=(f)(年, z; K(K), θK(K))(f)(b条1|年, z; K(K), θK(K)).
请注意,自年和b条1假设是独立的,给定z,的条件分布b条1鉴于z不依赖于年或混合物参数。因此,作为(f)(b条1|年,z;K(K),θK(K))=(f)(b条1|z;K(K)),如下所示:
(8)我o个克(f)(年, z, b条1; K(K))=我o个克(f)(b条1|z; K(K))+我o个克∫θK(K)(f)(年, z; K(K), θK(K))π(θK(K))d日θK(K). (8)
方程(8)中的最后一项可用ICL近似(K(K))根据方程式(3),第一项可以近似为
我o个克(f)(b条1|z^; K(K))=∑k个=1K(K)n个k个1我o个克n个k个1n个1,
哪里n个1=卡片{我:u个我1=1}和n个k个1=卡片{我:z^我k个=1 和 u个我1=1}.最后,(7)中表达式的渐近近似导致了ICAL标准:
ICAL公司(K(K))=ICL公司(K(K))+∑k个=1K(K)n个k个1我o个克n个k个1n个1.
将此标准推广到以下情况G公司>1基因注释是直接可用的。现在的目标是最大化综合注释可能性的对数:
我o个克(f)(年, z, b条1, …, b条G公司; K(K))=我o个克∫θK(K)(f)(年, z, b条1, …, b条G公司; K(K), θK(K))π(θK(K))d日θK(K).
假设b条1, …,b条G公司和年条件独立给定z,我们有
我o个克(f)(年, z, b条1, …, b条G公司; K(K))=我o个克(f)(b条1, …, b条G公司; z, K(K))+我o个克∫θK(K)(f)(年, z; K(K), θK(K))π(θK(K))d日θK(K).
此外,假设b条1, …,b条G公司是独立的,并且基因注释随机丢失,我们可以这样写
(9)(f)(b条1, …, b条G公司; z, K(K))=∏克=1G公司(f)(b条克|z, K(K)), (9)
导致广义ICAL标准:
(10)ICAL公司(K(K))=ICL公司(K(K))+∑克=1G公司∑k个=1K(K)n个k个克我o个克n个k个克n个克. (10)
比较ICAL和SICL如果我们忽略与u个我克=0(即该基因我可以与函数无关克或者该信息缺失),可以考虑使用SICL标准来选择模型尺寸K(K)在这种情况下,使用第2节中的符号并定义n个k个集群的大小k个,SICL可以写成如下:
SICL公司(K(K))=ICL公司(K(K))+笔SICL公司,
哪里
笔SICL公司=∑克=1G公司∑k个=1K(K)n个k个1克我o个克n个k个1克n个k个克+∑克=1G公司∑k个=1K(K)n个k个0克我o个克n个k个0克n个k个克,=∑克=1G公司∑k个=1K(K)n个k个1克我o个克n个k个1克+∑克=1G公司∑k个=1K(K)n个k个0克我o个克n个k个0克−G公司∑k个=1K(K)n个k个我o个克n个k个.
另一方面,使用第2节中的符号并定义n个.1克=∑k个=1K(K)n个k个1克,ICAL可以写成如下:
国际电工委员会(K(K))=ICL公司(K(K))+笔ICAL公司,
哪里
笔ICAL公司=∑克=1G公司∑k个=1K(K)n个k个1克我o个克n个k个1克n个.1克,=∑克=1G公司∑k个=1K(K)n个k个1克我o个克n个k个1克−∑克=1G公司n个.1克我o个克n个.1克.
我们注意到,上述方程中的最后一项是一个常数,与K(K)最后,我们可以将ICAL重写为SICL的函数:
(11)国际电工委员会(K(K))=SICL公司(K(K))−∑克=1G公司∑k个=1K(K)n个k个0克我o个克n个k个0克+G公司∑k个=1K(K)n个k个我o个克n个k个+常数. (11)
从方程(11)中,我们注意到SICL考虑了外部变量的模态(0和1)u个,而ICAL丢弃了空模态(−∑克=1G公司∑k个=1K(K)n个k个0克我o个克n个k个0克术语)。此外,可以看出,ICAL惩罚了大量的簇,而SICL没有(G公司∑k个=1K(K)n个k个我o个克n个k个术语)。因此,与SICL相比,ICAL倾向于选择聚类数量相对较少的简约模型。
考虑极端条件下ICAL和SICL标准的行为也很有帮助。如果集群数量K(K)等于1,ICAL惩罚笔ICAL公司等于零,而SICL惩罚笔SICL公司不为null(∑克=1G公司n个1克我o个克n个1克n个+∑克=1G公司n个0克我o个克n个0克n个).相反,如果簇的数量K(K)等于观察数,每个簇有一个基因,即SICL惩罚笔SICL公司等于零,而ICA惩罚不为零(∑克=1G公司n个1克我o个克n个1克).一般来说,ICAL倾向于合并聚类,将为相同功能注释的基因分组,从而减少最佳聚类的数量K(K)关于ICL选择的最佳簇数。SICL倾向于分裂簇以获得仅由注释基因组成的簇,相对于ICL选择的最佳簇数,增加了最佳簇数。换句话说,SICL倾向于选择比ICL更复杂的模型,而ICL倾向于选择比ICL更节省的模型。请注意,ICAL和SICL的这种行为是一种普遍趋势,而不是规则:ICAL并不总是合并集群,SICL也不总是拆分集群,因为不同解决方案的集群不一定相互嵌套。
R包ICAL中提供了实现我们方法的代码,可以在以下网站上找到:https://github.com/Gallopin/ICA.
4数字插图
4.1模拟设置
为了说明所提出的ICA准则的行为,我们考虑了一个数值例子。我们从四个双变量高斯分布的混合物中模拟了200个观测值,100个独立的时间(参见表1). 前两个部件彼此接近,而第三个和第四个部件与前两个部件明显不同,也彼此不同。对于由索引的给定模型K(K),使用R包Rmixmod(Biernacki等人,2006;Lebret等人,2015)对具有对角方差矩阵的高斯混合模型(即第页k个L(左)k个B类k个以Rmixmod包的符号表示的模型,对应于具有可变比例、可变体积、可变形状和垂直或水平方向的集群)。我们用簇数估计模型的参数K(K)从1到10不等,并执行模型选择以选择最合适的簇数。在100个复制数据集中,BIC最频繁地选择四个集群(81次)。事实上,我们注意到这些簇对应于模拟的高斯分量。ICL标准选择三个(54次)或四个集群(46次),因为它倾向于合并来自表1).
表1
模拟数据集的参数:前两个成分彼此接近,而第三个和第四个成分与前两个明显不同,也彼此不同。
组件 | 混合比例 | 组件分布 |
---|
1 | 0.25 | N个((00) , (1001.7)) |
2 | 0.25 | N个((05) , (1001.7)) |
三 | 0.25 | N个((98) , (0.1001)) |
4 | 0.25 | N个((90) , (1000.8)) |
我们通过模拟这些注释,并使用相应的SICL和ICAL标准执行模型选择,来说明解释外部基因注释在模型选择中的潜在效用。我们模拟了三种类型的功能注释:u个一个,u个B类和u个C类(请参见图1). 为第一个功能注释的基因u个一个由两个最接近的混合物组分共享(组分1和2来自表1). 此注释设计为与组件关联从这个意义上说,这表明了合并两个集群的兴趣,因为它们共享相似的联合分布和外部注释。为第二个功能注释的基因u个B类仅由两个明显不同的组件共享(组件3和4表1). 此注释旨在与组件无关:尽管组件具有相似的功能,但从建模角度来看,它们的联合分布过于明显,无法合并。最后,为第三个功能注释的基因u个C类随机分布在四个组件上:这意味着注释是混合的(半关联/半非关联)。对于每个函数,我们使用二项式随机变量模拟注释,参数固定为平均值n个不能注释了200多个可能的基因。在下面,我们测试了两个级别的注释密度d日不能=n个不能n个: d日一n个n个o个吨=0.05和d日不能=0.25. 由于ICAL和SICL标准可以与多个外部注释一起使用,因此我们还说明了包含多个注释的潜在效用。对于我们模拟中使用的每一组注释,注释的数量从1到12不等。集合中的每个注释都是独立模拟的。
4.2仿真结果
所有惩罚标准(BIC、ICL、SICL和ICAL)与一个模拟数据集的聚类数d日不能=0.05显示在图2A.在100个模拟数据集中,ICAL 72次选择三个集群,合并两个最接近的组件1和2(表2). 这三个集群解决方案对于u个一个,因为所有注释的基因都属于同一个簇。在这种情况下,关联注释提供的外部信息u个一个加强了车型选择。使用与相同的模式u个一个(注释仅由组件1和2共享),我们模拟了12个具有密度的独立关联注释d日不能=0.05. 合并集群的证据随着注释数量的增加而增加(一个注释对12个注释)。选择集合中的注释数(12个注释),以便合并簇的证据足够有力:在100个模拟数据集中,ICAL系统地选择了一个三簇解决方案(表2). 对于这组12个外部注释,ICAL的峰值显示在图2B比ICL的峰值要尖锐得多。相比之下,SICL更频繁地选择四个甚至五个集群解决方案,因为它导致偏好只包含注释基因的较小集群(即每个集群中注释的高度特异性)。这证明了ICAL标准相对于SICL的实用性,因为它没有正确考虑基因注释的特异性。
表2
每个模型的模拟数据集数量(K(K)=1,…,10)由BIC、ICL、SICL和ICAL为数个具有密度的外部注释选择d日不能=0.05,超过100个独立数据集,模拟参数详见表1.
| | K(K) | 1 | 2 | 三 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|
| | 银行识别码 | | | 19 | 81 | | | | | | |
| | ICL公司 | | | 53 | 47 | | | | | | |
关联的批注 | u个一个 | SICL公司 | | | 51 | 49 | | | | | | |
| | ICAL公司 | | | 72 | 28 | | | | | | |
| u个一个1, …, u个一个12 | SICL公司 | | | 27 | 70 | 三 | | | | | |
| | ICAL公司 | | | 100 | | | | | | | |
未关联的注释 | u个B类 | SICL公司 | | | 53 | 46 | 1 | | | | | |
| | ICAL公司 | | | 53 | 47 | | | | | | |
| u个B类1, …, u个B类12 | SICL公司 | | | 53 | 44 | 三 | | | | | |
| | ICAL公司 | | | 53 | 47 | | | | | | |
混合批注 | u个C类 | SICL公司 | | | 50 | 50 | | | | | | |
| | ICAL公司 | | | 67 | 33 | | | | | | |
多个注释 | u个一个,uB类,u个C类 | SICL公司 | | | 48 | 51 | 1 | | | | | |
| | ICAL公司 | | | 81 | 19 | | | | | | |
对于未关联的注释u个B类具有d日不能=0.05,信息标准的行为与一个模拟数据集的簇数的关系显示在图3答:我们注意到,ICAL标准的行为与ICL类似。在100多个模拟数据集中,作为ICL的ICAL导致了一些不确定性,即三集群解决方案(53次)还是四集群解决方案(47次)是最好的(表2). 在本例中,注释u个B类与组件无关,并且对结果聚类没有影响,即使集合中的注释数量增加到12个,每个注释都使用与相同的模式进行模拟u个B类如所示图3B.
最后,对于混合注释u个C类具有d日不能=0.05,ICAL最常选择三个簇(67次)或四个簇(33次)。因为注释u个C类混合,与信息注释相比,合并左侧两个簇的证据更少u个一个。同时使用三种类型的注释(u个一个,u个B类,u个C类),ICAL标准几乎系统地选择了三个集群(表2).
以下总结的数值结果强调了解释外部基因注释在模型选择中的潜在效用表2首先,这些结果表明,SICL不适合解释模型选择中的基因注释;最好的SICL行为与ICL类似,最坏的情况是错误地分割应该合并的集群。然而,如果外部信息与组件相关,即使是部分相关,ICAL标准的使用也会在功能可解释性方面改进模型选择。如果外部信息与组件无关,则ICAL标准的行为与ICL类似。
为了评估注释密度对结果的影响,我们重复了较高密度的实验(d日不能=0.25),总结如下表3一般来说,我们注意到,当集合中注释的数量增加时,合并簇的证据更强;对于较高密度的注释,需要在集合中使用较少数量的注释来合并簇。尤其是对于较低密度的注释(d日不能=0.05),增加集合中相关低密度注释的数量(从一个增加到十二个)也会增加合并簇的可信度;集群1和集群2在72%的时间内合并为单个注释,并在所有模拟数据集中系统地合并为一组12个注释(表2). 另一方面,对于更高密度的注释(d日不能=0.25),即使是一组单个注释,簇1和簇2也会系统地合并(表3). 如果注释密度高(即簇3和簇4中超过一半的基因被注释),多个不相关的注释可能导致过度简约的解决方案,例如表3.
表3
每个模型的模拟数据集数量(K(K)=1,…,10)由BIC、ICL、SICL和ICAL为数个具有密度的外部注释选择d日不能=0.25超过100个独立数据集,模拟参数详见表1.
| | K(K) | 1 | 2 | 三 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|
| | 银行识别码 | | | 19 | 81 | | | | | | |
| | ICL公司 | | | 53 | 47 | | | | | | |
关联的批注 | u个一个 | SICL公司 | | | 52 | 48 | | | | | | |
| | ICAL公司 | | | 100 | | | | | | | |
| u个一个1, u个一个2, u个一个三 | 西西里岛 | | | 53 | 47 | | | | | | |
| | ICAL公司 | | | 100 | | | | | | | |
未关联的批注 | u个B类 | SICL公司 | | | 53 | 47 | | | | | | |
| | ICAL公司 | | | 53 | 47 | | | | | | |
| u个B类1, u个B类2, u个B类三 | SICL公司 | | | 53 | 47 | | | | | | |
| | ICAL公司 | | 6 | 47 | 47 | | | | | | |
混合批注 | u个C类 | SICL公司 | | | 52 | 48 | | | | | | |
| | ICAL公司 | | | 94 | 6 | | | | | | |
多个批注 | u个一个,u个B类,u个C类 | SICL公司 | | | 51 | 49 | | | | | | |
| | ICAL公司 | | | 100 | | | | | | | |
5 RNA-seq数据分析
5.1 RNA-seq数据和聚类设置的表示
Mach等人(2014)分析了健康仔猪小肠中的转录组差异,以更好地了解其免疫反应。使用RNA-seq测量了12个样本中24924个基因的表达,对应于三个不同的组织(十二指肠、空肠和回肠),每个组织都为四个不同的健康仔猪测序。原始数据可在NCBI的SRA存储库(PRJNA221286 BioProject;SRR1006118至SRR1006133的材料)中获得,测序读数已按照Mach等人(2014)的描述进行了预处理(即质量控制、比对和基因表达估算)。我们使用edgeR软件包3.4.2版中实现的负二项广义线性模型进行了差分分析(Robinson等人,2010)。在使用Benjamini和Hochberg(1995)的方法将错误发现率(FDR)控制在0.05以下后,我们确定了4021个基因在任何组织中的差异表达。对于下面的共表达分析,我们将注意力局限于这组差异表达基因。
共表达分析是根据库大小乘以100万的计数对数进行的。Law等人(2014)使用了这种转换来稳定RNA-seq数据的典型不平等变量,并能够使用高斯线性模型。count表达式年ij公司基因的我用于样品j个(我=1, …,n个;j个=1, …,q个)转换如下:日志−中央处理器(年我j个)=我o个克2(年我j个+0.5N个j个+1×106),哪里N个j个是样本的总计数归一化因子j个根据全套基因计算。所有的重复都包括在转化后的聚类分析中,而不是在每个条件下对重复进行平均。
随后,使用Rmixmod软件包2.0.2版(Biernacki等人,2006)对1到50个簇的变换数据进行了高斯混合模型估计。对于每个模型,我们都使用了小型EM初始化策略(Biernacki等人,2003)和重复估计10次。
5.2功能注释数据的表示
分子特征数据库(Liberzon等人,2011年)由大脑研究所建立,提供注释基因集的集合,用于基因集富集分析软件(Subramanian等人,2005年)。分子特征数据库(MSigDB)包含来自多个来源的基因集集合:定位基因集、来自在线途径数据库的精选基因集、基序基因集、计算基因集、GO基因集、致癌经典途径和免疫特征。我们使用标准通路(CP)基因集集合,从在线代谢和信号通路数据库(如KEGG)的领域专家整理的1320个生物过程的标准表示(http://www.genome.jp/kegg)、BioCarta(http://www.biocarta.com(生物艺术网))和Reactome数据库(网址:http://www.reactome.org).
在数据库中的1320个CP中,有1131个在4021个差异表达基因中表示。我们使用Fisher精确检验选择注释基因在差异表达基因集合中相对于非空基因集合过度表达的CP。由于对每个可能的注释(即每个CP)都进行了测试,因此我们选择那些经过调整的注释第页-对多次测试应用Bonferroni校正后,该值小于0.05。此过程产生10个感兴趣的CP,如中所述表4.
表4
每个典型途径(CP)注释的基因数量:在4021个差异表达(DE)基因中,以及在MSigDB数据库的完整CP基因集集合中。
人物配对关系 | 姓名 | DE基因 | 总基因数 |
---|
1 | 脂质和脂蛋白的反应体代谢 | 141 | 480 |
2 | 小分子的反应体跨膜转运 | 124 | 415 |
三 | 反应性止血 | 99 | 468 |
4 | 反应体SLC介导的跨膜转运 | 73 | 243 |
5 | 反应体磷脂代谢 | 54 | 200 |
6 | 反应体脂肪酸三酰甘油和酮体代谢 | 53 | 170 |
7 | KEGG PPAR信号通路 | 34 | 71 |
8 | KEGG ECM受体相互作用 | 34 | 86 |
9 | 无机阳离子阴离子和氨基酸寡肽的反应体转运 | 33 | 96 |
10 | KEGG过氧化物酶体 | 31 | 80 |
5.3选型
我们比较了第2节和第3节中提出的四个不同标准的模型选择结果:BIC选择28个集群,ICL和SICL选择23个集群,而ICAL选择20个集群(参见图4).图5和6分别是ICL和ICAL解决方案产生的集群的热图。ICAL和ICL解决方案中集群之间的近似对应关系显示在表5虽然前者的结果并没有完全嵌套在后者中,但在许多情况下,在ICL解决方案中,基因归属于簇是ICL解决办法中几个簇坍塌或部分坍塌的结果。例如,ICAL合并了ICL解决方案中的大多数集群2以及集群5和18的部分,因为它们共享相似的表达式配置文件和功能注释,如图7这表明ICL倾向于一个稍微复杂一些的解决方案,正如预期的那样;我们接下来研究在给定所使用的CP集的情况下,ICAL的更简约的解是否看起来是相干的。
表5
ICAL溶液的20个簇相对于ICL溶液的23个簇的近似组成。
ICA集群 | ICL集群 |
---|
集群1 | 129 | | | | | | |
集群2 | 15 | | | | | | |
集群3 | 10 | | | | | | |
集群4 | 11 | | | | | | |
集群5 | 125 | + | 12 | + | 1220 | + | 1222 |
集群6 | 2 | + | 125 | + | 1三18 | | |
集群7 | 8 | | | | | | |
集群8 | 4 | + | 9 | + | 16 | | |
集群9 | 三 | + | 126 | | | | |
集群10 | 7 | + | 126 | | | | |
集群11 | 13 | + | 1420 | + | 1222 | | |
集群12 | 23 | | | | | | |
集群13 | 7 | + | 17 | + | 1三18 | | |
集群14 | 21 | | | | | | |
集群15 | 19 | | | | | | |
集群16 | 1 | | | | | | |
集群17 | 14 | + | 1三18 | | | | |
集群18 | 1 | | | | | | |
集群19 | 1420 | + | 125 | | | | |
集群20 | 16 | | | | | | |
对于ICL和ICAL解决方案,我们使用Fisher精确检验检验了簇和CP之间的关联。重要第页-值汇总于表6ICAL标准产生了一个聚类,该聚类最大化了每个CP在每个聚类中注释的基因数量,同时仍然只对具有足够相似表达谱的基因进行分组。例如,我们注意到CP8与ICL解决方案中的两个不同集群相关联,而它与ICAL解决方案中的单个集群相关联;类似地,CP10在ICL解决方案中与三个簇关联,而在ICA解决方案中仅与两个簇关联。另一方面,尽管ICAL解决方案中的簇10和簇17都共享CP10的注释,但这些簇并没有使用所提出的标准折叠成一个簇,因为它们的表达动力学差异太大。因此,ICAL解决方案似乎能够识别比ICL更具生物学解释性的簇,同时仍然确保簇基因共享足够相似的表达动力学。
表6
ICL解决方案(A)和ICAL解决方案(B)的集群和CP之间的关联表。
| 大小 | CP1公司 | CP2型 | CP3(CP3) | CP4类 | 第5页 | CP6(CP6) | CP7(CP7) | CP8系列 | CP9系列 | CP10公司 |
---|
(A) [ICL解决方案] |
集群2 | 58 | | ★ | ★ | ★ | | | | | | |
集群5 | 203 | | | | | | | | ★ | | |
集群6 | 47 | | | | | | | | | | ★★ |
集群7 | 258 | ★ | | | | | ★ | | | | ★ |
集群8 | 96 | | | | | ★★ | | | | | |
集群10 | 287 | | | | | | | | | ★ | |
集群14 | 225 | | | | | | | | | | ★★ |
集群22 | 144 | | | ★★ | | | | | ★★★ | | | |
(B) [ICAL解决方案] |
集群3 | 297 | | | | | | | | | ★ | |
集群5 | 379 | | | ★★ | | | | | ★★★ | | |
集群6 | 156 | | ★★ | ★ | | | | | | | |
集群7 | 92 | | | | | ★ | | | | | |
集群10 | 267 | ★ | | | | | ★★ | | | | ★★ |
集群17 | 235 | | | | | | | | | | ★★ |
最后,我们注意到,就所研究的生物过程而言,ICA溶液显示出两个特别有趣的簇:簇5(379个基因)与CP3(反应体内稳态,第页=0.0002)和CP8(KEGG ECM受体相互作用,第页=0.00001). 簇10(297个基因)与CP1(脂类和脂蛋白的反应代谢,第页=0.002),CP6(反应脂肪酸三酰甘油和酮体代谢,第页=0.005)和CP10(KEGG过氧化物酶体,第页=0.0001),均对应脂肪酸代谢。簇5和簇10都包含未知基因,这些基因可能是后续研究的良好候选基因,以确定它们是否与相应的典型路径有关。
6讨论
在本文中,我们提出了一种新的方法,将功能注释合并到基于模型的基因表达数据聚类中。为此,我们制定了一个模型选择标准,即综合完整注释可能性(ICAL),该标准旨在选择能够共同最大限度地提高数据质量以及聚类和注释关联性的模型。从生物学角度来看,ICAL标准旨在选择比BIC或ICL选择的模型具有更多可解释簇的模型。需要注意的是,功能注释不直接包含在聚类模型中,仅用于选择最佳模型。这种方法是两种相反策略之间的一种很好的折衷:直接在聚类模型中包含函数注释(Morlini,2011),或者完全排除它们,只使用它们来验证聚类后部。由于我们没有在聚类模型中包含注释,因此我们用比在聚类模型中将外部注释包含在内更有力的证据检测注释和聚类之间的关联。特别是,ICAL标准是一种很好的方法,可以在不太重要的情况下纳入先前的生物学专业知识,这是数据中可以观察到的内容与专家期望在数据中看到的内容之间的良好平衡。
如数值模拟所示,ICAL选择的模型取决于所提供的注释信息的质量。选择适当的注释以包含在ICAL中是一个重要的步骤,应该基于专家知识进行。我们还建议使用由专家手动管理的基因注释数据库,例如来自MSigDB数据库的基因集集合(Liberzon等人,2011年)。然而,注释的选择应反映特定研究所感兴趣的生物功能,因此很难提供关于在实践中如何选择此类注释的一般指导。我们注意到,如果所选择的注释与数据中存在的集群模式无关,则它们不会贡献任何信息,并且ICAL的行为往往类似于ICL标准。
在这项工作中,我们使用高斯混合模型框架应用了ICAL,但对其他混合模型的扩展是简单的;包括泊松(Rau等人,2015)或狄里克莱多项式混合模型(Holmes等人,2012)。此外,此模型选择策略可能对其他类型的数据有用,这些数据也可能与不完整的外部注释(例如社会学、市场营销)相关。