导言1
微生物在环境和人类生活中扮演着重要的角色。细菌和古生菌是在极端条件下被发现的,比如深海高温喷口和地表下的岩石钻孔(皮库塔et公司
艾尔。2007年). 微生物影响它们存在的环境,反之亦然。据估计,居住在人体内的微生物细胞大约是人类细胞的10倍(萨维奇,1977年). 微生物影响着人类的饮食、健康和医学(腮et公司
艾尔。2006年). 微生物影响人类健康的方式在很大程度上仍然是未知的。对人类微生物群的分析可能有助于我们更好地了解我们自己的基因组。
测序技术不断提高的质量和降低的成本为通过测序分析微生物群落提供了很大的机会。与传统的微生物研究相比,这是一个很大的进步,传统的微生物研究受到几个限制因素的阻碍。首先,只有一小部分微生物可以在实验室条件下培养。第二,实验室只能研究单个微生物,但众所周知,大多数微生物需要其他微生物才能生存。相比之下,测序技术可以让研究人员直接从自然环境中收集群落中所有微生物的全基因组信息,从而促进混合基因组调查(汉德斯曼et公司
艾尔。1998年).
当许多社区都有数据时,微生物之间的依赖关系(可以用相关性来衡量)可能为微生物之间的相互作用提供重要线索。然而,基于测序的调查数据的一个独特之处在于,它们只提供了群落中不同微生物的相对丰度,因为测序结果是测序深度和生物样本量的函数(镍et公司
艾尔。2013年). 因此,从混合基因组调查研究中收集的元基因组数据属于统计学中所谓的组分数据。有人指出皮尔逊(1897)一个多世纪前,为绝对值设计的相关分析方法可能导致成分数据的虚假相关性。对成分数据进行适当的分析和解释需要高度重视和专门的方法。菲尔兹莫瑟和赫隆(2009)提出了一种基于天平的组分数据相关性度量方法,但天平所定义的组分并不总是明确定义和分离的。浮士德et公司
艾尔。(2012年)提出了基于置换和bootstrap的CCREPE来推断相关显著性,但很难解释置换和bootstrap样本之间的差异。弗里德曼和阿尔姆(2012)引入了基于组合数据对数比变换的潜在变量相关概念,提出了稀疏假设下关联矩阵的近似推导方法SparCC。但SparCC没有考虑合成数据中误差的影响,这可能会降低估计精度。此外,不能保证从SparCC推断出的协方差矩阵是正定的,甚至相关系数也可能超出[-1,1]。
在本文中,我们提出了一种新的基于最小二乘法的方法ℓ1对原始成分数据进行对数比转换后的惩罚,通过潜在变量模型推断微生物之间的相关性,称为套索成分数据相关性推断(CCLasso)。与SparCC类似,CCLasso在相关分析中明确考虑了宏基因组数据的组成性质,并且其额外的好处是,组成数据的潜在变量的估计相关矩阵是正定的。我们还提出了一种有效的交替方向的增广拉格朗日方法来解决该方法所涉及的优化问题。通过交叉验证选择了平衡损失函数和稀疏假设的调谐参数。
通过对几种典型的CCLasso网络结构的仿真和相关分析,比较了CCLasso网络的性能。仿真结果表明,CCLasso算法比SparCC算法能更准确地估计相关矩阵,并具有更好的边缘恢复能力。将CCLasso和SparCC应用于人类微生物组工程(HMP)中微生物的相关网络估计时,我们发现CCLasso与SparCC具有一致的准确性和可重复性。但是对于经过混洗的HMP数据集,假设任何物种都没有相关性,SparCC总是会产生一些小的相关性,而CCLasso则会将这些小值缩小为0。我们认为CCLasso可以应用于研究自然环境和人体中由宏基因组数据产生的组分数据之间的相关性,它也可以广泛地应用于许多其他有兴趣评估成分数据变量相关性的环境中。
2种方法
2.1成分数据潜在变量的相关性
假设有p微生物种类及其绝对丰度是随机向量是的= (是的1, …, 是的p)这在实践中是无法直接观察到的。相反,只有合成随机向量十= (十1, …, 十p),
可以从生物学实验中观察到。绝对丰度是的被称为潜在变量,因为它们不能被直接观察到。加性对数正态分布(艾奇森和沈,1980年)是一个特殊情况方程(1)什么时候是的来自多元对数正态分布。三者之间的关系是的比十在实践和理论上都是。微生物之间的相互作用描述如下是的而组成向量呈负相关趋势十即使在没有任何相关性的情况下是的,
让是微生物种类的绝对总丰度。潜在绝对丰度之间的协方差是的,以及它的组成代表十,它们可以通过基部联系起来方程(1),
从ln开始十我=ln是的我−lnw. 让Σln十=变量(ln十),Σln是的=变量(ln是的)以及一=Cov(ln是的,lnw)−Var(lnw)1p/2其中1p是一个p×1向量的1′s,则矩阵形式之间的联系Σln十和Σln是的可以描述为
我们可以把重点放在是的我们也叫ln是的潜在变量。什么时候?十由加性logistic正态分布得到ln之间的独立性是的相当于是的。因为有信息丢失是的到十通过规范化程序(方程式1),估计问题Σln是的从样本估计Σln十在没有任何假设的情况下是未定义的。很容易从中看出方程式(2)在那里p(p+1)/2等式但是p(p+1)/2+p未知参数。
解决这个问题的一个方法是假设Σln是的是稀疏的,这意味着与完全连通的网络相比,微生物物种间的相互作用网络在所有可能的边缘中所占的比例很小。稀疏结构是线性回归模型等欠确定问题的一种常见假设(蒂比拉尼,1996年),高斯图形模型(袁和林,2007)以及压缩感知(坎迪斯和陶,2005年)其中未知参数的数量比数据点的数量更大,有时甚至更大。对于合成数据,可能存在多个对应的稀疏网络Σln十因为是的以及它的缩放形式C(是的)是的(C(是的)是任意正随机变量,它是一个比例因子)不能与基数区分方程(1)如果两者都有Σln是的和Σln(C(是的)是的)是稀疏的。稀疏程度Σln是的是因为最多有一个稀疏网络Σln是的边缘密度不大于对应于相同的Σln十. 而且这种稀疏密度条件不能放松(参见补充材料). 研究潜在变量ln之间的相关性的统计方法很少是的除了最近引入的一些方法,例如SparCC(弗里德曼和阿尔姆,2012年).
删除一在方程式(2),我们可以选择秩(F)=p−1和F1p=0且两边有多个F方程式(2),
左手方程(3)是Fln的方差十与右对应的Fln是的. 他们的关系可以看作是
上述关系可以解释F的两个约束条件。秩(F)=p−1确保十和Fln十因为有常数和约束十。因此,从Fln的统计推断中不存在信息损失十而不是十。一层楼p=0有助于取消公分母w日志转换后。有许多这样的变换矩阵满足这两个约束条件,例如F=(ep−1个,−1个p−1个)是累加对数比的线性变换,其中参考变量为十p和对于组分数据的中心对数比,其中Ep是一个p × p单位矩阵(艾奇森,1982年).
让Σ= Σln是的= [σ我j]p×p. 示例版本S属于Σ八九十可以通过贝叶斯伪计数方法从原始数据如宏基因组数据中进行分数估计后得到(阿格雷斯蒂和希区柯克,2005年). 从方程(3)以及样本估计S对于Σln十,我们可以得到下面的估计方程,
因为等级(F)=p−1和∑是p × p正定矩阵∑不能通过方程(3). ∑的额外稀疏假设在许多应用环境中是合理的,例如在元基因组数据中,因为当组分数量很大时,大多数变量对不需要相关。因此,我们可以在没有其他先验信息的情况下,施加一些稀疏约束来帮助建模和推断∑。
2.2 SparCC及其局限性
弗里德曼和阿尔姆(2012)提出了一种迭代逼近方法SparCC来求解估计方程(4)对于变换矩阵F的几种特殊形式,SparCC首先得到了潜在变量ln方差的粗略估计是的我以及相应的相关矩阵。然后用一个阈值去除最相关的对,重复估计方差和相关性,直到满足某些终止条件。
根据上述符号,SparCC的算法可以概括如下。首先,SparCC从一个粗略的近似中得到∑对角线的估计
粗略近似(式5)附加用品p方程方程(4). 这一假设意味着,平均而言,每个成分与其他成分没有相关性。让F1=(−1p−1个,Ep−1个)以及Σ12= (Σ21)T=Cov(ln是的1,ln是的−1个), Σ22=变量(ln是的−1个)其中ln是的−1个=(ln是的2,…,ln是的p)T,那么方程(4)可以这样写,
计算上述方程两边的轨迹,我们得到
如果,那么让F我, 我=2p是加法对数比变换矩阵,其中十我是参考变量,例如Fp=(E,−1p−1个). 然后类似于F1,我们有对于我=2p从假设中(式5). 相应的解决方案是
自从. 然后代入得到基本系数方程式(6)进入之内方程(4). 其实,以上程序只是一种解决的方法方程(4)和方程式(5). 这在中称为基本SparCC弗里德曼和阿尔姆(2012). SparCC的一个潜在问题是σ二在里面方程式(6)可能是负数,所以是最小值五最小需要更换负极σ二.第二,SparCC采用迭代求精方案,在对应的幅值超过给定阈值时排除最强相关对α.这个σ二根据另一个假设,通过删除最重要的相关对来更新方程式(5),
哪里C我表示ln的一组指数是的j经鉴定与ln有很强的相关性是的我. 最后,SparCC重复前两个步骤来更新方差σ二以及ln的相关矩阵是的穿过门槛α在给定的迭代时间内,或者直到没有新的强相关对被识别或只剩下三个分量为止。SparCC选择一个相关阈值来给出一个交互网络。
据我们所知,SparCC是推断潜在变量之间相关性的第一种方法是的对于成分数据。第二步是有效的消除假设(式5)在第一近似步骤中方程式(7)在移除最强的对之后。尽管SparCC在分析成分数据方面取得了重大进展,但它在近似计算方面有一些局限性。首先,SparCC直接解决方程(4)在一系列近似假设下方程(4)受这些近似值产生的误差的影响。第二,没有考虑估计的相关矩阵的整体性质。SparCC不能保证推断的相关矩阵是正定的,甚至估计的相关性也可能超出[-1,1]。
2.3套索
我们首先注意到方程(3)加上样本方差S是ε=(F⊗F)向量(Σ − S),其中ε满足E(ε)=0和Var(ε)=(F⊗F)Var(向量(S))(六)T⊗FT). 让五S=Var(向量(S)),则逆方差加权损失函数可给出如下:,
这里的逆符号米−1个Moore Penrose的伪逆米(彭罗斯和托德,1955年). 减少损失的解决方案1(Σ)在方程式(8)满足估计值方程(4). 损失函数的一个重要性质(式8)它对线性变换矩阵F的任何选择都是不变的。这个性质是由于原始数据中∑的信息在对数比变换后保持不变。
功能丧失1(Σ)在方程式(8)太复杂,无法处理高维协方差矩阵五S(p2 × p2). 灵感来自张和邹(2012)对于样本方差的方差近似,我们可以用下面的损失函数来代替方程式(8),
变换矩阵F方程式(9)应该合理选择。考虑到组件的对称性,让具有对称投影性质的中心对数比变换矩阵. 研究表明,在某些高维问题中,将损失函数中的加权协方差矩阵视为对角矩阵具有很好的效果(陈et公司
艾尔。2013年). 让. 我们可以考虑另一种替代损失函数,
对角矩阵五可以看作F的标准化矩阵0(Σ − S)F0. 该方法的核心思想是利用损失函数(式10)因为它简单。
合并∑稀疏假设的合理方法是最小化损失函数和适当的惩罚。理想的惩罚函数是Σ−它是∑的反对角线。但是当优化涉及到||Σ−||0是一个指数复杂度的组合优化问题。一种常用的方法是替换ℓ0-规范ℓ1-标准(蒂比拉尼,1996年;袁和林,2007). 我们考虑以下功能和目标损失ℓ1处罚,
潘在哪里(Σ) = λn||Σ−||1. 调谐参数λn≥0英寸方程式(11)用于平衡模型的拟合度(三)以及∑的稀疏性假设。CCLasso的目标是找到一个正定矩阵以便
哪里Σ≻0表示∑应为正定。相应的相关矩阵估计可以通过标准化. 所涉及的优化问题方程式(12)因为两个目标函数都是凸的f(Σ)以及约束区域{Σ|Σ≻0}是凸的。所以局部最小化方程式(12)是全球性的。
与SparCC相比,CCLasso明确考虑了估计背后的误差项方程(4)通过损失函数(式10). 稀疏假设直接通过一个附加的ℓ1-与附加假设相反的类型惩罚函数(式7)对于SparCC。估计的相关矩阵方程式(12)是正定的,其元素位于正定限制的[-1,1]中。
2.4优化算法及选择λn
针对CCLasso中的约束优化问题,提出了一种基于交替方向法的高效算法(张、邹,2012). 轻松的版本方程式(12)可以在去掉正定约束后得到,
如果解决方案在里面方程(13)是正定的,. 否则最近的正定矩阵用作.
推导一种交替方向法方程(13),我们引入了一个新的矩阵Σ1重写方程(13)具体如下:,
我们考虑增广拉格朗日函数
其中| |··||F是矩阵Frobenius范数。让逐步解决问题k,我们更新(Σ, Σ1, Λ)根据
和. 让Σk+1= S+ Δk+1为(14),我们可以写
上面右边的目标函数是Δ和的二次函数Δk+1解如下:,
让(下标11表示删除最后一行和最后一列)作为相应矩阵的特征值分解,则上述方程的解为
式中,°是矩阵和.
更新,我们定义了一个运算符G(A, λ)具体如下:,
从方程式(15),我们写道
那么上述问题的解决方案是下面的算法详细总结了上述交替方向法求解优化问题的实现方法(式12)为了卡索。
初始化:k = 0,Λ0,.
重复(a)-(d)直到Σk和聚合:
Σk+1 ← S+ Δk+1哪里Δk+1是屈服的方程式(16);
;
;
k ← k+1。
返回聚合的Σk作为解决方案定义于方程(13).
调谐参数λn≥0英寸方程式(11)必须进行调整,因为它控制了模型适应度之间的平衡(方程式3)稀疏性假设。AK-损失函数的一般交叉验证(式10)用于选择λn在本文中。首先,将所有样本分为K不相交的子群,如褶皱我k对于k=1K. 这些折叠将依次用作训练集和测试集。第二,每个人k=1K,计算Sk和S−k对应于Var(ln)的样本估计p)通过我k和我1, …, 我k−1个, 我k+1, …, 我K. 下标-k意味着使用所有样本k-向左折叠。权重矩阵五因为训练数据和测试都是基于所有的数据。第三,让S= S−k然后计算估计值通过方程式(12)每1≤k ≤ K. 然后计算K-调整参数的折叠交叉验证错误λn,
最后,我们选择作为最终的调谐参数。
3结果
3.1模拟研究
虽然基因组调查研究的目标是从丰度计数矩阵推断微生物群落成员之间的相关性,但可以比较使用CCLasso或SparCC的相关矩阵的估计精度,以评估它们的相对性能,因为它们都基于相同的潜在假设,如方程(1). 这两种方法的本质区别在于得到分数估计后的估计过程。
成分数据由加性logistic正态分布模拟,具有给定的均值和协方差矩阵,
变化参数μ控制部件的不平衡。每一个元素μ由[−0.5,0.5]的均匀分布生成。在我们的仿真中,我们重点比较了SparCC和CCLasso在不同稀疏度的稀疏相关矩阵上的性能。考虑五种协方差结构:
随机模型:每对分量以给定概率0.3连接,相关强度为±0.15,等概率为0.5。
邻居模型:随机选择p[0,1]中的点2飞机。然后用相关强度0.5连接每个点的10个最近邻。
AR(4)型号:连接对(我,j)如果|我 − j|≤4,当距离分别为1、2、3或4时,将相关强度设为0.4、0.2、0.2或0.1。
枢纽模型:随机选取3个点作为枢纽,另一个作为枢纽p–3点作为共同点。然后以0.7的概率将每个轮毂连接到其他轮毂上,同时在公共点之间创建概率为0.2的边,所有边强度设置为0.2。
块模型:分割p平均分为5个区块。以概率0.6和相关强度0.4连接同一块中的每一对,以概率0.2和相关强度0.2连接不同块中的点。
为了使协方差矩阵正定,将∑的对角元素设置得足够大,然后将其归一化为1。随机模型是一种非常常见的图模型,其中每个可能的边都以相同的概率独立出现。通过等概率设定强度为±0.15,随机模型基本满足假设方程式(5)和(七)斯巴克的。邻域模型是一种二维地理模型,其中最近邻之间存在边。AR(4)模型可以看作是一个点沿着距离不大于4的节点之间存在边的直线进行线性排序的模型,并且相关性随着距离的增加而减小。集线器模型描述了一个图,其中一些特殊的节点(称为集线器)以比其他节点之间的连接概率更高的概率连接到其他节点。块模型定义了组内边缘概率高于组间边缘概率的网络聚类。所有模型都具有不同程度的稀疏性。邻域模型和AR(4)模型中的期望边数与p虽然p2对于随机、集线器和块模型。
对于所有型号,我们p = 50,并考虑不同的样本量n = 200、300和500。每种型号,以及(p,n),我们重复模拟100次。调谐参数λn是通过3次交叉验证确定的,所有数据都用来估计∑和相关矩阵。我们使用R和默认的调优参数重新实现了SparCCα=0.1,k最大值 = 10和五米我n=10−4个在最终相关性被-1和1截断作为下限和上限时使用。SparCC对于它的调优参数是健壮的,因为在每次迭代中只删除最强的一对(补充图S1).
为了比较CCLasso和SparCC在模型设置和样本量的每个组合下的性能,我们用平均绝对误差定义了相关推断的精度以及Frobenius范数距离估计的相关矩阵之间而真正的那个呢ρ.利用接收机工作特性曲线(AUC)下的面积来评估CCLasso和SparCC在恢复稀疏协方差矩阵∑中非零项的性能,以避免阈值参数的选择。
总结了CCLasso和SparCC在仿真研究中的性能d1和dF距离和AUC。当样本量从200增加到500时d1和dF在每个模拟设置中减少CCLasso和SparCC。CCLasso的估计误差小于SparCC。相应的结果表明CCLasso比SparCC具有更好的模拟性能。这可能是因为CCLasso考虑了随机错误,而SparCC没有。在边缘恢复方面,除了随机图模型在样本大小为200和300时,CCLasso的性能也优于SparCC。这可以解释为随机模型大致满足假设方程式(5)和(七)斯巴克的。准确度和AUC不一致,例如d1和dF在随机模型中,CCLasso比SparCC小,但SparCC的AUC大于CCLasso。造成这种现象的原因是,准确度衡量的是估计值与真实值之间的连续距离,而AUC则显示了非零和零之间的区别。
表1。
基于仿真结果的CCLasso和SparCC性能比较
n | 方法 | d1 | dF | AUC |
---|
随机模型 | | | | |
200 | 套索 | 0.033(0.001) | 2.954(0.049) | 0.791(0.015) |
| 斯巴克 | 0.057(0.001) | 3.528(0.080) | 0.823(0.014) |
300 | 套索 | 0.028(0.001) | 2.409(0.057) | 0.885(0.012) |
| 斯巴克 | 0.047(0.001) | 2.901(0.059) | 0.891(0.011) |
500 | 套索 | 0.0.001(0.023) | 1.994(0.053) | 0.953(0.007) |
| 斯巴克 | 0.038(0.001) | 2.332(0.056) | 0.951(0.006) |
邻域模型 | | | | |
200 | 套索 | 0.039(0.003) | 3.355(0.206) | 0.948(0.015) |
| 斯巴克 | 0.076(0.001) | 4.606(0.081) | 0.888(0.014) |
300 | 套索 | 0.033(0.002) | 2.675(0.151) | 0.986(0.006) |
| 斯巴克 | 0.070(0.001) | 4.176(0.060) | 0.931(0.009) |
500 | 套索 | 0.026(0.002) | 2.064(0.121) | 0.999(0.001) |
| 斯巴克 | 0.065(0.001) | 3.800(0.041) | 0.967(0.006) |
AR(4)模型 | | | | |
200 | 套索 | 0.021(0.001) | 2.444(0.134) | 0.885(0.021) |
| 斯巴克 | 0.061(0.001) | 3.766(0.087) | 0.858(0.019) |
300 | 套索 | 0.018(0.001) | 1.994(0.133) | 0.922(0.017) |
| 斯巴克 | 0.052(0.001) | 3.210(0.078) | 0.890(0.017) |
500 | 套索 | 0.015(0.001) | 1.549(0.087) | 0.958(0.011) |
| 斯巴克 | 0.044(0.001) | 2.693(0.059) | 0.918(0.011) |
轮毂型号 | | | | |
200 | 套索 | 0.037(0.001) | 3.453(0.037) | 0.749(0.021) |
| 斯巴克 | 0.067(0.001) | 4.194(0.070) | 0.690(0.014) |
300 | 套索 | 0.036(0.001) | 3.133(0.047) | 0.768(0.021) |
| 斯巴克 | 0.059(0.001) | 3.686(0.049) | 0.735(0.012) |
500 | 套索 | 0.032(0.001) | 2.918(0.048) | 0.828(0.018) |
| 斯巴克 | 0.051(0.001) | 3.248(0.043) | (788.0万) |
块体模型 | | | | |
200 | 套索 | 0.039(0.001) | 3.307(0.113) | 0.782(0.014) |
| 斯巴克 | 0.070(0.001) | 4.268(0.072) | 0.734(0.010) |
300 | 套索 | 0.035(0.001) | 2.773(0.079) | 0.854(0.014) |
| 斯巴克 | 0.062(0.001) | 3.788(0.052) | 0.765(0.011) |
500 | 套索 | 0.029(0.001) | 2.258(0.076) | 0.924(0.011) |
| 斯巴克 | 0.057(0.001) | 3.374(0.038) | 0.796(0.012) |
有关ROC的更详细结果如所示. 随着样本量的增加,CCLasso和SparCC之间的差距也随之增大。对于0.1等较低的假阳性率,除随机图模型外,CCLasso的真阳性率均大于SparCC。一个有趣的现象是,CCLasso和SparCC对于hub模型的性能都很差,但是随着样本量的增加,估计效率提高。对于某些特殊的图形结构,例如hub模型和块模型,在给定的精度下,应该使用比其他模型大得多的样本量。我们还通过ROC对CCREPE和CCLasso进行了比较,发现CCREPE的性能与SparCC相似(补充图S2).
CCLasso和SparCC的ROC曲线。确定假阳性率后,平均100次重复的真阳性率,灰色线为基线参考
3.2 HMP数据
由于我们和我们体内的微生物有着密切的关系,人类微生物组项目联盟(2012年a,b)目的探讨微生物在人类健康和疾病中的基本作用。利用HMP健康个体16S可变区3-5(V35)的高质量测序读数,探索18个身体部位微生物之间的相互关系,并从HMPOC数据集中获得相应的操作分类学单位(OTU),可在http://www.hmpdacc.org/HMMCP/. 我们考虑第一阶段生产研究(2010年5月1日)和从同一个体的身体部位采集多个样本的第一个样本。通过移除读取次数少于500次或收集到超过60%0的样本,以及移除平均每个样本读取次数少于2次或超过60%0的OTU,进一步过滤数据。由于CCLasso和SparCC都假设0为OTU计数不是实的0分数。CCLasso将所有计数加上最大舍入误差0.5,然后将计数标准化以获得成分数据。弗里德曼和阿尔姆(2012)为SparCC提供了从计数中估计分数的贝叶斯框架。SparCC的最终估计值是来自分数后验分布的20个重复样本中估计值的中位数。
由于在实际数据中没有分类单元-分类单元相互作用的真实相关网络的先验信息,我们使用一致的准确性和再现性来比较CCLasso和SparCC的性能。首先,所有数据被用来构建CCLasso和SparCC的金标准参考相关矩阵。由于使用了所有数据,因此该步骤中估计的相关矩阵被视为“已知”。其次,我们随机选取半个样本,通过CCLasso和SparCC估计相关矩阵。通过第一步和第二步估计的相关矩阵之间的Frobenius范数距离来衡量一致精度。一致的再现性通过在第一个黄金参考网络(仅使用顶部1/4边缘)中为这两个步骤共享的相同边缘的分数来测量。此程序重复20次,以获得稳定的结果。
结果总结如下. CCLasso和SparCC在一致的准确性和再现性方面具有相似的性能。当样本量较小时,重复性较低。即使对于大样本量,如左前肘窝,CCLasso和SparCC的重复性也只有0.64。从模拟数据中我们可以发现一致的准确度和再现性不是很好的标准(补充表S1). 由于CCLasso的交叉验证有多个优化过程,SparCC比CCLasso更快(补充表S2). 再现性对于上边缘的选择是稳健的(补充表S3). 我们还比较了CCLasso和SparCC对所有身体部位的所有样本推断出的相关网络,发现它们的结果非常相似(补充图S3和表S4).
表2。
从HMP数据得出的CCLasso和SparCC在不同身体部位的一致的Frobenius准确性和再现性
身体 | 样品 | 弗罗贝尼乌斯准确度 | 再现性 | |
---|
现场 | 大小 | 套索 | 斯巴克 | 套索 | 斯巴克 |
---|
安特纳 | 152 | 2.28(0.17) | 2.22(0.12) | 70.0分 | 0.68(0.05) |
阿克林 | 193 | 1.71(0.13) | 1.56(0.14) | 0.75(0.04) | 0.77(0.05) |
鼻涕 | 196 | 2.47(0.17) | 2.11(0.11) | 0.71(0.03) | 0.72(0.03) |
哈帕 | 197 | 2.57(0.18) | 2.24(0.13) | 0.79(0.03) | 0.80(0.03) |
兰特福斯 | 51 | 4.35(0.31) | 6.57(0.51) | 0.64(0.05) | 0.64(0.04) |
LRetCre公司 | 123 | 2.24(0.21) | 2.30(0.15) | 0.69(0.04) | 0.66(0.04) |
迷走神经 | 45 | 2.69(0.48) | 3.35(0.59) | 0.64(0.08) | 0.64(0.07) |
帕顿 | 203 | 2.76(0.17) | 2.31(0.17) | 0.83(0.02) | 0.83(0.02) |
PosFor公司 | 22 | 3.34(0.68) | 2.98(0.80) | 0.67(0.14) | 0.68(0.11) |
兰特福斯 | 54 | 3.31(0.37) | 6.32(0.32) | 0.54(0.03) | 0.60(0.04) |
RRetCre公司 | 85 | 2.64(0.17) | 3.50(0.20) | 0.63(0.04) | 0.61(0.05) |
唾液 | 184 | 2.95(0.14) | 2.75(0.13) | 0.75(0.03) | 0.77(0.03) |
大便 | 190 | 1.81(0.13) | 2.10(0.16) | 0.72(0.04) | 0.71(0.03) |
次级 | 205 | 2.89(0.23) | 2.45(0.18) | 0.82(0.02) | 0.84(0.03) |
供应 | 207 | 2.74(0.22) | 2.31(0.12) | 0.82(0.02) | 0.85(0.02) |
喉部 | 197 | 2.79(0.15) | 2.48(0.14) | 0.03(百分之七十九) | 0.80(0.02) |
通多 | 207 | 2.52(0.22) | 2.00(0.17) | 0.83(0.02) | 0.84(0.02) |
流浪汉 | 52 | 2.93(0.27) | 2.94(0.21) | 0.65(0.06) | 0.63(0.05) |
我们还通过随机HMP数据比较了CCLasso和SparCC的性能。每个otu的个体计数被置换,因此它不应该发现物种之间的任何相关性。显示了通过CCLasso和SparCC对无序数据集估计的相关性的柱状图。CCLasso几乎没有检测到任何相关性,但是SparCC中总是有一些小的相关性。在这种情况下,CCLasso的表现优于SparCC。我们将CCLasso和SparCC用于另一个数据集,发现SparCC检测到太多强且无意义的边缘(补充图S4).
通过CCLasso和SparCC对随机HMP数据集估计相关性的直方图