总结

缺失数据率可能取决于许多环境中的目标值,包括基于质谱的蛋白质组分析研究。在这里,我们考虑具有不可忽略损失的多元高斯分布下的均值和协方差估计,包括以下情况:(第页)响应向量的(n个)独立观察结果。通过最大化一类惩罚似然函数来开发参数估计程序,该函数需要对缺失数据概率进行显式建模。在模拟研究和蛋白质组数据图解中评估了由此产生的“包含缺失数据机制的惩罚EM算法(PEMM)”估计程序的性能。

1.简介

基于质谱(MS)的平台充当主力(Faa等人,2006年)在蛋白质组学分析研究中。然而,由于数据丢失率高和丢失模式复杂,正确分析基于MS的实验中的蛋白质组学数据仍然具有挑战性。例如,在我们的应用程序中第5节一个样品的漏检率高达50%。

当数据集中缺失值的比例很大时,简单地忽略缺失值的观测值是不合适的(鲁宾,1976年Little和Rubin,2002年). 已经提出了各种统计方法来进行基于不完整数据的有效推理(Afifi和Elashoff,1966年Dempster等人,1977年鲁宾,1987,1996谢弗,1997年). 关键的一步是在研究中描述缺失的性质。为此,鲁宾(1976)定义了三种缺失数据机制:完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(NMAR)。基于忽略缺失数据机制的方法的推断对于MCAR或MAR仍然有效,但对于NMAR数据无效(Little和Rubin,2002年)。

为了正确描述蛋白质组学数据中缺失数据的机制,我们首先需要对实验过程和相关仪器测量特性有一个很好的了解。典型的基于MS的蛋白质组学实验是从酶消化完整的蛋白质到肽——氨基酸序列的小片段。然后,将肽引入MS仪器进行鉴定和定量。最后,根据肽的鉴定和定量,推断出蛋白质的存在和丰度。由于MS仪器的动态特性,实验中的许多因素可能导致最终蛋白质丰度数据的丢失。例如,MS机器可能无法检测低丰度肽的微弱信号。或者,即使仪器检测到信号,低丰度肽的峰值强度可能太低,无法在数据处理过程中与背景噪声区分开来。因此,丰度越低,肽在MS输出数据中“缺失”的可能性越大。除了丰富之外,蛋白质的其他物理或化学性质也可能导致其缺失。例如,在MS实验中,通常只由少数肽组成的小蛋白质比由许多肽组成的大蛋白质更有可能“缺失”。因此,蛋白质缺失的概率也取决于蛋白质中肽的数量(或大致上,蛋白质的大小)。根据这些观察结果,将蛋白质组学数据中的缺失数据机制建模为待测丰度的函数以及其他相关变量,为认识这些实验复杂性的主要方面提供了一种有吸引力的方法。注意,蛋白质组学数据中的丰度依赖性缺失数据机制不涉及明确的检测阈值,因此使用概率缺失数据机制比使用审查模型更合适(Little和Rubin,2002年)。

在本文中,我们重点研究了联合估计多个蛋白质的平均丰度水平及其协方差的问题,即在丰度相关缺失的不完全数据中,当论坛论坛解决这个问题可以极大地促进高维组学数据分析,例如基于通路/基因的假设测试或判别分析。在这里,我们建议用一类指数函数对丰度相关的缺失数据机制进行建模,并寻求参数估计,以最大化观测数据和缺失事件的联合似然,假设多个蛋白质丰度水平遵循多元高斯分布。此外,为了处理高维-低样本问题,我们采用了惩罚似然方法。我们对协方差矩阵施加了逆Wishart惩罚,从贝叶斯的角度来看,这相当于多元高斯分布的共轭先验。这种惩罚在计算上是有效的,因为它为数据完成时的最大惩罚似然估计提供了一个简单的封闭式解决方案。

由于样本通常缺失不同的蛋白质,因此具有不同的似然函数,因此在存在缺失数据的情况下,通常没有封闭式解决方案来最大化联合(惩罚)似然函数。为了获得不完全数据下的最大似然估计,EM算法及其扩展(Dempster等人,1977年孟和鲁宾,1993Neal和Hinton,1999年)已经被广泛应用于各种应用中。EM算法因其易于实现和单调收敛的数值稳定性而广受欢迎(吴,1983). 然而,它可能会缓慢收敛,也可能不会收敛到全局最大值(McLachlan和Krishnan,1996年). 为了提高其数值性能并提供更有效的参数估计,在EM框架中引入了正则化。绿色(1990)提出了在M步中最大化惩罚似然函数的方法,并证明了相应的EM算法具有更快的收敛速度。相反,施耐德(2001)在每次迭代中都将惩罚引入E-step,并允许惩罚在迭代中发生变化。然而,尚不清楚EM的典型收敛特性是否在该过程中得到保留。在最近的工作中(Städler和Bühlmann,2012年Städler等人,2012年),EM框架中使用稀疏惩罚来处理丢失为MAR时的高维多元数据,目的是控制逆协方差矩阵的稀疏性。对于不可忽略的丢失数据,Little和Rubin(2002年,第15.2章)概述了EM算法的框架,以纳入一般NMAR机制。相比之下,本文的主要创新之处在于,我们在一般惩罚EM框架中引入了一种特定的NMAR机制。我们针对具有不可忽略丢失的数据,提出了一种包含丢失数据机制的惩罚EM算法PEMM。我们实现了所提出的PEMM算法,用于具有丰度相关缺失的多元高斯数据的参数估计。

本文的其余部分组织如下。第2节,我们提出了包含缺失数据机制的惩罚联合似然模型。第3节,我们概述了PEMM算法,并针对第2节。我们在模拟数据和蛋白质组数据集上将所提出的方法与竞争方法进行了比较第4节5分别是。然后,我们在第6节

2.型号

论坛表示没有缺失值的完整高斯数据,其中论坛代表j个的第个功能主题。论坛表示在第个样本;然后让论坛论坛表示中观察到的和缺失的组件第个样本。论坛是缺失指标矩阵,这样论坛如果论坛丢失,并且论坛如果论坛观察到。缺失数据机制的特征是论坛.如果论坛取决于中缺少的值论坛,该机制是NMAR,忽略缺失数据机制会导致无效的参数推断。因此,在本文中,我们将显式建模论坛并估计论坛,论坛、和论坛通过寻求完全似然的最大似然估计,即观测数据的联合似然论坛和missing-indicator矩阵论坛以下为:

2.1. 蛋白质组学数据中的缺失数据机制

考虑到完整的丰度数据,通常可以合理假设论坛以及相关的相应协变量数据论坛,不同特征的缺失是相互独立的:

我们还假设,对于给定的特征,其缺失并不取决于其他特征的丰度或协变量:

哪里论坛是与j个的第个功能主题。例如,的元素论坛可以是这个尺寸(论坛肽)的j个th蛋白,不同受试者的值相同;也可以是相应洗脱时间的总检测离子丰度j个第th蛋白第个实验。然后我们建议建模论坛具有有界指数函数:

(1)

哪里论坛是缺失数据机制的参数,与感兴趣的参数不同论坛.表示积极论坛,该概率函数随丰度单调减小,论坛,与上述丰度依赖性缺失数据机制一致。

请注意,对于使用标记策略的一些平台,实验的输出是测试样本与参考样本中丰度的对数比率,绝对值较小的对数比率更容易丢失。这种缺失数据机制可以使用有界二次指数形式进行建模:

(2)

Web附录F中提供了使用上述缺失数据机制的对数丰度数据估算程序开发。在这里,我们选择使用论坛而不是论坛在里面(2)为了计算方便。

2.2. 惩罚联合可能性

将观测数据和缺失诱导因子矩阵的联合对数似然表示为论坛哪里论坛论坛是感兴趣的平均和协方差参数;论坛是观测到的协变量数据;论坛是令人讨厌的缺少数据机制参数。我们的目标是获得MLE:

(3)

暂时我们假设论坛是完全已知的。我们将用论坛中的已知和未知参数第3.2.1节3.2.2分别是。

什么时候?论坛论坛,MLE进入方程式(3)通常不令人满意,甚至没有明确的定义。例如,如果没有遗漏论坛多元高斯分布的样本均值论坛和样本协方差矩阵论坛.何时论坛,论坛变得奇异,不再是论坛

为了避免这些困难,正规化是非常有价值的。一个自然的策略是考虑惩罚的可能性并寻求最大惩罚似然估计(MPLE):

(4)

哪里论坛是上的惩罚函数论坛MPLE的性能在很大程度上取决于惩罚条款的选择论坛。在指定时,必须同时考虑可解释性和计算可行性论坛在最近有关高维高斯图形建模的文献中,包括袁和林(2006),Friedman等人(2008),Rothman等人(2008)、和Städler和Bühlmann(2012),的论坛浓度矩阵的范数(论坛)通常会受到惩罚,从而有助于控制浓度矩阵MPLE中非零条目的数量。在涉及协方差估计的其他应用中,例如蛋白质组学研究中的通路分析(Chen等人,2011年),假设稀疏论坛在本文中,我们考虑了一种替代方法,并建议使用相当于具有惩罚参数的逆Wishart先验的惩罚论坛K(K)以下为:

(5)

表示的特征值论坛作为论坛。上述罚款条款可以改写为:论坛因此是积极的论坛值约束的参数空间论坛并从上下绑定每个特征值。这有助于确保协方差矩阵和浓度矩阵都是非奇异的,这是一个重要的属性,如果论坛此外,由于逆Wishart分布是多元高斯协方差矩阵的共轭先验,因此求解PEMM算法(4)(将在下一节中概述)具有计算效率。关于解释的更多讨论论坛K(K)在后面的章节中提供。

逆Wishart惩罚平均惩罚每个第页变量。如果某些变量的方差比其他变量大得多,则可以首先对每个变量进行标准化,或在不同变量的惩罚项中加入不同的权重。

3.算法

第3.1节,我们概述了一种用于计算一般分布的MPLE的PEMM算法,并研究了其收敛特性。然后,在第3.2节在协方差矩阵和丰度相关(不可忽略)缺失数据机制上,我们实现了PEMM算法,以获得具有逆Wishart惩罚的多元高斯参数的最大似然估计。

3.1. 一种PEMM算法

考虑为具有不可忽略丢失的数据寻求MPLE的一般问题:

哪里论坛是感兴趣的参数。注意协变量论坛省略以简化本节中的演示。为了解决上述优化问题,我们在下面的算法1中概述了EM算法的改进版本PEMM。

算法1PEMM算法。

  • 1

    获得初步估算论坛

  • 2

    E步:计算论坛

  • 三。

    M步:计算论坛

  • 4

    重复2-3次,直到收敛。

以下内容Beale和Little(1975年),我们在Web附录A中建立了PEMM算法的收敛性。简言之,在PEMM算法连续迭代中,目标惩罚似然将始终增加,因此,该算法将收敛到惩罚对数似然的一个稳定点(虽然不一定是全局最大值,类似于EM算法)。因此,PEMM算法是解决方程式(6)

3.2. 一种用于估计多变量高斯参数的PEMM算法

在本节中,我们详细实现了PEMM算法,以使用中指定的缺失数据机制计算多元高斯参数的MPLE方程式(1)以及方程式(5)为了更好地说明缺失数据机制对参数估计的影响,我们首先回顾了针对可忽略缺失数据的惩罚EM算法,然后提出了针对丰度相关缺失数据的PEMM算法。当数据是MAR时,可以忽略参数估计中的缺失数据机制(鲁宾,1976年)以下为:

然后,获得具有逆Wishart惩罚的多元高斯参数的最大似然估计(5)在协方差矩阵上,我们可以实现算法1中概述的惩罚EM算法。具体而言,E步骤与中所述相同Beale和Little(1975年)以下为:

哪里论坛是一个论坛矩阵和论坛是的子矩阵论坛对应于中缺少的功能第个样本。在这里,论坛代表论坛,它测量样本中缺失数据导致的额外协方差

然后,使用倒数-Wishart惩罚方程式(5),M步骤中的MPLE更新变为:

(6)

哪里论坛逆Wishart罚引起的正则化有助于确保估计协方差矩阵的正定性论坛,M步骤中的相应更新简化为论坛这类似于协方差估计的流行岭正则化(Lin和Perlman,1985年Ledoit和Wolf,2004年Schäfer和Strimmer,2005年). 然而,有一个积极的K(K),附加收缩系数论坛强加于论坛有助于稳定论坛通常可以提高参数估计的性能,如中所示第4.1节

当丢失不可忽略时,我们需要在似然函数中加入丢失机制,以获得可靠的参数估计。第3.2.1节,我们考虑缺失数据机制的妨害参数的情况论坛已知;在中时第3.2.2节,我们提出了一种轮廓似然方法来联合估计缺失数据模型参数和多元高斯参数。

3.2.1、。丰度相关缺失数据的PEMM算法

由于引入了缺失数据机制E类-M步PEMM(算法1)旨在解决:

(7)

按照前面部分中的符号,我们将缺少的数据机制函数表示为论坛哪里论坛是一些已知的协变量信息;论坛是缺失数据机制的参数,与感兴趣的参数不同论坛.假设论坛已知并表示论坛。注意,论坛可能取决于特征/样本特定的协变量。我们首先在(7)对于一般的缺失数据机制和逆Wishart惩罚(5)

提议1。论坛。对于论坛论坛,表示论坛 论坛 论坛论坛然后对于多变量高斯数据,(7)可以计算为

(8)

命题1的证明见Web附录B。

比较方程式(6)(1),我们看到关于缺失数据机制的假设导致对样本进行加权通过论坛更新平均值和协方差估计值时。这在本质上与逆概率加权类似,后者是另一种在其他情况下处理缺失数据(包括NMAR数据)的流行技术(Robins等人,1995年罗宾斯和罗尼茨基,1995年)。

第2.1节,我们在方程式(1)基于蛋白质组学研究中的数据特征。这里,我们假设使用真实的参数值,论坛,丢失概率总是非负的,因此论坛对于一些小的论坛然后,代替方程式(1),我们选择使用无界论坛功能:

(9)

在解决优化问题时。方程式(9)是以下内容的简化形式方程式(1)它可以很容易地积分到多元高斯的密度函数中。该策略在简化计算的同时,对参数估计的影响非常有限。在应用中,如果论坛即,丢失的概率超过1论坛值可以重置为缺失,以避免高杠杆观察的可能性。

方程式(9),的论坛组件不依赖于论坛,因此可以将其视为缩放常量,并在计算时移到条件期望的外部论坛,论坛、和论坛如命题1所定义。由于缩放器同时出现在中的分子和分母中方程式(8),它会取消,并且不会对MPLE的计算产生影响。因此,我们可以专注于简化模型:

(10)

下面,我们将推导PEMM算法中缺失数据机制的详细更新公式(10)使用多元高斯数据。中依赖于对数丰度的缺失数据机制(2)可以类似地简化为论坛网络附录F中提供了对数比率不完整数据的推导。

提议2。定义论坛这样的话论坛、和

哪里论坛。然后针对中指定的缺失数据机制方程式(10)中的解决方案M阶跃由给定

哪里论坛是一个论坛除子矩阵外,所有元素均为零的矩阵论坛

命题2的证明见Web附录D。

在PEMM算法中,有两个惩罚参数,论坛K(K),由用户指定。非零论坛K(K)有助于平滑惩罚的似然函数并加快收敛速度(绿色,1990年). 尤其,论坛由足够大的正定论坛在每次EM迭代时。因此,我们建议使用论坛实施PEMM时。该策略有助于进一步稳定和加速算法。具体来说,我们从一个足够大的论坛以确保协方差矩阵估计的正定性。随着迭代的进行,我们允许论坛以最小特征值改变论坛。经过几次迭代后论坛估计变得明确,论坛设置为用户特定论坛并在其余迭代中保持不变。算法2中总结了此过程的详细信息。在下一节中,我们通过仿真表明,PEMM算法的性能对惩罚参数的选择相对稳健。

3.2.2. 联合估计的剖面似然法Γ和(μ,Σ

第3.2.1节,当缺失数据机制参数时,我们实现了多元高斯参数估计的PEMM算法论坛在里面(9)已知。在这里,我们提出了一种轮廓似然方法来联合搜索以下MPLE(论坛). 对于给定的论坛,我们可以将受惩罚的log-likelihood改写为

算法2丰度相关缺失数据机制的PEMM算法(9)

  • 1

    指定正数论坛K(K)

  • 2

    根据可用案例,获得样本平均值论坛和样本协方差论坛然后找出最小的正值论坛这样的话论坛和矩阵的最小特征值论坛是积极的。设置论坛论坛

  • 三。
    在给定当前参数估计的情况下,计算充分统计的条件期望论坛以下为:
  • 4
    计算最大惩罚可能性估计值:

    哪里论坛被选为最小值论坛正定且大于或等于论坛

  • 5

    重复3-4次直到收敛。

我们可以使用PEMM算法(算法2)计算

(11)

请注意,为了简化演示,我们再次省略了上述等式中的协变量。然后,为了获得论坛,我们可以评估论坛在不同的论坛值并选择论坛给出了最大似然分布:

(12)

评价论坛包括整合论坛基于联合惩罚log-likelihood函数的完整数据论坛。对于中依赖丰度的缺失数据机制公式(9),我们有

哪里论坛是多元高斯分布的密度函数;论坛表示集合中元素的数量论坛上述方程中的条件期望值可以按照命题2证明中概述的相同方式计算。论坛是无界的,可以大于一,然后论坛无法计算。实际上,如果论坛如果遇到,我们建议通过重置来忽略相应的数据点论坛(即假装论坛缺少)。这将有助于避免高杠杆观察的可能性。然而,我们预计这将是非常罕见的合理情况论坛值。的确,在模拟和实际数据应用中论坛函数在观测数据点处求值,其值很少超过1。

如前一节所述,对于方程式(9)中高斯参数的MPLE方程式(11)仅取决于论坛,而不依赖于论坛也不是论坛然而,在缺失数据机制中加入后两个术语将使其能够处理任一NMAR(论坛)或MAR数据(论坛),并通过提高论坛轮廓-似然法中的估计。

在应用中,解决方程式(12)这并不容易。当存在大量缺失数据时,对数似然曲面通常不是凸的。因此,通用优化算法不适用,因为它们很容易收敛到局部极值点或鞍点。另一方面,对论坛可以是计算密集型的。为了避免这一困难,我们提出以下策略:首先,我们对论坛然后执行一个小的邻域搜索论坛围绕初始估计找到最大化配置文件可能性的解决方案。具体来说,我们将每个“蛋白质”的可用平均值估计为论坛蛋白质的缺失百分比论坛。然后我们回归论坛论坛以获得论坛.自论坛基于平均蛋白质丰度的可用估计值,虽然可能接近MPLE,但可能存在偏差。然后,我们执行一个小的邻域网格搜索论坛找到估计值,在修正时最大化轮廓可能性论坛论坛估计,因为高斯参数的MPLE方程式(11)仅取决于论坛通过这种方式,我们减少了估算中的潜在不确定性论坛有关该程序的详细信息,请参阅Web附录E。

4.模拟

4.1. 惩罚参数

我们首先调查不同惩罚参数选择的影响论坛K(K).多元高斯数据论坛使用进行了模拟论坛,其中论坛随机抽样自论坛论坛; 论坛,论坛设置为0或从中采样论坛,每个概率为0.5。然后我们模拟论坛数据的MAR。对于第个样本,我们首先随机选取两个特征,论坛论坛,并在此示例中将这两个特征的丢失概率设置为0。对于样本中的其他特征,我们将其丢失概率设置为论坛因此,论坛仅取决于每个样本中的观测值,而不取决于缺失的值。这符合MAR的定义。

对于每个惩罚参数的选择,我们计算基于不完全数据的惩罚EM算法产生的估计均方误差与基于完整数据的MLE均方误差的比率。这些比率称为相对均方误差(RMSE)下文。图1显示的平均RMSE为论坛估计100多个不同的模拟论坛论坛。我们省略了RMSE的结果论坛估计,作为参数空间论坛在惩罚期内未被调整,因此不同的惩罚参数选择对论坛估计。证据来自图1,对于所考虑的两种样本量(论坛100和10),惩罚EM算法的性能对不同的论坛K(K)尤其是当样本量较大时。当样本量有限且维数有限时第页相对较大,非零论坛K(K)保持协方差矩阵和浓度矩阵的正定性是必要的第页,n个、相关性模式和缺失数据模式(未显示数据)。根据这些模拟,我们选择论坛,论坛在下面的分析中,这个选择似乎在我们的所有模拟中都提供了有利的RMSE。

图1

不同惩罚参数对PEM算法参数估计的影响。这里,我们比较了论坛估计100多个不同的模拟论坛论坛对于不同的论坛论坛.的RMSE论坛论坛论坛

4.2. 与竞争方法的比较

我们用以下公式模拟多元高斯数据论坛,论坛。我们考虑了大样本和小样本:论坛 论坛论坛 论坛.我们取样论坛独立于论坛,同时论坛与之前一样进行了模拟。基于正数据的丰度依赖机制模拟缺失数据论坛也就是说,论坛。有一些负面消息论坛在此场景中生成的值,其中论坛,它们也将丢失。总的来说,大约有40%的数据缺失。

我们研究了六种不同方法的性能:(1)AC+P:可用案例分析论坛(2) Imp+P:通过k个-最近的邻居(k个NN)算法(Troyanskaya等人,2001年)带有k个通过交叉验证选择,并获得论坛论坛; (3) EM:EM算法;(4) PEM:惩罚EM算法;(5) PEMM:使用真缺失数据参数的PEMM算法论坛(第3.2.1节); (6) PEMMe:使用基于profile-likelihood的估计的PEMM算法论坛(第3.2.2节). 注:,论坛用于AC+P和Imp+P;论坛用于PEM、PEMM和PEMMe。

对于每个模拟设置,我们生成1000个独立的数据集,并获得论坛论坛通过不同的方法对完整数据进行估计,而不丢失值。结果如所示图2当样本量较大时,与各种场景中的其他方法相比,PEMM和PEMMe估计表现良好(产生较小的RMSE)。当样本量较小时,PEMM/PEMMe方法对于平均估计仍然产生较小的RMSE,但对于协方差估计,PEMM/PEMMe比PEM的改进变得不太明显。这可能是因为方差分量相对于MSE中的偏差分量而言占主导地位论坛当样本量很小时。正则化,它控制论坛,大大提高了所有受惩罚EM估计值的MSE(右栏图3),证明了在高维环境中适当正则化的好处。另一方面,合并缺失数据机制可能有助于减少偏差。但由于论坛主要由论坛,在此设置中,对前者的改进不太明显。

图2

RMSE的箱线图论坛通过不同方法对正丰度相关缺失数据进行分析。对于不同的组合第页n个,论坛论坛,我们比较了论坛六种方法:岭正则化的有效性分析论坛(AC+P);用kNN插补,然后估计平均值和岭正则化论坛插补数据(Imp+P);EM算法(仅适用于论坛); 惩罚EM算法(PEM);具有true的PEMM算法论坛(PEMM);和PEMM算法论坛(PEMMe)。

图3

RMSE的箱线图论坛通过不同方法对正丰度相关缺失数据进行分析。对于不同的组合第页n个,论坛论坛,我们比较了论坛六种方法:岭正则化的有效性分析论坛(AC+P);用kNN插补,然后估计平均值和岭正则化论坛插补数据(Imp+P);EM算法(仅适用于论坛); 惩罚EM算法(PEM);具有true的PEMM算法论坛(PEMM);和PEMM算法论坛(PEMMe)。

在Web附录F中,我们还显示了双边对数丰度相关缺失数据机制在方程式(2)类似地,所提出的PEMM和PEMMe方法对于论坛论坛用大样本和小样本进行估计。PEMM和PEMMe估计值的性能似乎对偏离正态性具有理想的稳健性。(由于空间限制,数据未显示)。

5.应用-估计酵母中刺入的人类蛋白质的平均丰度

我们将提出的PEMM算法应用于来自癌症临床蛋白质组技术联合会进行的研究的实际数据示例(Paulovich等人,2010年). 在本研究中,将45个人类源或人类序列重组蛋白的通用蛋白质组学标准集1(UPS1)收集物以不同浓度添加到酵母蛋白裂解液样品中,并通过MS进行定量。我们重点关注与本研究中添加样品子集C、D和E对应的数据。C、D和E的成分包括60 ng/论坛L酵母裂解物以及2.2、6.7和20 fmol/论坛分别为L UPS1。对于C、D和E实验中的每个实验,由多个合作实验室获得12个样本。每个样品中每个蛋白质的丰度都是通过软件推导出来的萨哈勒(Milac等人,2012年). 不足为奇的是,人类蛋白质显示出不同的丰度,并且在不同样本的蛋白质图谱中丢失的概率不同。具体而言,C、D和E实验样本的蛋白质谱中分别缺失51.1%、23.7%和9.8%的人类蛋白质丰度测量值。

在这个数据集中,所有丰度测量值都是正的,并且大致呈正态分布。我们考虑中指定的缺失数据机制(9)并调整每个蛋白质中肽的数量作为协变量。我们在第3.2.2节估计三个实验中缺失的数据机制参数以及45种人类蛋白质丰度的平均值和协方差。在观测数据中评估的估计失踪概率范围为0.001至0.878。图4显示了AC+P和PEMM平均估计值之间差异的频率分布。网络图3显示了PEM和PEMM平均估计值之间差异的类似图。对于来自实验C的数据论坛缺失时,AC+P和PEM的平均估计值远大于PEMM的平均估计值。在实验E的样本中,数据中的缺失百分比较小。PEMM估计值与AC+P和PEM估计值之间的差异也变得更小。这些模式与我们在前一小节的模拟中观察到的一致:当数据为NMAR时,与基于忽略缺失数据机制的其他方法的估计相比,所提出的PEMM算法可以产生较少偏差的估计。

图4

在C、D和E三个不同的实验中,基于可用样本分析的蛋白质丰度估计差异直方图,协方差岭惩罚(AC+P)与PEMM算法相比。实验C、D、E的样本中分别缺失51.1%、23.7%和9.8%的蛋白质丰富度测量值。对于没有缺失的蛋白质,相应的差异为0,未在图中绘制。

6.讨论

为了估计具有大量缺失的多元高斯数据的均值和协方差,刻画缺失数据的机制是很重要的。如果值丢失的概率取决于丢失的值本身,则需要在参数估计中考虑丢失数据机制。在这项工作中,我们提出了一种结合缺失数据机制(PEMM)的惩罚EM算法,用于多元高斯参数估计。具体来说,基于蛋白质组学研究中的数据特征,我们讨论了两种依赖丰度的缺失数据机制,并推导了相应的PEMM算法的详细公式。此外,在PEMM算法中,我们将惩罚引入全对数似然来正则化参数估计。

我们提出了一个逆Wishart惩罚,因为它产生了协方差矩阵的正定估计,并且在M步中使用简单的闭合形式解是计算高效的。有两个调谐参数,论坛K(K),在倒数-Wishart惩罚中。在论文中,论坛论坛用于所有的数值研究。这些值在其他一般应用中可能不是最佳值。在PEMM算法中选择最佳调谐参数的方法值得进一步研究。除了逆Wishart罚函数外,其他凸罚函数也可以方便地合并到PEMM框架中,因为不可忽略的缺失数据机制只影响E步,不会直接干扰M步中的罚函数。虽然可以在当前框架内开发完整的贝叶斯方法,但这超出了本工作的范围。

在不完全数据下更好地估计多元高斯参数可以有效地促进高维组学数据分析。例如,PEMM框架可用于插补NMAR下的缺失数据。在PEMM的E步骤中,给定观测数据的缺失数据的条件期望和缺失数据机制可以作为缺失数据的自然“插补”。今后有必要研究这种方法的优点。PEMM算法的框架也可以扩展到非高斯分布和其他缺失数据机制。然而,可能需要不同形式的惩罚条款。此外,对于除依赖于丰度的缺失数据机制之外的一般不可忽视的缺失,PEMM的实现可能会很复杂。CRAN上提供了R包PEMM(http://cran.r-project.org/)很快。

7.补充资料

中引用的Web附录和图第2节——5,以及模拟中使用的R代码和中的应用第4节5可在Wiley Online Library的生物统计学网站上的论文信息链接中找到。

致谢

这项工作得到了NIH拨款R03CA174984、P01CA53996、R01GM082802和SUB-CA160034的部分支持。作者感谢孟晓丽博士提出的富有洞察力的建议。

工具书类

阿菲菲
,
答:A。
伊拉肖夫
,
风险管理。
(
1966
)。
多元统计中缺失的观察结果:文献综述
美国统计协会杂志
 
61
,
595
——
604

比尔
,
大肠杆菌。
,
R·J·A。
(
1975
)。
多元分析中的缺失值
英国皇家统计学会杂志B辑
 
37
,
129
——
145

,
L.秒。
,
保罗
,
D。
,
普伦蒂斯
,
共和国。
、和
,
第页。
(
2011
)。
正规的Hotellin's论坛蛋白质组研究中的通路分析测试
美国统计协会杂志
 
106
,
1345
——
1360

登普斯特
,
A.P.公司。
,
莱尔德
,
N.M.公司。
、和
鲁宾
,
D.B.博士。
(
1977
)。
通过EM算法从不完整数据中获得最大似然
英国皇家统计学会杂志B辑
 
39
,
1
——
38

法卡
,
五、。
,
科拉姆
,
M。
,
潘斯特尔
,
D。
,
格鲁霍瓦
,
五、。
,
,
问:。
,
菲茨吉本
,
M。
,
麦金托什
,
M。
、和
哈纳什
,
美国。
(
2006
)。
丙烯酰胺标记血清蛋白的LC-MS/MS定量分析
蛋白质组学研究
 
5
,
2009
——
2018

弗里德曼
,
J。
,
哈斯蒂
,
T。
、和
提比什拉尼
,
R。
(
2008
)。
用图形套索进行稀疏逆协方差估计
生物统计学
 
9
,
432
——
441

绿色
,
P.J.公司。
(
1990
)。
EM算法在惩罚似然估计中的应用
英国皇家统计学会杂志B辑
 
52
,
443
——
452

勒杜瓦
,
O。
,
M。
(
2004
)。
大维协方差矩阵的良好估计
多元分析杂志
 
88
,
365
——
411

,
标准普尔。
帕尔曼
,
医学博士。
(
1985
)。
协方差矩阵四种估计量的蒙特卡罗比较
.英寸
多元分析VI:第六届多元分析国际研讨会论文集
,
第页。
 
克里希纳亚
(编辑),
411
——
429

,
R·J·A。
鲁宾
,
D.B.博士。
(
2002
)。
缺失数据的统计分析
,第2版。
纽约
以下为:
威利

麦克拉克伦
,
G。J。
克里希南
,
T。
(
1996
)。
EM算法及其扩展
,第2版。
新泽西州霍博肯Wiley-InterScience
以下为:
John Wiley&Sons公司

,
十、L。
鲁宾
,
D.B.博士。
(
1993
)。
基于ECM算法的最大似然估计:一个通用框架
生物特征
 
80
,
267
——
278

Milac公司
,
T.I.公司。
,
伦道夫
,
总重量。
、和
,
第页。
(
2012
)。
通过光谱计数和离子丰度分析LC-MS/MS数据:两个案例研究
统计及其接口
 
5
,
75
——
87

尼尔
,
风险管理。
辛顿
,
通用电气公司。
(
1999
)。
证明增量、稀疏和其他变量的EM算法视图
.英寸
学习图形模型
,
M.I.公司。
 
乔丹
(编辑),
355
——
368
,
马萨诸塞州诺威尔
以下为:
Kluwer学术出版社

保洛维奇
,
A.G.公司。
,
比尔海默
,
D。
,
火腿
,
A.J.公司。
,
织女星-蒙托托
,
L。
,
鲁德尼克
,
私人助理。
,
选项卡
,
D.L.公司。
,
,
第页。
,
布莱克曼
,
R.K.公司。
,
铺位
,
D.M.博士。
,
卡达西病
,
高度。
,
克劳瑟
,
K.R.公司。
,
基辛格
,
C.R.公司。
,
先令
,
B。
,
特格勒
,
T·J。
,
瓦利亚斯
,
上午。
,
,
M。
,
怀特克
,
J.R.公司。
,
齐默尔曼
,
洛杉矶。
,
芬约
,
D。
,
卡尔
,
美国。
,
费希尔
,
S.J.公司。
,
吉布森
,
B.W.公司。
,
迈斯里
,
M。
,
纽伯特
,
T.A.公司。
,
雷格尼尔
,
F.E.公司。
,
罗德里格斯
,
H。
,
斯皮格曼
,
C、。
,
斯坦因
,
瑞典。
,
暴风雨
,
第页。
,
利伯勒
,
直流电。
(
2010
)。
描述酵母性能标准的实验室间研究,用于对标LC-MS平台性能
分子和细胞蛋白质组学
 
9
,
242
——
254

罗宾斯
,
J.米。
罗特尼茨基
,
A。
(
1995
)。
多元回归模型的半参数效率
美国统计协会杂志
 
90
,
122
——
129

罗宾斯
,
J.米。
,
罗特尼茨基
,
A。
、和
,
L.P.公司。
(
1995
)。
缺失数据下重复结果的半参数回归模型分析
美国统计协会杂志
 
90
,
106
——
121

罗斯曼
,
A.J.公司。
,
比克尔
,
P.J.公司。
,
莱温娜
,
E.公司。
、和
,
J。
(
2008
)。
稀疏置换不变协方差估计
电子统计杂志
 
2
,
494
——
515

鲁宾
,
D.B.博士。
(
1976
)。
推断和缺失数据
生物特征
 
63
,
581
——
592

鲁宾
,
D.B.博士。
(
1987
)。
调查中无应答的多重插补
纽约
以下为:
约翰·威利父子公司

鲁宾
,
D.B.博士。
(
1996
)。
18年以上的多重插补(讨论)
美国统计协会杂志
 
91
,
473
——
489

Schäfer公司
,
J。
Strimmer公司
,
英国。
(
2005
)。
大规模协方差矩阵估计的收缩方法及其对功能基因组学的启示
遗传学和分子生物学中的统计应用
 
4
,第32条。

谢弗
,
J·L·。
(
1997
)。
不完全多元数据分析
英国伦敦。
以下为:
查普曼和霍尔

施耐德
,
T。
(
2001
)。
不完整气候数据的分析:平均值和协方差矩阵的估计以及缺失值的插补
气候杂志
 
14
,
853
——
871

施特勒
,
N。
布尔曼
,
第页。
(
2012
)。
缺失值:稀疏逆协方差估计和稀疏回归的扩展
卫星与计算
 
22
,
219
——
235

施特勒
,
N。
,
斯特霍芬
,
D.J.博士。
、和
伯尔曼
,
第页。
(
2012
)。
大p、小n问题中缺失数据的模式交替最大化算法
arXiv:1005.0366v3

特洛伊扬斯卡娅
,
O。
,
康托
,
M。
,
夏洛克
,
G。
,
棕色
,
第页。
,
哈斯蒂
,
T。
,
提比什拉尼
,
R。
,
博斯坦
,
D。
、和
奥尔特曼
,
钢筋混凝土。
(
2001
)。
DNA微阵列的缺失值估计方法
生物信息学
 
17
,
520
——
525

,
C·F·J。
(
1983
)。
关于EM算法的收敛性
统计年刊
 
11
,
95
——
103

,
M。
,
年。
(
2006
)。
分组变量回归中的模型选择与估计
英国皇家统计学会杂志B辑
 
68
,
49
——
67

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)