A Penalized EM Algorithm Incorporating Missing Data Mechanism for Gaussian Parameter Estimation

Chen, Lin S.; Prentice, Ross L.; Wang, Pei

doi:10.1111/biom.12149

总结

缺失数据率可能取决于许多环境中的目标值，包括基于质谱的蛋白质组分析研究。在这里，我们考虑具有不可忽略损失的多元高斯分布下的均值和协方差估计，包括以下情况：(第页)响应向量的(n个)独立观察结果。通过最大化一类惩罚似然函数来开发参数估计程序，该函数需要对缺失数据概率进行显式建模。在模拟研究和蛋白质组数据图解中评估了由此产生的“包含缺失数据机制的惩罚EM算法（PEMM）”估计程序的性能。

期望最大化（EM）算法,最大惩罚似然估计,无误随机（NMAR）

1.简介

基于质谱（MS）的平台充当主力(Faa等人，2006年)在蛋白质组学分析研究中。然而，由于数据丢失率高和丢失模式复杂，正确分析基于MS的实验中的蛋白质组学数据仍然具有挑战性。例如，在我们的应用程序中第5节一个样品的漏检率高达50%。

当数据集中缺失值的比例很大时，简单地忽略缺失值的观测值是不合适的(鲁宾，1976年；Little和Rubin，2002年). 已经提出了各种统计方法来进行基于不完整数据的有效推理(Afifi和Elashoff，1966年；Dempster等人，1977年；鲁宾，1987,1996；谢弗，1997年). 关键的一步是在研究中描述缺失的性质。为此，鲁宾（1976）定义了三种缺失数据机制：完全随机缺失（MCAR）、随机缺失（MAR）和非随机缺失（NMAR）。基于忽略缺失数据机制的方法的推断对于MCAR或MAR仍然有效，但对于NMAR数据无效(Little和Rubin，2002年)。

为了正确描述蛋白质组学数据中缺失数据的机制，我们首先需要对实验过程和相关仪器测量特性有一个很好的了解。典型的基于MS的蛋白质组学实验是从酶消化完整的蛋白质到肽——氨基酸序列的小片段。然后，将肽引入MS仪器进行鉴定和定量。最后，根据肽的鉴定和定量，推断出蛋白质的存在和丰度。由于MS仪器的动态特性，实验中的许多因素可能导致最终蛋白质丰度数据的丢失。例如，MS机器可能无法检测低丰度肽的微弱信号。或者，即使仪器检测到信号，低丰度肽的峰值强度可能太低，无法在数据处理过程中与背景噪声区分开来。因此，丰度越低，肽在MS输出数据中“缺失”的可能性越大。除了丰富之外，蛋白质的其他物理或化学性质也可能导致其缺失。例如，在MS实验中，通常只由少数肽组成的小蛋白质比由许多肽组成的大蛋白质更有可能“缺失”。因此，蛋白质缺失的概率也取决于蛋白质中肽的数量（或大致上，蛋白质的大小）。根据这些观察结果，将蛋白质组学数据中的缺失数据机制建模为待测丰度的函数以及其他相关变量，为认识这些实验复杂性的主要方面提供了一种有吸引力的方法。注意，蛋白质组学数据中的丰度依赖性缺失数据机制不涉及明确的检测阈值，因此使用概率缺失数据机制比使用审查模型更合适(Little和Rubin，2002年)。

在本文中，我们重点研究了联合估计多个蛋白质的平均丰度水平及其协方差的问题，即在丰度相关缺失的不完全数据中，当或⁠解决这个问题可以极大地促进高维组学数据分析，例如基于通路/基因的假设测试或判别分析。在这里，我们建议用一类指数函数对丰度相关的缺失数据机制进行建模，并寻求参数估计，以最大化观测数据和缺失事件的联合似然，假设多个蛋白质丰度水平遵循多元高斯分布。此外，为了处理高维-低样本问题，我们采用了惩罚似然方法。我们对协方差矩阵施加了逆Wishart惩罚，从贝叶斯的角度来看，这相当于多元高斯分布的共轭先验。这种惩罚在计算上是有效的，因为它为数据完成时的最大惩罚似然估计提供了一个简单的封闭式解决方案。

由于样本通常缺失不同的蛋白质，因此具有不同的似然函数，因此在存在缺失数据的情况下，通常没有封闭式解决方案来最大化联合（惩罚）似然函数。为了获得不完全数据下的最大似然估计，EM算法及其扩展(Dempster等人，1977年；孟和鲁宾，1993；Neal和Hinton，1999年)已经被广泛应用于各种应用中。EM算法因其易于实现和单调收敛的数值稳定性而广受欢迎(吴，1983). 然而，它可能会缓慢收敛，也可能不会收敛到全局最大值(McLachlan和Krishnan，1996年). 为了提高其数值性能并提供更有效的参数估计，在EM框架中引入了正则化。绿色（1990）提出了在M步中最大化惩罚似然函数的方法，并证明了相应的EM算法具有更快的收敛速度。相反，施耐德（2001）在每次迭代中都将惩罚引入E-step，并允许惩罚在迭代中发生变化。然而，尚不清楚EM的典型收敛特性是否在该过程中得到保留。在最近的工作中(Städler和Bühlmann，2012年；Städler等人，2012年)，EM框架中使用稀疏惩罚来处理丢失为MAR时的高维多元数据，目的是控制逆协方差矩阵的稀疏性。对于不可忽略的丢失数据，Little和Rubin（2002年，第15.2章）概述了EM算法的框架，以纳入一般NMAR机制。相比之下，本文的主要创新之处在于，我们在一般惩罚EM框架中引入了一种特定的NMAR机制。我们针对具有不可忽略丢失的数据，提出了一种包含丢失数据机制的惩罚EM算法PEMM。我们实现了所提出的PEMM算法，用于具有丰度相关缺失的多元高斯数据的参数估计。

本文的其余部分组织如下。在第2节，我们提出了包含缺失数据机制的惩罚联合似然模型。在第3节，我们概述了PEMM算法，并针对第2节。我们在模拟数据和蛋白质组数据集上将所提出的方法与竞争方法进行了比较第4节和5分别是。然后，我们在第6节。

2.型号

让表示没有缺失值的完整高斯数据，其中代表j个的第个功能我主题。让表示在我第个样本；然后让和表示中观察到的和缺失的组件我第个样本。让是缺失指标矩阵，这样如果丢失，并且如果观察到。缺失数据机制的特征是⁠.如果取决于中缺少的值⁠，该机制是NMAR，忽略缺失数据机制会导致无效的参数推断。因此，在本文中，我们将显式建模并估计⁠,⁠、和⁠通过寻求完全似然的最大似然估计，即观测数据的联合似然和missing-indicator矩阵⁠以下为：

2.1. 蛋白质组学数据中的缺失数据机制

考虑到完整的丰度数据，通常可以合理假设以及相关的相应协变量数据⁠，不同特征的缺失是相互独立的：

我们还假设，对于给定的特征，其缺失并不取决于其他特征的丰度或协变量：

哪里是与j个的第个功能我主题。例如，的元素可以是这个尺寸(⁠肽）的j个th蛋白，不同受试者的值相同；也可以是相应洗脱时间的总检测离子丰度j个第th蛋白我第个实验。然后我们建议建模具有有界指数函数：

(1)

哪里是缺失数据机制的参数，与感兴趣的参数不同⁠.表示积极⁠，该概率函数随丰度单调减小，⁠，与上述丰度依赖性缺失数据机制一致。

请注意，对于使用标记策略的一些平台，实验的输出是测试样本与参考样本中丰度的对数比率，绝对值较小的对数比率更容易丢失。这种缺失数据机制可以使用有界二次指数形式进行建模：

(2)

Web附录F中提供了使用上述缺失数据机制的对数丰度数据估算程序开发。在这里，我们选择使用而不是在里面(2)为了计算方便。

2.2. 惩罚联合可能性

将观测数据和缺失诱导因子矩阵的联合对数似然表示为哪里和是感兴趣的平均和协方差参数；是观测到的协变量数据；和是令人讨厌的缺少数据机制参数。我们的目标是获得MLE：

（3）

暂时我们假设是完全已知的。我们将用中的已知和未知参数第3.2.1节和3.2.2分别是。

什么时候？或⁠，MLE进入方程式（3）通常不令人满意，甚至没有明确的定义。例如，如果没有遗漏多元高斯分布的样本均值和样本协方差矩阵⁠.何时⁠,变得奇异，不再是⁠。

为了避免这些困难，正规化是非常有价值的。一个自然的策略是考虑惩罚的可能性并寻求最大惩罚似然估计（MPLE）：

（4）

哪里是上的惩罚函数⁠MPLE的性能在很大程度上取决于惩罚条款的选择⁠。在指定时，必须同时考虑可解释性和计算可行性⁠在最近有关高维高斯图形建模的文献中，包括袁和林（2006）,Friedman等人（2008）,Rothman等人（2008）、和Städler和Bühlmann（2012），的浓度矩阵的范数(⁠⁠)通常会受到惩罚，从而有助于控制浓度矩阵MPLE中非零条目的数量。在涉及协方差估计的其他应用中，例如蛋白质组学研究中的通路分析(Chen等人，2011年)，假设稀疏⁠在本文中，我们考虑了一种替代方法，并建议使用相当于具有惩罚参数的逆Wishart先验的惩罚和K（K）以下为：

(5)

表示的特征值作为⁠。上述罚款条款可以改写为：因此是积极的值约束的参数空间并从上下绑定每个特征值。这有助于确保协方差矩阵和浓度矩阵都是非奇异的，这是一个重要的属性，如果⁠此外，由于逆Wishart分布是多元高斯协方差矩阵的共轭先验，因此求解PEMM算法（4）（将在下一节中概述）具有计算效率。关于解释的更多讨论和K（K）在后面的章节中提供。

逆Wishart惩罚平均惩罚每个第页变量。如果某些变量的方差比其他变量大得多，则可以首先对每个变量进行标准化，或在不同变量的惩罚项中加入不同的权重。

3.算法

在第3.1节，我们概述了一种用于计算一般分布的MPLE的PEMM算法，并研究了其收敛特性。然后，在第3.2节在协方差矩阵和丰度相关（不可忽略）缺失数据机制上，我们实现了PEMM算法，以获得具有逆Wishart惩罚的多元高斯参数的最大似然估计。

3.1. 一种PEMM算法

考虑为具有不可忽略丢失的数据寻求MPLE的一般问题：

哪里是感兴趣的参数。注意协变量省略以简化本节中的演示。为了解决上述优化问题，我们在下面的算法1中概述了EM算法的改进版本PEMM。

算法1PEMM算法。

1
获得初步估算⁠。
2
E步：计算
三。
M步：计算
4
重复2-3次，直到收敛。

以下内容Beale和Little（1975年），我们在Web附录A中建立了PEMM算法的收敛性。简言之，在PEMM算法连续迭代中，目标惩罚似然将始终增加，因此，该算法将收敛到惩罚对数似然的一个稳定点（虽然不一定是全局最大值，类似于EM算法）。因此，PEMM算法是解决方程式（6）。

3.2. 一种用于估计多变量高斯参数的PEMM算法

在本节中，我们详细实现了PEMM算法，以使用中指定的缺失数据机制计算多元高斯参数的MPLE方程式（1）以及方程式（5）为了更好地说明缺失数据机制对参数估计的影响，我们首先回顾了针对可忽略缺失数据的惩罚EM算法，然后提出了针对丰度相关缺失数据的PEMM算法。当数据是MAR时，可以忽略参数估计中的缺失数据机制(鲁宾，1976年)以下为：

然后，获得具有逆Wishart惩罚的多元高斯参数的最大似然估计(5)在协方差矩阵上，我们可以实现算法1中概述的惩罚EM算法。具体而言，E步骤与中所述相同Beale和Little（1975年）以下为：

哪里是一个矩阵和是的子矩阵对应于中缺少的功能我第个样本。在这里，代表⁠，它测量样本中缺失数据导致的额外协方差我。

然后，使用倒数-Wishart惩罚方程式（5），M步骤中的MPLE更新变为：

(6)

哪里逆Wishart罚引起的正则化有助于确保估计协方差矩阵的正定性⁠，M步骤中的相应更新简化为⁠这类似于协方差估计的流行岭正则化(Lin和Perlman，1985年；Ledoit和Wolf，2004年；Schäfer和Strimmer，2005年). 然而，有一个积极的K（K），附加收缩系数强加于有助于稳定通常可以提高参数估计的性能，如中所示第4.1节。

当丢失不可忽略时，我们需要在似然函数中加入丢失机制，以获得可靠的参数估计。在第3.2.1节，我们考虑缺失数据机制的妨害参数的情况已知；在中时第3.2.2节，我们提出了一种轮廓似然方法来联合估计缺失数据模型参数和多元高斯参数。

3.2.1、。丰度相关缺失数据的PEMM算法

由于引入了缺失数据机制E类-和M步PEMM（算法1）旨在解决：

(7)

按照前面部分中的符号，我们将缺少的数据机制函数表示为哪里是一些已知的协变量信息；是缺失数据机制的参数，与感兴趣的参数不同⁠.假设已知并表示⁠。注意，可能取决于特征/样本特定的协变量。我们首先在(7)对于一般的缺失数据机制和逆Wishart惩罚(5)。

提议1。让⁠。对于和⁠，表示和然后对于多变量高斯数据，(7)可以计算为

(8)

命题1的证明见Web附录B。

比较方程式（6）和(1)，我们看到关于缺失数据机制的假设导致对样本进行加权我通过⁠更新平均值和协方差估计值时。这在本质上与逆概率加权类似，后者是另一种在其他情况下处理缺失数据（包括NMAR数据）的流行技术(Robins等人，1995年；罗宾斯和罗尼茨基，1995年)。

在第2.1节，我们在方程式（1）基于蛋白质组学研究中的数据特征。这里，我们假设使用真实的参数值，⁠，丢失概率总是非负的，因此对于一些小的⁠然后，代替方程式（1），我们选择使用无界功能：

(9)

在解决优化问题时。方程式（9）是以下内容的简化形式方程式（1）它可以很容易地积分到多元高斯的密度函数中。该策略在简化计算的同时，对参数估计的影响非常有限。在应用中，如果即，丢失的概率超过1值可以重置为缺失，以避免高杠杆观察的可能性。

在方程式（9），的组件不依赖于⁠，因此可以将其视为缩放常量，并在计算时移到条件期望的外部⁠,⁠、和如命题1所定义。由于缩放器同时出现在中的分子和分母中方程式（8），它会取消，并且不会对MPLE的计算产生影响。因此，我们可以专注于简化模型：

（10）

下面，我们将推导PEMM算法中缺失数据机制的详细更新公式（10）使用多元高斯数据。中依赖于对数丰度的缺失数据机制(2)可以类似地简化为网络附录F中提供了对数比率不完整数据的推导。

提议2。定义这样的话⁠、和

哪里⁠。然后针对中指定的缺失数据机制方程式（10）中的解决方案M阶跃由给定

哪里是一个除子矩阵外，所有元素均为零的矩阵⁠。

命题2的证明见Web附录D。

在PEMM算法中，有两个惩罚参数，和K（K），由用户指定。非零和K（K）有助于平滑惩罚的似然函数并加快收敛速度(绿色，1990年). 尤其，由足够大的正定在每次EM迭代时。因此，我们建议使用实施PEMM时。该策略有助于进一步稳定和加速算法。具体来说，我们从一个足够大的以确保协方差矩阵估计的正定性。随着迭代的进行，我们允许以最小特征值改变⁠。经过几次迭代后估计变得明确，设置为用户特定并在其余迭代中保持不变。算法2中总结了此过程的详细信息。在下一节中，我们通过仿真表明，PEMM算法的性能对惩罚参数的选择相对稳健。

3.2.2. 联合估计的剖面似然法Γ和(μ,Σ

在第3.2.1节，当缺失数据机制参数时，我们实现了多元高斯参数估计的PEMM算法在里面(9)已知。在这里，我们提出了一种轮廓似然方法来联合搜索以下MPLE(⁠⁠). 对于给定的⁠，我们可以将受惩罚的log-likelihood改写为

算法2丰度相关缺失数据机制的PEMM算法(9)。

1
指定正数和K（K）。
2
根据可用案例，获得样本平均值和样本协方差⁠然后找出最小的正值这样的话和矩阵的最小特征值是积极的。设置和⁠。
三。
在给定当前参数估计的情况下，计算充分统计的条件期望⁠以下为：
4
计算最大惩罚可能性估计值：
哪里被选为最小值正定且大于或等于⁠。
5
重复3-4次直到收敛。

我们可以使用PEMM算法（算法2）计算

(11)

请注意，为了简化演示，我们再次省略了上述等式中的协变量。然后，为了获得⁠，我们可以评估在不同的值并选择给出了最大似然分布：

(12)

评价包括整合基于联合惩罚log-likelihood函数的完整数据⁠。对于中依赖丰度的缺失数据机制公式（9），我们有

哪里是多元高斯分布的密度函数；和表示集合中元素的数量⁠上述方程中的条件期望值可以按照命题2证明中概述的相同方式计算。自是无界的，可以大于一，然后无法计算。实际上，如果如果遇到，我们建议通过重置来忽略相应的数据点（即假装缺少）。这将有助于避免高杠杆观察的可能性。然而，我们预计这将是非常罕见的合理情况值。的确，在模拟和实际数据应用中函数在观测数据点处求值，其值很少超过1。

如前一节所述，对于方程式（9）中高斯参数的MPLE方程式（11）仅取决于⁠，而不依赖于也不是⁠然而，在缺失数据机制中加入后两个术语将使其能够处理任一NMAR(⁠⁠)或MAR数据(⁠⁠)，并通过提高轮廓-似然法中的估计。

在应用中，解决方程式（12）这并不容易。当存在大量缺失数据时，对数似然曲面通常不是凸的。因此，通用优化算法不适用，因为它们很容易收敛到局部极值点或鞍点。另一方面，对可以是计算密集型的。为了避免这一困难，我们提出以下策略：首先，我们对然后执行一个小的邻域搜索围绕初始估计找到最大化配置文件可能性的解决方案。具体来说，我们将每个“蛋白质”的可用平均值估计为蛋白质的缺失百分比⁠。然后我们回归在以获得⁠.自基于平均蛋白质丰度的可用估计值，虽然可能接近MPLE，但可能存在偏差。然后，我们执行一个小的邻域网格搜索找到估计值，在修正时最大化轮廓可能性和估计，因为高斯参数的MPLE方程式（11）仅取决于⁠通过这种方式，我们减少了估算中的潜在不确定性⁠有关该程序的详细信息，请参阅Web附录E。

4.模拟

4.1. 惩罚参数

我们首先调查不同惩罚参数选择的影响和K（K）.多元高斯数据使用进行了模拟⁠，其中随机抽样自⁠；⁠; 和⁠,设置为0或从中采样⁠，每个概率为0.5。然后我们模拟数据的MAR。对于我第个样本，我们首先随机选取两个特征，和⁠，并在此示例中将这两个特征的丢失概率设置为0。对于样本中的其他特征，我们将其丢失概率设置为⁠因此，仅取决于每个样本中的观测值，而不取决于缺失的值。这符合MAR的定义。

对于每个惩罚参数的选择，我们计算基于不完全数据的惩罚EM算法产生的估计均方误差与基于完整数据的MLE均方误差的比率。这些比率称为相对均方误差（RMSE）下文。图1显示的平均RMSE为估计100多个不同的模拟和⁠。我们省略了RMSE的结果估计，作为参数空间在惩罚期内未被调整，因此不同的惩罚参数选择对估计。证据来自图1，对于所考虑的两种样本量(⁠100和10），惩罚EM算法的性能对不同的和K（K）尤其是当样本量较大时。当样本量有限且维数有限时第页相对较大，非零和K（K）保持协方差矩阵和浓度矩阵的正定性是必要的第页,n个、相关性模式和缺失数据模式（未显示数据）。根据这些模拟，我们选择⁠,在下面的分析中，这个选择似乎在我们的所有模拟中都提供了有利的RMSE。

图1

不同惩罚参数对PEM算法参数估计的影响。在这里，我们比较了在不同和不同情况下100个模拟的估计值的平均相对均方误差（RMSE）。当和时，估计的RMSE对惩罚参数的选择相对稳健。

新标签中打开下载幻灯片

不同惩罚参数对PEM算法参数估计的影响。这里，我们比较了估计100多个不同的模拟和对于不同的和⁠.的RMSE当和⁠。

4.2. 与竞争方法的比较

我们用以下公式模拟多元高斯数据⁠,⁠。我们考虑了大样本和小样本：和 ⁠.我们取样独立于⁠，同时与之前一样进行了模拟。基于正数据的丰度依赖机制模拟缺失数据⁠也就是说，⁠。有一些负面消息在此场景中生成的值，其中⁠，它们也将丢失。总的来说，大约有40%的数据缺失。

我们研究了六种不同方法的性能：（1）AC+P：可用案例分析（2） Imp+P：通过k个-最近的邻居(k个NN）算法(Troyanskaya等人，2001年)带有k个通过交叉验证选择，并获得和⁠; （3） EM：EM算法；（4） PEM：惩罚EM算法；（5） PEMM：使用真缺失数据参数的PEMM算法(第3.2.1节); （6） PEMMe：使用基于profile-likelihood的估计的PEMM算法(第3.2.2节). 注：，用于AC+P和Imp+P；和用于PEM、PEMM和PEMMe。

对于每个模拟设置，我们生成1000个独立的数据集，并获得和通过不同的方法对完整数据进行估计，而不丢失值。结果如所示图2和三当样本量较大时，与各种场景中的其他方法相比，PEMM和PEMMe估计表现良好（产生较小的RMSE）。当样本量较小时，PEMM/PEMMe方法对于平均估计仍然产生较小的RMSE，但对于协方差估计，PEMM/PEMMe比PEM的改进变得不太明显。这可能是因为方差分量相对于MSE中的偏差分量而言占主导地位当样本量很小时。正则化，它控制⁠，大大提高了所有受惩罚EM估计值的MSE（右栏图3)，证明了在高维环境中适当正则化的好处。另一方面，合并缺失数据机制可能有助于减少偏差。但由于主要由⁠，在此设置中，对前者的改进不太明显。

图2

不同方法对正丰度相关缺失数据的RMSE箱线图。对于p和n的不同组合，我们通过六种方法对的RMSE进行了比较：对（AC+p）应用有效case分析和岭正则化；用kNN进行插补，然后估计插补数据的平均值和归一化脊线（Imp+P）；EM算法（仅适用于）；惩罚EM算法（PEM）；带true的PEMM算法（PEMM）；以及PEMM算法和基于轮廓的估计（PEMMe）。

新标签中打开下载幻灯片

RMSE的箱线图通过不同方法对正丰度相关缺失数据进行分析。对于不同的组合第页和n个,和⁠，我们比较了六种方法：岭正则化的有效性分析（AC+P）；用kNN插补，然后估计平均值和岭正则化插补数据（Imp+P）；EM算法（仅适用于⁠); 惩罚EM算法（PEM）；具有true的PEMM算法（PEMM）；和PEMM算法（PEMMe）。

图3

新标签中打开下载幻灯片

RMSE的箱线图通过不同方法对正丰度相关缺失数据进行分析。对于不同的组合第页和n个,和⁠，我们比较了六种方法：岭正则化的有效性分析（AC+P）；用kNN插补，然后估计平均值和岭正则化插补数据（Imp+P）；EM算法（仅适用于⁠); 惩罚EM算法（PEM）；具有true的PEMM算法（PEMM）；和PEMM算法（PEMMe）。

在Web附录F中，我们还显示了双边对数丰度相关缺失数据机制在方程式（2）类似地，所提出的PEMM和PEMMe方法对于和用大样本和小样本进行估计。PEMM和PEMMe估计值的性能似乎对偏离正态性具有理想的稳健性。（由于空间限制，数据未显示）。

5.应用-估计酵母中刺入的人类蛋白质的平均丰度

我们将提出的PEMM算法应用于来自癌症临床蛋白质组技术联合会进行的研究的实际数据示例(Paulovich等人，2010年). 在本研究中，将45个人类源或人类序列重组蛋白的通用蛋白质组学标准集1（UPS1）收集物以不同浓度添加到酵母蛋白裂解液样品中，并通过MS进行定量。我们重点关注与本研究中添加样品子集C、D和E对应的数据。C、D和E的成分包括60 ng/L酵母裂解物以及2.2、6.7和20 fmol/分别为L UPS1。对于C、D和E实验中的每个实验，由多个合作实验室获得12个样本。每个样品中每个蛋白质的丰度都是通过软件推导出来的萨哈勒(Milac等人，2012年). 不足为奇的是，人类蛋白质显示出不同的丰度，并且在不同样本的蛋白质图谱中丢失的概率不同。具体而言，C、D和E实验样本的蛋白质谱中分别缺失51.1%、23.7%和9.8%的人类蛋白质丰度测量值。

在这个数据集中，所有丰度测量值都是正的，并且大致呈正态分布。我们考虑中指定的缺失数据机制(9)并调整每个蛋白质中肽的数量作为协变量。我们在第3.2.2节估计三个实验中缺失的数据机制参数以及45种人类蛋白质丰度的平均值和协方差。在观测数据中评估的估计失踪概率范围为0.001至0.878。图4显示了AC+P和PEMM平均估计值之间差异的频率分布。网络图3显示了PEM和PEMM平均估计值之间差异的类似图。对于来自实验C的数据缺失时，AC+P和PEM的平均估计值远大于PEMM的平均估计值。在实验E的样本中，数据中的缺失百分比较小。PEMM估计值与AC+P和PEM估计值之间的差异也变得更小。这些模式与我们在前一小节的模拟中观察到的一致：当数据为NMAR时，与基于忽略缺失数据机制的其他方法的估计相比，所提出的PEMM算法可以产生较少偏差的估计。

图4

在C、D和E三个不同的实验中，基于可用样本分析的蛋白质丰度估计差异直方图，协方差岭惩罚（AC+P）与PEMM算法相比。实验C、D、E的样本中分别缺失51.1%、23.7%和9.8%的蛋白质丰富度测量值。对于无缺失的蛋白质，相应的差异为0，图中未绘制。

新标签中打开下载幻灯片

在C、D和E三个不同的实验中，基于可用样本分析的蛋白质丰度估计差异直方图，协方差岭惩罚（AC+P）与PEMM算法相比。实验C、D、E的样本中分别缺失51.1%、23.7%和9.8%的蛋白质丰富度测量值。对于没有缺失的蛋白质，相应的差异为0，未在图中绘制。

6.讨论

为了估计具有大量缺失的多元高斯数据的均值和协方差，刻画缺失数据的机制是很重要的。如果值丢失的概率取决于丢失的值本身，则需要在参数估计中考虑丢失数据机制。在这项工作中，我们提出了一种结合缺失数据机制（PEMM）的惩罚EM算法，用于多元高斯参数估计。具体来说，基于蛋白质组学研究中的数据特征，我们讨论了两种依赖丰度的缺失数据机制，并推导了相应的PEMM算法的详细公式。此外，在PEMM算法中，我们将惩罚引入全对数似然来正则化参数估计。

我们提出了一个逆Wishart惩罚，因为它产生了协方差矩阵的正定估计，并且在M步中使用简单的闭合形式解是计算高效的。有两个调谐参数，和K（K），在倒数-Wishart惩罚中。在论文中，和用于所有的数值研究。这些值在其他一般应用中可能不是最佳值。在PEMM算法中选择最佳调谐参数的方法值得进一步研究。除了逆Wishart罚函数外，其他凸罚函数也可以方便地合并到PEMM框架中，因为不可忽略的缺失数据机制只影响E步，不会直接干扰M步中的罚函数。虽然可以在当前框架内开发完整的贝叶斯方法，但这超出了本工作的范围。

在不完全数据下更好地估计多元高斯参数可以有效地促进高维组学数据分析。例如，PEMM框架可用于插补NMAR下的缺失数据。在PEMM的E步骤中，给定观测数据的缺失数据的条件期望和缺失数据机制可以作为缺失数据的自然“插补”。今后有必要研究这种方法的优点。PEMM算法的框架也可以扩展到非高斯分布和其他缺失数据机制。然而，可能需要不同形式的惩罚条款。此外，对于除依赖于丰度的缺失数据机制之外的一般不可忽视的缺失，PEMM的实现可能会很复杂。CRAN上提供了R包PEMM(http://cran.r-project.org/)很快。

7.补充资料

中引用的Web附录和图第2节——5，以及模拟中使用的R代码和中的应用第4节和5可在Wiley Online Library的生物统计学网站上的论文信息链接中找到。

致谢

这项工作得到了NIH拨款R03CA174984、P01CA53996、R01GM082802和SUB-CA160034的部分支持。作者感谢孟晓丽博士提出的富有洞察力的建议。

工具书类

阿菲菲

,

答：A。

和

伊拉肖夫

,

风险管理。

(

1966

)。

多元统计中缺失的观察结果：文献综述

。

美国统计协会杂志

61

,

595

——

604

。

谷歌学者

OpenURL占位符文本

书目数据库

比尔

,

大肠杆菌。

和

小

,

R·J·A。

(

1975

)。

多元分析中的缺失值

。

英国皇家统计学会杂志B辑

37

,

129

——

145

。

谷歌学者

OpenURL占位符文本

书目数据库

陈

,

L.秒。

,

保罗

,

D。

,

普伦蒂斯

,

共和国。

、和

王

,

第页。

(

2011

)。

正规的Hotellin's

蛋白质组研究中的通路分析测试

。

美国统计协会杂志

106

,

1345

——

1360

。

登普斯特

,

A.P.公司。

,

莱尔德

,

N.M.公司。

、和

鲁宾

,

D.B.博士。

(

1977

)。

通过EM算法从不完整数据中获得最大似然

。

英国皇家统计学会杂志B辑

39

,

1

——

38

。

谷歌学者

OpenURL占位符文本

书目数据库

法卡

,

五、。

,

科拉姆

,

M。

,

潘斯特尔

,

D。

,

格鲁霍瓦

,

五、。

,

张

,

问：。

,

菲茨吉本

,

M。

,

麦金托什

,

M。

、和

哈纳什

,

美国。

(

2006

)。

丙烯酰胺标记血清蛋白的LC-MS/MS定量分析

。

蛋白质组学研究

5

,

2009

——

2018

。

弗里德曼

,

J。

,

哈斯蒂

,

T。

、和

提比什拉尼

,

R。

(

2008

)。

用图形套索进行稀疏逆协方差估计

。

生物统计学

9

,

432

——

441

。

绿色

,

P.J.公司。

(

1990

)。

EM算法在惩罚似然估计中的应用

。

英国皇家统计学会杂志B辑

52

,

443

——

452

。

谷歌学者

OpenURL占位符文本

书目数据库

勒杜瓦

,

O。

和

狼

,

M。

(

2004

)。

大维协方差矩阵的良好估计

。

多元分析杂志

88

,

365

——

411

。

谷歌学者

交叉参考

书目数据库

林

,

标准普尔。

和

帕尔曼

,

医学博士。

(

1985

)。

协方差矩阵四种估计量的蒙特卡罗比较

.英寸

多元分析VI：第六届多元分析国际研讨会论文集

,

第页。

克里希纳亚

（编辑），

411

——

429

。

小

,

R·J·A。

和

鲁宾

,

D.B.博士。

(

2002

)。

缺失数据的统计分析

，第2版。

纽约

以下为：

威利

。

麦克拉克伦

,

G。J。

和

克里希南

,

T。

(

1996

)。

EM算法及其扩展

，第2版。

新泽西州霍博肯Wiley-InterScience

以下为：

John Wiley&Sons公司

。

孟

,

十、L。

和

鲁宾

,

D.B.博士。

(

1993

)。

基于ECM算法的最大似然估计：一个通用框架

。

生物特征

80

,

267

——

278

。

谷歌学者

交叉参考

书目数据库

Milac公司

,

T.I.公司。

,

伦道夫

,

总重量。

、和

王

,

第页。

(

2012

)。

通过光谱计数和离子丰度分析LC-MS/MS数据：两个案例研究

。

统计及其接口

5

,

75

——

87

。

尼尔

,

风险管理。

和

辛顿

,

通用电气公司。

(

1999

)。

证明增量、稀疏和其他变量的EM算法视图

.英寸

学习图形模型

,

M.I.公司。

乔丹

（编辑），

355

——

368

,

马萨诸塞州诺威尔

以下为：

Kluwer学术出版社

。

保洛维奇

,

A.G.公司。

,

比尔海默

,

D。

,

火腿

,

A.J.公司。

,

织女星-蒙托托

,

L。

,

鲁德尼克

,

私人助理。

,

选项卡

,

D.L.公司。

,

王

,

第页。

,

布莱克曼

,

R.K.公司。

,

铺位

,

D.M.博士。

,

卡达西病

,

高度。

,

克劳瑟

,

K.R.公司。

,

基辛格

,

C.R.公司。

,

先令

,

B。

,

特格勒

,

T·J。

,

瓦利亚斯

,

上午。

,

王

,

M。

,

怀特克

,

J.R.公司。

,

齐默尔曼

,

洛杉矶。

,

芬约

,

D。

,

卡尔

,

美国。

,

费希尔

,

S.J.公司。

,

吉布森

,

B.W.公司。

,

迈斯里

,

M。

,

纽伯特

,

T.A.公司。

,

雷格尼尔

,

F.E.公司。

,

罗德里格斯

,

H。

,

斯皮格曼

,

C、。

,

斯坦因

,

瑞典。

,

暴风雨

,

第页。

,

利伯勒

,

直流电。

(

2010

)。

描述酵母性能标准的实验室间研究，用于对标LC-MS平台性能

。

分子和细胞蛋白质组学

9

,

242

——

254

。

谷歌学者

交叉参考

书目数据库

罗宾斯

,

J.米。

和

罗特尼茨基

,

A。

(

1995

)。

多元回归模型的半参数效率

。

美国统计协会杂志

90

,

122

——

129

。

谷歌学者

交叉参考

书目数据库

罗宾斯

,

J.米。

,

罗特尼茨基

,

A。

、和

赵

,

L.P.公司。

(

1995

)。

缺失数据下重复结果的半参数回归模型分析

。

美国统计协会杂志

90

,

106

——

121

。

谷歌学者

交叉参考

书目数据库

罗斯曼

,

A.J.公司。

,

比克尔

,

P.J.公司。

,

莱温娜

,

E.公司。

、和

朱

,

J。

(

2008

)。

稀疏置换不变协方差估计

。

电子统计杂志

2

,

494

——

515

。

谷歌学者

交叉参考

书目数据库

鲁宾

,

D.B.博士。

(

1976

)。

推断和缺失数据

。

生物特征

63

,

581

——

592

。

谷歌学者

交叉参考

书目数据库

鲁宾

,

D.B.博士。

(

1987

)。

调查中无应答的多重插补

。

纽约

以下为：

约翰·威利父子公司

。

鲁宾

,

D.B.博士。

(

1996

)。

18年以上的多重插补（讨论）

。

美国统计协会杂志

91

,

473

——

489

。

谷歌学者

交叉参考

书目数据库

Schäfer公司

,

J。

和

Strimmer公司

,

英国。

(

2005

)。

大规模协方差矩阵估计的收缩方法及其对功能基因组学的启示

。

遗传学和分子生物学中的统计应用

4

，第32条。

谷歌学者

OpenURL占位符文本

书目数据库

谢弗

,

J·L·。

(

1997

)。

不完全多元数据分析

。

英国伦敦。

以下为：

查普曼和霍尔

。

施耐德

,

T。

(

2001

)。

不完整气候数据的分析：平均值和协方差矩阵的估计以及缺失值的插补

。

气候杂志

14

,

853

——

871

。

谷歌学者

交叉参考

书目数据库

施特勒

,

N。

和

布尔曼

,

第页。

(

2012

)。

缺失值：稀疏逆协方差估计和稀疏回归的扩展

。

卫星与计算

22

,

219

——

235

。

谷歌学者

OpenURL占位符文本

书目数据库

施特勒

,

N。

,

斯特霍芬

,

D.J.博士。

、和

伯尔曼

,

第页。

(

2012

)。

大p、小n问题中缺失数据的模式交替最大化算法

。

arXiv:1005.0366v3

特洛伊扬斯卡娅

,

O。

,

康托

,

M。

,

夏洛克

,

G。

,

棕色

,

第页。

,

哈斯蒂

,

T。

,

提比什拉尼

,

R。

,

博斯坦

,

D。

、和

奥尔特曼

,

钢筋混凝土。

(

2001

)。

DNA微阵列的缺失值估计方法

。

生物信息学

17

,

520

——

525

。

吴

,

C·F·J。

(

1983

)。

关于EM算法的收敛性

。

统计年刊

11

,

95

——

103

。

谷歌学者

交叉参考

书目数据库

元

,

M。

和

林

,

年。

(

2006

)。

分组变量回归中的模型选择与估计

。

英国皇家统计学会杂志B辑

68

,

49

——

67

。

谷歌学者

交叉参考

书目数据库

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)

下载所有幻灯片

月份：	总浏览次数：
2024年1月	三
2024年2月	7
2024年3月	10
2024年4月	8
2024年5月	10

文章内容

高斯参数估计中引入缺失数据机制的惩罚EM算法

总结

1.简介

2.型号

2.1. 蛋白质组学数据中的缺失数据机制

2.2. 惩罚联合可能性

3.算法

3.1. 一种PEMM算法

3.2. 一种用于估计多变量高斯参数的PEMM算法

3.2.1、。丰度相关缺失数据的PEMM算法

3.2.2. 联合估计的剖面似然法Γ和(μ,Σ

4.模拟

4.1. 惩罚参数

4.2. 与竞争方法的比较

5.应用-估计酵母中刺入的人类蛋白质的平均丰度

6.讨论

7.补充资料

致谢

工具书类

补充数据

引文

意见

海拔高度

电子邮件警报

电子邮件警报

中的相关文章

通过引用文章

最新的

阅读次数最多

被引用次数最多

文章内容

高斯参数估计中引入缺失数据机制的惩罚EM算法

总结

1.简介

2.型号

2.1. 蛋白质组学数据中的缺失数据机制

2.2. 惩罚联合可能性

3.算法

3.1. 一种PEMM算法

3.2. 一种用于估计多变量高斯参数的PEMM算法

3.2.1、。丰度相关缺失数据的PEMM算法

3.2.2. 联合估计的剖面似然法Γ和(μ,Σ

4.模拟

4.1. 惩罚参数

4.2. 与竞争方法的比较

5.应用-估计酵母中刺入的人类蛋白质的平均丰度

6.讨论

7.补充资料

致谢

工具书类

补充数据

引文

意见

海拔高度

电子邮件警报

电子邮件警报

中的相关文章

通过引用文章

最新的

阅读次数最多

被引用次数最多

此功能仅对订阅服务器可用