文章

免费访问

高维问题中缺失数据的模式交替最大化算法

作者:

尼古拉斯施特勒,

丹尼尔·J。斯特霍芬、和

彼得布尔曼作者信息和声明

机器学习研究杂志,体积15,发行1

页1903-1928

出版:2014年1月1日出版历史

PDF格式电子阅读器发布者网站

摘要

我们提出了一种新的高效算法来最大化具有缺失值的多元正态数据矩阵的观测对数似然。我们表明，我们的程序基于对观测变量的缺失进行迭代回归，通过在不同的完整数据空间之间交替并增量执行E步骤来推广标准EM算法。在这个非标准设置中，我们证明了数值收敛到观测到的对数似然平稳点。对于高维数据，其中变量的数量可能大大超过样本大小，我们使用Lasso类型惩罚执行正则化。这在用于插补的回归系数中引入了稀疏性，允许快速计算，并保证在估计缺失条目方面具有竞争力。我们在模拟数据和实际数据上表明，新方法通常改进了其他现代插补技术，如k近邻插补、核范数最小化或惩罚似然法，并使用我₁-对浓度矩阵的惩罚。

工具书类

[1]

T.艾托卡利奥。处理大规模研究中的缺失值：微阵列数据插补及其他。生物信息学简介, 11(2):253-264, 2010.

[2]

A.Alizadeh、M.Eisen、R.Davis、C.Ma、I.Lossos、A.Rosenwald、J.Boldrick、H.Sabet、T.Tran、X.Yu、J.Powell、L.Yang、G.Marti、T.Moore、J.Hudson、L.Lu、D.Lewis、R.Tibshirani、G.Sherlock、W.Chan、T.Greiner、D.Weisenburger、J.Armitage、R.Warnke、R.Levy、W.Wilson、M.R.Grever、J.Byrd、D.Botstein、P.Brown和L.Sta。通过基因表达谱确定不同类型的弥漫性大b细胞淋巴瘤。自然, 403:503-511, 2000.

[3]

G.Allen和R.Tibshirani。转置正则协方差模型及其在缺失数据插补中的应用。应用统计年鉴, 4(2):764-790, 2010.

[4]

U.Alon、N.Barkai、D.Notterman、K.Gishdagger、S.Ybaradagger、D.Mackdagger和A.Levine。寡核苷酸阵列探测的肿瘤和正常结肠组织的聚类分析揭示了广泛的基因表达模式。美国国家科学院院刊, 96(12):6745-6750, 1999.

[5]

J.Bennett和S.Lanning。Netix奖。在KDD杯和研讨会会议记录圣何塞，2007年。

[6]

蔡俊峰、坎迪斯和沈振中。矩阵补全的奇异值阈值算法。SIAM优化杂志, 20(4):1956-1982, 2010.

[7]

E.Candès和B.Recht。通过凸优化实现精确矩阵补全。计算数学基础, 9(6):717-772, 2009.

[8]

E.坎迪斯和T.陶。凸松弛的威力：近最优矩阵补全。IEEE信息理论汇刊, 56(5), 2010.

[9]

A.Dempster、N.Laird和D.Rubin。通过EM算法从不完整数据中获得最大似然。英国皇家统计学会期刊，B辑, 39(1):1-38, 1977.

[10]

J.费斯勒和A.Hero。空间交替广义期望最大化算法。IEEE信号处理汇刊, 42(11):2664-2677, 1994.

[11]

J.Friedman、T.Hastie和R.Tibshirani。用图形拉索进行稀疏逆协方差估计。生物统计学, 9(3):432-441, 2008.

[12]

J.Friedman、T.Hastie和R.Tibshirani。广义线性模型的坐标下降正则化路径。统计软件杂志, 33(1):1-22, 2010.

[13]

A.Gunawardana和W.Byrne。广义交替极小化过程的收敛定理。机器学习研究杂志, 6:2049-2073, 2005.

[14]

M.Jordan、Z.Ghahramani、T.Jaakkola和L.Saul。介绍图形模型的变分方法。机器学习, 37(2):183-233, 1999.

[15]

J.Josse、J.Pagès和F.Husson。主成分分析中的多重插补。数据分析和分类进展, 5(3):231-246, 2011.

[16]

Y.V.Karpievitch、J.Stanley、T.Taverner、J.Huang、J.N.Adkins、C.Ansong、F.Heffron、T.O.Metz、W.-J.Qian、H.Yoon、R.D.Smith和A.R.Dabney。自下而上基于MS的蛋白质组学中蛋白质定量的统计框架。生物信息学, 25(16):2028- 2034, 2009.

[17]

R.Keshavan、S.Oh和A.Montanari。从几个条目中完成矩阵。IEEE信息理论汇刊, 56(6), 2010.

[18]

K.Lange、D.Hunter和I.Yang。使用替代目标函数优化传输。计算与图形统计杂志, 9(1):1-20, 2000.

[19]

R.Little和D.Rubin。缺失数据的统计分析《概率与数理统计系列》，威利出版社，1987年。

[20]

P.-L.Loh和M.J.Wainwright。含噪声和缺失数据的高维回归：具有非凸性的可证明保证。统计年刊, 40(3):1637-1664, 2012.

[21]

R.Mazumder、T.Hastie和R.Tibshirani。用于学习大型不完备矩阵的谱正则化算法。机器学习研究杂志, 99:2287-2322, 2010.

[22]

R.Neal和G.Hinton。EM算法视图，用于证明增量、稀疏和其他变量的合理性。在学习图形模型，第355-368页。Kluwer学术出版社，1998年。

[23]

S.Ng和G.McLachlan。关于用增量EM算法拟合正态混合的块数的选择。统计与计算, 13(1):45-55, 2003.

[24]

S.诺兰。软竞争适应：基于拟合统计混合的神经网络学习算法1991年，匹兹堡卡内基梅隆大学计算机科学学院博士论文。

[25]

S.Oba、M.-A.Sato、I.Takemasa、M.Monden、K.-I.Matsubara和S.Ishii。基因表达谱数据的贝叶斯缺失值估计方法。生物信息学, 19(16): 2088-2096, 2003.

[26]

M.Rosenbaum和A.Tsybakov。矩阵不确定性下的稀疏恢复。统计年刊, 38(5):2620-2651, 2010.

[27]

J.Schafer。不完全多元数据分析《统计学和应用概率专著72》，查普曼和霍尔出版社，1997年。

[28]

T.施耐德。不完整气候数据的分析：平均值和协方差矩阵的估计以及缺失值的插补。气候杂志, 14(5):853-871, 2001.

[29]

P.Spellman、G.Sherlock、M.Zhang、V.Iyer、K.Anders、M.Eisen、P.Brown、D.Botstein和B.Futcher。利用微阵列杂交技术对酿酒酵母细胞周期调控基因的综合鉴定。细胞分子生物学, 9 (12):3273-97, 1998.

[30]

P.Spites、C.Glymour和R.Scheines。因果关系、预测和搜索麻省理工学院出版社，2000年第2版。

[31]

N.Städler和P.Bühlmann。缺失值：稀疏逆协方差估计和稀疏回归的扩展。统计与计算, 22(1):219-235, 2012.

[32]

天文数据分析与稀疏性：从小波到压缩感知。IEEE会议记录, 98(6):1021-1030, 2010.

[33]

B.Thiesson、C.Meek和D.Heckerman。加速大型数据库的EM。机器学习, 45(3):279-299, 2001.

[34]

R.Tibshirani。通过拉索回归收缩和选择。英国皇家统计学会期刊，B辑, 58(1):267-288, 1996.

[35]

O.Troyanskaya、M.Cantor、G.Sherlock、P.Brown、T.Hastie、R.Tibshirani、D.Botstein和R.Altman。DNA微阵列缺失值估计方法。生物信息学, 17(6):520-525, 2001.

[36]

A.Wille、P.Zimmermann、E.Vranova、A.Fürholz、O.Laule、S.Bleuler、L.Hennig、A.Prelic、P.Rohrvon、L.Thiele、E.Zitzler、W.Gruissem和P.Bühlmann。拟南芥类异戊二烯基因网络的稀疏图形高斯模型。基因组生物学, 5(11), 2004.

索引术语

高维问题中缺失数据的模式交替最大化算法
1. 计算方法
  1. 机器学习

索引项已通过自动分类分配给内容。

建议

缺失值：稀疏逆协方差估计和稀疏回归的扩展

我们建议 ₁-存在缺失数据的高维多元正态模型中估计协方差矩阵逆的正则化似然方法。我们的方法基于数据随机丢失（MAR）的假设。。。
阅读更多信息
缺失数据的塔克因子分解及其在低$$n$$n秩张量补全中的应用

张量补全问题在信号处理和机器学习中经常出现。它包括从其条目的子集中恢复张量。通常对张量的结构假设使问题适定，即张量。。。
阅读更多信息
空间交替广义期望最大化算法

期望最大化（EM）方法可以帮助最大化统计估计问题中出现的似然函数。在经典EM范式中，一个迭代地最大化单个不可观测的条件对数似然。。。
阅读更多信息

评论

信息和贡献者

问询处

发布于

封面图片机器学习研究杂志

机器学习研究杂志第15卷第1期

2014年1月

4085页

国际标准编号：1532-4435

EISSN公司：1533-7928

出版商

JMLR.org网站

出版历史

出版：2014年1月1日

修订过的：2014年1月1日

出版于JMLR体积15,发行1

作者标记

限定符

第条

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

0
引文总数
123
下载总量

下载次数（过去12个月）13
下载次数（最近6周）2

其他指标

查看作者指标

引文

视图选项

查看选项

PDF格式

以PDF文件查看或下载。

电子阅读器

使用联机查看电子阅读器.

电子阅读器

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此文章

媒体

数字

其他

桌子

查看问题目录