文章免费访问 在上共享 高维问题中缺失数据的模式交替最大化算法作者:尼古拉斯 施特勒,丹尼尔·J。 斯特霍芬、和彼得 布尔曼作者信息和声明机器学习研究杂志,体积15,发行1页1903-1928出版:2014年1月1日 出版历史 获取引文提醒新增引文提醒!此警报已成功添加,将发送到:只要您选择的记录被引用,您就会收到通知。新引文提醒!拜托登录到您的帐户 PDF格式电子阅读器发布者网站目录机器学习研究杂志体积15,发行1以前的文章具有稀疏提升先验的神经网络的期望传播上一个下一篇文章辍学下一步摘要工具书类信息和贡献者文献计量学和引文视图选项工具书类媒体桌子分享摘要我们提出了一种新的高效算法来最大化具有缺失值的多元正态数据矩阵的观测对数似然。我们表明,我们的程序基于对观测变量的缺失进行迭代回归,通过在不同的完整数据空间之间交替并增量执行E步骤来推广标准EM算法。在这个非标准设置中,我们证明了数值收敛到观测到的对数似然平稳点。对于高维数据,其中变量的数量可能大大超过样本大小,我们使用Lasso类型惩罚执行正则化。这在用于插补的回归系数中引入了稀疏性,允许快速计算,并保证在估计缺失条目方面具有竞争力。我们在模拟数据和实际数据上表明,新方法通常改进了其他现代插补技术,如k近邻插补、核范数最小化或惩罚似然法,并使用我1-对浓度矩阵的惩罚。工具书类[1]T.艾托卡利奥。处理大规模研究中的缺失值:微阵列数据插补及其他。生物信息学简介, 11(2):253-264, 2010.谷歌学者[2]A.Alizadeh、M.Eisen、R.Davis、C.Ma、I.Lossos、A.Rosenwald、J.Boldrick、H.Sabet、T.Tran、X.Yu、J.Powell、L.Yang、G.Marti、T.Moore、J.Hudson、L.Lu、D.Lewis、R.Tibshirani、G.Sherlock、W.Chan、T.Greiner、D.Weisenburger、J.Armitage、R.Warnke、R.Levy、W.Wilson、M.R.Grever、J.Byrd、D.Botstein、P.Brown和L.Sta。通过基因表达谱确定不同类型的弥漫性大b细胞淋巴瘤。自然, 403:503-511, 2000.谷歌学者[3]G.Allen和R.Tibshirani。转置正则协方差模型及其在缺失数据插补中的应用。应用统计年鉴, 4(2):764-790, 2010.谷歌学者[4]U.Alon、N.Barkai、D.Notterman、K.Gishdagger、S.Ybaradagger、D.Mackdagger和A.Levine。寡核苷酸阵列探测的肿瘤和正常结肠组织的聚类分析揭示了广泛的基因表达模式。美国国家科学院院刊, 96(12):6745-6750, 1999.谷歌学者[5]J.Bennett和S.Lanning。Netix奖。在KDD杯和研讨会会议记录圣何塞,2007年。谷歌学者[6]蔡俊峰、坎迪斯和沈振中。矩阵补全的奇异值阈值算法。SIAM优化杂志, 20(4):1956-1982, 2010.交叉参考谷歌学者[7]E.Candès和B.Recht。通过凸优化实现精确矩阵补全。计算数学基础, 9(6):717-772, 2009.交叉参考谷歌学者[8]E.坎迪斯和T.陶。凸松弛的威力:近最优矩阵补全。IEEE信息理论汇刊, 56(5), 2010.交叉参考谷歌学者[9]A.Dempster、N.Laird和D.Rubin。通过EM算法从不完整数据中获得最大似然。英国皇家统计学会期刊,B辑, 39(1):1-38, 1977.谷歌学者[10]J.费斯勒和A.Hero。空间交替广义期望最大化算法。IEEE信号处理汇刊, 42(11):2664-2677, 1994.交叉参考谷歌学者[11]J.Friedman、T.Hastie和R.Tibshirani。用图形拉索进行稀疏逆协方差估计。生物统计学, 9(3):432-441, 2008.谷歌学者[12]J.Friedman、T.Hastie和R.Tibshirani。广义线性模型的坐标下降正则化路径。统计软件杂志, 33(1):1-22, 2010.谷歌学者[13]A.Gunawardana和W.Byrne。广义交替极小化过程的收敛定理。机器学习研究杂志, 6:2049-2073, 2005.交叉参考谷歌学者[14]M.Jordan、Z.Ghahramani、T.Jaakkola和L.Saul。介绍图形模型的变分方法。机器学习, 37(2):183-233, 1999.交叉参考谷歌学者[15]J.Josse、J.Pagès和F.Husson。主成分分析中的多重插补。数据分析和分类进展, 5(3):231-246, 2011.交叉参考谷歌学者[16]Y.V.Karpievitch、J.Stanley、T.Taverner、J.Huang、J.N.Adkins、C.Ansong、F.Heffron、T.O.Metz、W.-J.Qian、H.Yoon、R.D.Smith和A.R.Dabney。自下而上基于MS的蛋白质组学中蛋白质定量的统计框架。生物信息学, 25(16):2028- 2034, 2009.交叉参考谷歌学者[17]R.Keshavan、S.Oh和A.Montanari。从几个条目中完成矩阵。IEEE信息理论汇刊, 56(6), 2010.交叉参考谷歌学者[18]K.Lange、D.Hunter和I.Yang。使用替代目标函数优化传输。计算与图形统计杂志, 9(1):1-20, 2000.谷歌学者[19]R.Little和D.Rubin。缺失数据的统计分析《概率与数理统计系列》,威利出版社,1987年。交叉参考谷歌学者[20]P.-L.Loh和M.J.Wainwright。含噪声和缺失数据的高维回归:具有非凸性的可证明保证。统计年刊, 40(3):1637-1664, 2012.谷歌学者[21]R.Mazumder、T.Hastie和R.Tibshirani。用于学习大型不完备矩阵的谱正则化算法。机器学习研究杂志, 99:2287-2322, 2010.交叉参考谷歌学者[22]R.Neal和G.Hinton。EM算法视图,用于证明增量、稀疏和其他变量的合理性。在学习图形模型,第355-368页。Kluwer学术出版社,1998年。交叉参考谷歌学者[23]S.Ng和G.McLachlan。关于用增量EM算法拟合正态混合的块数的选择。统计与计算, 13(1):45-55, 2003.交叉参考谷歌学者[24]S.诺兰。软竞争适应:基于拟合统计混合的神经网络学习算法1991年,匹兹堡卡内基梅隆大学计算机科学学院博士论文。交叉参考谷歌学者[25]S.Oba、M.-A.Sato、I.Takemasa、M.Monden、K.-I.Matsubara和S.Ishii。基因表达谱数据的贝叶斯缺失值估计方法。生物信息学, 19(16): 2088-2096, 2003.谷歌学者[26]M.Rosenbaum和A.Tsybakov。矩阵不确定性下的稀疏恢复。统计年刊, 38(5):2620-2651, 2010.谷歌学者[27]J.Schafer。不完全多元数据分析《统计学和应用概率专著72》,查普曼和霍尔出版社,1997年。谷歌学者[28]T.施耐德。不完整气候数据的分析:平均值和协方差矩阵的估计以及缺失值的插补。气候杂志, 14(5):853-871, 2001.谷歌学者[29]P.Spellman、G.Sherlock、M.Zhang、V.Iyer、K.Anders、M.Eisen、P.Brown、D.Botstein和B.Futcher。利用微阵列杂交技术对酿酒酵母细胞周期调控基因的综合鉴定。细胞分子生物学, 9 (12):3273-97, 1998.谷歌学者[30]P.Spites、C.Glymour和R.Scheines。因果关系、预测和搜索麻省理工学院出版社,2000年第2版。谷歌学者[31]N.Städler和P.Bühlmann。缺失值:稀疏逆协方差估计和稀疏回归的扩展。统计与计算, 22(1):219-235, 2012.交叉参考谷歌学者[32]天文数据分析与稀疏性:从小波到压缩感知。IEEE会议记录, 98(6):1021-1030, 2010.谷歌学者[33]B.Thiesson、C.Meek和D.Heckerman。加速大型数据库的EM。机器学习, 45(3):279-299, 2001.交叉参考谷歌学者[34]R.Tibshirani。通过拉索回归收缩和选择。英国皇家统计学会期刊,B辑, 58(1):267-288, 1996.谷歌学者[35]O.Troyanskaya、M.Cantor、G.Sherlock、P.Brown、T.Hastie、R.Tibshirani、D.Botstein和R.Altman。DNA微阵列缺失值估计方法。生物信息学, 17(6):520-525, 2001.谷歌学者[36]A.Wille、P.Zimmermann、E.Vranova、A.Fürholz、O.Laule、S.Bleuler、L.Hennig、A.Prelic、P.Rohrvon、L.Thiele、E.Zitzler、W.Gruissem和P.Bühlmann。拟南芥类异戊二烯基因网络的稀疏图形高斯模型。基因组生物学, 5(11), 2004.谷歌学者 索引术语 高维问题中缺失数据的模式交替最大化算法计算方法机器学习 索引项已通过自动分类分配给内容。 建议 缺失值:稀疏逆协方差估计和稀疏回归的扩展 我们建议 1-存在缺失数据的高维多元正态模型中估计协方差矩阵逆的正则化似然方法。我们的方法基于数据随机丢失(MAR)的假设。。。阅读更多信息缺失数据的塔克因子分解及其在低$$n$$n秩张量补全中的应用 张量补全问题在信号处理和机器学习中经常出现。它包括从其条目的子集中恢复张量。通常对张量的结构假设使问题适定,即张量。。。阅读更多信息空间交替广义期望最大化算法 期望最大化(EM)方法可以帮助最大化统计估计问题中出现的似然函数。在经典EM范式中,一个迭代地最大化单个不可观测的条件对数似然。。。阅读更多信息 评论 Please enable JavaScript to view thecomments powered by Disqus. 信息和贡献者问询处发布于 机器学习研究杂志 第15卷第1期2014年1月4085页国际标准编号:1532-4435EISSN公司:1533-7928期刊目录 出版商JMLR.org网站出版历史出版:2014年1月1日修订过的:2014年1月1日出版于JMLR体积15,发行1作者标记(部分)E步和M步拉索缺少数据观察到的可能性惩罚变分自由能限定符第条贡献者 其他指标查看文章指标文献计量学和引文文献计量学 文章指标 0引文总数123下载总量下载次数(过去12个月)13下载次数(最近6周)2 其他指标查看作者指标引文视图选项查看选项 PDF格式以PDF文件查看或下载。PDF格式 电子阅读器使用联机查看电子阅读器.电子阅读器获取访问权限 登录选项检查您是否可以通过登录凭据或您的机构访问本文。登录完全访问权限获取此文章 媒体数字其他桌子分享分享共享此出版物链接复制链接已复制!复制失败。在社交媒体上分享Linkedin公司重新编辑电子邮件附属公司尼古拉斯 施特勒荷兰癌症研究所,荷兰阿姆斯特丹查看个人资料丹尼尔·J。 斯特霍芬瑞士贝里肯Quantik AG查看个人资料彼得 布尔曼瑞士苏黎世ETH统计研讨会查看个人资料