跳到主要内容
文章
免费访问

高维问题中缺失数据的模式交替最大化算法

出版:2014年1月1日 出版历史
  • 获取引文提醒
  • 摘要

    我们提出了一种新的高效算法来最大化具有缺失值的多元正态数据矩阵的观测对数似然。我们表明,我们的程序基于对观测变量的缺失进行迭代回归,通过在不同的完整数据空间之间交替并增量执行E步骤来推广标准EM算法。在这个非标准设置中,我们证明了数值收敛到观测到的对数似然平稳点。对于高维数据,其中变量的数量可能大大超过样本大小,我们使用Lasso类型惩罚执行正则化。这在用于插补的回归系数中引入了稀疏性,允许快速计算,并保证在估计缺失条目方面具有竞争力。我们在模拟数据和实际数据上表明,新方法通常改进了其他现代插补技术,如k近邻插补、核范数最小化或惩罚似然法,并使用1-对浓度矩阵的惩罚。

    工具书类

    [1]
    T.艾托卡利奥。处理大规模研究中的缺失值:微阵列数据插补及其他。生物信息学简介, 11(2):253-264, 2010.
    [2]
    A.Alizadeh、M.Eisen、R.Davis、C.Ma、I.Lossos、A.Rosenwald、J.Boldrick、H.Sabet、T.Tran、X.Yu、J.Powell、L.Yang、G.Marti、T.Moore、J.Hudson、L.Lu、D.Lewis、R.Tibshirani、G.Sherlock、W.Chan、T.Greiner、D.Weisenburger、J.Armitage、R.Warnke、R.Levy、W.Wilson、M.R.Grever、J.Byrd、D.Botstein、P.Brown和L.Sta。通过基因表达谱确定不同类型的弥漫性大b细胞淋巴瘤。自然, 403:503-511, 2000.
    [3]
    G.Allen和R.Tibshirani。转置正则协方差模型及其在缺失数据插补中的应用。应用统计年鉴, 4(2):764-790, 2010.
    [4]
    U.Alon、N.Barkai、D.Notterman、K.Gishdagger、S.Ybaradagger、D.Mackdagger和A.Levine。寡核苷酸阵列探测的肿瘤和正常结肠组织的聚类分析揭示了广泛的基因表达模式。美国国家科学院院刊, 96(12):6745-6750, 1999.
    [5]
    J.Bennett和S.Lanning。Netix奖。KDD杯和研讨会会议记录圣何塞,2007年。
    [6]
    蔡俊峰、坎迪斯和沈振中。矩阵补全的奇异值阈值算法。SIAM优化杂志, 20(4):1956-1982, 2010.
    [7]
    E.Candès和B.Recht。通过凸优化实现精确矩阵补全。计算数学基础, 9(6):717-772, 2009.
    [8]
    E.坎迪斯和T.陶。凸松弛的威力:近最优矩阵补全。IEEE信息理论汇刊, 56(5), 2010.
    [9]
    A.Dempster、N.Laird和D.Rubin。通过EM算法从不完整数据中获得最大似然。英国皇家统计学会期刊,B辑, 39(1):1-38, 1977.
    [10]
    J.费斯勒和A.Hero。空间交替广义期望最大化算法。IEEE信号处理汇刊, 42(11):2664-2677, 1994.
    [11]
    J.Friedman、T.Hastie和R.Tibshirani。用图形拉索进行稀疏逆协方差估计。生物统计学, 9(3):432-441, 2008.
    [12]
    J.Friedman、T.Hastie和R.Tibshirani。广义线性模型的坐标下降正则化路径。统计软件杂志, 33(1):1-22, 2010.
    [13]
    A.Gunawardana和W.Byrne。广义交替极小化过程的收敛定理。机器学习研究杂志, 6:2049-2073, 2005.
    [14]
    M.Jordan、Z.Ghahramani、T.Jaakkola和L.Saul。介绍图形模型的变分方法。机器学习, 37(2):183-233, 1999.
    [15]
    J.Josse、J.Pagès和F.Husson。主成分分析中的多重插补。数据分析和分类进展, 5(3):231-246, 2011.
    [16]
    Y.V.Karpievitch、J.Stanley、T.Taverner、J.Huang、J.N.Adkins、C.Ansong、F.Heffron、T.O.Metz、W.-J.Qian、H.Yoon、R.D.Smith和A.R.Dabney。自下而上基于MS的蛋白质组学中蛋白质定量的统计框架。生物信息学, 25(16):2028- 2034, 2009.
    [17]
    R.Keshavan、S.Oh和A.Montanari。从几个条目中完成矩阵。IEEE信息理论汇刊, 56(6), 2010.
    [18]
    K.Lange、D.Hunter和I.Yang。使用替代目标函数优化传输。计算与图形统计杂志, 9(1):1-20, 2000.
    [19]
    R.Little和D.Rubin。缺失数据的统计分析《概率与数理统计系列》,威利出版社,1987年。
    [20]
    P.-L.Loh和M.J.Wainwright。含噪声和缺失数据的高维回归:具有非凸性的可证明保证。统计年刊, 40(3):1637-1664, 2012.
    [21]
    R.Mazumder、T.Hastie和R.Tibshirani。用于学习大型不完备矩阵的谱正则化算法。机器学习研究杂志, 99:2287-2322, 2010.
    [22]
    R.Neal和G.Hinton。EM算法视图,用于证明增量、稀疏和其他变量的合理性。学习图形模型,第355-368页。Kluwer学术出版社,1998年。
    [23]
    S.Ng和G.McLachlan。关于用增量EM算法拟合正态混合的块数的选择。统计与计算, 13(1):45-55, 2003.
    [24]
    S.诺兰。软竞争适应:基于拟合统计混合的神经网络学习算法1991年,匹兹堡卡内基梅隆大学计算机科学学院博士论文。
    [25]
    S.Oba、M.-A.Sato、I.Takemasa、M.Monden、K.-I.Matsubara和S.Ishii。基因表达谱数据的贝叶斯缺失值估计方法。生物信息学, 19(16): 2088-2096, 2003.
    [26]
    M.Rosenbaum和A.Tsybakov。矩阵不确定性下的稀疏恢复。统计年刊, 38(5):2620-2651, 2010.
    [27]
    J.Schafer。不完全多元数据分析《统计学和应用概率专著72》,查普曼和霍尔出版社,1997年。
    [28]
    T.施耐德。不完整气候数据的分析:平均值和协方差矩阵的估计以及缺失值的插补。气候杂志, 14(5):853-871, 2001.
    [29]
    P.Spellman、G.Sherlock、M.Zhang、V.Iyer、K.Anders、M.Eisen、P.Brown、D.Botstein和B.Futcher。利用微阵列杂交技术对酿酒酵母细胞周期调控基因的综合鉴定。细胞分子生物学, 9 (12):3273-97, 1998.
    [30]
    P.Spites、C.Glymour和R.Scheines。因果关系、预测和搜索麻省理工学院出版社,2000年第2版。
    [31]
    N.Städler和P.Bühlmann。缺失值:稀疏逆协方差估计和稀疏回归的扩展。统计与计算, 22(1):219-235, 2012.
    [32]
    天文数据分析与稀疏性:从小波到压缩感知。IEEE会议记录, 98(6):1021-1030, 2010.
    [33]
    B.Thiesson、C.Meek和D.Heckerman。加速大型数据库的EM。机器学习, 45(3):279-299, 2001.
    [34]
    R.Tibshirani。通过拉索回归收缩和选择。英国皇家统计学会期刊,B辑, 58(1):267-288, 1996.
    [35]
    O.Troyanskaya、M.Cantor、G.Sherlock、P.Brown、T.Hastie、R.Tibshirani、D.Botstein和R.Altman。DNA微阵列缺失值估计方法。生物信息学, 17(6):520-525, 2001.
    [36]
    A.Wille、P.Zimmermann、E.Vranova、A.Fürholz、O.Laule、S.Bleuler、L.Hennig、A.Prelic、P.Rohrvon、L.Thiele、E.Zitzler、W.Gruissem和P.Bühlmann。拟南芥类异戊二烯基因网络的稀疏图形高斯模型。基因组生物学, 5(11), 2004.

    索引术语

    1. 高维问题中缺失数据的模式交替最大化算法
      索引项已通过自动分类分配给内容。

      建议

      评论

      信息和贡献者

      问询处

      发布于

      封面图片机器学习研究杂志
      机器学习研究杂志 第15卷第1期
      2014年1月
      4085页
      国际标准编号:1532-4435
      EISSN公司:1533-7928
      期刊目录

      出版商

      JMLR.org网站

      出版历史

      出版:2014年1月1日
      修订过的:2014年1月1日
      出版于JMLR体积15,发行1

      作者标记

      1. (部分)E步和M步
      2. 拉索
      3. 缺少数据
      4. 观察到的可能性
      5. 惩罚变分自由能

      限定符

      • 第条

      贡献者

      其他指标

      文献计量学和引文

      文献计量学

      文章指标

      • 0
        引文总数
      • 123
        下载总量
      • 下载次数(过去12个月)13
      • 下载次数(最近6周)2

      其他指标

      引文

      视图选项

      查看选项

      PDF格式

      以PDF文件查看或下载。

      PDF格式

      电子阅读器

      使用联机查看电子阅读器.

      电子阅读器

      获取访问权限

      登录选项

      完全访问权限

      媒体

      数字

      其他

      桌子

      分享

      分享

      共享此出版物链接

      在社交媒体上分享