×

与鲁棒PCA的联系以及突发稀疏性在变分自动编码器模型中的作用。 (英语) Zbl 1467.62106号

摘要:变分自编码器(VAE)代表了一种流行的、灵活的深度生成模型形式,它可以使用真实潜在分布的信息理论变分界随机拟合给定随机过程的样本。一旦获得,该模型可以被假定用于从该分布中生成新样本,或提供现有样本的低维潜在表示。虽然在许多应用领域中都非常有效,但控制VAE行为的某些重要机制被棘手的积分和由此产生的随机近似所混淆。此外,作为一个高度非凸模型,尚不清楚底层能量的最小值如何与原始设计目的相关联。我们试图通过分析一系列日益复杂的可处理特例来更好地量化这些问题。在这样做的过程中,我们揭示了与更传统的降维模型的有趣联系,以及内在的然而,在估计潜在流形时,对稀疏离群值进行稳健剔除的倾向尚未得到充分认识。关于后者,我们证明了VAE可以被视为最新鲁棒PCA模型的自然演化,能够学习被严重破坏所掩盖的未知维数的非线性流形。

MSC公司:

62H25个 因子分析和主成分;对应分析
62G35型 非参数稳健性
68T05型 人工智能中的学习和自适应系统

软件:

亚当;PDCO公司
PDF格式BibTeX公司 XML格式引用
全文: 链接

参考文献:

[1] D.J.Bartholomew和M.Knott。潜在变量模型和因子分析。肯德尔统计图书馆1999年第2版第7页·Zbl 1066.62528号
[2] Y.本吉奥。《学习人工智能的深层架构》,《机器学习的基础和趋势》,2009年·Zbl 1192.68503号
[3] L.博图。具有随机梯度下降的大规模机器学习。2010年国际计算统计会议(ICCS)。
[4] H.Bourard和Y.Kamp。通过多层感知器和奇异值分解实现自动关联。《生物控制论》,1988年·Zbl 0651.92006号
[5] Y.Burda、R.Grosse和R.Salakhutdinov。重要性加权自动编码器。arXiv:1509.00519,2015年。
[6] E.Cand’es、X.Li、Y.Ma和J.Wright。稳健的主成分分析?美国医学会杂志(JACM),58(3):2011年11月·兹比尔1327.62369
[7] V.Chandrasekaran、S.Sanghavi、P.A.Parrilo和A.S.Willsky。矩阵分解的秩稀疏性不相干。SIAM优化杂志,21(2):572-5962011·Zbl 1226.90067号
[8] S.S.Chen、D.L.Donoho和M.A.Saunders。通过基追踪进行原子分解。SIAM科学计算杂志,20(1),1999年·Zbl 0919.94002号
[9] A.Choromanska、M.Henaff、M.Mathieu、G.B.Arous和Y.LeCun。多层网络的损耗面。在国际人工智能与统计会议(AISTATS)上,2015年a。
[10] A.Choromanska、Y.LeCun和G.B.Arous。开放性问题:多层网络损耗表面的景观。学习理论会议(CoLT),2015年b。40
[11] X.Ding、L.He和L.Carin。贝叶斯稳健主成分分析。IEEE图像处理汇刊,20(12):3419-34302011·Zbl 1381.62144号
[12] D.L.Donoho和M.Elad。通过1最小化在通用(非正交)字典中实现最佳稀疏表示。《美国国家科学院院刊》,100(5):2197–22022003·Zbl 1064.94011号
[13] A.Dosovitskiy和T.Brox。基于深度网络生成具有感知相似性度量的图像。《神经信息处理系统进展》(NIPS),第658-666页,2016年。
[14] E.Elhamifar和R.Vidal。稀疏子空间聚类:算法、理论和应用。IEEE模式分析和机器智能汇刊,35(11):2765–27812013。
[15] D.J.H.加林。不等式:线性分析之旅。剑桥大学出版社,2007年·Zbl 1135.26014号
[16] I.Goodfellow、Y.Bengio和A.Courville。深度学习。麻省理工学院出版社,2016年·Zbl 1373.68009号
[17] I.J.Goodfellow、J.Pouget-Abadie、M.Mirza、B.Xu、D.Warde-Farley、S.Ozair、A.Courville和Y.Bengio。生成性对抗网络。《神经信息处理系统进展》(NIPS),2014年。
[18] 何凯(K.He)、张旭(X.Zhang)、任志刚(S.Ren)和孙建中(J.Sun)。深入研究整流器:在图像网络分类方面超越人类水平的性能。2015年IEEE国际计算机视觉会议(ICCV)。
[19] M.霍夫曼。为什么变分推理给出了糟糕的参数估计。《变异推理进展》,NIPS Worshop,2014年。
[20] 川口。深度学习,没有不良的局部极小值。《神经信息处理系统进展》(NIPS),2016年。
[21] T.H.Ohand H.Kim、Y.W.Tai、J.C.Bazin和I.S.Kweon。低水平视觉下RPCA中奇异值的部分和最小化。在国际计算机视觉会议(ICCV)上,2013年。
[22] D.Kingma和M.Welling。自动编码变分贝叶斯。在2014年国际学习代表大会上。
[23] D.Kingma、D.Rezende、S.Mohamed和M.Welling。深度生成模型的半监督学习。《神经信息处理系统进展》(NIPS),2014年。
[24] D.P.Kingma和J.Ba.Adam:一种随机优化方法。arXiv预印arXiv:1412.69802014。
[25] D.P.Kingma、T.Salimans、R.Jozefowicz、X.Chen、I.Sutskever和M.Welling。用逆自回归流改进变分推理。《神经信息处理系统进展》(NIPS),第4743–4751页,2016年。41
[26] A.B.L Larsen、S.K.Sönderby、H.Larochelle和O.Winther。使用学习的相似性度量对像素以外的内容进行自动编码。arXiv预印arXiv:1512.093002015。
[27] Y.Lecun、L.Bottou、Y.Bengio和P.Haffner。基于梯度的学习应用于文档识别。IEEE会议记录,86(11):2278–23241998年11月。ISSN 0018-9219。
[28] Z.Lin,M.Chen,Y.Ma。精确恢复受损低秩矩阵的增广拉格朗日乘子方法。arXiv预印arXiv:1009.50552010。
[29] C.Lu、J.Feng、Z.Lin和S.Yan。基于迹套索的相关自适应子空间分割。在2013年国际计算机视觉会议(ICCV)上。
[30] L.Maaløe、C.K.Sønderby、S.K.Sønderby和O.Winther。辅助的深层生成模型。在2016年国际机器学习会议(ICML)上。
[31] E.Mansimov、E.Parisotto、J.L.Ba和R.Salakhutdinov。注意从标题中生成图像。在2016年国际学习代表大会(ICLR)上。
[32] V.Nair和G.E.Hinton。校正的线性单元改进了受限的Boltzman机器。在国际机器学习会议(ICCV)上,2010年。
[33] A.V.D.Oord、N.Kalchbrenner和K.Kavukcuoglu。像素递归神经网络。arXiv预印arXiv:1601.067592016。
[34] B.D.Rao、K.Engan、S.F.Cotter、J.Palmer和K.Kreutz-Delgado。基于分集测度最小化的噪声子集选择。IEEE信号处理汇刊,51(3):760–7702003。
[35] S.Rao、R.Tron、R.Vidal和Y.Ma。存在异常、不完整或损坏轨迹的运动分割。IEEE模式分析和机器智能汇刊,32(10):1832-18452010。
[36] D.J.Rezende、S.Mohamed和D.Wierstra。深度生成模型中的随机反向传播和近似推理。在2014年国际机器学习会议(ICML)上。
[37] A.M.Saxe、J.L.McClelland和S.Ganguli。深度线性神经网络中非线性学习动力学的精确解。在2014年国际学习代表大会上。
[38] C.K.Sönderby、T.Raiko、L.Maalöe、S.K.Sónderby和O.Winther。如何训练深度变分自编码器和概率梯形网络。在arXiv:1602.022822016年。
[39] M.Tipping和C.Bishop。概率主成分分析。英国皇家统计学会杂志:B辑(统计方法),61(3):611-6221999·Zbl 0924.62068号
[40] Y.Wang、B.Dai、G.Hua、J.Aston和D.Wipf。绿色生成建模:使用递归变分自动编码器回收脏数据。《人工智能中的不确定性》(UAI),2017年。
[41] D.擦拭。基于经验贝叶斯方法的非凸秩最小化。《人工智能中的不确定性》(UAI),2012年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。