×

深度玻尔兹曼机器的有效学习程序。 (英语) 兹比尔1247.68223

摘要:我们提出了一种新的玻尔兹曼机器学习算法,该算法包含多层隐藏变量。数据相关统计数据是使用倾向于集中于单一模式的变分近似估计的,数据相关统计信息是使用持久马尔可夫链估计的。使用两种完全不同的技术来估计进入对数似然梯度的两种类型的统计,这使得学习具有多个隐藏层和数百万个参数的Boltzmann机器变得切实可行。通过使用一个逐层预训练阶段来合理地初始化权重,可以提高学习效率。预训练还允许通过一次自下而上的过程来合理地初始化变分推理。我们在MNIST和NORB数据集上给出的结果表明,深度Boltzmann机器学习手写数字和3D对象的非常好的生成模型。我们还表明,深度Boltzmann机器发现的特征是一种非常有效的方法,可以初始化前馈神经网络的隐藏层,然后对其进行区分性微调。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62A09级 统计学中的图形方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 内政部:10.1561/220000006·Zbl 1192.68503号 ·doi:10.1561/2200000006
[2] Bengio Y.,《神经信息处理系统的进展》,11页153–(2007)
[3] Bengio Y.,《大型内核机器》(2007)
[4] Dahl G.E.,《神经信息处理系统的进展》,23页469–(2010)
[5] DOI:10.1023/A:1012454411458·Zbl 0998.68102号 ·doi:10.1023/A:1012454411458
[6] Desjardins G.,《第十三届人工智能与统计国际研讨会论文集》,第145页–(2010年)
[7] 内政部:10.1109/TPAMI.1984.4767596·Zbl 0573.62030号 ·doi:10.1109/TPAMI.1984.4767596
[8] Goldberger J.,《神经信息处理系统的进展》,17页513–(2004)
[9] 内政部:10.1162/089976602760128018·Zbl 1010.68111号 ·网址:10.1162/089976602760128018
[10] DOI:10.1016/S0079-6123(06)65034-6·doi:10.1016/S0079-6123(06)65034-6
[11] Hinton G.E.,训练受限Boltzmann机器的实用指南(2010)
[12] 内政部:10.1162/neco.2006.18.7.1527·Zbl 1106.68094号 ·doi:10.1116/neco.2006.18.7.1527
[13] DOI:10.1126/科学.1127647·Zbl 1226.68083号 ·doi:10.1126/science.1127647
[14] Hinton G.E.,IEEE计算机视觉和模式识别会议记录(1983年)
[15] Hinton G.E.,《神经信息处理系统的进展》,第6页,3–(1994)
[16] Jordan M.I.,图形模型学习(1999)
[17] Kappen H.J.,神经信息处理系统的进展10(1998)
[18] 内政部:10.1126/science.220.4598.671·兹比尔1225.90162 ·doi:10.1126/science.220.4598.671
[19] 内政部:10.1109/CVPR.2004.1315150·doi:10.1010/CVPR.2004.1315150
[20] Marks T.K.,程序。独立成分分析国际会议第481页–(2001)
[21] 内政部:10.1109/TASL.2011.2109382·doi:10.1109/TASL.2011.2109382
[22] Murray I.,《神经信息处理系统的进展》,第21页,1137–(2009)
[23] Nair V.,《神经信息处理系统的进展》,21页1145–(2009)
[24] Nair V.,诉讼。第27届国际机器学习会议第807页–(2010年)
[25] 内政部:10.1016/0004-3702(92)90065-6·Zbl 0761.68081号 ·doi:10.1016/0004-3702(92)90065-6
[26] DOI:10.1023/A:1008923215028·doi:10.1023/A:1008923215028
[27] DOI:10.1007/978-94-011-5014-9_12·doi:10.1007/978-94-011-5014-9_12
[28] Osindero S.,《神经信息处理系统的进展》,第20页,第1121页–(2008年)
[29] Peterson C.,《复杂系统1》,第995页–(1987)
[30] 内政部:10.1109/CVPR.2007.383157·doi:10.1109/CVPR.2007.383157
[31] DOI:10.1214/aoms/1177729586·Zbl 0054.05901号 ·doi:10.1214/aoms/1177729586
[32] Salakhutdinov R.R.,《神经信息处理系统的进展》,第23页,1598–(2009)
[33] Salakhutdinov R.R.,《国际人工智能与统计会议论文集》11,第412页–(2007年)
[34] Salakhutdinov R.R.,《国际人工智能与统计会议论文集》,第12页,448页–(2009年)
[35] Salakhutdinov R.R.,《神经信息处理系统的进展》,22页,1607–(2009)
[36] DOI:10.145/1273496.1273596·doi:10.1145/1273496.1273596
[37] 内政部:10.1145/1390156.1390266·数字对象标识代码:10.1145/1390156.1390266
[38] 内政部:10.1073/pnas.0700622104·doi:10.1073/pnas.0700622104
[39] Smolensky P.,并行分布式处理,第1卷:基础第194页–(1986)
[40] 内政部:10.1145/1390156.1390290·doi:10.145/1390156.1390290
[41] 内政部:10.1145/1553374.1553506·doi:10.1145/1553374.1553506
[42] DOI:10.145/1390156.1390294·数字对象标识代码:10.1145/1390156.1390294
[43] 内政部:10.1145/1553374.1553517·doi:10.1145/1553374.1553517
[44] Welling M.,《神经信息处理系统的进展》,第17页,1481–(2005)
[45] Williams C.,高斯-玻尔兹曼机器中对比发散学习的分析(2002)
[46] DOI:10.1007/BF00341287·Zbl 0659.62115号 ·doi:10.1007/BF00341287
[47] 内政部:10.1080/17442509908834179·Zbl 0949.65006号 ·doi:10.1080/17442509908834179
[48] Yuille A.L.,《神经信息处理系统的进展》,第17页,1593–(2004)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。