×

使用低内存内核和范围投影训练多层网络。 (英语) Zbl 1470.68213号

摘要:最近,人们提出了一种基于核和距离空间投影的学习方法。该方法已被应用于解析学习多层网络,其权重矩阵之间具有可解释的关系。然而,基于体矩阵的公式在网络学习期间内存需求很高。在本研究中,提出了一种低内存分辨率来解决内存需求问题。本质上,批量矩阵运算是通过低内存公式实现的,其中一次只处理一个训练样本。这样的公式被证明在数学上等同于原始的批量学习版本。我们还指出,计算系统中的舍入误差可能会阻碍所建议公式的性能。然后,通过引入正则化技术,以额外但可忽略的内存使用为代价,对该公式进行了稳健性验证。我们的实验表明,所提出的低内存分辨率确实可以极大地减少内存消耗,同时在回归和分类任务中保持相当好的性能。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿利莫格鲁,F。;Alpaydin,E。;Denizhan,Y.,组合多分类器进行手写数字识别(1996),arXiv:1411.6191
[2] D.Balduzzi、H.Vanchinathan、J.Buhmann,《反击削减Backprop的红脸:神经网络中生物学上合理的信用分配》(2014)。
[3] Barton,S.A.,优化神经网络的矩阵方法,神经计算。,3, 3, 450-459 (1991)
[4] Ben-Israel,A。;Greville,T.N.E.,《广义逆:理论与应用》(2003),Springer:Springer纽约·Zbl 1026.15004号
[5] 蔡,L。;朱,J。;曾浩。;陈,J。;蔡,C。;Ma,K.-K.,Hog-assisted deep feature learning for player gender recognition,J.Frankl,马·K·K,霍格协助深入特征学习实现行人性别识别。Inst.,355,4191991-2008(2018)
[6] 坎贝尔,S.L。;Meyer,C.D.,线性变换的广义逆,56(2009),SIAM·Zbl 1158.15301号
[7] 陈,L.-C。;帕潘德里欧,G。;科基诺斯,I。;墨菲,K。;Yuille,A.L.,Deeplab:语义图像分割与深度卷积网络、反褶积和全连接CRFS,IEEE Trans。模式分析。机器。智力。,40, 4, 834-848 (2018)
[8] 陈,S。;格兰特,P。;Cowan,C.,训练多输出径向基函数网络的正交最小二乘算法,IEE Proceedings F(雷达和信号处理),139378-384(1992),IET
[9] 切尼,E.W。;Kincaid,D.R.,《数值数学与计算》(2012年),《Cengage Learn》。
[10] K.Cho,B.Van Merriönboer,C.Gulcehre,D.Bahdanau,F.Bougares,H.Schwenk,Y.Bengio,使用RNN编码器-解码器进行统计机器翻译的学习短语表示,arXiv预印本arXiv:1406.1078(2014)。
[11] Chong,E.K。;Zak,S.H.,《优化导论》,76(2013),John Wiley&Sons·Zbl 1266.90001号
[12] M.Dawson,J.Olvera,A.Fung,M.Manry,使用快速学习神经网络反演表面参数(1992)。
[13] 道森,M.S。;Fung,A.K。;Manry,M.T.,使用快速学习神经网络进行表面参数检索,《遥感评论》,第7、1、1-18页(1993年)
[14] Diestel,R.,图论(2018),Springer Publishing Company,Incorporated
[15] 丁,C。;Tao,D.,用于基于视频的人脸识别的主干-分支集成卷积神经网络,IEEE Trans。模式分析。机器。智力。,40, 4, 1002-1014 (2018)
[16] S.Duan,S.Yu,Y.Chen,J.Principe,《学习无反向传播的内核深层架构》(2018年)。arXiv公司:1802.03774
[17] Elman,J.L.,《发现时间中的结构》,Cogn。科学。,14, 2, 179-211 (1990)
[18] 古德费罗,I。;本吉奥,Y。;科尔维尔,A。;Bengio,Y.,《深度学习》,1(2016),麻省理工学院出版社:麻省理学院出版社剑桥·Zbl 1373.68009号
[19] Greville,T.,矩阵伪逆的一些应用,SIAM Rev.,2,1,15-22(1960)·Zbl 0168.13303号
[20] He,K。;张,X。;Ren,S。;Sun,J.,图像识别的深度残差学习,IEEE计算机视觉和模式识别会议论文集,770-778(2016)
[21] Hochreiter,S。;Schmidhuber,J.,长短期记忆,神经计算。,9, 8, 1735-1780 (1997)
[22] Hoo-Chang,S。;罗斯,H.R。;高,M。;卢,L。;Xu,Z。;诺格,我。;姚,J。;Mollura,D。;Summers,R.M.,《用于计算机辅助检测的深度卷积神经网络:CNN架构、数据集特征和传输学习》,IEEE Trans。医学成像,35,5,1285(2016)
[23] 黄,G。;刘,Z。;范德马滕,L。;Weinberger,K.Q.,密集连接卷积网络,2017年IEEE计算机视觉和模式识别会议论文集,2261-2269(2017),IEEE
[24] 黄,G.-B。;纽约州梁。;荣,H.-J。;萨拉昌德兰,P。;Sundararajan,N.,在线顺序极限学习机。,IASTED国际计算智能会议记录,2005,232-237(2005)
[25] 黄,G.-B。;朱庆云。;Siew,C.-K.,《极限学习机器:理论与应用》,神经计算,70,1-3,489-501(2006)
[26] Jaderberg,M。;Czarnecki,W.M。;Osindero,S。;葡萄酒,O。;格雷夫斯,A。;Silver博士。;Kavukcuoglu,K.,使用合成梯度解耦神经界面,第三十四届机器学习国际会议论文集——第70卷,1627-1635(2017),JMLR。组织
[27] Kang,K。;李,H。;严,J。;曾,X。;Yang,B。;肖,T。;张,C。;王,Z。;王,R。;Wang,X.,T-CNN:视频中目标检测的卷积神经网络管,IEEE Trans。电路系统。视频技术。,28, 10, 2896-2907 (2018)
[28] Kay,S.M.,《统计信号处理基础:实用算法开发》,3(2013),培生教育
[29] Kingma,D.P。;穆罕默德,S。;Rezende,D.J。;Welling,M.,《深度生成模型的半监督学习》,《神经信息处理系统进展》,3581-3589(2014)
[30] A.Krizhevsky,I.Sutskever,G.E.Hinton,使用深度卷积神经网络的ImageNet分类,2012年,http://papers.nips.cc/paper/4824-imagenetclassification-with-deep-convolutional-neural-networks。
[31] LeCun,Y。;Bengio,Y.,图像、语音和时间序列的卷积网络,Handb。脑理论神经网络。,3361, 10, 1995 (1995)
[32] LeCun,Y。;博图,L。;本吉奥,Y。;Haffner,P.,《基于梯度的学习应用于文档识别》,Proc。IEEE,8622278-2324(1998年)
[33] LeCun,Y。;黄,F.J。;Bottou,L.,具有姿态和光照不变性的通用物体识别学习方法,CVPR(2),97-104(2004),Citeser
[34] Malalur,S.S。;Manry,M.T.,前馈网络的多个最佳学习因素,《独立成分分析、小波、神经网络、生物系统和纳米工程学报》VIII,7703,77030F(2010),国际光学和光子学学会
[35] 马丁内斯·雷戈,D。;Fontenla-Romero,O。;Alonso-Betanzos,A.,增量、非平稳和分布式学习场景的非线性单层神经网络训练算法,模式识别。,45, 12, 4536-4546 (2012) ·兹比尔1248.68412
[36] 马丁内斯·雷戈,D。;Fontenla-Romero,O。;Alonso-Betanzos,A.,基于泰勒展开和格雷维尔公式的单个非线性神经元的精确增量学习,西班牙人工智能协会会议记录,149-158(2013),Springer
[37] 信号分析和处理机器学习最新进展专刊·Zbl 1395.94053号
[38] 米尔扎,B。;Lin,Z.,用于不平衡和概念驱动数据分类的元认知在线顺序极端学习机,神经网络。,80, 79-94 (2016)
[39] Oppenheim,A.V.,离散时间信号处理(1999),培生教育印度·兹比尔0994.94005
[40] A.Radford,L.Metz,S.Chintala,《深度卷积生成对抗网络的无监督表征学习》(2015)。arXiv:1511.06434号
[41] http://www.sciencedirect.com/science/article/pii/0024379585901260。 ·Zbl 0561.15006号
[42] 罗宾斯,H。;Monro,S.,《随机近似方法》,赫伯特·罗宾斯论文集,102-109(1985),斯普林格出版社
[43] Rumelhart,D.E。;辛顿,G.E。;Williams,R.J.,《通过反向传播错误学习表征》,《自然》,3236088533(1986)·Zbl 1369.68284号
[44] Simon,D.,《最优状态估计:卡尔曼、H无限和非线性方法》(2006),John Wiley&Sons
[45] K.Simonyan,A.Zisserman,《用于大规模图像识别的极深卷积网络》,arXiv:1409.1556(2014)。
[46] 塞格迪,C。;刘伟。;贾毅。;Sermanet,P。;里德,S。;安格洛夫,D。;Erhan,D。;Vanhoucke,V。;Rabinovich,A.,深入卷积,IEEE计算机视觉和模式识别会议论文集,1-9(2015)
[47] 塔西,M.B。;Stanimirovi,P.S。;Pepi,S.H.,关于广义LM-逆和加权Moore-Penrose逆,应用。数学。计算。,216, 114-124 (2010) ·Zbl 1191.65038号
[48] Toh,K.-A.,分析网络学习,技术报告(2018),arXiv:1811.08227
[49] Toh,K.-A.,《分析网络学习的内核和范围方法》,Int.J.Netw。分布式计算。,7, 1, 20-28 (2018)
[50] Toh,K.-A.,从内核和范围空间学习,2018年IEEE第十七届计算机和信息科学会议(ICIS)论文集,417-422(2018),IEEE
[51] Udwadia,F。;Kalaba,R.,格雷维尔公式的另一种证明,J.Opt。理论应用。,94, 1, 23-28 (1997) ·Zbl 0893.65020号
[52] Udwadia,F。;Kalaba,R.,广义逆递归确定的一般形式:统一方法,J.Opt。理论应用。,第101页,第3页,第509-521页(1999年)·Zbl 0946.90117号
[53] Udwadia,F。;Kalaba,R.,矩阵{1,4}-逆的顺序确定,J.Opt。理论应用。,117, 1, 1-7 (2003) ·Zbl 1040.65033号
[54] Udwadia,F.E。;Phohomsiri,P.,矩阵广义Moore-Penrose M-逆的递归确定,J.Opt。理论应用。(2005) ·兹比尔1100.65040
[55] (博士论文)
[56] Werbos,P.J.,应用于循环天然气市场模型的反向传播推广,神经网络。,1, 4, 339-356 (1988)
[57] H.Xiao,K.Rasul,R.Vollgraf,Fashion-mnist:一个用于基准机器学习算法的新型图像数据集(2017)。arXiv:1708.07747。
[58] 徐,L。;Krzyzak,A。;Suen,C.Y.,《组合多分类器的方法及其在手写识别中的应用》,IEEE Trans。系统。人类网络。,22, 3, 418-435 (1992)
[59] 周,J。;Zhu,Y。;Li,X.R。;You,Z.,《格雷维尔公式的变体及其在精确递归最小二乘中的应用》,SIAM J.《矩阵分析》。申请。,24, 1, 150-164 (2002) ·Zbl 1029.65040号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。