×

深度迁移学习的平衡关节最大平均差。 (英语) Zbl 07362270号

摘要:最近的研究表明,深度网络可以学习可转移的特征,这些特征可以很好地推广到具有很少或不可用的领域适应标记数据的新任务。然而,在深层架构体系结构中,证明特征表示的哪些组件可以解释使用JMMD的原始联合分布的合理性仍不清楚。我们提出了一种新的JMMD反向传播算法,称为平衡联合最大平均差(B-JMMD),以进一步减少域差异。B-JMMD实现了深度网络架构的均衡分布自适应效果,可以作为JMMD反向传播算法的改进版本。该方法自适应地利用跨域的多个特定域层后面的边缘分布和条件分布的重要性,以在二阶再生核Hilbert空间中获得联合分布的良好匹配。该方法的学习在技术上可以通过一种特殊形式的随机梯度下降来实现,其中梯度是通过平衡分布自适应策略的反向传播来计算的。理论分析表明,该方法优于JMMD方法。实验证明,我们的方法在标准数据集上获得了最新的结果。

MSC公司:

68T07型 人工神经网络与深度学习
15A69号 多线性代数,张量演算
47B32型 再生核Hilbert空间(包括de Branges、de Branges-Rovnyak和其他结构空间)中的线性算子
90 C90 数学规划的应用
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Adams,N.,机器学习中的数据集转换,J.Roy。统计师。Soc.173(1)(2010)274-274。
[2] Bengio,Y.、Courville,A.和Vincent,P.,《表征学习:回顾与新视角》,IEEE Trans。模式分析。机器。《情报》35(8)(2013)1798-1828。
[3] C.K.Chui、S.-B.Lin和D.-X.Zhou,旋转方差逼近和学习的深度神经网络,预印本(2019),arXiv:1904.01814·Zbl 1423.68378号
[4] Collobert,R.、Weston,J.、Karlen,M.、Kavukcuoglu,K.和Kuksa,P.,《从头开始的自然语言处理(几乎)》,J.Mach。学习。第12(1)号决议(2011)2493-2537·Zbl 1280.68161号
[5] Y.Ganin和V.Lempitsky,通过反向传播实现无监督域自适应,预印本(2015),arXiv:1409.7495。
[6] Glorot,X.、Bordes,A.和Bengio,Y.,《大规模情绪分类的领域自适应:深度学习方法》,国际会议机器学习(Bellevue,Washington,USA,2011),第513-520页。
[7] Gong,B.、Grauman,K.和Sha,F.,《将点与地标连接起来:非监督领域适应的区分学习领域变异特征》,载于《国际计算机学习》(美国佐治亚州亚特兰大,2013年),第I-222页。
[8] Gong,B.,Shi,Y.,Sha,F.和Grauman,K.,《无监督域适配的测地流核》,载于IEEE Conf.Computer Vision and Pattern Recognition(美国罗德岛州普罗维登斯,2012),第2066-2073页。
[9] Gretton,A.、Borgwardt,K.M.、Rasch,M.J.、Schölkopf,B.和Smola,A.,《内核双样本测试》,J.Mach。学习。第13(1)号决议(2012)723-773·Zbl 1283.62095号
[10] Gretton,A.、Sriperumbudur,B.、Sejdinovic,D.、Strathmann,H.、Balakrishnan,S.、Pontil,M.和Kenji,F.,《大规模双样本测试的最佳内核选择》,高级神经信息。过程。系统。(2012) 1205-1213.
[11] He,K.,Zhang,X.,Ren,S.和Sun,J.,图像识别的深度剩余学习,收录于IEEE计算机视觉和模式识别会议(美国内华达州拉斯维加斯,2016),第770-778页。
[12] Hoffman,J.,Guadarrama,S.,Tzeng,E.,Hu,R.,Donahue,J.、Girshick,R.、Saenko,K.和Saenko.,K.,Lsda:通过适应进行大规模检测,摘自《神经信息处理系统国际会议》(2014),第3536-3544页。
[13] Hou,C.A.,Tsai,Y.H.,Yeh,Y.R.和Wang,Y.F.,标签和结构一致性的无监督域适应,IEEE Trans。图像处理。25(12)(2016)5552-5562·Zbl 1408.94253号
[14] Jhuo,I.H.,Liu,D.,Lee,D.T.和Chang,S.F.,具有低阶重建的鲁棒视觉领域自适应,计算。视觉。模式识别。(美国罗德岛州普罗维登斯,2012)2168-2175。
[15] Jia,Y.、Shelhamer,E.、Donahue,J.、Karayev,S.、Long,J.,Girshick,R.、Guadarrama,S.和Darrell,T.,《Caffe:快速特征嵌入的卷积架构》,载于ACM Multimedia(2014)。
[16] Kifer,D.、Ben-David,S.和Gehrke,J.,《检测数据流中的变化》,摘自《Proc。2004年VLDB会议(加拿大多伦多,2004年),第180-191页。
[17] Krizhevsky,A.、Sutskever,I.和Hinton,G.E.,用深度卷积神经网络进行Imagenet分类,收录于《神经信息处理系统国际会议》(美国内华达州塔霍湖,2012年),第1097-1105页。
[18] LeCun,Y.、Bengio,Y.和Hinton,G.,《深度学习》,《自然》521(7553)(2015)436-444。
[19] Long,M.、Cao,Y.、Wang,J.和Jordan,M.I.,《学习深度适应网络的可转换特征》,收录于Proc。第32届机器学习国际会议(ICML)(法国里尔,2015年),第97-105页。
[20] Long,M.、Wang,J.、Ding,G.、Sun,J.和Yu,P.S.,《带联合分布自适应的迁移特征学习》,IEEE国际计算机视觉会议(美国俄亥俄州哥伦布市,2014年),第2200-2207页。
[21] Long,M.,Zhu,H.,Wang,J.和Jordan,M.I.,《使用剩余传输网络的无监督域自适应》,摘自《神经信息处理系统进展29:2016年神经信息处理体系年度会议》(西班牙巴塞罗那,2016年12月5-10日),第136-144页。
[22] Long,M.、Zhu,H.、Wang,J.和Jordan,M.I.,《利用联合适应网络进行深度迁移学习》,收录于Proc。第34届国际机器学习大会(ICML)(澳大利亚新南威尔士州悉尼,2017年),第2208-2217页。
[23] Pan,S.J.,Tsang,I.W.,Kwok,J.T.和Yang,Q.,通过传输组件分析的域自适应,IEEE Trans。神经网络.22(2)(2011)199。
[24] 邱,Q.,Patel,V.M.,Turaga,P.和Chellappa,R.,《领域自适应词典学习》,收录于《计算机视觉-ECCV 2012》,Fitzgibbon,A.,Lazebnik,S.,Perona,P.,Sato,Y.和Schmid,C.编辑(柏林斯普林格出版社,2012),第631-645页。
[25] Saenko,K.,Kulis,B.,Fritz,M.和Darrell,T.,《将视觉类别模型应用于新领域》,载于《欧洲计算机视觉会议》(Hersonissos,Crete,Greece,2010),第213-226页。
[26] Satpal,S.和Sarawagi,S.,《通过特征子集对条件概率模型进行域自适应》,载于《欧洲数据库知识发现原则和实践会议》(德国海德堡,柏林,2007年),第224-235页。
[27] Schwab,C.和Zech,J.,《高维深度学习:UQ中广义多项式混沌展开的神经网络表达率》,Anal。申请17(01)(2019)19-55·Zbl 1478.68309号
[28] Song,L.,Boots,B.,Siddiqi,S.M.,Gordon,G.J.和Smola,A.J.,隐藏马尔可夫模型的希尔伯特空间嵌入,Proc Interspeech,2(2)(2010)140-144。
[29] Song,L.和Dai,B.,多元分布的稳健低秩核嵌入,《高级神经信息》。过程。系统。(美国内华达州塔霍湖,2013年),第3228-3236页。
[30] L.Song、K.Fukumizu和A.Gretton,条件分布的内核嵌入:图形模型中非参数推理的统一内核框架,IEEE信号处理。Mag.30(4)(2013)98-111。
[31] Song,L.,Huang,J.,Smola,A.和Fukumizu,K.,条件分布的Hilbert空间嵌入及其在动力系统中的应用,Proc。第26届机器学习国际会议(ICML)(加拿大魁北克省蒙特利尔,2009年),第961-968页。
[32] Tahmoresnezhad,J.和Hashemi,S.,《通过转移特征学习进行视觉领域自适应》,Knowl。通知。系统50(2)(2016)1-21。
[33] Tzeng,E.,Hoffman,J.,Zhang,N.,Saenko,K.和Darrell,T.,深度域混淆:域不变性的最大化,计算。科学12(2014),https://arxiv.org/abs/1412.3474。
[34] Wang,J.,Chen,Y.,Hao,S.,Feng,W.和Shen,Z.,迁移学习的平衡分布适应,2017 IEEE数据挖掘国际会议(ICDM)(美国新奥尔良,2017),第1129-1134页。
[35] Yang,Q.和Pan,S.J.,迁移学习调查,IEEE Trans。知识。数据工程22(10)(2010)1345-1359。
[36] J.Yosinski、J.Clune、Y.Bengio和H.Lipson,深度神经网络中的特征如何转移?,27 (2014) 3320-3328.
[37] 周德兴,深度分布卷积神经网络:普适性,分析。申请16(6)(2018)895-919·Zbl 1442.68214号
[38] 周德兴,深度卷积神经网络的普遍性,应用。计算。哈蒙。分析48(2)(2020)787-794·Zbl 1434.68531号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。