×

使用自适应初始化任务优化器的少快照学习:一种实用的元学习方法。 (英语) Zbl 1442.68209号

小结:考虑到实际应用中的数据收集和标记成本,用有限的示例训练模型是机器学习、视觉识别等领域中的一个基本问题。直接在这种少快照学习(FSL)任务上训练模型陷入了过度拟合的困境,这将转变为有效的任务级归纳偏差作为关键监督。通过将少数任务视为一个整体,提取任务级模式,并学习任务认知的模型初始化,模型认知元学习(MAML)框架支持在FSL任务上应用各种模型。给定一个带有几个示例的训练集,MAML通过从预先选择的初始点开始的固定梯度下降步骤来优化模型。虽然该通用框架具有经验上令人满意的结果,但其初始化忽略了特定任务的特性,也加重了计算负担。在这份手稿中,我们提出了AdaptiVely InitiAlized Task OptimizeR(飞行员)少快照学习方法,将任务上下文纳入模型初始化的确定中。这种特定于任务的初始化有助于模型优化过程,从而高效地获得高质量的模型解决方案。为此,我们对模型进行解耦,并对训练集应用集转换,以确定初始顶层分类器。一阶梯度下降近似的重参数化促进了梯度反向传播。在合成数据集和基准数据集上的实验验证了我们的飞行员该方法实现了最先进的性能,可视化结果表明任务自适应的我们提议的特征飞行家方法。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68T20型 人工智能背景下的问题解决(启发式、搜索策略等)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿基利,A。;Soatto,S.,深度表征中不变性和解纠缠的出现,机器学习研究杂志,19,50:1-50:34(2018)·Zbl 1462.68166号
[2] 安德里科维奇,M。;丹尼尔,M。;科尔梅纳雷霍,SG;霍夫曼,MW;Pfau,D。;Schaul,T。;de Freitas,N.,通过梯度下降学习梯度下降,神经信息处理系统进展,29,3981-3989(2016)
[3] Antoniou,A.、Edwards,H.和Storkey,A.J.(2018年)。如何训练MAML。CoRR arXiv:1810.09502。
[4] Baxter,J.,归纳偏见学习模型,《人工智能研究杂志》,12149-198(2000)·Zbl 0940.68106号 ·doi:10.1613/jair.731
[5] Chen,W.Y.,Liu,Y.C.,Kira,Z.,Wang,Y.C.F.,&Huang,J.B.(2019)。仔细看一下几个快照分类。CoRR arXiv:1904.04232。
[6] Clavera,I.、Nagabandi,A.、Fearing,R.S.、Abbeel,P.、Levine,S.和Finn,C.(2018年)。学习适应:基于模型的控制的元学习。CoRR arXiv:1803.11347。
[7] Dai,W.Z.、Muggleton,S.、Wen,J.、Tamaddoni-Nezhad,A.和Zhou,Z.H.(2017)。逻辑愿景:从真实图像中进行一快照元解释学习。第27届归纳逻辑编程国际会议论文集,法国奥尔良(第46-62页)·Zbl 1455.68163号
[8] Deleu,T.和Bengio,Y.(2018年)。模型认知元学习中消极适应的影响。CoRR arXiv:1812.02159。
[9] Denevi,G。;Ciliberto,C。;斯塔莫斯,D。;Pontil,M.,《围绕共同均值学习》,《神经信息处理系统进展》,3110190-10200(2018)
[10] Finn,C.、Abbeel,P.和Levine,S.(2017a)。用于快速适应深层网络的模型认知元学习。第34届国际机器学习会议论文集,澳大利亚悉尼(第1126-1135页)。
[11] Finn,C.和Levine,S.(2018年)。元学习和通用性:深度表示和梯度下降可以近似任何学习算法。在加拿大温哥华举行的第六届学习代表国际会议上。
[12] 芬恩,C。;Xu,K。;Levine,S.,概率模型-认知元学习,神经信息处理系统进展,319537-9548(2018)
[13] Finn,C.、Yu,T.、Zhang,T.,Abbeel,P.和Levine,S.(2017b)。通过元学习进行单镜头视觉模仿学习。第一届机器人学习年会论文集,加利福尼亚州山景城(第357-368页)。
[14] Franceschi,L.、Donini,M.、Frasconi,P.和Pontil,M.(2017)。超参数优化和警报学习之间的桥梁。CoRR arXiv:1712.06283。
[15] Garg,V.,《监督无监督学习》,《神经信息处理系统的进展》,314996-5006(2018)
[16] Gu,J.、Wang,Y.、Chen,Y.,Li,V.O.K.和Cho,K.(2018年)。低资源神经机器翻译的元学习。《2018年自然语言处理实证方法会议记录》,比利时布鲁塞尔(第3622-3631页)。
[17] Hariharan,B.和Girshick,R.B.(2017年)。通过缩小和产生幻觉的特征进行低镜头视觉识别。IEEE计算机视觉国际会议(第3037-3046页)。意大利:威尼斯。
[18] Hsu,K.、Levine,S.和Finn,C.(2018年)。通过元学习进行无监督学习。CoRR arXiv公司:1810.02334
[19] Huang,P.S.、Wang,C.、Singh,R.、Yih,W.和He,X.(2018年)。通过元学习生成结构化查询的自然语言。计算语言学协会北美分会2018年会议记录:人类语言技术,洛杉矶新奥尔良(第732-738页)。
[20] 黄,SJ;金·R。;周,ZH,通过查询信息性和代表性示例进行主动学习,IEEE模式分析和机器智能汇刊,36,10,1936-1949(2014)·doi:10.1109/TPAMI.2014.2307881
[21] Ioffe,S.和Szegedy,C.(2015)。批量规范化:通过减少内部协变量偏移来加速深层网络培训。第32届机器学习国际会议论文集,法国里尔(第448-456页)。
[22] Karlinsky,L.、Shtok,J.、Tzur,Y.和Tzadok,A.(2017年)。通过单个示例训练对数千个对象类别进行细粒度识别。在关于计算机视觉和模式识别的IEEE会议上,夏威夷火奴鲁鲁(第965-974页)。
[23] Kingma,D.P.和Ba,J.(2014)。亚当:一种随机优化方法。CoRR arXiv:1412.6980。
[24] Koch,G.、Zemel,R.和Salakhutdinov,R.(2015)。用于一次性图像识别的暹罗神经网络。ICML深度学习研讨会(第2卷)https://sites.google.com/site/deplearning2015/home。
[25] Krizhevsky,A。;Sutskever,I。;Hinton,GE,Imagenet分类与深度卷积神经网络,ACM通信,60,6,84-90(2017)·doi:10.1145/3065386
[26] Lake,B.M.、Salakhutdinov,R.、Gross,J.和Tenenbaum,J.B.(2011年)。简单视觉概念的一次性学习。《认知科学学会第33届年会论文集》,马萨诸塞州波士顿。
[27] 湖泊,BM;萨拉赫季诺夫,R。;Tenenbaum,JB,《通过概率程序归纳法进行人类级概念学习》,《科学》,350,6266,1332-1338(2015)·Zbl 1355.68230号 ·doi:10.1126/science.aab3050
[28] Lee,Y.和Choi,S.(2018年)。基于梯度的元学习,具有学习的分层度量和子空间。第35届机器学习国际会议论文集,瑞典斯德哥尔摩(第2933-2942页)。
[29] 李,FF;弗格斯,R。;Perona,P.,对象类别的一次性学习,IEEE模式分析和机器智能汇刊,28,4,594-611(2006)·doi:10.10109/TPAMI.2006.79
[30] 李,YF;Zhou,ZH,《努力使未标记数据永不受损》,IEEE模式分析和机器智能汇刊,37,1,175-188(2015)·doi:10.1109/TPAMI.2014.2299812
[31] Li,Z.、Zhou,F.、Chen,F.和Li,H.(2017)。Meta-SGD:学习快速学习,少用镜头学习。CoRR arXiv:1707.09835。
[32] Maurer,A.,线性特征学习的转移界限,机器学习,75,3,327-350(2009)·Zbl 1470.68146号 ·doi:10.1007/s10994-009-5109-7
[33] Maurer,A。;庞蒂尔,M。;罗梅拉·帕德斯,B.,《多任务表征学习的益处》,《机器学习研究杂志》,17,81:1-81:32(2016)·Zbl 1360.68696号
[34] Motiian,S。;琼斯,Q。;伊兰曼内什,SM;Doretto,G.,《少镜头对抗性领域自适应》,《神经信息处理系统进展》,306673-6683(2017)
[35] Nichol,A.、Achiam,J.和Schulman,J.(2018年)。关于一阶元学习算法。CoRR arXiv:1803.02999。
[36] 普罗布斯特,P。;阿拉巴马州布列斯特克斯;Bischl,B.,《可调性:机器学习算法超参数的重要性》,《机器学习研究杂志》,20,53:1-53:32(2019)·Zbl 1485.68226号
[37] Ravi,S.和Larochelle,H.(2017年)。优化是一种少快照学习模型。在国际学习代表大会上。
[38] Reed,S.E.、Chen,Y.、Paine,T.、van den Oord,A.、Eslami S.M.A.、Rezende,D.J.、Vinyals,O.和de Freitas,N.(2017年)。少样本自回归密度估计:走向学习-学习分布。CoRR arXiv:1710.10304。
[39] Ren,M.、Zeng,W.、Yang,B.和Urtasun,R.(2018)。学习重新权衡示例以进行深入学习。第35届机器学习国际会议论文集,瑞典斯德哥尔摩(第4331-4340页)。
[40] 俄勒冈州Russakovsky。;邓,J。;苏,H。;克劳斯,J。;Satheesh,S。;马,S。;Huang,Z。;Karpathy,A。;科斯拉,A。;伯恩斯坦,理学硕士;Berg,AC;Li,F.,Imagenet大规模视觉识别挑战,国际计算机视觉杂志,115,3,211-252(2015)·doi:10.1007/s11263-015-0816-y
[41] Rusu,A.A.、Rao,D.、Sygnowski,J.、Vinyals,O.、Pascanu,R.、Osindero,S.和Hadsell,R.(2018年)。具有潜在嵌入优化的元学习。CoRR arXiv:1807.05960。
[42] Shyam,P.、Gupta,S.和Dukkipati,A.(2017年)。注意经常性比较。第34届机器学习国际会议论文集,澳大利亚悉尼(第3173-3181页)。
[43] 斯内尔,J。;瑞典斯威斯基。;Zemel,RS,《用于少快照学习的原型网络》,《神经信息处理系统的进展》,304080-4090(2017)
[44] Su,D.,Zhang,H.,Chen,H.、Yi,J.、Chen,P.Y.和Gao,Y.(2018)。稳健性是准确性的代价吗?对18种深度图像分类模型的鲁棒性进行了综合研究。第15届欧洲计算机视觉会议论文集,德国慕尼黑(第644-661页)。
[45] Sung,F.、Yang,Y.、Zhang,L.、Xiang,T.、Torr,P.H.S.和Hospedales,T.M.(2017)。学习比较:关系网用于少量学习。CoRR arXiv:1711.06025。
[46] Tan,X。;陈,S。;周,ZH;Zhang,F.,人均单个图像的人脸识别:一项调查,模式识别,39,91725-1745(2006)·兹比尔1096.68732 ·doi:10.1016/j.patcog.2006.03.013
[47] 特隆,S。;Pratt,L.,《学习》(2012),纽约:斯普林格出版社,纽约
[48] Triantafillou,E。;塞梅尔,RS;Urtasun,R.,《通过信息检索透镜进行的少快照学习》,《神经信息处理系统的进展》,30,2252-2262(2017)
[49] Triantafillou,E.、Zhu,T.、Dumoulin,V.、Lamblin,P.、Xu,K.、Goroshin,R.、Gelada,C.、Swersky,K.,Manzagol,P.A.和Larochelle,H.(2019年)。元数据集:用于学习从少数示例中学习的数据集数据集。CoRR arXiv:1903.03096。
[50] 瓦塔克,M。;Thiagarajan,A。;米兰达,C。;布拉特曼,J。;Larochelle,H.,《项目冷启动建议的元学习视角》,《神经信息处理系统的进展》,306907-6917(2017)
[51] 瓦斯瓦尼,A。;北沙泽尔。;北卡罗来纳州帕尔马。;Uszkoreit,J。;Jones,L。;戈麦斯,AN;凯撒,L。;Polosukhin,I.,《注意力是你所需要的一切》,《神经信息处理系统进展》,30,6000-6010(2017)
[52] 维拉尔塔,R。;Drissi,Y.,《元学习的视角和调查》,《人工智能评论》,18,2,77-95(2002)·doi:10.1023/A:1019956318069
[53] 葡萄酒,O。;布伦德尔,C。;Lillicrap,T。;Kavukcuoglu,K。;Wierstra,D.,《一次性学习的匹配网络》,《神经信息处理系统的进展》,29,3630-3638(2016)
[54] Wah,C.、Branson,S.、Welinder,P.、Perona,P.和Belongie,S.(2011年)。Caltech-UCSD鸟类-200-2011数据集。技术报告。
[55] Wang,P.、Liu,L.、Shen,C.、Huang,Z.、van den Hengel,A.和Shen,H.T.(2017a)。一次性学习的多注意力网络。在IEEE计算机视觉和模式识别会议上,夏威夷州火奴鲁鲁(第6212-6220页)。
[56] Wang,T.、Zhu,J.Y.、Torralba,A.和Efros,A.A.(2018a)。数据集蒸馏。CoRR arXiv:1811.10959。
[57] Wang,Y。;拉马南,D。;Hebert,M.,《学习建模尾部》,《神经信息处理系统进展》,307032-7042(2017)
[58] Wang,Y.、Girshick,R.B.、Hebert,M.和Hariharan,B.(2018b)。从想象数据中进行低镜头学习。CoRR arXiv:1801.05401。
[59] Ye,H.J.、Hu,H.、Zhan,D.C.和Sha,F.(2018)。学习嵌入适应用于少量学习。CoRR arXiv:1812.03664。
[60] Yu,T.、Finn,C.、Xie,A.、Dasari,S.、Zhang,T.,Abbeel,P.和Levine,S.(2018年)。通过域自适应元学习从观察人类中进行单镜头模仿。CoRR arXiv:1802.01557。
[61] Zaheer,M。;科图尔,S。;拉文巴赫,S。;Póczos,B。;Salakhutdinov,RR;Smola,AJ,Deep sets,《神经信息处理系统的进展》,30,3394-3404(2017)
[62] Zhang,Y。;魏毅。;Yang,Q.,学习多任务,神经信息处理系统进展,315776-5787(2018)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。