×

兹马思-数学第一资源

基于双向隐式嵌入的零镜头视觉识别。(英语) Zbl 1458.68256
摘要:用于视觉识别的零镜头学习,例如物体和动作识别,近年来受到了广泛的关注。然而,如何弥合视觉特征与其底层语义之间的语义鸿沟,将知识转移到学习过程中看不见的语义范畴,仍然是一个挑战。与现有的大多数零镜头视觉识别方法不同,我们提出了一个分阶段双向隐式嵌入框架,用于零镜头视觉识别。在自下而上的阶段,通过适当的监督子空间学习算法,首先通过挖掘已知类的拓扑信息和标记信息,建立一个潜在的嵌入空间,并利用训练数据的潜在嵌入来形成路标,引导隐层语义嵌入到所学习的潜在空间中。在自上而下的阶段,通过我们提出的半监督Sammon映射,在路标的指导下,将给定标签词汇表中未看到的类标签的语义表示嵌入到同一个潜在空间中,以保持不同类之间的语义联系。因此,生成的潜在嵌入空间允许使用一个简单的最近邻规则来预测测试实例的标签。为了评估该框架的有效性,我们在目标和动作识别的四个基准数据集上进行了大量的实验,即AwA、CUB-200-2011、UCF101和HMDB51。对比研究的实验结果表明,我们提出的方法在感应和传导环境下都具有最先进的性能。
理学硕士:
68T45型 机器视觉与场景理解
68T05型 人工智能中的学习与自适应系统
68吨10 模式识别,语音识别
PDF格式 BibTeX公司 XML 引用
参考文献:
[1] Akata,Z.,Lee,H.和Schiele,B.(2014年)。使用结构化嵌入的零镜头学习。第840.14条:第1409条。
[2] Akata,Z.,Perronnin,F.,Harchaoui,Z.和Schmid,C.(2013年)。基于属性分类的标签嵌入。在IEEE计算机视觉和模式识别会议(CVPR)(第819-826页)。
[3] Akata,Z.,Perronnin,F.,Harchaoui,Z.,和Schmid,C.(2016年)。用于图像分类的标签嵌入。IEEE模式分析与机器智能汇刊,381425-1438。
[4] Akata,Z.,Reed,S.,Walter,D.,Lee,H.和Schiele,B.(2015年)。细粒度图像分类的输出嵌入评价。在IEEE计算机视觉和模式识别会议(CVPR)(第2927-2936页)。
[5] Al Halah,Z.和Stiefelhagen,R.(2015年)。如何转移?基于语义属性层次转换的零炮目标识别。在IEEE冬季计算机视觉应用会议(WACV)(第837-843页)。IEEE。
[6] Andreopoulos,A.和Tsotsos,J.K.(2013年)。物体识别50年:前进方向。计算机视觉与图像理解,117827-891。
[7] Cai,D.,He,X.和Han,J.(2007年)。半监督判别分析。在国际计算机视觉会议(第1-7页)。IEEE。
[8] Changpinyo,S.,Chao,W.-L.,Gong,B.,和Sha,F.(2016a)。用于零镜头学习的综合分类器。在IEEE计算机视觉和模式识别会议上。
[9] Changpinyo,S.,Chao,W.-L.,和Sha,F.(2016b)。为零镜头学习预测看不见课的视觉范例。arXiv:1605.08151。
[10] Chatfield,K.,Simonyan,K.,Vedaldi,A.和Zisserman,A.(2014年)。细节中的魔鬼归来:深入研究卷积网。在英国机器视觉会议(BMVC)。
[11] Cheng,J.,Liu,Q.,Lu,H.和Chen,Y.-W.(2005年)。用于人脸识别的监督核局部保持投影。神经计算,67443-449。
[12] 考克斯,T.F.和考克斯,M。A、 (2000年)。多维尺度。博卡拉顿:CRC出版社。
[13] Cristianini,N.和Shawe Taylor,J.(2000年)。介绍支持向量机和其他基于核的学习方法。剑桥:剑桥大学出版社·Zbl 0994.68074
[14] Dinu,G.,Lazaridou,A.和Baroni,M.(2015年)。改善零射击学习通过减轻傲慢问题。在国际学习代表大会研讨会上。
[15] Elhoseiny,M.,Elgammal,A.和Saleh,B.(2015年)。Tell-and-predict:从非结构化文本描述中对看不见的可视类进行核分类器预测。在IEEE计算机视觉和模式识别会议(CVPR)语言和视觉研讨会。
[16] Frome,A.,Corrado,G.S.,Shlens,J.,Bengio,S.,Dean,J.,Mikolov,T.等人(2013年)。设计:一个深层视觉语义嵌入模型。神经信息处理系统进展(第2121-2129页)。
[17] Fu,Y.,Hospedales,T.M.,Xiang,T.和Gong,S.(2015年)。传导式多视角零镜头学习。IEEE模式分析与机器智能汇刊,372332-2345。
[18] Fu,Y.和Huang,T.(2010年)。流形和子空间学习在模式识别中的应用。模式识别与机器视觉,6215。
[19] Gan,C.,Lin,M.,Yang,Y.,庄,Y.和Hauptmann,A.G.(2015年)。探索零射击动作识别中的语义类间关系。在第二十九届AAAI人工智能会议上。
[二十] Gan,C.,Yang,T.和Gong,B.(2016年)。学习属性等于多源领域泛化。在IEEE计算机视觉和模式识别会议上。
[21] Gong,Y.,Ke,Q.,Isard,M.和Lazebnik,S.(2014年)。一个多视图嵌入空间,用于建模internet图像、标记及其语义。国际计算机视觉杂志,106210-233。
[22] Griffin,G.,Holub,A.和Perona,P.(2007年)。Caltech-256对象类别数据集。技术报告7694。加州理工学院。http://tech/caledu。
[23] Hardoon,D.R.,Szedmak,S.和Shawe Taylor,J.(2004年)。典型相关分析:学习方法应用综述。神经计算,162639-2664·Zbl 1062.68134号
[24] 张世杰,张国强,2016)。图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议(CVPR)(第770-778页)。
[25] Jayaraman,D.和Grauman,K.(2014年)。具有不可靠属性的零镜头识别。神经信息处理系统进展(第3464-3472页)。
[26] Jiang,Y.-G.,Liu,J.,Roshan Zamir,A.,Toderici,G.,Laptev,I.,Shah,M.,和Sukhankar,R.(2014年)。THUMOS挑战:大量类的动作识别。http://crcv.ucf.edu/THUMOS14/。
[27] Jolliffe,I.(2002年)。主成分分析。霍博肯:威利在线图书馆·Zbl 1011.62064
[28] Karpathy,A.和Fei Fei,L.(2015年)。用于生成图像描述的深层视觉语义对齐。在IEEE计算机视觉和模式识别会议上(第3128-3137页)。
[29] Kodirov,E.,Xiang,T.,Fu,Z.和Gong,S.(2015年)。零镜头学习的无监督域自适应。在IEEE国际计算机视觉会议(ICCV)(第2452-2460页)。
[30] Kuehne,H.,Jhuang,H.,Garrote,E.,Poggio,T.和Serre,T.(2011年)。HMDB:一个用于人体运动识别的大型视频数据库。在IEEE国际计算机视觉会议(ICCV)(第2556-2563页)。IEEE。
[31] Lampert,C.H.,Nickisch,H.和Harmeling,S.(2009年)。学习通过类间属性转移来检测不可见的对象类。在IEEE计算机视觉和模式识别会议(CVPR)(第951-958页)。IEEE。
[32] Lampert,C.H.,Nickisch,H.和Harmeling,S.(2014年)。基于属性的零镜头视觉对象分类。IEEE模式分析与机器智能汇刊,36453-465。
[33] Liu,J.,Kuipers,B.和Savarese,S.(2011年)。通过属性识别人类行为。在IEEE计算机视觉和模式识别会议(CVPR)(3337-3344页)。IEEE。
[34] Mensink,T.,Gavves,E.和Snoek,C.(2014年)。COSTA:零镜头分类的共现统计。在IEEE计算机视觉和模式识别会议(CVPR)(第2441-2448页)。
[35] Mikolov,T.,Sutskever,I.,Chen,K.,Corrado,G.S.和Dean,J.(2013年)。词和短语的分布式表示及其组成。神经信息处理系统进展(3111-3119页)。
[36] Niyogi,X.(2004年)。局部保持投影。神经信息处理系统(第16卷,第153页)。麻省理工学院。
[37] Norouzi,M.,Mikolov,T.,Bengio,S.,Singer,Y.,Shrens,J.,Frome,A.,Corrado,G.S.和Dean,J.(2014年)。基于语义嵌入凸组合的零镜头学习。在学习表征国际会议(ICLR)。
[38] Peng,X.,Wang,L.,Wang,X.和Qiao,Y.(2016年)。视觉文字包与动作识别的融合方法:综合研究与实践。计算机视觉与图像理解,150109-125。
[39] Radovanović,M.,Nanopoulos,A.和Ivanović,M.(2010年)。空间中心:高维数据中最受欢迎的近邻。机器学习研究杂志,112487-2531·Zbl 1242.62056
[40] Reed,S.,Akata,Z.,Schiele,B.和Lee,H.(2016年)。学习精细视觉描述的深层表达。在IEEE计算机视觉和模式识别会议上。
[41] Romera Paredes,B.和Torr,P.(2015年)。一个令人尴尬的简单的零射击学习方法。在国际机器学习会议(ICML)(第2152-2161页)。
[42] Russakovsky,O.,Deng,J.,Su,H.,Krause,J.,Satheesh,S.,Ma,S.等人(2015年)。Imagenet大规模视觉识别挑战。国际计算机视觉杂志,115211-252。
[43] Sammon,J.W.(1969年)。一种用于数据结构分析的非线性映射。IEEE计算机事务,18401-409。
[44] Shao,L.,Liu,L.,和Yu,M.(2016年)。用于鲁棒动作识别的核化多视图投影。国际计算机视觉杂志,118115-129。
[45] Shao,L.,Zhen,X.,Tao,D.和Li,X.(2014年)。用于动作识别的时空拉普拉斯金字塔编码。IEEE控制论汇刊,44817-827。
[46] Shigeto,Y.,Suzuki,I.,Hara,K.,Shimbo,M.和Matsumoto,Y.(2015年)。岭回归、hubbness和零射击学习。在机器学习和数据库知识发现(第135-151页)。斯普林格。
[47] Simzirman,2014年)。视频动作识别的双流卷积网络。神经信息处理系统进展(第568-576页)。
[48] Simonyan,K.和Zisserman,A.(2015年)。用于大规模图像识别的非常深的卷积网络。国际学习代表大会。
[49] Smola,A.和Vapnik,V.(1997年)。支持向量回归机。神经信息处理系统的进展,9155-161。
[50] Solmaz,B.,Assari,S.M.和Shah,M.(2013年)。使用全局视频描述符对web视频进行分类。机器视觉与应用,241473-1485。
[51] Soomro,K.,Zamir,A.R.和Shah,M.(2012年)。UCF101:来自野外视频的101个人类行为类的数据集。在CRCV-TR-12-01中。
[52] Szegedy,C.,Liu,W.,Jia,Y.,Sermanet,P.,Reed,S.,Anguelov,D.,Erhan,D.,Vanhoucke,V.和Rabinovich,A.(2015年)。卷积得更深。在IEEE计算机视觉和模式识别会议(第1-9页)。
[53] Tran,D.,Bourdev,L.,Fergus,R.,Torresani,L.和Paluri,M.(2015年)。利用三维卷积网络学习时空特征。国际计算机视觉会议(ICCV)(第4489-4497页)。
[54] Tsochantaridis,I.,Joachims,T.,Hofmann,T.和Altun,Y.(2005年)。结构化和相互依赖的输出变量的大边际法。机器学习研究杂志,61453-1484·68ZB321.2升
[55] Vedaldi,A.和Lenc,K.(2015年)。Matconvnet卷积神经网络。国际多媒体会议。
[56] Wah,C.,Branson,S.,Welinder,P.,Perona,P.,和Belongie,S.(2011年)。加州理工大学ucsd birds-200-2011数据集。技术报告CNS-TR-2010-001。加州理工学院。http://www.vision.caltech.edu/visipedia/CUB-200-2011.html。
[57] Wang,H.和Schmid,C.(2013年)。改进轨迹的动作识别。在IEEE国际计算机视觉会议(ICCV)(第3551-3558页)。IEEE。
[58] Wang,L.,Xiong,Y.,Wang,Z.,Qiao,Y.,和Van Gool,L.(2016年)。时间段网络:深度动作识别的良好实践。欧洲计算机视觉会议(ECCV)。
[59] Wu,Z.,Jiang,Y.-G.,Wang,X.,Ye,H.,Xue,X.和Wang,J.(2016年)。用于视频分类的深层网络多流多类融合。在ACM多媒体(ACM-MM)中。
[60] Xian,Y.,Akata,Z.,Sharma,G.,Nguyen,Q.,Hein,M.和Schiele,B.(2016年)。零爆炸分类的潜在嵌入。在IEEE计算机视觉和模式识别会议上。
[61] Xu,X.,Hospedales,T.和Gong,S.(2015a)。零射击动作识别的语义嵌入空间。在IEEE国际图像处理会议(ICIP)(第63-67页)。IEEE。
[62] Xu,X.,Hospedales,T.和龚,S.(2015b)。基于词向量嵌入的零镜头动作识别。arXiv:1511.04458。
[63] Yu,M.,Liu,L.,和Shao,L.(2015年)。核化多视图投影。arXiv:1508.00430。
[64] Zhang,H.,Deng,W.,Guo,J.和Yang,J.(2010年)。具有先验信息的局部保持和全局判别投影。机器视觉与应用,21577-585。
〔65〕 Zhang,Z.,和Saligrama,V.(2015年)。基于语义相似度嵌入的零镜头学习。在IEEE国际计算机视觉会议(ICCV)(第4166-4174页)。
[66] Zhang,Z.和Saligrama,V.(2016a)。基于联合潜在相似嵌入的零镜头学习。在IEEE计算机视觉和模式识别会议(CVPR)(第6034-6042页)。
[67] Zhang,Z.和Saligrama,V.(2016b)。基于结构预测的零镜头识别。欧洲计算机视觉会议(第533-548页)。斯普林格。
[68] Zhao,S.,Liu,Y.,Han,Y.和Hong,R.(2015年)。将卷积层集中在深convnets中进行动作识别。arXiv:1511.02126。
〔69〕 Zheng,Z.,Yang,F.,Tan,W.,Jia,J.和Yang,J.(2007年)。基于Gabor特征的监督局部保持投影人脸识别。信号处理,872473-2483·Zbl 1186.94401
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。