×

基于双向潜在嵌入的零镜头视觉识别。 (英语) Zbl 1458.68256号

摘要:用于视觉识别的零镜头学习,例如物体和动作识别,最近引起了很多关注。然而,在弥合视觉特征与其潜在语义之间的语义鸿沟以及将知识转移到学习过程中看不到的语义类别方面,仍然存在挑战。与现有的大多数零快照视觉识别方法不同,我们提出了一个由两个后续学习阶段组成的分段双向潜在嵌入框架,用于零快照视觉辨识。在自下而上阶段,通过适当的监督子空间学习算法,通过挖掘已知类训练数据的拓扑和标记信息,首先创建一个潜在的嵌入空间,并使用训练数据的潜在嵌入来形成路标,指导将未知类的语义嵌入到这个学习的潜在空间中。在自顶向下阶段,通过我们提出的半监督Sammon映射,并在地标的指导下,将给定标签词汇中不可见类标签的语义表示嵌入到相同的潜在空间中,以保持所有不同类之间的语义相关性。因此,生成的潜在嵌入空间允许使用简单的最近邻规则预测测试实例的标签。为了评估该框架的有效性,我们在四个对象和动作识别的基准数据集上进行了广泛的实验,即AwA、CUB-200-2011、UCF101和HMDB51。对比研究的实验结果表明,我们提出的方法在感应和传导设置下产生了最先进的性能。

MSC公司:

68T45型 机器视觉和场景理解
68T05型 人工智能中的学习和自适应系统
68吨10 模式识别、语音识别
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Akata,Z.、Lee,H.和Schiele,B.(2014)。结构化嵌入的零炮学习。arXiv:1409.8403。
[2] Akata,Z.、Perronnin,F.、Harchaoui,Z.和Schmid,C.(2013)。基于属性的分类的标签嵌入。IEEE计算机视觉和模式识别会议(CVPR)(第819-826页)。
[3] Akata,Z.、Perronnin,F.、Harchaoui,Z.和Schmid,C.(2016)。用于图像分类的标签嵌入。IEEE模式分析和机器智能汇刊,381425-1438·doi:10.1109/TPAMI.2015.2487986
[4] Akata,Z.、Reed,S.、Walter,D.、Lee,H.和Schiele,B.(2015)。细粒度图像分类的输出嵌入评估。IEEE计算机视觉和模式识别会议(CVPR)(第2927-2936页)。
[5] Al-Halah,Z.和Stiefelhagen,R.(2015)。如何转移?通过语义属性的分层传输实现零炮目标识别。IEEE计算机视觉应用冬季会议(WACV)(第837-843页)。电气与电子工程师协会。
[6] Andreopoulos,A.和Tsotsos,J.K.(2013)。物体识别50年:前进方向。计算机视觉和图像理解,117827-891·doi:10.1016/j.cviu.2013.04.005
[7] Cai,D.、He,X.和Han,J.(2007)。半监督判别分析。在计算机视觉国际会议上(第1-7页)。电气与电子工程师协会。
[8] Changpinyo,S.、Chao,W.-L.、Gong,B.和Sha,F.(2016a)。用于零快照学习的合成分类器。在IEEE计算机视觉和模式识别(CVPR)会议上。
[9] Changpinyo,S.、Chao,W.-L.和Sha,F.(2016b)。预测零快照学习中看不见的类的视觉示例。arXiv:1605.08151。
[10] Chatfield,K.、Simonyan,K.,Vedaldi,A.和Zisserman,A.(2014)。细节中魔鬼的回归:深入挖掘卷积网。在英国机器视觉会议(BMVC)上。
[11] Cheng,J.,Liu,Q.,Lu,H.,&Chen,Y.-W.(2005)。用于人脸识别的监督内核局部保持投影。神经计算,67,443-449·doi:10.1016/j.neucom.2004.08.006
[12] 考克斯,T.F.和考克斯,M。A.(2000年)。多维缩放。博卡拉顿:CRC出版社。
[13] Cristianini,N.和Shawe Taylor,J.(2000年)。介绍支持向量机和其他基于核的学习方法。剑桥:剑桥大学出版社·Zbl 0994.68074号 ·doi:10.1017/CBO9780511801389
[14] Dinu,G.、Lazaridou,A.和Baroni,M.(2015)。通过缓解拥挤问题改进零快照学习。在国际学习代表研讨会上。
[15] Elhoseiny,M.、Elgammal,A.和Saleh,B.(2015)。Tell and predict:针对非结构化文本描述中看不见的视觉类的内核分类器预测。在IEEE计算机视觉和模式识别会议(CVPR)语言和视觉研讨会上。
[16] Frome,A.、Corrado,G.S.、Shlens,J.、Bengio,S.、Dean,J.和Mikolov,T.等人(2013年)。设计:一个深度视觉-语义嵌入模型。《神经信息处理系统进展》(第2121-2129页)。
[17] Fu,Y.,Hospedales,T.M.,Xiang,T.,&Gong,S.(2015)。高效的多视图零快照学习。IEEE模式分析和机器智能汇刊,372332-345·doi:10.1109/TPAMI.2015.2408354
[18] Fu,Y.,&Huang,T.(2010)。用于模式识别的流形和子空间学习。模式识别和机器视觉,6215。
[19] Gan,C.、Lin,M.、Yang,Y.、Zhuang,Y.和Hauptmann,A.G.(2015)。探索用于零快照动作识别的语义类间关系(SIR)。在第二十届AAAI人工智能会议上。
[20] Gan,C.、Yang,T.和Gong,B.(2016)。学习属性等于多源域泛化。在IEEE计算机视觉和模式识别(CVPR)会议上。
[21] Gong,Y.、Ke,Q.、Isard,M.和Lazebnik,S.(2014)。用于建模互联网图像、标签及其语义的多视图嵌入空间。国际计算机视觉杂志,106210-233·文件编号:10.1007/s11263-013-0658-4
[22] Griffin,G.、Holub,A.和Perona,P.(2007)。Caltech-256对象类别数据集。技术报告7694。加利福尼亚理工学院。http://www.vision.caltech.edu/Image_Datasets/Caltech256/。
[23] Hardoon,D.R.、Szedmak,S.和Shawe-Taylor,J.(2004)。典型相关分析:学习方法应用概述。神经计算,162639-2664·Zbl 1062.68134号 ·doi:10.1162/0899766042321814
[24] He,K.、Zhang,X.、Ren,S.和Sun,J.(2016)。用于图像识别的深度残差学习。IEEE计算机视觉和模式识别会议(CVPR)(第770-778页)。
[25] Jayaraman,D.和Grauman,K.(2014年)。属性不可靠的零炮识别。《神经信息处理系统进展》(第3464-3472页)。
[26] Jiang,Y.-G.,Liu,J.,Roshan Zamir,A.,Toderici,G.,Laptev,I.,Shah,M.,&Sukthankar,R.(2014)。THUMOS挑战:大量课程的动作识别。http://crcv.ucf.edu/THUMOS14/。
[27] Jolliffe,I.(2002)。主成分分析。霍博肯:威利在线图书馆·Zbl 1011.62064号
[28] Karpathy,A.和Fei-Fei,L.(2015)。用于生成图像描述的深层视觉语义对齐。IEEE计算机视觉和模式识别会议(CVPR)(第3128-3137页)。
[29] Kodirov,E.、Xiang,T.、Fu,Z.和Gong,S.(2015)。零快照学习的无监督域自适应。IEEE计算机视觉国际会议(ICCV)(第2452-2460页)。
[30] Kuehne,H.、Jhuang,H.,Garrote,E.、Poggio,T.和Serre,T.(2011年)。HMDB:用于人体运动识别的大型视频数据库。IEEE计算机视觉国际会议(ICCV)(第2556-2563页)。电气与电子工程师协会。
[31] Lampert,C.H.、Nickisch,H.和Harmeling,S.(2009年)。学习通过类之间的属性转移来检测看不见的对象类。IEEE计算机视觉和模式识别会议(CVPR)(第951-958页)。电气与电子工程师协会。
[32] Lampert,C.H.、Nickisch,H.和Harmeling,S.(2014)。基于属性的分类用于零快照视觉对象分类。IEEE模式分析和机器智能汇刊,36453-465·doi:10.1109/TPAMI.2013.140
[33] Liu,J.、Kuipers,B.和Savarese,S.(2011年)。通过属性识别人类行为。IEEE计算机视觉和模式识别会议(CVPR)(第3337-3344页)。电气与电子工程师协会。
[34] Mensink,T.、Gavves,E.和Snoek,C.(2014)。COSTA:零射击分类的共现统计数据。IEEE计算机视觉和模式识别会议(CVPR)(第2441-2448页)。
[35] Mikolov,T.、Sutskever,I.、Chen,K.、Corrado,G.S.和Dean,J.(2013)。单词和短语的分布式表示及其组成。《神经信息处理系统进展》(第3111-3119页)。
[36] Niyogi,X.(2004)。保留位置的投影。神经信息处理系统(第16卷,第153页)。麻省理工学院。
[37] Norouzi,M.、Mikolov,T.、Bengio,S.、Singer,Y.、Shlens,J.、Frome,A.、Corrado,G.S.和Dean,J.(2014)。通过语义嵌入的凸组合进行零镜头学习。在学习代表国际会议上。
[38] 彭,X.,王,L.,王,X.和乔,Y.(2016)。用于动作识别的视觉词汇包和融合方法:综合研究和良好实践。计算机视觉和图像理解,150,109-125·doi:10.1016/j.cviu.2016.03.013
[39] Radovanovć,M.、Nanopoulos,A.和Ivanović,M(2010年)。空间中心:高维数据中受欢迎的近邻。机器学习研究杂志,11,2487-2531·Zbl 1242.62056号
[40] Reed,S.、Akata,Z.、Schiele,B.和Lee,H.(2016)。学习细粒度视觉描述的深度表示。在IEEE计算机视觉和模式识别(CVPR)会议上。
[41] Romera--Paredes,B.和Torr,P.(2015)。一种令人尴尬的简单零快照学习方法。在机器学习国际会议(ICML)上(第2152-2161页)。
[42] Russakovsky,O.、Deng,J.、Su,H.、Krause,J.,Satheesh,S.、Ma,S.等人(2015)。Imagenet大规模视觉识别挑战。国际计算机视觉杂志,115,211-252·doi:10.1007/s11263-015-0816-y
[43] Sammon,J.W.(1969年)。用于数据结构分析的非线性映射。IEEE计算机汇刊,18401-409·doi:10.1109/T-C.1969.222678
[44] Shao,L.、Liu,L.和Yu,M.(2016)。用于鲁棒动作识别的核化多视图投影。国际计算机视觉杂志,118115-129·doi:10.1007/s11263-015-0861-6
[45] Shao,L.、Zhen,X.、Tao,D.和Li,X.(2014)。用于动作识别的时空拉普拉斯金字塔编码。IEEE控制论汇刊,44,817-827·doi:10.1109/TCYB.2013.273174
[46] Shigeto,Y.、Suzuki,I.、Hara,K.、Shimbo,M.和Matsumoto,Y.(2015)。岭回归、模糊和零快照学习。数据库中的机器学习和知识发现(第135-151页)。斯普林格。
[47] Simonyan,K.和Zisserman,A.(2014)。视频中动作识别的双流卷积网络。《神经信息处理系统进展》(第568-576页)。
[48] Simonyan,K.和Zisserman,A.(2015)。用于大规模图像识别的深度卷积网络。在学习代表国际会议上。
[49] Smola,A.和Vapnik,V.(1997年)。支持向量回归机。神经信息处理系统进展,9,155-161。
[50] Solmaz,B.、Assari,S.M.和Shah,M.(2013年)。使用全局视频描述符对网络视频进行分类。机器视觉与应用,241473-1485·文件编号:10.1007/s00138-012-0449-x
[51] Soomro,K.、Zamir,A.R.和Shah,M.(2012年)。UCF101:来自野外视频的101个人类动作类的数据集。在CRCV-TR-12-01中。
[52] Szegedy,C.、Liu,W.、Jia,Y.、Sermanet,P.、Reed,S.、Angelov,D.、Erhan,D.、Vanhoucke,V.和Rabinovich,A.(2015)。用卷积深入。在IEEE计算机视觉和模式识别会议上(第1-9页)。
[53] Tran,D.、Bourdev,L.、Fergus,R.、Torresani,L.和Paluri,M.(2015)。使用3D卷积网络学习时空特征。计算机视觉国际会议(ICCV)(第4489-4497页)。
[54] Tsochantaridis,I.、Joachims,T.、Hofmann,T.和Altun,Y.(2005)。结构化和相互依赖输出变量的大幅度方法。机器学习研究杂志,61453-1484·Zbl 1222.68321号
[55] Vedaldi,A.和Lenc,K.(2015年)。Matconvent-用于matlab的卷积神经网络。在ACM多媒体国际会议上。
[56] Wah,C.、Branson,S.、Welinder,P.、Perona,P.和Belongie,S.(2011年)。caltech-ucsd birds-200-2011数据集。技术报告CNS-TR-2010-001。加利福尼亚理工学院。http://www.vision.caltech.edu/visipedia/CUB-200-2011.html。
[57] Wang,H.和Schmid,C.(2013)。具有改进轨迹的动作识别。IEEE计算机视觉国际会议(ICCV)(第3551-3558页)。电气与电子工程师协会。
[58] Wang,L.,Xiong,Y.,Wang,Z.,Qiao,Y.和Van Gool,L.(2016)。时间段网络:深入行动识别的良好实践。在欧洲计算机视觉会议上。
[59] Wu,Z.、Jiang,Y.-G.、Wang,X.、Ye,H.、Xue,X.和Wang,J.(2016)。用于视频分类的深度网络的多流多类融合。在ACM多媒体(ACM MM)中。
[60] Xian,Y.、Akata,Z.、Sharma,G.、Nguyen,Q.、Hein,M.和Schiele,B.(2016)。零快照分类的潜在嵌入。在IEEE关于计算机视觉和模式识别(CVPR)的会议上。
[61] Xu,X.,Hospedales,T.,&Gong,S.(2015a)。零快照动作识别的语义嵌入空间。IEEE图像处理国际会议(ICIP)(第63-67页)。电气与电子工程师协会。
[62] Xu,X.,Hospedales,T.,&Gong,S.(2015b)。基于字向量嵌入的零镜头动作识别。arXiv:1511.04458。
[63] Yu,M.,Liu,L.和Shao,L.(2015)。内核化多视图投影。arXiv:1508.00430。
[64] Zhang,H.,Deng,W.,Guo,J.,&Yang,J.(2010)。具有先验信息的局部保持和全局判别投影。机器视觉与应用,21577-585·doi:10.1007/s00138-009-0213-z
[65] Zhang,&Saligrama,V.(2015)。基于语义相似性嵌入的零镜头学习。IEEE计算机视觉国际会议(ICCV)(第4166-4174页)。
[66] Zhang,&Saligrama,V.(2016a)。基于联合潜在相似性嵌入的零炮学习。IEEE计算机视觉和模式识别会议(CVPR)(第6034-6042页)。
[67] Zhang,&Saligrama,V.(2016年b)。基于结构化预测的零炮识别。在欧洲计算机视觉会议上(第533-548页)。斯普林格。
[68] Zhao,S.、Liu,Y.、Han,Y.和Hong,R.(2015)。将卷积层集中在深卷积网络中进行动作识别。arXiv:1511.02126。
[69] Zheng,Yang,F.,Tan,W.,Jia,J.,&Yang,J.(2007)。基于Gabor特征的监督局部保持投影人脸识别。信号处理,872473-2483·Zbl 1186.94401号 ·doi:10.1016/j.sigpro.2007.03.006
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。