×

通过传播语义邻域中的标签进行图像注释。 (英语) Zbl 1441.68262号

摘要:自动图像标注旨在预测图像的一组语义标签。由于注释词汇量很大,对应于不同标签的图像数量存在很大差异(“类-平衡”)。此外,由于人工注释的局限性,一些图像没有使用所有相关标签进行注释(“不完全标注”)。这两个问题影响了大多数现有图像注释模型的性能。在这项工作中,我们提出了2遍k最近邻(2PKNN)算法。它是经典的k近邻算法的两步变体,试图解决图像注释任务中的这些问题。2PKNN的第一步使用“图像到标签”的相似性,而第二步使用“图片到图像”的相似,从而将两者的优点结合起来。我们还提出了一个2PKNN上的度量学习框架。这是通过对多标签数据的著名(单标签)分类度量学习算法进行推广来实现的。除了提供的功能外M.Guillaumin先生等人[“TagProp:图像自动标注的最近邻模型中的判别度量学习”,摘自:第12届国际IEEE计算机视觉会议论文集,ICCV'09。加利福尼亚州洛斯·阿拉米托斯:IEEE计算机协会。309–316 (2009;doi:10.1109/ICCV.2009.5459266)] 几乎所有最新的图像标注方法都使用这些特征,我们使用新的特征进行基准测试,这些特征包括从通用卷积神经网络模型提取的特征和使用现代编码技术计算的特征。我们还学习了不同特征组合上的线性和核化跨模式嵌入,以减少视觉特征和文本标签之间的语义差距。对四个图像注释数据集(Corel-5K、ESP Game、IAPR-TC12和MIRFlicker-25K)的广泛评估表明,我们的方法取得了有希望的结果,并在主流图像注释数据集上建立了新的技术水平。

MSC公司:

68T45型 机器视觉和场景理解
68T05年 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Anderson,C.(2006)。长尾理论:为什么企业的未来销售越来越少。海伯龙。
[2] Ballan,L.、Urichio,T.、Seidenari,L.和Bimbo,A.D.(2014)。用于自动图像注释的跨媒体模型。ICMR会议记录。
[3] Carneiro,G.、Chan,A.B.、Moreno,P.J.和Vasconcelos,N.(2007年)。监督学习用于图像注释和检索的语义类。IEEE模式分析和机器智能汇刊,29(3),394-410·doi:10.1109/TPAMI.2007.61
[4] Chen,M.、Zheng,A.和Weinberger,K.Q.(2013)。快速图像标记。在ICML会议记录中。
[5] Donahue,J.、Jia,Y.、Vinyals,O.、Hoffman,J.,Zhang,N.、Tzeng,E.等人(2014)。DeCAF:用于通用视觉识别的深度卷积激活功能。在ICML会议记录中。
[6] Duygulu,P.、Barnard,K.、de Freitas,J.F.和Forsyth,D.A.(2002年)。作为机器翻译的对象识别:学习固定图像词汇的词汇。ECCV会议记录(第97-112页)·Zbl 1039.68623号
[7] Feng,S.L.、Manmatha,R.和Lavrenko,V.(2004)。图像和视频注释的多个伯努利相关模型。CVPR会议记录(第1002-1009页)。
[8] Fu,H.,Zhang,Q.,&Qiu,G.(2012)。图像注释的随机林。ECCV会议记录(第86-99页)。
[9] Grubinger,M.(2007)。视觉信息系统性能的分析和评估。澳大利亚墨尔本维多利亚大学博士论文。
[10] Guillaumin,M.、Mensink,T.、Verbeek,J.J.和Schmid,C.(2009年)。Tagprop:图像自动标注的最近邻模型中的判别度量学习。ICCV会议记录(第309-316页)。
[11] Gupta,A.、Verma,Y.和Jawahar,C.V.(2012年)。选择语言学而不是视觉来描述图像。在AAAI会议记录中。
[12] Hardoon,D.R.、Szedmak,S.和Shawe-Taylor,J.(2004)。典型相关分析:学习方法应用概述。神经计算,16(12),2639-2664·Zbl 1062.68134号 ·doi:10.1162/0899766042321814
[13] Hotelling,H.(1936)。两组变量之间的关系。《生物统计学》,第28期,第321-377页·Zbl 0015.40705号 ·doi:10.1093/biomet/28.3-4.321
[14] Huiskes,M.J.和Lew,M.S.(2008年)。MIR Flickr检索评估。在MIR中。
[15] Jégou,H.、Douze,M.、Schmid,C.和Pérez,P.(2010)。将局部描述符聚合为紧凑的图像表示。CVPR会议记录(第3304-3311页)。
[16] Jeon,J.、Lavrenko,V.和Manmatha,R.(2003)。使用跨媒体相关模型进行自动图像注释和检索。ACM SIGIR会议记录(第119-126页)。
[17] Jin,R.、Wang,S.和Zhou,Z.H.(2009)。从多实例多标签数据中学习距离度量。CVPR会议记录(第896-902页)。
[18] Kalayeh,M.M.,Idrees,H.,&Shah,M(2014)。NMF-KNN:使用加权多视图非负矩阵分解进行图像注释。CVPR会议记录。
[19] Lavrenko,V.、Manmatha,R.和Jeon,J.(2003)。学习图片语义的模型。以NIPS为单位。
[20] Li,X.、Snoek,C.G.M.和Worring,M.(2009年)。通过邻居投票学习社交标签相关性。IEEE多媒体汇刊,11(7),1310-1322·doi:10.1109/TMM.2009.2030598
[21] Liu,J.、Li,M.、Liu,Q.、Lu,H.和Ma,S.(2009)。通过图形学习进行图像标注。模式识别,42(2),218-228·兹比尔1181.68247 ·doi:10.1016/j.patcog.2008.04.012
[22] Lowe,D.G.(2004)。具有与比例不变关键点不同的图像特征。国际计算机视觉杂志,60(2),91-110·doi:10.1023/B:VISI.0000029664.99615.94
[23] Makadia,A.、Pavlovic,V.和Kumar,S.(2008)。图像注释的新基线。ECCV会议记录(第316-329页)。
[24] Makadia,A.、Pavlovic,V.和Kumar,S.(2010年)。图像注释的基线。国际计算机视觉杂志,90(1),88-105·doi:10.1007/s11263-010-0338-6
[25] Metzler,D.和Manmatha,R.(2004)。图像检索的推理网络方法。《公民权利国际委员会议事录》(第42-50页)。
[26] Moran,S.和Lavrenko,V.(2011年)。自动图像注释的最佳标记集。《BMVC会议录》(第1.1-1.11页)。
[27] Moran,S.和Lavrenko,V.(2014)。一种用于图像自动标注的稀疏核相关模型。国际多媒体信息检索杂志,3(4),209-229。
[28] Mori,Y.、Takahashi,H.和Oka,R.(1999)。基于分割和矢量量化图像与单词的图像到单词的转换。在MISRM’99首次多媒体智能存储和检索管理国际研讨会上。
[29] Murthy,V.N.、Can,E.F.和Manmatha,R.(2014)。用于自动图像注释的混合模型。ICMR会议记录。
[30] Nakayama,H.(2011)。大规模通用图像识别的线性距离度量学习。日本东京大学博士论文。
[31] Oliva,A.和Torralba,A.(2001)。场景形状建模:空间包络线的整体表示。国际计算机视觉杂志,42(3),145-175·Zbl 0990.68601号 ·doi:10.1023/A:101139631724
[32] Perronnin,F.、Sánchez,J.和Mensink,T.(2010年)。改进fisher核用于大规模图像分类。ECCV会议记录(第143-156页)。
[33] Shalev-Shwartz,S.、Singer,Y.和Srebro,N.(2007年)。Pegasos:支持向量机的原始估计子梯度解算器。ICML会议记录(第807-814页)·Zbl 1211.90239号
[34] van de Weijer,J.和Schmid,C.(2006年)。为局部特征提取着色。ECCV会议记录(第334-348页)。
[35] Verbeek,J.、Guillaumin,M.、Mensink,T.和Schmid,C.(2010年)。MIRFLICKR集合上带有TagProp的图像注释。在MIR中。
[36] Verma,Y.和Jawahar,C.V.(2012年)。在语义邻域中使用度量学习进行图像标注。在ECCV会议记录中(第836-849页)。
[37] Verma,Y.和Jawahar,C.V.(2013年)。探索SVM在标签混淆情况下的图像标注。BMVC会议记录。
[38] von Ahn,L.和Dabbish,L..(2004)。用电脑游戏标记图像。在SIGCHI计算机系统人为因素会议上(第319-326页)。
[39] Wang,C.、Blei,D.和Fei Fei,L.(2009年)。同时进行图像分类和注释。CVPR会议记录。
[40] Wang,H.、Huang,H.和Ding,C.H.Q.(2011)。使用图像和语义标签的双关系图进行图像标注。CVPR会议记录(第793-800页)。
[41] Weinberger,K.Q.和Saul,L.K.(2009年)。大幅度最近邻分类的距离度量学习。机器学习研究杂志,10207-244·Zbl 1235.68204号
[42] Xiang,Y.、Zhou,X.、Chua,T.S.和Ngo,C.W.(2009)。使用马尔可夫随机场重新访问自动图像标注的生成模型。CVPR会议记录(第1153-1160页)。
[43] Yavlinsky,A.、Schofield,E.和Rüger,S.(2005)。使用全局特征和稳健的非参数密度估计进行自动图像注释。《公民权利国际委员会议事录》(第507-517页)。
[44] Zhang,S.、Huang,J.、Hung,Y.、Yu,Y.,Li,H.和Metaxas,D.N.(2010年)。使用组稀疏性自动进行图像标注。CVPR会议记录(第3312-3319页)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。