×

室内场景分类的层次推理方法。 (英文) Zbl 1396.68123号

摘要:室内场景分类是服务机器人场景交互的基础。这项任务具有挑战性,因为场景的布局和装饰差异很大。以往对基于知识的方法的研究在构建知识库时往往忽视了视觉属性的重要性。这些缺点限制了分类的性能。提出了语义层次结构,以细粒度的方式描述场景不同部分的相似性。除了常用的语义特征外,还引入了视觉属性来构建知识库。受人类认知过程和室内场景特征的启发,我们提出了一种基于马尔可夫逻辑网络的推理框架。该框架在一个流行的室内场景数据集上进行了评估,实验结果证明了其有效性。

MSC公司:

68T45型 机器视觉和场景理解
68层35 人工智能语言和软件系统理论(基于知识的系统、专家系统等)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Alleysson,D.、Susstrunk,S.和Herault,J.(2005)。受人类视觉系统启发的线性退色,IEEE图像处理汇刊14(4):439-449。
[2] Banerji,S.、Sinha,A.和Liu,C.(2013)。基于颜色、纹理、形状和小波的新图像描述符,用于对象和场景图像分类,神经计算117(0):173-185。
[3] Bannour,H.和Hudelot,C.(2012a)。构建忠实于图像语义的语义层次,《计算机科学讲义》,第7131卷,施普林格,柏林/海德堡,第4-15页。
[4] Bannour,H.和Hudelot,C.(2012b)。使用语义层次的分层图像注释,《第21届ACM信息和知识管理国际会议论文集》,美国HI毛伊岛,第2431-2434页。
[5] Bell,S.、Lawrence Zitnick,C.、Bala,K.和Girshick,R.(2016)。《内外网:使用跳跃池和递归神经网络在上下文中检测对象》,IEEE计算机视觉和模式识别会议(CVPR),美国内华达州拉斯维加斯,第2874-2883页。
[6] Bottou,L.(2013)。从机器学习到机器推理,机器学习94(2):133-149。
[7] Carneiro,G.、Chan,A.B.、Moreno,P.J.和Vasconcelos,N.(2007年)。图像注释和检索语义类的监督学习,IEEE模式分析和机器智能学报29(3):394-410。
[8] Chaojie,W.、Jun,Y.和Dapeng,T.(2013)。室内场景分类的高级属性建模,神经计算121:337-343。
[9] Chaves,R.、Ramrez,J.、Grris,J.和Illn,I.(2012年)。使用定义在判别区域上的关联规则进行功能性脑图像分类,模式识别字母33(12):1666-1672。
[10] Csurka,G.、Dance,C.、Fan,L.、Willamowski,J.和Bray,C.(2004)。视觉分类与关键点袋,计算机视觉中的统计学习研讨会,捷克共和国布拉格,第1卷,第1-2页。
[11] Delaigle,J.、Devleeschouwer,C.、Macq,B.和Langendijk,L.(2002)。人类视觉系统功能支持水印,2002年IEEE多媒体和博览会国际会议。ICME’02,美国加利福尼亚州洛杉矶,第2卷,第489-492页。
[12] Deng,J.、Berg,A.C.和Fei-Fei,L.(2011)。大规模图像检索的层次语义索引,2011年IEEE计算机视觉和模式识别会议(CVPR),美国科罗拉多州丹佛,第785-792页。
[13] Dixit,M.、Chen,S.、Gao,D.、Rasiwasia,N.和Vasconcelos,N.(2015)。使用语义fisher向量进行场景分类,2015年IEEE计算机视觉和模式识别会议(CVPR),美国马萨诸塞州波士顿,第2974-2983页。
[14] Escobar,M.-J.和Kornprobst,P.(2012年)。通过生物灵感特征进行动作识别:中心-周围交互的丰富性,计算机视觉和图像理解116(5):593-605。
[15] Farhadi,A.、Endres,I.、Hoiem,D.和Forsyth,D.(2009年)。通过属性描述对象,IEEE计算机视觉和模式识别会议,CVPR 2009,美国佛罗里达州迈阿密,第1778-1785页。
[16] Faria,D.R.、Trindade,P.、Lobo,J.和Dias,J.(2014)。基于人类抓握演示的知识推理,用于机器人抓握合成,机器人与自治系统62(6):794-817。
[17] Fei-Fei,L.和Perona,P.(2005)。用于学习自然场景类别的贝叶斯层次模型,IEEE计算机学会计算机视觉和模式识别会议,CVPR 2005,美国加利福尼亚州圣地亚哥,第2卷,第524-531页。
[18] Felzenszwalb,P.F.和McAllester,D.(2007年)。广义a*架构,《人工智能研究杂志》,第153-190页·Zbl 1183.68228号
[19] Felzenszwalb,P.、Girshick,R.和McAllester,D.(2010a)。可变形零件模型的级联对象检测,2010年IEEE计算机视觉和模式识别会议(CVPR),美国加利福尼亚州旧金山,第2241-2248页。
[20] Felzenszwalb,P.、Girshick,R.、McAllester,D.和Ramanan,D.(2010年b)。具有判别训练的基于零件的模型的对象检测,IEEE模式分析和机器智能汇刊32(9):1627-1645。
[21] Felzenszwalb,P.、McAllester,D.和Ramanan,D.(2008)。经过区分训练的多尺度可变形零件模型,IEEE计算机视觉和模式识别会议,CVPR 2008,美国阿拉斯加州安克雷奇,第1-8页。
[22] Feng,Q.,Yuan,C.,Pan,J.S.,Yang,J.F.,Chou,Y.T.,Zhou,Y.和Li,W.(2017)。用于人脸识别的叠加稀疏参数分类器,IEEE控制论汇刊47(2):378-390。
[23] Feng,Q.和Zhou,Y.(2016)。内核规范化了动作识别的数据不确定性,IEEE视频技术电路和系统汇刊PP(99):1-1。
[24] Feng,Q.,Zhou,Y.和Lan,R.(2016)。用于图像集检索的成对线性回归分类,IEEE计算机视觉和模式识别会议(CVPR),美国内华达州拉斯维加斯,第4865-4872页。
[25] Girshick,R.B.、Felzenszwalb,P.F.和McAllester,D.A.(2011年)。使用语法模型进行对象检测,J.Shawe-Taylor等人(编辑),《神经信息处理系统的进展》24,Curran Associates,Inc.,Granada,第442-450页。
[26] Gupta,P.、Arrabolu,S.S.、Brown,M.和Savarese,S.(2009年)。通过3D层次直方图匹配进行视频场景分类,IEEE第十二届计算机视觉国际会议,日本京都,第1655-1662页。
[27] Hall,M.、Frank,E.、Holmes,G.、Pfahringer,B.、Reutemann,P.和Witten,I.H.(2009年)。Weka数据挖掘软件:更新,ACM SIGKDD Explorations Newsletter 11(1):10-18。
[28] He,K.,Zhang,X.,Ren,S.和Sun,J.(2016)。图像识别的深度残差学习,IEEE计算机视觉和模式识别会议(CVPR),美国内华达州拉斯维加斯,第770-778页。
[29] Hoiem,D.、Efros,A.A.和Hebert,M.(2005年)。自动弹出照片,ACM SIGGRAPH 2005,美国加利福尼亚州洛杉矶,第577-584页。
[30] Hosang,J.、Benenson,R.、Doll´ar,P.和Schiele,B.(2016)。什么是有效的检测建议?,IEEE模式分析和机器智能汇刊38(4):814-830。
[31] Huang,K.、Tao,D.、Yuan,Y.、Li,X.和Tan,T.(2011)。视频监控场景分类的生物启发功能,IEEE系统、人和控制论汇刊B:控制论41(1):307-313。
[32] 贾丽,L.,苏,H.,费菲,L.和邢,E.P.(2010)。对象库:用于场景分类和语义特征稀疏化的高级图像表示,J.Lafferty等人(编辑),《神经信息处理系统进展》23,Curran Associates,Inc.,剑桥,第1378-1386页。
[33] Kembhavi,A.、Yeh,T.和Davis,L.S.(2010年)。为什么那个人在那里过马路?使用概率逻辑模型和常识推理进行场景理解,见K.Danilidis等人(编辑),《计算机视觉-ECCV 2010:第11届欧洲计算机视觉会议》,第二部分,柏林/海德堡斯普林格,第693-706页。
[34] Khan,S.、Bennamoun,M.、Sohel,F.和Togneri,R.(2014)。《几何驱动的室内场景语义标注》,《计算机科学讲义》,第8689卷,施普林格国际出版社,柏林,第679-694页。
[35] Kong,T.,Yao,A.,Chen,Y.和Sun,F.(2016)。Hypernet:实现精确的区域建议生成和联合目标检测,IEEE计算机视觉和模式识别会议(CVPR),美国内华达州拉斯维加斯,第845-853页。
[36] Lazebnik,S.、Schmid,C.和Ponce,J.(2006年)。《超越特征袋:用于识别自然场景类别的空间金字塔匹配》,2006年IEEE计算机学会计算机视觉和模式识别会议,美国纽约州纽约市,第2卷,第2169-2178页。
[37] 李佳,L.,Chong,W.,Yongwhan,L.、Blei,D.M.和Li,F.-F.(2010)。构建和使用语义视觉图像层次,2010年IEEE计算机视觉和模式识别会议(CVPR),美国加利福尼亚州旧金山,第3336-3343页。
[38] Li,L.-J.,Su,H.,Lim,Y.和Fei-Fei,L.(2014)。对象库:用于高级视觉识别的对象级图像表示,国际计算机视觉杂志107(1):20-39。
[39] Lin,D.,Lu,C.,Liao,R.和Jia,J.(2014)。学习场景分类的重要空间池区域,2014 IEEE计算机视觉和模式识别会议(CVPR),美国俄亥俄州哥伦布,第3726-3733页。
[40] Liu,W.、Anguelov,D.、Erhan,D.、Szegedy,C.、Reed,S.、Fu,C.-Y.和Berg,A.C.(2016)。SSD:单发多盒探测器,Springer International Publishing,Cham,第21-37页。
[41] Liu,Z.和von Wichert,G.(2013)。应用基于规则的上下文知识构建室内环境的抽象语义图,2013 IEEE/RSJ智能机器人和系统国际会议(IROS),日本东京,第5141-5147页。
[42] Lorenza Saitta,J.-D.Z.(2013)。《人工智能和复杂系统抽象》,纽约州斯普林格市。
[43] Marszalek,M.和Schmid,C.(2007年)。视觉对象识别的语义层次,IEEE计算机视觉和模式识别会议,CVPR'07,明尼阿波利斯,明尼苏达州,美国,第1-7页。
[44] MIT(n.d.)室内场景识别。数据集,http://web.mit.edu/torralba/www/indor.html。 ·Zbl 1408.94301号
[45] Mottaghi,R.、Fidler,S.、Yao,J.、Urtason,R.和Parikh,D.(2013)。使用混合人机CRFS分析语义分割,2013年IEEE计算机视觉和模式识别会议(CVPR),美国俄勒冈州波特兰,第3143-3150页。
[46] Neville,J.和Jensen,D.(2007年)。关系依赖网络,《机器学习研究杂志》8:653-692·Zbl 1222.68274号
[47] Nguyen,D.T.、Ogunbana,P.O.和Li,W.(2013)。一种新的基于形状的非冗余局部二进制模式描述符,用于目标检测,模式识别46(5):1485-1500。
[48] Penatti,O.A.、Silva,F.B.、Valle,E.、Gouet-Brunet,V.和Torres,R.d.S.(2014)。用于图像检索和分类的视觉单词空间排列,模式识别47(2):705-720。
[49] Porway,J.、Wang,Q.和Zhu,S.C.(2010年)。航空图像解析的层次和上下文模型,国际计算机视觉杂志88(2):254-283。
[50] Quattoni,A.和Torralba,A.(2009年)。识别室内场景,IEEE计算机视觉和模式识别会议,CVPR 2009,美国佛罗里达州迈阿密,第413-420页。
[51] Ren,X.和Ramanan,D.(2013年)。用于目标检测的稀疏代码直方图,2013年IEEE计算机视觉和模式识别会议(CVPR),美国俄亥俄州哥伦布,第3246-3253页。
[52] M.X.里贝罗、P.H.布加蒂、C.小特雷纳、P.M.A.马奎斯、N.A.罗莎和A.J.M.特雷纳(2009)。数据与知识工程68(12):1370-1382,支持基于内容的图像检索和基于关联规则的计算机辅助诊断系统。
[53] Richardson,M.和Domingos,P.(2006年)。马尔可夫逻辑网络,机器学习62(1):107-136·Zbl 1470.68221号
[54] Rigamonti,R.、Brown,M.A.和Lepetit,V.(2011年)。稀疏表示真的与图像分类相关吗?,2011年IEEE计算机视觉和模式识别会议(CVPR),科罗拉多州斯普林斯,美国,第1545-1552页。
[55] Rigamonti,R.、Sironi,A.、Lepetit,V.和Fua,P.(2013)。学习可分离过滤器,2013年IEEE计算机视觉和模式识别会议(CVPR),俄勒冈州波特兰,美国,第2754-2761页。
[56] Sadovnik,A.和Chen,T.(2011年)。图形中物体识别和零件标记的图形结构,第18届IEEE图像处理国际会议(ICIP),比利时布鲁塞尔,第3613-3616页。
[57] Sharif Razavian,A.、Azizpour,H.、Sullivan,J.和Carlsson,S.(2014)。美国有线电视新闻网(CNN)特辑《离线:令人震惊的识别基线》,IEEE计算机视觉和模式识别会议(CVPR),美国俄亥俄州哥伦布,第806-813页。
[58] Shotton,J.、Blake,A.和Cipolla,R.(2005)。基于轮廓的物体检测学习,第十届IEEE国际计算机视觉会议,ICCV 2005,中国北京,第1卷,第503-510页。
[59] Siagian,C.和Itti,L.(2007年)。使用与视觉关注共享的特征进行生物启发的快速场景分类,IEEE模式分析和机器智能汇刊29(2):300-312。
[60] Singla,P.和Domingos,P.(2006年)。用马尔可夫逻辑进行实体解析,第六届国际数据挖掘会议,ICDM’06,中国香港,第572-582页。
[61] Tang,J.、Zha,Z.-J.、Tao,D.和Chua,T.-S.(2012)。面向语义的多标签图像标注主动学习,IEEE图像处理学报21(4):2354-2360·Zbl 1373.68419号
[62] Tang,T.和Qiao,H.(2014)。利用生物启发机制改进视觉分类的不变性,神经计算133(8):328-341。
[63] Teo,C.L.、Fermller,C.和Aloimonos,Y.(2015)。基于轮廓的物体识别的格式塔主义方法:结合自下而上和自上而下的线索,《国际机器人研究杂志》34(4-5):627-652。
[64] Vondrick,C.、Khosla,A.、Malisiewicz,T.和Torralba,A.(2013)。霍格尔斯:可视化物体检测功能,IEEE国际计算机视觉会议,澳大利亚悉尼,第1-8页。
[65] Welter,P.、Riesmeier,J.、Fischer,B.、Grouls,C.、Kuhl,C.和Deserno(n´e Lehmann),T.M.(2011年)。《弥合成像和信息系统之间的集成差距:计算机辅助诊断中基于内容的图像检索的统一数据概念》,《美国医学信息学会杂志》18(4):506-510。
[66] 谢磊、田强、王明和张斌(2014a)。用于图像分类的异构特征的空间汇集,IEEE图像处理汇刊23(5):1994-2008·Zbl 1374.94412号
[67] Xie,L.,Wang,J.,Guo,B.,Zhang,B.和Tian,Q.(2014b)。用于识别室内场景的定向金字塔匹配,IEEE计算机视觉和模式识别会议(CVPR),美国俄亥俄州哥伦布,第3734-3741页。
[68] Xu,M.和Petrou,M.(2010年)。基于马尔可夫逻辑网络学习场景解释的逻辑规则,ACCV第九届亚洲计算机视觉会议,西安,中国,第341-350页。
[69] Xu,M.、Petrou,M.和Lu,J.(2011)。使用马尔可夫逻辑网络学习知识塔的逻辑规则,国际模式识别和人工智能杂志25(06):889-907。
[70] Ye,Z.、Liu,P.、Zhao,W.和Tang,X.(2015)。室内场景注释的认知启发框架,《电子成像杂志》24(5):053013。
[71] Yu,J.、Rui,Y.、Tang,Y.Y.和Tao,D.(2014)。图像分类中基于高阶距离的多视图随机学习,IEEE控制论汇刊44(12):2431-2442。
[72] Yu,J.、Tao,D.、Rui,Y.和Cheng,J.(2013)。基于成对约束的多视图特征融合用于场景分类,模式识别46(2):483-496·Zbl 1251.68194号
[73] Yu,J.、Tao,D.和Wang,M.(2012a)。自适应超图学习及其在图像分类中的应用,IEEE图像处理汇刊21(7):3262-3272·Zbl 1381.62216号
[74] Yu,J.、Wang,M.和Tao,D.(2012年b)。用于卡通合成的半监督多视图距离度量学习,IEEE图像处理汇刊21(11):4636-4648·Zbl 1373.94472号
[75] Zhang,C.,Liu,J.,Tian,Q.,Liang,C.和Huang,Q.(2013)。除了视觉特征:使用范例分类器进行分类的弱语义图像表示,神经计算120(0):318-324。
[76] Zhou,L.、Zhou、Z.和Hu,D.(2013)。使用多分辨率特征模型进行场景分类,模式识别46(1):424-433。
[77] Zhu,Y.,Fathi,A.和Fei-Fei,L.(2014)。关于知识库表示中对象启示的推理,D.Fleet等人(编辑),《计算机视觉ECCV 2014》,《计算机科学讲义》,第8690卷,斯普林格国际出版公司,苏黎世,第408-424页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。