×

从噪声图像中进行元解释学习。 (英语) Zbl 1461.68190号

摘要:统计机器学习在图像分类中应用广泛。然而,大多数技术(1)需要许多图像才能达到高精度,(2)不支持低于分类级别的推理,因此无法支持二次推理,例如光源和图像外部其他物体的存在和位置。本文描述了一种称为逻辑视觉的归纳逻辑编程方法,它克服了其中的一些限制。LV使用元解释学习(MIL)结合从图像中采样的高对比度点的低级提取来学习描述图像的递归逻辑程序。在已发表的工作中,LV被证明能够对以下类别进行高精度预测正多边形其中支持向量机和卷积神经网络在某些情况下给出了近乎随机的预测。迄今为止,LV仅应用于无噪声的人工生成图像。这篇论文通过(a)寻址扩展LV分类噪声使用新的MIL系统Metagol的噪声遥测版本,(b)寻址属性噪声使用原始级别的统计估值器来识别真实图像中的子对象,(c)使用更广泛的背景模型来表示经典的2D形状,如圆和椭圆,(d)以简单但通用的光反射递归理论的形式提供更丰富的可学习背景知识。在我们的实验中,我们考虑了自然科学环境和RoboCup比赛环境中的噪声图像。自然科学设置涉及在望远镜和显微镜图像中识别光源的位置,而RoboCup设置涉及识别球的位置。我们的结果表明,对于真实图像,使用单个示例(即单次LV)的新的抗噪LV版本在两个预测方面的收敛精度至少可与三十次统计机器学习器相媲美在科学设置和RoboCup设置中隐藏光源。此外,我们还证明了使用LV可以发明光的一般背景递归理论,并用于识别物体凹凸性的模糊性,例如科学设置中的环形山和RoboCup设置中球的部分模糊。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
68N17号 逻辑编程
68T40型 机器人人工智能
68T45型 机器视觉和场景理解
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿坎塔,R;沙吉,A;史密斯,K;卢奇,A;福阿,P;Susstrunk,S,SLIC超像素与最先进的超像素方法的比较,IEEE模式分析和机器智能汇刊,342274-2282,(2012)·doi:10.1109/TPAMI.2012.120
[2] 巴罗,HG;Tenenbaum,JM,将线图解释为三维表面,人工智能,17,75-116,(1981)·Zbl 1497.68481号 ·doi:10.1016/0004-3702(81)90021-7
[3] Bradski,G.(2000)。Opencv库. http://opencv.org/。
[4] Breiman,L.、Friedman,J.H.、Olshen,R.A.和Stone,C.J.(1984)。分类和回归树贝尔蒙特:华兹华斯·Zbl 0541.62042号
[5] Chang,C-C;Lin,C-J,LIBSVM:支持向量机库,ACM智能系统与技术汇刊,2,27:1-27:27,(2011)·数字对象标识代码:10.1145/1961189.1961199
[6] Cohn,A.G.、Hogg,D.C.、Bennett,B.、Galata,A.、Magee,D.R.和Santos,P.(2006)。在:认知视觉:将符号定性表征与计算机视觉相结合(第221-246页)。柏林:斯普林格。
[7] 考克斯,D,我们了解高层愿景吗?,神经生物学最新观点,25187-193,(2014)·doi:10.1016/j.confb.2014.01.016
[8] Cropper,A.和Muggleton,S.H.(2015)。元解释学习中元规则的逻辑最小化。第24届归纳逻辑编程国际会议论文集(第65-78页)。LNAI 9046。斯普林格。
[9] Cropper,A.和Muggleton,S.H.(2016年)。通过抽象和发明学习高阶逻辑程序。第25届国际人工智能联合会议记录(IJCAI 2016)(第1418-1424页)。我才。
[10] Dai,W.-Z.、Muggleton,S.H.和Zhou,Z.-H.(2015)。逻辑视觉:简单几何概念的元解释学习。第25届国际归纳逻辑程序设计会议最新论文集(第1-16页)。中欧。
[11] Dallal,N.和Triggs,B.(2005年)。人体检测定向梯度直方图。在:第13届IEEE计算机学会计算机视觉和模式识别会议记录加利福尼亚州圣地亚哥(第886-893页)。IEEE计算机学会。
[12] Duan,K.、Parikh,D.、Crandall,D.J.和Grauman,K.[2012年]。发现用于细粒度识别的本地化属性。第25届IEEE计算机视觉和模式识别会议记录罗得岛州普罗维登斯(第3474-3481页)。IEEE计算机学会。
[13] 法里德,R;Sammut,C,使用关系学习的基于平面的对象分类,机器学习,94,3-23,(2014)·doi:10.1007/s10994-013-5352-9
[14] Farid,R.和Sammut,C.(2014b)。使用关系学习进行基于区域的对象分类。PRICAI 2014:人工智能趋势(第8862卷,第1106-1114页)。LNAI公司。斯普林格。
[15] Galilei,G.(2004)。《星辰先驱报》. 1610. 爱德华·斯塔福德·卡洛斯(Edward Stafford Carlos)的英文翻译,伦敦利文顿,1880年;彼得·巴克编辑,拜占庭出版社。
[16] Gregory,R.L.(1974)。感知的概念和机制伦敦:达克沃斯。
[17] Gregory,R.L.(1998)。眼睛和大脑:视觉心理学牛津:牛津大学出版社。
[18] Heath,D.和Ventura,D.(2016)。在电脑画画之前,它必须先学会看东西。在:第七届计算创造力国际会议记录(第172-179页)。
[19] 霍格(Hogg,D),《基于模型的视觉:观察行走者的程序》(Model-based vision:A program to see A walking person),《图像与视觉计算》(Image and vision Computing),1,5-20,(1983)·doi:10.1016/0262-8856(83)90003-3
[20] Horn,B.K.P.(1989年)。从着色信息获取形状马萨诸塞州剑桥:麻省理工学院出版社。
[21] Hu,R.,Xu,H.,Rohrbach,M.,Feng,J.,Saenko,K.,&Darrell,T.(2016)。自然语言对象检索。第29届IEEE计算机视觉和模式识别会议纪要内华达州拉斯维加斯(第4555-4564页)。IEEE计算机学会。
[22] 哈夫曼,DA;Meltzer,B(编辑);Michie,D(编辑),《作为无意义句子的不可能宾语》,第6期,295-323,(1971),爱丁堡
[23] 克里舍夫斯基,A;Sutskever,I;Hinton,GE,用深度卷积神经网络进行Imagenet分类,神经信息处理系统进展,251106-1114,(2012)
[24] Lake,B.M.、Salakhuttinov,R.、Gross,J.和Tenenbaum,J.B.(2011年)。简单视觉概念的一次性学习。在:认知科学学会第33届年会论文集(第2568-2573页)。
[25] 兰伯特,CH;Nickisch,H;Harmeling,S,零快照视觉对象分类的基于属性的分类,IEEE模式分析和机器智能学报,36,453-465,(2014)·doi:10.1109/TPAMI.2013.140
[26] Li,Z.、Gavves,E.、Mensink,T.和Snoek,C.G.M.(2014)。属性对分段对象有意义。在:第十三届欧洲计算机视觉会议记录第四部分瑞士苏黎世(第350-365页)。斯普林格。
[27] Lin,D.、Dechter,E.、Ellis,K.、Tenenbaum,J.B.和Muggleton,S.H.(2014)。一次性函数归纳的偏差重新制定。第23届欧洲人工智能会议记录(ECAI 2014)阿姆斯特丹(第525-530页)。IOS出版社。
[28] Lowe,DG,《从尺度变化关键点获得的独特图像特征》,《国际计算机视觉杂志》,60,91-110,(2004)·doi:10.1023/B:VISI.0000029664.99615.94
[29] Mensink,T.、Verbeek,J.J.和Csurka,G.(2011年)。学习交互式图像标记的结构化预测模型。第24届IEEE计算机视觉与模式识别会议科罗拉多州科罗拉多斯普林斯(Colorado Springs,CO)(第833-840页)。IEEE计算机学会。
[30] Muggleton,S.H.、Lin,D.、Chen,J.和Tamaddoni-Nezhad,A.(2014a)。元贝叶斯:使用高阶随机精化的贝叶斯元解释学习。在G.Zaverucha、V.Santos Costa和A.Marins Paes(编辑)中,第23届归纳逻辑编程国际会议论文集(ILP 2013),柏林。LNAI 8812(第1-17页)。斯普林格·Zbl 1319.68185号
[31] 麻格尔顿,SH;林,D;巴列维,N;Tamaddoni Nezhad,A,元解释学习:语法推理的应用,机器学习,94,25-49,(2014)·Zbl 1319.68121号 ·doi:10.1007/s10994-013-5358-3
[32] 麻格尔顿,SH;林,D;Tamaddoni-Nezhad,A,《高阶二元数据日志的元解释学习:重新审视谓词发明》,机器学习,100,49-73,(2015)·Zbl 1346.68119号 ·doi:10.1007/s10994-014-5471-y
[33] 麻格尔顿,SH;雷德,L;普尔,D;我,布拉特科;Flach,P;Inoue,K,ILP 20岁:传记与未来挑战,机器学习,86,3-23,(2011)·Zbl 1243.68014号 ·doi:10.1007/s10994-011-5259-2
[34] 奥贾拉,T;Pietikainen,M;Mäenpää,T,具有局部二进制模式的多分辨率灰度和旋转不变纹理分类,IEEE模式分析和机器智能汇刊,24971-987,(2002)·Zbl 0977.68853号 ·doi:10.1109/TPAMI.2002.1017623
[35] Olhoeft,GR,最大化探地雷达的信息返回,应用地球物理杂志,43,175-187,(2000)·doi:10.1016/S0926-9851(99)00057-9
[36] Palatucci,M.、Pomerleau,D.、Hinton,G.和Mitchell,T.M.(2009)。使用语义输出代码进行零炮学习。在:神经信息处理系统研究进展(第22卷,第1410-1418页)。Curran Associates公司。
[37] 劳塔雷,SS;Agrawal,A,《基于视觉的人机交互手势识别:一项调查》,《人工智能评论》,第43期,第1-54页,(2015年)·doi:10.1007/s10462-012-9356-9
[38] Redmon,J.、Divvala,S.、Girshick,R.和Farhadi,A.(2016)。你只看一次:统一的实时对象检测。在:IEEE计算机视觉和模式识别会议(CVPR)(第779-788页)。
[39] Rofer,T.、Laue,T.,Richter-Klug,J.和Thielke,F.(2016)。2016年和2016年机器人杯赛的B级人类团队描述。http://www.robocup2016.org/media/symposium/Team-Description-Papers/StandardPlatform/RoboCup_2016_SPL_TDP_B-Human.pdf。
[40] Simonyan,K.和Zisserman,A.(2015)。用于大规模图像识别的深度卷积网络。在:第三届学习表征国际会议记录,加利福尼亚州圣地亚哥。
[41] Suriani,V.、Albani,D.、Youssef,A.、Del Duchetto,F.、Nania,A.、Bloisi,D.D.等人(2016年)。2016年SPQR RoboCup标准平台联盟团队描述文件。http://www.robocup2016.org/media/symposium/Team-Description-Papers/StandardPlatform/RoboCup_2016_SPL_TDP_SPQR.pdf。
[42] Vedaldi,A.和Fulkerson,B.(2008年)。VLFeat:一个开放的、可移植的计算机视觉算法库。http://www.vlfeat.org/。
[43] Vinyals,O.、Blundell,C.、Lillicrap,T.P.、Kavukcuoglu,K.和Wierstra,D.(2016)。匹配网络进行一次性学习。在:神经信息处理系统研究进展(第29卷,第3630-3638页)。麻省理工学院出版社。
[44] 冯·亥姆霍兹,H.(1962)。生理光学论著(第3卷)。纽约:多佛出版社。(最初于1825年以德语出版)
[45] Waltz,D.L.(1980)。将场景描述理解为事件模拟。在:计算语言学协会第18届年会会议记录(第7-11页)。计算语言学协会。
[46] Wielemaker,J;施里杰弗斯,T;特里斯卡,M;Lager,T,SWI-prolog,逻辑编程理论与实践,12,67-96,(2012)·Zbl 1244.68023号 ·文件编号:10.1017/S1471068411000494
[47] 张,R;泰,PS;克莱尔,JE;Shah,M,Shape-from-shading:一项调查,IEEE模式分析和机器智能汇刊,21670-706,(1999)·Zbl 1316.94019号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。