×

盲人领导的无知:用于细粒度分类的混合人机视觉系统。 (英语) Zbl 1328.68237号

摘要:我们提出了一个用于细粒度视觉分类的视觉识别系统。该系统由一个人和一台机器共同组成,结合了计算机视觉算法和(非专业)人类用户的互补优势。人类用户提供两种不同形式的信息对象部分单击和多选问题的答案。机器智能地选择信息最丰富的问题向用户提出,以便尽快识别对象类。通过利用计算机视觉和分析用户的反应,以秒为单位测量的所需人力总量被最小化。我们的形式说明了如何将许多不同类型的计算机视觉算法合并到一个人机交互框架中,包括标准的多类方法、基于部分的方法以及本地化的多类和属性方法。我们通过构建鸟类识别的现场指南来探索我们的想法。实验结果表明,将无知的人类和视力低下的机器结合在一起的力量——混合系统在包含200种鸟类的数据集上实现了快速准确的鸟类识别。

MSC公司:

68T45型 机器视觉和场景理解
68吨10 模式识别、语音识别
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Belhumeur,P.,Chen,D.,Feiner,S.,Jacobs,D.,Kress,W.,Ling,H.,Lopez,I.,Ramamoothi,R.,Sheorey,S.、White,S.&张磊(2008)。在ECCV中搜索世界草药。
[2] Berg,T.和;Belhumeur,P.N.(2013)。Poof:基于部分的一对一特征,用于细粒度分类、人脸验证和属性估计。在CVPR中。
[3] Biederman,I.、Subramaniam,S.、Bar,M.、Kalocsai,P.和;Fiser,J.(1999)。重新检查下级对象分类。心理学研究,63(2-3),131-153·doi:10.1007/s004260050047
[4] Boudev,L.和;Malik,J.(2009)。Poselets:使用3d注释训练的身体部位检测器。在ICCV中。
[5] Branson,S.、Perona,P.&Belongie,S.(2011年)。弱注释带来的强大监管。在ICCV中。
[6] Branson,S.、Wah,C.、Schroff,F.、Babenko,B.、Welinder,P.、Perona,P.&Belongie,S.(2010年)。与人进行视觉识别。在ECCV中。
[7] Chai,Y.、Lempitsky,V.和;Zisserman,A.(2011)。Bicos:一种双级联合分割方法。在ICCV中。
[8] Chai,Y.、Lempitsky,V.和;Zisserman,A.(2013)。用于细粒度分类的共生分割和部件定位。在ICCV中。
[9] Chai,Y.、Rahtu,E.、Lempitsky,V.、Van Gool,L.&Zisserman,A.(2012)。特里科斯。在ECCV中。
[10] Cox,I.J.、Miller,M.L.、Minka,T.P.、Papathomas,T.V.和;Yianilos,P.N.(2000)。贝叶斯图像检索系统,pichunter:理论、实现和心理物理实验。图像处理。
[11] Donahue,J.和;Grauman,K.(2011年)。视觉识别的注解原理。在ICCV中。
[12] Douze,M.,Ramisa,A.和;Schmid,C.(2011)。结合属性和fisher向量进行有效的图像检索。在CVPR中。
[13] Duan,K.,Parikh,D.,Crandall,D.&Grauman,K.(2012年)。发现用于细粒度识别的本地化属性。在CVPR中。
[14] 方,Y.&Geman,D.(2005)。心理人脸检索实验。在AVBPA中。
[15] Farhadi,A.、Endres,I.和;Hoiem,D.(2010年)。以属性为中心的泛化识别。在CVPR中。
[16] Farhadi,A.、Endres,I.、Hoiem,D.和;Forsyth,D.(2009年)。用属性描述对象。在CVPR中。
[17] Farrell,R.、Oza,O.、Zhang,N.、Morariu,V.、Darrell、T.&Davis,L.(2011)。伯德莱斯。在ICCV中。
[18] Felzenszwalb,P.&Huttenlocher,D.(2002)。图形结构的有效匹配。在CVPR中。
[19] Felzenszwalb,P.、McAllester,D.和;Ramanan,D.(2008)。经过区分训练的多尺度可变形零件模型。在CVPR中。
[20] 费雷卡图,M.&Geman,D.(2007)。通过心理匹配进行交互式搜索。在ICCV中。
[21] 费雷卡图,M.&Geman,D.(2009)。一个统计框架,用于从脑海中搜索图像类别。在PAMI。
[22] Gavves,E.,Fernando,B.,Snoek,C.,Smeulders,A.和;Tuytelaars,T.(2013)。通过对齐进行细粒度分类。在ICCV中。
[23] 杰曼(Geman),D.&Jedynak,B.(1993年)。形状识别和20个问题。贝尔蒙特:华兹华斯。
[24] 杰曼(Geman),D.&Jedynak,B.(1996年)。一种用于跟踪卫星图像中道路的主动测试模型。在PAMI。
[25] Jedynak,B.、Frazier,P.I.和;Sznitman,R.(2012年)。二十个噪声问题:熵损失的贝叶斯最优策略。应用概率杂志,49(1),114–136·Zbl 1318.62017号 ·doi:10.1239/jap/1331216837
[26] Khosla,A.、Jayadevaprakash,N.、Yao,B.和;Li,F.F.(2011)。fgvc的新数据集:斯坦福犬。圣地亚哥:关于FGVC的CVPR研讨会。
[27] Kumar,N.、Belhumeur,P.、Biswas,A.、Jacobs,D.、Kress,W.、Lopez,I.&Soares,J.(2012)。叶子捕捉:一种用于自动识别植物种类的计算机视觉系统。在ECCV中。
[28] Kumar,N.,Belhumeur,P.&Nayar,S.(2008)。Facetracer:搜索包含人脸的大型图像集合的引擎。在ECCV中。
[29] Kumar,N.、Berg,A.C.、Belhumeur,P.N.&Nayar,S.K.(2009)。用于人脸验证的属性和明喻分类器。在ICCV中。
[30] Lampert,C.、Nickisch,H.和;Harmeling,S.(2009年)。学习检测看不见的对象类。在CVPR中。
[31] Larios,N.、Soran,B.、Shapiro,L.G.、Martinez-Munoz,G.、Lin,J.&Dietterich,T.G.(2010年)。Haar随机森林特征和支持向量机空间匹配核用于石蝇物种识别。在ICPR中。
[32] Lazebnik,S.、Schmid,C.和;Ponce,J.(2005)。用于基于零件的纹理和对象识别的最大熵框架。在ICCV中。
[33] A.莱文、D.利辛斯基;Weiss,Y.(2007)。一种自然图像消光的封闭解决方案。在PAMI。
[34] Liu,J.、Kanazawa,A.、Jacobs,D.&Belhumeur,P.(2012)。利用局部定位进行犬种分类。在ECCV中。
[35] Lu,Y.,Hu,C.,Zhu,X.,Zhang,H.&杨琼(2000)。图像检索系统中基于语义和特征的相关反馈的统一框架。在ACM多媒体中。
[36] 马吉,S.(2012)。发现零件和属性的词典。在ECCV部件和属性中。
[37] 马吉,S.&Shakhnarovich,G.(2012年)。通过成对通信的零件注释。在人工智能研讨会上。
[38] Martínez-Munoz等人(2009年)。对非常相似的对象进行无词典分类。在CVPR中。
[39] Mervis,C.B.和;Crisafi,M.A.(1982年)。下级、基本和上级类别的获取顺序。儿童发展,53(1),256-266。
[40] Nilsback,M.和;Zisserman,A.(2008)。自动花分类。在ICVGIP中。
[41] Nilsback,M.E.&Zisserman,A.(2006年)。花卉分类的视觉词汇。在CVPR中。
[42] Ott,P.和;Everingham,M.(2011年)。基于可变形零件的模型的共享零件。在CVPR中。
[43] Parikh,D.&Grauman,K.(2011年)。交互式构建属性词汇表。在CVPR中。
[44] Parikh,D.&Grauman,K.(2011年)。相对属性。在ICCV中。
[45] Parikh,D.&Grauman,K.(2013)。隐含反馈:学习图像搜索中用户行为的细微差别。在ICCV中。
[46] Parikh,D.&齐特尼克,C.L.(2011年a)。找出人员检测器中最薄弱的环节。在CVPR中。
[47] Parikh,D.&Zitnick,C.L.(2011年b)。机器的人工卸货。在NIPS中,人群的智慧。
[48] Parkash,A.和amp;Parikh,D.(2012年)。分类器反馈的属性。在ECCV中。
[49] Parkhi,O.、Vedaldi,A.、Zisserman,A.和;贾瓦哈尔,C.(2012)。猫和狗。在CVPR中。
[50] Parkhi,O.M.、Vedaldi,A.、Jawahar,C.和;Zisserman,A.(2011)。关于猫和狗的真相。在ICCV中。
[51] Perronnin,F.、Sánchez,J.和;Mensink,T.(2010)。改进fisher内核。在ECCV中。
[52] Platt,J.C.(1999)。svm的概率输出。在ALMC。
[53] Quinlan,J.R.(1993)。C4.5:机器学习程序。伯灵顿:摩根·考夫曼。
[54] Rasiwasia,N.、Moreno,P.J.和;Vasconcelos,N.(2007年)。弥合差距:通过语义示例进行查询。在多媒体中。
[55] Rosch,E.(1999)。分类原则。概念:核心阅读。
[56] Rosch,E.、Mervis,C.B.和;Gray,W.D.,Johnson,D.M.,Boyes-Braem,P.(1976年)。自然类别中的基本对象。认知心理学。
[57] Rother,C.,Kolmogorov,V.&Blake,A.(2004)。抓取:交互式前景提取。在TOG中。
[58] Settles,B.(2008年)。好奇机器:通过结构化实例进行主动学习。
[59] Stark,M.、Krause,J.、Pepik,B.、Meger,D.、Little,J.J.、Schiele,B.&Koller,D.(2012)。用于三维场景理解的细粒度分类。在BMVC中。
[60] Sznitman,R.、Basu,A.、Richa,R.,Handa,J.、Gehlbach,P.、Taylor,R.H.、Jedynak,B.&Hager,G.D.(2011年)。视网膜显微手术中的统一检测和跟踪。在MICCAI。
[61] Sznitman,R.&Jedynak,B.(2010年)。人脸检测和定位的主动测试。在PAMI。
[62] Tsiligkaridis,T.,Sadler,B.&Hero,A.(2013)。具有人机交互的目标搜索协作20个问题模型。在ICASSP中·兹比尔1360.94116
[63] Tsochantaridis,I.、Joachims,T.、Hofmann,T.和;Altun,Y.(2006)。结构化和相互依赖输出变量的大幅度方法。在JMLR中·Zbl 1222.68321号
[64] Vijayanarasimhan,S.&Grauman,K.(2009年)。你要花多少钱?在CVPR中·Zbl 1235.68296号
[65] Vijayanarasimhan,S.&Grauman,K.(2011年)。大规模实时主动学习。在CVPR中·Zbl 1235.68296号
[66] Vondrick,C.和;Ramanan,D.(2011年)。视频注释和跟踪与主动学习。在NIPS中。
[67] Vondrick,C.、Ramanan,D.和amp;Patterson,D.(2010年)。高效缩放视频注释。在ECCV中。
[68] Wah,C.,Branson,S.,Perona,P.&Belongie,S.(2011年)。多类识别和零件定位与人在循环中。在ICCV中。
[69] Wah,C.,Branson,S.,Welinder,P.,Perona,P.&Belongie,S.(2011年)。Caltech-UCSD鸟类-200-2011数据集。技术代表CNS-TR-2011-001,帕萨迪纳:加州理工学院。
[70] Wang,G.和;Forsyth,D.(2009年)。视觉属性、对象类的联合学习。在ICCV中。
[71] Wang,J.,Markert,K.&Everingham,M.(2009年)。从自然语言描述中学习对象识别模型。在BMVC中。
[72] Wu,W.和;Yang,J.(2006)。SmartLabel:一种对象标记工具。在多媒体中。
[73] Yang,Y.和;Ramanan,D.(2011年)。使用混合部件的关节姿势估计。在CVPR中。
[74] Yao,B.,Bradski,G.,Fei-Fei,L.:fgvc的无代码本和注释方法。In:CVPR(2012)
[75] Yao,B.,Khosla,A.和;Fei-Fei,L.(2011)。fgvc的随机化和鉴别相结合。在CVPR中。
[76] Zhang,N.、Farrell,R.&Darrell,T.(2012)。用于子类别识别的姿势池内核。在CVPR中。
[77] Zhang,N.、Farrell,R.、Iandola,F.&Darrell,T.(2013)。用于细粒度识别和属性预测的可变形零件描述符。在ICCV中。
[78] X.Zhou和;Huang,T.(2003)。图像检索中的相关反馈。在多媒体中。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。