×

用于动作识别和定位的时空树集成。 (英语) Zbl 1458.68242号

总结:人类行为本质上是身体运动的结构化模式。我们探索了直接从训练数据中发现的层次时空树的集合,以对这些结构进行建模,以便进行动作识别和空间定位。由于指数搜索空间,特别是当允许部分匹配时,发现频繁和有区别的树结构是一项挑战。为了解决这个问题,我们首先通过对分层时空段进行区分性聚类来构建简明的动作词词汇表,这是一种两级视频表示,可以捕获视频的静态和非静态相关时空段。然后,使用这个词汇表,我们利用树挖掘和随后的树聚类和排序来选择一组紧凑的区分树模式。我们的实验表明,这些树模式单独或与较短的模式(动作词和成对模式)结合,在三个具有挑战性的数据集上取得了良好的性能:UCF Sports、HighFive和Hollywood3D。此外,我们还进行了跨数据集验证,使用HighFive上学习的树来识别Hollywood3D中的相同动作,并使用UCF-Sports上学习的树来识别和定位JHMDB中的类似动作。结果表明,我们的方法发现的树具有跨数据集泛化的潜力。

MSC公司:

68T45型 机器视觉和场景理解
68T05型 人工智能中的学习和自适应系统
68吨10 模式识别、语音识别
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aoun,N.B.、Mejdoub,M.和Amar,C.B.(2014)。使用时空特征的基于图形的人类行为识别方法。视觉传达与图像表征杂志,25(2),329-338·doi:10.1016/j.jvcir.2013.11.003
[2] Arbelaez,P.、Maire,M.、Fowlkes,C.C.、Malik J.(2009)。从等高线到区域:实证评估。在CVPR中。
[3] Bobick,A.F.和Davis,J.W.(2001年)。使用时间模板识别人体运动。TPAMI,23(3),257-267·数字对象标识代码:10.1109/34.910878
[4] Brendel,W.,Todorovic,S.(2011年)。学习人类活动的时空图。在ICCV中。
[5] Cheáron,G.,Laptev,I.,Schmid,C.(2015)。P-CNN:基于姿势的CNN动作识别功能。在ICCV中。
[6] Crammer,K.和Singer,Y.(2001年)。关于基于多类核的向量机的算法实现。JMLR,第2265-292页·Zbl 1037.68110号
[7] Fan,R.E.、Chang,K.W.、Hsieh,C.J.、Wang,X.R.和Lin,C.J.(2008)。Liblinear:大型线性分类库。JMLR,1871-1874年9月·Zbl 1225.68175号
[8] Felzenszwalb,P.F.和Zabih,R.(2011)。计算机视觉中的动态规划和图形算法。TPAMI,33(4),721-740·doi:10.1109/TPAMI.2010.135
[9] Frey,B.J.和Dueck,D.(2007年)。通过在数据点之间传递消息进行聚类。科学,315972-976·Zbl 1226.94027号 ·doi:10.1212/科学1136800
[10] Gaidon,A.、Harchaoui,Z.和Schmid,C.(2014)。带有运动层次的活动表示。IJCV,107(3),219-238·doi:10.1007/s11263-013-0677-1
[11] Gilbert,A.,Bowden,R.(2014)。用于动作识别的数据挖掘。在ACCV中。
[12] Gilbert,A.、Illingworth,J.和Bowden,R.(2011)。利用挖掘出的层次复合特征进行动作识别。TPAMI,33(5),883-897·doi:10.1109/TPAMI.2010.144
[13] Girshick,R.、Donahue,J.、Darrell,T.、Malik,J.(2014)。丰富的特征层次用于准确的对象检测和语义分割。在CVPR中。
[14] Gkioxari,G.,Malik,J.(2015)。正在查找动作管。在CVPR中。
[15] Gkioxari,G.、Girshick,R.、Malik,J.(2015)。与R*CNN进行背景动作识别。在ICCV中。
[16] Gorelick,L.、Blank,M.、Shechtman,E.、Irani,M.和Basri,R.(2007)。作为时空形状的动作。TPAMI,29(12),2247-2253·doi:10.1109/TPAMI.2007.70711
[17] Hadfield,S.、Bowden,R.(2013)。好莱坞3D:识别3D自然场景中的动作。在CVPR中。
[18] Hadfield,S.、Lebeda,K.、Bowden,R.(2014)。使用不变三维运动编码的自然动作识别。在ECCV中。
[19] Hoai,M.,Zisserman,A.(2013)。区分性子分类。在CVPR中。
[20] Ikizler,N.和Forsyth,D.A.(2008年)。搜索没有可视示例的复杂人类活动。IJCV,80(3),337-357·doi:10.1007/s11263-008-0142-8
[21] Ikizler Cinbis,N.,斯克拉罗夫,S.(2010年)。对象、场景和动作:结合多种特征进行人体动作识别。在ECCV中。
[22] Iosifidis,A.、Tefas,A.、Pitas,I.(2014)。基于特征包和多视图神经网络的人体行为识别。在ICIP中。
[23] Jhuang,H.、Gall,J.、Zuffi,S.、Schmid,C.、Black,M.J.(2013)。理解行动识别。在ICCV中。
[24] Kantorov,V.,Laptev,I.(2014)。用于动作识别的高效特征提取、编码和分类。在CVPR中。
[25] Karpathy,A.、Toderici,G.、Shetty,S.、Leung,T.、Sukthankar,R.、Fei-Fei,L.(2014)。基于卷积神经网络的大尺度视频分类。在CVPR中。
[26] Kuehne,H.、Jhuang,H.,Garrote,E.、Poggio,T.、Serre,T.(2011年)。HMDB:用于人体运动识别的大型视频数据库。在ICCV中。
[27] Lan,T.、Wang,Y.、Mori,G.(2011)。用于联合动作定位和识别的以图形为中心的鉴别模型。在ICCV中。
[28] Laptev,I.、Marszałek,M.、Schmid,C.、Rozenfeld,B.(2008)。从电影中学习真实的人类行为。在CVPR中。
[29] Leordeanu,M.,Sukthankar,R.,Sminchisescu,C.(2012年)。广义边界检测的高效闭式解。在ECCV中。
[30] Ma,S.、Zhang,J.、Ikizler Cinbis,N.、Sclaroff,S.(2013)。基于分层时空段的动作识别与定位。在ICCV中。
[31] Ma,S.、Sigal,L.、Sclaroff,S.(2015)。用于动作识别的时空树集成。在CVPR中。
[32] Marszałek,M.,Laptev,I.,Schmid,C.(2009)。上下文中的操作。在CVPR中。
[33] Matikainen,P.、Hebert,M.、Sukthankar,R.(2010年)。表示用于动作识别的成对时空关系。在ECCV中。
[34] Mikolajczyk,K.和Uemura,H.(2011年)。具有外观运动特征和快速搜索树的动作识别。CVIU,115(3),426-438。
[35] Ng,J.Y.H.,Hausknecht,M.,Vijayanarasimhan,S.,Vinyals,O.,Monga,R.,Toderici,G.(2015)。除了短片:视频分类的深层网络。在CVPR中。
[36] Nijssen,S.,Kok,J.N.(2005)。频繁结构挖掘的快速启动可以带来不同。在ICCS中。
[37] Oneata,D.,Verbeek,J.,Schmid,C.(2013)。在紧凑的特征集上使用fisher向量进行动作和事件识别。在ICCV中。
[38] Patron-Perez,A.、Marszalek,M.、Zisserman,A.、Reid,I.D.(2010年)。高五:认识电视节目中的人际互动。在BMVC中。
[39] Patron Perez,A.、Marszalek,M.、Reid,I.和Zisserman,A.(2012年)。电视节目中人类互动的结构化学习。TPAMI,34(12),2441-2453·doi:10.1109/TPAMI.2012.24
[40] Perronnin,F.、Sánchez,J.、Mensink,T.(2010)。改进fisher核用于大规模图像分类。在ECCV中。
[41] Ramanan,D.,Forsyth,D.A.(2003年)。日常动作的自动注释。以NIPS为单位。
[42] Raptis,M.、Sigal,L.(2013)。Poselet键框架:人类活动识别的模型。在CVPR中。
[43] Raptis,M.、Kokkinos,I.、Soatto,S.(2012年)。从中级视频表现中发现有区别的动作部分。在CVPR中。
[44] 罗德里格斯(Rodriguez,M.D.)、艾哈迈德(Ahmed,J.)、沙阿(Shah,M.)(2008年)。动作采用时空最大平均相关高度滤波器进行动作识别。在CVPR中。
[45] Sadanand,S.、Corso,J.J.(2012年)。动作库:视频中活动的高级表示。在CVPR中。
[46] Simonyan,K.,Zisserman,A.(2014)。视频中动作识别的双流卷积网络。以NIPS为单位。
[47] Tian,Y.、Sukthankar,R.、Shah,M.(2013)。用于动作检测的时空可变形零件模型。在CVPR中。
[48] Todorovic,S.(2012年)。人类活动是随机克罗内克图。在ECCV中。
[49] Tran,D.,Yuan,J.(2011)。用于视频事件检测的最佳时空路径发现。在CVPR中。
[50] Tran,D.,Yuan,J.(2012)。时空动作定位的最大边际结构输出回归。以NIPS为单位。
[51] Wang,H.,Schmid,C.(2013)。具有改进轨迹的动作识别。在ICCV中。
[52] Wang,H.、Kläser,A.、Schmid,C.和Liu,C.L.(2013)。用于动作识别的密集轨迹和运动边界描述符。IJCV,第103(1)页,第60-79页·doi:10.1007/s11263-012-0594-8
[53] Wang,H.、Oneata,D.、Verbeek,J.和Schmid,C.(2016)。用于动作识别的健壮高效的视频表示。IJCV,第119(3)、219-238页·doi:10.1007/s11263-015-0846-5
[54] Wang,L.,Sahbi,H.(2013)。用于动作识别的有向无环图内核。在ICCV中。
[55] Wang,L.,Qiao,Y.,Tang,X.(2014)。使用关系动态poselets进行视频动作检测。在ECCV中。
[56] Wang,Y.,Mori,G.(2008)。学习用于人类行为识别的识别隐藏部分模型。以NIPS为单位。
[57] Wang,Y.和Mori,G.(2011)。人类行为识别的隐藏部件模型:概率与最大裕度。TPAMI,33(7),1310-1323·doi:10.10109/TPAMI.2010.214
[58] Wang,Y.,Huang,K.,Tan,T.(2007)。基于r变换的人类活动识别。在CVPR中。
[59] Wang,Y.,Tran,D.,Liao,Z.,&Forsyth,D.(2012)。用于人类解析和动作识别的基于部件的区分层次模型。JMLR,13,30753102·Zbl 1433.68403号
[60] Weinland,D.,Boyer,E.,Ronfard,R.(2007年)。使用3D示例从任意视图进行动作识别。在ICCV中。
[61] Weinzaepfel,P.,Harchaoui,Z.,Schmid,C.(2015)。学习跟踪时空动作定位。在ICCV中。
[62] Wu,B.,Yuan,C.,Hu,W.(2014)。基于上下文相关图核的人体行为识别。在CVPR中。
[63] Wu,Z.,Wang,X.,Jiang,Y.,Ye,H.,Xue,X.(2015)。在用于视频分类的混合深度学习框架中建模时空线索。在第23届ACM多媒体国际会议的会议记录中。
[64] Xie,Y.,Chang,H.,Li,Z.,Liang,L.,Chen,X.,Zhao,D.(2011)。定位和识别人类行为的统一框架。在CVPR中。
[65] Yang,X.,Tian,Y.(2014)。基于时空感知的超稀疏编码向量的动作识别。在ECCV中。
[66] Zhang,H.,Zhou,W.,Reardon,C.M.,Parker,L.E.(2014)。用于动作识别的基于单纯形的三维时空特征描述。在CVPR中。
[67] Zitnick,C.L.,Dollár,P.(2014)。边框:从边定位对象方案。在欧洲计算机视觉会议上。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。