×

结构化分段网络的时间行为检测。 (英语) Zbl 1477.68448号

摘要:本文解决了一个重要且具有挑战性的任务,即检测未剪辑视频中动作的时间间隔。具体来说,我们提出了一个称为结构化分段网络(SSN)的框架。它建立在行动的临时建议之上。SSN通过结构化的时间金字塔对每个动作实例的时间结构进行建模。在金字塔的顶部,我们进一步引入了一个分解的判别模型,该模型包括两个分类器,分别用于对动作进行分类和确定完整性。这使得该框架能够有效区分积极提案与背景提案或不完整提案,从而实现准确识别和准确定位。这些组件集成到一个统一的网络中,可以以端到端的方式进行有效培训。此外,还设计了一个简单而有效的时间行动建议方案,称为时间行动分组,以生成高质量的行动建议。我们进一步研究了分解的判别模型的重要性,并发现了使用单个分类器实现类似精度的方法,这也是对原始SSN设计的补充。在两个具有挑战性的基准测试中,即THUMOS’14和ActivityNet,我们的方法显著优于以前的最新方法,在处理具有各种时间结构的动作时表现出卓越的准确性和较强的适应性。

MSC公司:

68T45型 机器视觉和场景理解
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Andriluka,M.、Roth,S.和Schiele,B.(2009年)。图形结构回顾:人体检测和关节姿势估计。IEEE计算机视觉和模式识别会议(CVPR)(第1014-1021页)。电气与电子工程师协会。
[2] Buch,S.、Escorcia,V.、Ghanem,B.、Fei-Fei,L.和Niebles,J.C.(2017a)。未剪辑视频中的端到端、单流时间动作检测。英国机器视觉会议(BMVC)(第2卷,第7页)。
[3] Buch,S.、Escorcia,V.、Shen,C.、Ghanem,B.和Niebles,J.C.(2017b)。SST:单流临时行动建议。IEEE计算机视觉和模式识别会议(CVPR)(第6373-6382页)。电气与电子工程师协会。
[4] Caba Heilbron,F.、Escorcia,V.、Ghanem,B.和Niebles,J.C.(2015)。Activitynet:人类活动理解的大型视频基准。IEEE计算机视觉和模式识别会议(CVPR)(第961-970页)。
[5] Caba Heilbron,F.、Niebles,J.C.和Ghanem,B.(2016)。快速时间活动建议,用于有效检测未剪辑视频中的人类行为。IEEE计算机视觉和模式识别会议(CVPR)(第1914-1923页)。
[6] Carreira,J.和Zisserman,A.(2017年)。Quo vadis,动作识别?新模型和动力学数据集。IEEE计算机视觉和模式识别会议(CVPR)(第4724-4733页)。电气与电子工程师协会。
[7] Chao,Y.W.、Vijayanarasimhan,S.、Seybold,B.、Ross,D.A.、Deng,J.和Sukthankar,R.(2018)。重新思考用于时间动作本地化的更快的R-CNN架构。IEEE计算机视觉和模式识别会议(CVPR)(第1130-1139页)。
[8] Dai,X.、Singh,B.、Zhang,G.、Davis,L.S.和Chen,Y.Q.(2017)。视频中活动本地化的时间上下文网络。IEEE计算机视觉国际会议(ICCV)(第5727-5736页)。
[9] De Geest,R.、Gavves,E.、Ghodrati,A.、Li,Z.、Snoek,C.和Tuytelaars,T.(2016)。在线动作检测。欧洲计算机视觉会议(ECCV)(第269-284页)。斯普林格。
[10] Deng,J.,Dong,W.,Socher,R.,Li,L.,Li.,K.,&Li,F.(2009)。ImageNet:大型分层图像数据库。在IEEE关于计算机视觉和模式识别(CVPR)的会议上(第248-255页)。
[11] Donahue,J.,Anne Hendricks,L.,Guadarrama,S.,Rohrbach,M.,Venugopalan,S..,Saenko,K.,&Darrell,T.(2015)。用于视觉识别和描述的长期递归卷积网络。IEEE计算机视觉和模式识别会议(CVPR)(第2625-2634页)。
[12] Escorcia,V.、Caba Heilbron,F.、Niebles,J.C.和Ghanem,B.(2016)。Daps:深入行动建议,以了解行动”。欧洲计算机视觉会议(ECCV)(第768-784页)。
[13] Everingham,M。;南非埃斯拉米;Van Gool,L。;威廉姆斯,Ck;Winn,J。;Zisserman,A.,《pascal视觉对象类挑战:回顾》,《国际计算机视觉杂志》(IJCV),第111、1、98-136页(2015)·doi:10.1007/s11263-014-0733-5
[14] Felzenszwalb,Pf;Girshick,Rb;Mcallester,D。;Ramanan,D.,用区分训练的基于零件的模型进行对象检测,IEEE模式分析和机器智能事务,32,9,1627-1645(2010)·doi:10.10109/TPAMI.2009.167
[15] Fernando,B.、Gavves,E.、Jo,M.、Ghodrati,A.和Tuytelaars,T.(2015)。为动作识别建模视频进化。IEEE计算机视觉和模式识别会议(CVPR)(第5378-5387页)。
[16] A.盖登。;Z.哈查乌伊。;Schmid,C.,动作与动作的时间定位,IEEE模式分析和机器智能汇刊,35,11,2782-2795(2013)·doi:10.1109/TPAMI.2013.65
[17] Gao,J.、Chen,K.和Nevatia,R.(2018)。补充临时行动建议生成。欧洲计算机视觉会议(ECCV)(第68-83页)。
[18] Gao,J.、Yang,Z.和Nevatia,R.(2017)。用于时间行为检测的级联边界回归。在英国机器视觉会议(BMVC)上。
[19] Girshick,R.(2015)。快速R-CNN。IEEE计算机视觉国际会议(ICCV)(第1440-1448页)。
[20] Girshick,R.、Donahue,J.、Darrell,T.和Malik,J.(2014)。丰富的特征层次用于准确的对象检测和语义分割。IEEE计算机视觉和模式识别会议(CVPR)(第580-587页)。
[21] Gkioxari,G.和Malik,J.(2015)。正在查找动作管。IEEE计算机视觉和模式识别会议(CVPR)(第759-768页)。
[22] Gu,C.、Sun,C.、Vijayanarasimhan,S.、Pantofaru,C.,Ross,D.A.、Toderici,G.、Li,Y.、Ricco,S.,Sukthankar,R.、Schmid,C.等(2018年)。AVA:时空定位原子视觉动作的视频数据集。在IEEE计算机视觉和模式识别(CVPR)会议上。
[23] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2014),视觉识别深层卷积网络中的空间金字塔池。欧洲计算机视觉会议(ECCV)(第346-361页)。斯普林格。
[24] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016)。用于图像识别的深度残差学习。在IEEE关于计算机视觉和模式识别(CVPR)的会议上(第770-778页)。
[25] Hoai,M.、Lan,Z.Z.和De la Torre,F.(2011年)。视频中人体动作的联合分割和分类。IEEE计算机视觉和模式识别会议(CVPR)(第3265-3272页)。电气与电子工程师协会。
[26] 霍伊姆,D。;埃弗罗斯,Aa;Hebert,M.,《透视物体》,国际计算机视觉杂志(IJCV),80,1,3-15(2008)·Zbl 1477.68369号 ·doi:10.1007/s11263-008-0137-5
[27] 霍桑,J。;Benenson,R。;多拉,P。;Schiele,B.,有效检测建议的依据是什么?,IEEE模式分析和机器智能汇刊,38,4,814-830(2016)·doi:10.1109/TPAMI.2015.2465908
[28] Ioffe,S.和Szegedy,C.(2015)。批量规范化:通过减少内部协变量偏移来加速深层网络培训。在机器学习国际会议(ICML)上(第448-456页)。
[29] Jain,M.、van Gemert,J.C.、Jégou,H.、Bouthemy,P.和Snoek,C.G.M.(2014)。通过输卵管运动定位动作。在IEEE计算机视觉和模式识别(CVPR)会议上。
[30] Jiang,Y.G.,Liu,J.,Roshan Zamir,A.,Toderici,G.,Laptev,I.,Shah,M.,&Sukthankar,R.(2014)。THUMOS挑战:使用大量类进行动作识别。2019年4月7日检索自http://crcv.ucf.edu/THUMOS14/。
[31] Karpathy,A.、Toderici,G.、Shetty,S.、Leung,T.、Sukthankar,R.和Fei-Fei,L.(2014)。基于卷积神经网络的大尺度视频分类。IEEE计算机视觉和模式识别会议(CVPR)(第1725-1732页)。
[32] Lafferty,J。;Mccallum,A。;Pereira,F.,条件随机场:分割和标记序列数据的概率模型,国际机器学习会议(ICML),1282-289(2001)
[33] Laptev,I.,《论时空兴趣点》,《国际计算机视觉杂志》(IJCV),64,2-3,107-123(2005)·doi:10.1007/s11263-005-1838-7
[34] Lazebnik,S.、Schmid,C.和Ponce,J.(2006)。除了一袋袋的特征:用于识别自然场景类别的空间金字塔匹配。IEEE计算机视觉和模式识别会议(CVPR)(第2卷,第2169-2178页)。电气与电子工程师协会。
[35] Li,X.,&Loy,C.C.(2018年)。具有联合重新识别和注意感知掩码传播的视频对象分割。欧洲计算机视觉会议(ECCV)(第90-105页)。
[36] Li,Y.,He,K.,Sun,J.等(2016)。R-FCN:通过基于区域的完全卷积网络进行目标检测。神经信息处理系统(NIPS)(第379-387页)。
[37] Lin,T.、Zhao,X.和Shou,Z.(2017)。单发时间动作检测。第25届ACM多媒体国际会议记录(第988-996页)。ACM公司。
[38] Lin,T.、Zhao,X.、Su,H.、Wang,C.和Yang,M.(2018)。BSN:用于生成临时行动建议的边界敏感网络。欧洲计算机视觉会议(ECCV)(第3-19页)。
[39] Liu,W.、Anguelov,D.、Erhan,D.、Szegedy,C.、Reed,S.、Fu,C.Y.和Berg,A.C.(2016)。SSD:单发多盒探测器。欧洲计算机视觉会议(ECCV)(第21-37页)。斯普林格。
[40] Mettes,P.、van Gemert,J.C.和Snoek,C.G.(2016)。现场:来自有针对性监督的提案的行动本地化。欧洲计算机视觉会议(ECCV)(第437-453页)。斯普林格。
[41] Mettes,P.、van Gemert,J.C.、Cappallo,S.、Mensink,T.和Snoek,C.G.(2015)。碎片打包:为事件检测和重新计数选择和编码视频片段。在ACM多媒体检索国际会议(ICMR)上(第427-434页)。
[42] Montes,A.、Salvador,A.、Pascual,S.和Giro-i Nieto,X.(2016)。基于递归神经网络的未剪辑视频中的时间活动检测。在NIPS大型计算机视觉系统研讨会上。
[43] Ng,J.Y.H.、Hausknecht,M.、Vijayanarasimhan,S.、Vinyals,O.、Monga,R.和Toderici,G.(2015)。超越短片:视频分类的深层网络。IEEE计算机视觉和模式识别会议(CVPR)(第4694-4702页)。
[44] Nguyen,P.,Liu,T.,Prasad,G.,&Han,B.(2018)稀疏时间池网络的弱监督动作定位。IEEE计算机视觉和模式识别会议(CVPR)(第6752-6761页)。
[45] Niebles,J.C.、Chen,C.W.和Fei-Fei,L.(2010)。建模可分解运动片段的时间结构以进行活动分类。欧洲计算机视觉会议(ECCV)(第392-405页)。斯普林格。
[46] Oneata,D.、Verbeek,J.和Schmid,C.(2013)。在紧凑的特征集上使用fisher向量进行动作和事件识别。IEEE计算机视觉国际会议(ICCV)(第1817-1824页)。
[47] Oneata,D.、Verbeek,J.和Schmid,C.(2014)。2014年在thumos提交的lear文件。在THUMOS动作识别挑战中。
[48] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;Grisel,O.,Scikit-learn:Python中的机器学习,《机器学习研究杂志》,第12期,第2825-2830页(2011年)·Zbl 1280.68189号
[49] Peng,X.,&Schmid,C.(2016)。多区域双流R-CNN用于动作检测。在欧洲计算机视觉会议上。斯普林格。
[50] Pirsiavash,H.和Ramanan,D.(2014)。用分段语法分析动作视频。IEEE计算机视觉和模式识别会议(CVPR)(第612-619页)。
[51] J.Pont-Tuset。;阿贝莱兹,P。;巴伦,Jt;Marques,F。;Malik,J.,用于图像分割和对象建议生成的多尺度组合分组,IEEE模式分析和机器智能汇刊,39,1128-140(2017)·doi:10.1109/TPAMI.2016.2537320
[52] Ren,S.、He,K.、Girshick,R.和Sun,J.(2015)。更快的R-CNN:通过区域建议网络实现实时目标检测。神经信息处理系统(NIPS)(第91-99页)。
[53] Richard,A.和Gall,J.(2016)。使用统计语言模型的时间动作检测。在IEEE关于计算机视觉和模式识别(CVPR)的会议上(第3131-3140页)。
[54] Roerdink,Jb;Meijster,A.,《分水岭变换:定义、算法和并行化策略》,《基础信息学》,41,1-2,187-228(2000)·Zbl 0958.68184号 ·doi:10.3233/FI-2000-411207
[55] Schindler,K.和Van Gool,L.(2008)。动作片段:人类动作识别需要多少帧?IEEE计算机视觉和模式识别会议(CVPR)(第1-8页)。电气与电子工程师协会。
[56] Shou,Z.、Chan,J.、Zareian,A.、Miyazawa,K.和Chang,S.F.(2017年)。CDC:卷积-去卷积网络,用于精确定位未剪辑视频中的时间动作。IEEE计算机视觉和模式识别会议(CVPR)(第1417-1426页)。
[57] Shou,Z.、Gao,H.、Zhang,L.、Miyazawa,K.和Chang,S.F.(2018)。AutoLoc:未剪辑视频中的弱监督时间动作定位。欧洲计算机视觉会议(ECCV)(第154-171页)。
[58] Shou,Z.、Wang,D.和Chang,S.F.(2016)。通过多级CNN在未剪辑视频中进行时间动作定位。IEEE计算机视觉和模式识别会议(CVPR)(第1049-1058页)。
[59] Shrivastava,A.、Gupta,A.和Girshick,R.(2016)。使用在线硬示例挖掘训练基于区域的对象检测器。IEEE计算机视觉和模式识别会议(CVPR)(第761-769页)。
[60] Simonyan,K.和Zisserman,A.(2014)。视频中动作识别的双流卷积网络。神经信息处理系统(NIPS)(第568-576页)。
[61] Singh,G.和Cuzzolin,F.(2016年)。用于活动检测的未删节视频分类:提交到activitynet质询。CoRR abs/1607.01979
[62] Singh,B.、Marks,T.K.、Jones,M.、Tuzel,O.和Shao,M.(2016年)。一种用于细粒度动作检测的多流双向递归神经网络。IEEE计算机视觉和模式识别会议(CVPR)(1961-1970页)。
[63] Soomro,K.、Zamir,A.R.和Shah,M.(2012)UCF101:来自野外视频的101个人类动作类的数据集。arXiv:1212.0402
[64] Szegedy,C.、Vanhoucke,V.、Ioffe,S.、Shlens,J.和Wojna,Z.(2016)。重新思考计算机视觉的初始架构。IEEE计算机视觉和模式识别会议(CVPR)(第2818-2826页)。
[65] Tang,K.、Yao,B.、Fei Fei,L.和Koller,D.(2013)。结合正确的功能进行复杂事件识别。IEEE计算机视觉和模式识别会议(CVPR)(第2696-2703页)。
[66] Tran,D.、Bourdev,L.D.、Fergus,R.、Torresani,L.和Paluri,M.(2015)。利用三维卷积网络学习时空特征。IEEE计算机视觉国际会议(ICCV)(第4489-4497页)。
[67] Van de Sande,K.E.、Uijlings,J.R.、Gevers,T.和Smeulders,A.W.(2011年)。分割作为对象识别的选择性搜索。IEEE计算机视觉国际会议(ICCV)(第1879-1886页)。
[68] Van Gemert,J.C.、Jain,M.、Gati,E.、Snoek,C.G.等人(2015年)。APT:密集轨迹中的行动本地化建议。英国机器视觉会议(BMVC)(第2卷,第4页)。
[69] Wang,H.和Schmid,C.(2013)。具有改进轨迹的动作识别。IEEE计算机视觉国际会议(ICCV)(第3551-3558页)。
[70] Wang,R.和Tao,D.(2016)。UTS参加2016年activitynet。2016年,在AcitivityNet大型活动识别挑战中。
[71] Wang,L.,Qiao,Y.,&Tang,X.(2014a)。通过结合运动和外观特征进行动作识别和检测。在THUMOS动作识别挑战中。
[72] Wang,L。;乔,Y。;Tang,X.,复杂活动分类的时间结构潜在层次模型,IEEE图像处理汇刊,23,2,810-822(2014)·Zbl 1374.94397号 ·doi:10.1109/TIP.2013.2295753
[73] Wang,L.,Qiao,Y.,&Tang,X.(2015)。使用轨迹池深度卷积描述符进行动作识别。IEEE计算机视觉和模式识别会议(CVPR)(第4305-4314页)。
[74] Wang,L.,Qiao,Y.,Tang,X.,&Van Gool,L.(2016a)。使用混合全卷积网络进行动作估计。IEEE计算机视觉和模式识别会议(CVPR)(第2708-2717页)。
[75] Wang,L.、Xiong,Y.、Lin,D.和Van Gool,L.(2017)。用于弱监督动作识别和检测的无边界网络。在IEEE计算机视觉和模式识别(CVPR)会议上。
[76] Wang,L.、Xiong,Y.、Wang,Z.、Qiao,Y.,Lin,D.、Tang,X.和Van Gool,L.(2016b)。时间段网络:深入行动识别的良好实践。欧洲计算机视觉会议(ECCV)(第20-36页)。
[77] Wang,L.,Xiong,Y.,Wang,Z.,Qiao,Y.、Lin,D.、Tang,X.等(2018)。视频中动作识别的时间段网络。IEEE模式分析和机器智能汇刊。
[78] 王,P。;曹毅。;沈,C。;刘,L。;Shen,Ht,基于时间金字塔池的动作识别卷积神经网络,IEEE视频技术电路和系统汇刊,272613-2622(2016)·doi:10.1109/TCSVT.2016.2576761
[79] Weinzaepfel,P.、Harchaoui,Z.和Schmid,C.(2015)。学习跟踪时空动作定位。IEEE计算机视觉国际会议(ICCV)(第3164-3172页)。
[80] Xu,H.、Das,A.和Saenko,K.(2017年)。R-C3D:用于时间活动检测的区域卷积3D网络。IEEE计算机视觉国际会议(ICCV)(第6卷,第8页)。
[81] Yeung,S.、Russakovsky,O.、Mori,G.和Fei-Fei,L.(2016)。通过视频中的帧一瞥,对动作检测进行端到端的学习。IEEE计算机视觉和模式识别会议(CVPR)(第2678-2687页)。
[82] Yuan,J.、Ni,B.、Yang,X.和Kassim,A.A.(2016)。基于分数分布金字塔特征的时间行为定位。IEEE计算机视觉和模式识别会议(CVPR)(第3093-3102页)。
[83] Zach,C.、Pock,T.和Bischof,H.(2007)。实时电视光流的一种基于对偶的方法。在第29届DAGM模式识别研讨会上(第214-223页)。
[84] Zhang,D.,Dai,X.,Wang,X.和Wang,Y.F.(2018)\(\rm S^3D\):通过全三维卷积网络的单点多跨度检测器。在英国机器视觉会议(BMVC)上。
[85] 张,B.,王,L.,王,Z.,乔,Y.,&王,H.(2016)。基于增强运动矢量CNN的实时动作识别。IEEE计算机视觉和模式识别会议(CVPR)(第2718-2726页)。
[86] Zhao,Y。;熊,Y。;Wang,L。;吴,Z。;唐,X。;Lin,D.,结构化分段网络的时间行为检测,IEEE国际计算机视觉会议(ICCV),8,2914-2923(2017)
[87] Zhao,Y.,Zhang,B.,Wu,Z.,Yang,S.,Zhou,L.,Yan,S.、Wang,L.、Xiong,Y.、Lin,D.和Joao,Y.(2017b)。中大&ETHZ&SIAT提交2017 Activitynet Challenge。arXiv:1710.08011
[88] Zitnick,C.L.和Dollár,P.(2014)。边框:从边定位对象方案。欧洲计算机视觉会议(ECCV)(第391-405页)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。