基于KNN的机器学习分类器用于深度学习空间运动特征的人体动作识别
摘要
1.简介
空间和时间线索的融合,分别由强度和光流矢量表示。 提出了一种用于提取深度学习动作特征的单流浅层网络HARNet架构。 提出了一个基于KNN的机器学习框架,用于对多达101个人类动作进行分类。 在基准数据集上进行实验并与SOTA(最新技术)进行比较。
2.相关工作
3.建议的空间运动特征学习框架
3.1. 预处理
3.2、。 拟定网络模型的设计
3.3、。 信息瓶颈原则
3.4. 分类
k-最近邻分类器:k-NN实际上适用于识别人类行为的模式,因为它是非参数的,这意味着它不假设数据的分布。 因此,它在我们提出的方法中很有效。 k-NN分类器存储所有训练数据,并尝试基于相似性度量对测试数据进行分类。 在我们的实验中,欧氏距离被视为寻找邻域的相似性度量。 用于分类测试样本的邻域数为1。 支持向量机(Support Vector Machine):基于选择的核函数,SVM执行复杂数据转换。 在这些转换的帮助下,数据之间的分隔边界被最大化。 决策树:决策树是一种用于多类分类问题的系统方法。 DT提出了一组与数据集特征相关的查询。 它是使用二叉树可视化的。 根节点上的数据再次拆分为两个具有不同属性的不同记录。 叶子表示数据集的类。 朴素贝叶斯:贝叶斯定理是朴素贝叶分类方法的基础。 使用朴素贝叶斯方法是因为假设数据中的每一对特征之间都是独立的。 线性判别分析:我们的实验中使用了线性判别分析(LDA)分类方法。 它假设不同类别的数据基于不同的高斯分布。 LDA使用测试数据属于特定类的估计概率对其进行分类。概率最高的类被预测为给定样本的输出类。 集成:自适应增强多类分类方法被用作我们实验的集成聚合方法。 我们实验中使用的学习周期数为100,收缩率相同。
4.网络学习设置的实验细节
4.1. HAR的数据集
4.2. 结果和讨论
4.2.1. UCF101评估
4.2.2. HMDB51评估
4.2.3. KTH数据集评估
4.2.4. 烧蚀研究结果
4.3。 与最新方法的比较
5.结论和未来方向
作者贡献
基金
机构审查委员会声明
知情同意书
数据可用性声明
鸣谢
利益冲突
工具书类
Roshan,S。; Srivathsan,G。; Deepak,K.,《自动视频监控中的暴力检测:最新趋势和比较研究》。 在 智能数据中心系统 ; 学术出版社:剑桥,马萨诸塞州,美国,2020年; 第157-171页。 [ 谷歌学者 ] Vosta,S。; Yow,K.C.一种用于监控摄像机中现实世界暴力检测的CNN-RNN组合结构。 应用。 科学。 2022 , 12 , 1021. [ 谷歌学者 ] [ 交叉参考 ] 俄亥俄州埃尔哈罗斯。; Almadeed,N。; Al-Maaded,S。; 布瑞丹,A。; Beghdadi,A.监控视频序列的组合多动作识别和摘要。 应用。 智力。 2021 , 51 , 690–712. [ 谷歌学者 ] [ 交叉参考 ] Berroukham,A。; 霍斯尼,K。; Lahraichi,M。; Boulfrifi,I.基于深度学习的视频监控异常检测方法:综述。 牛市。 选举人。 工程师通知。 2023 , 12 , 314–327. [ 谷歌学者 ] [ 交叉参考 ] Zhang,Y。; 郭,Q。; 杜,Z。; Wu,A.基于时空融合网络的应急救援动态场景中的人类行为识别。 电子 2023 , 12 , 538. [ 谷歌学者 ] [ 交叉参考 ] 温·R。; Tay,W.L。; Nguyen,B.P.公司。; Chng,C.-B。; Chui,C.K.基于直接增强现实界面的手势引导机器人辅助手术。 计算。 方法生物识别程序。 2014 , 116 , 68–80. [ 谷歌学者 ] [ 交叉参考 ] 朱,H。; 薛,M。; 王,Y。; 袁,G。; Li,X.使用面向暹罗的区域建议网络进行快速视觉跟踪。 IEEE信号处理。 莱特。 2022 , 29 , 1437–1441. [ 谷歌学者 ] [ 交叉参考 ] 温,R。; Nguyen,B.P。; Chng,C.-B。; Chui,C.K.使用投影仪-Kinect系统进行原位空间AR手术规划。 2013年12月5日至6日,越南岘港,第四届信息和通信技术研讨会论文集。 [ 谷歌学者 ] 赖,X。; 杨,B。; 马,B。; 刘,M。; 尹,Z。; 尹,L。; Zheng,W.一种基于联合相似性度量和自适应权重的改进立体匹配算法。 应用。 科学。 2023 , 13 , 514. [ 谷歌学者 ] [ 交叉参考 ] 杨琼。; 卢·T。; Zhou,H.基于空间注意的动作识别时空运动网络。 熵 2022 , 24 , 368. [ 谷歌学者 ] [ 交叉参考 ] Tasnim,N。; Baek,J.H.基于骨架的人体动作识别的动态边缘卷积神经网络。 传感器 2023 , 23 , 778. [ 谷歌学者 ] [ 交叉参考 ] Y.Y.乔弗里。; Aono,M.,使用运动和多视图激发与时间聚集的视频动作识别。 熵 2022 , 24 , 1663. [ 谷歌学者 ] [ 交叉参考 ] Ahn,D。; Kim,S。; Hong,H。; Ko,B.C.STAR-Transformer:一种用于人类行为识别的时空交叉注意变压器。 2023年1月2日至7日在美国HI威科洛举行的IEEE/CVF计算机视觉应用冬季会议(WACV)会议记录; 第3330–3339页。 [ 谷歌学者 ] 蒂什比,N。; 深度学习和信息瓶颈原则。 2015年4月26日至5月1日,以色列耶路撒冷,信息理论研讨会(ITW)会议记录。 [ 谷歌学者 ] 西克尔,K。; Arzamendia Lopez,M。; 格雷戈,D。; 古铁雷斯,D。; Toral,S.评估CNN+LSTM系统对洗手步骤的分类。 2021年9月22日至24日,西班牙马拉加,西班牙人工智能协会第十九届会议记录。 [ 谷歌学者 ] 曹,Q。; 徐,F。; Li,H.使用混合深度学习网络通过智能手机传感器的步态数据进行用户认证。 数学 2022 , 10 ,第2283页。 [ 谷歌学者 ] [ 交叉参考 ] Patalas-Maliszewska,J。; Halikowski,D.基于深度学习的单个工人活动自动评估模型。 传感器 2020 , 20 , 2571. [ 谷歌学者 ] [ 交叉参考 ] Mohan,C.S.使用动态内核进行细粒度动作识别。 模式识别。 2022 , 122 , 108282. [ 谷歌学者 ] 王,X。; 郑S。; Yang,R。; 郑,A。; 陈,Z。; Tang,J。; Luo,B.行人属性识别:一项调查。 模式识别。 2022 , 121 , 108220. [ 谷歌学者 ] [ 交叉参考 ] 佩雷斯,M。; 刘杰。; Kot,A.C.基于骨架的关系推理用于群体活动分析。 模式识别。 2022 , 122 , 108360. [ 谷歌学者 ] [ 交叉参考 ] Gedamu,K。; 纪毅。; Yang,Y。; 高,L。; Shen,H.T.通过新视图动作生成实现任意视图人类动作识别。 模式识别。 2021 , 118 , 108043. [ 谷歌学者 ] [ 交叉参考 ] Yang,L。; Dong,K。; 丁,Y。; J·布莱顿。; 詹,Z。; Zhao,Y.使用双摄像头监控系统识别视觉相关的非驾驶活动。 模式识别。 2021 , 116 , 107955. [ 谷歌学者 ] [ 交叉参考 ] 朱,L。; Wan,B。; 李,C。; 田,G。; Hou,Y。; Yuan,K.基于骨架的人体交互识别的二进关系图卷积网络。 模式识别。 2021 , 115 , 107920. [ 谷歌学者 ] [ 交叉参考 ] 乌尔哈克,A。; Akhtar,A。; 波格勒布纳,N。; Mian,G.《行动识别的视觉变形金刚:一项调查》。 arXiv公司 2022 ,arXiv:2209.05700。 [ 谷歌学者 ] 马齐亚五世。; Angarano,S。; Salvetti,F。; Angelini,F。; Chiaberge,M.Action Transformer:基于位置的短时人类动作识别的自我关注模型。 模式识别。 2022 , 124 , 108487. [ 谷歌学者 ] [ 交叉参考 ] Horn,B.K.P.公司。; Schunk,B.G.《确定光流》。 Artif公司。 智力。 1981 , 17 , 185–204. [ 谷歌学者 ] [ 交叉参考 ] Kuehne,H。; Jhuang,H。; Stiefelhagen,R。; Serre Thomas,T.Hmdb51:用于人体运动识别的大型视频数据库。 在 斯图加特高性能计算中心汇刊(HLRS) ; 施普林格:德国柏林/海德堡,2013年。 [ 谷歌学者 ] [ 交叉参考 ] Soomro,K。; 扎米尔,A.R。; Shah,M.UCF101:《野外视频》中101个人类动作类的数据集。 arXiv公司 2012 ,arXiv:1212.0402。 [ 谷歌学者 ] [ 交叉参考 ] Kthaction数据集。 在线可用: https://www.csc.kth.se/cvap/actions网站/ (于2023年3月26日访问)。 格兰迪尼,M。; 巴格利,E。; Visani,G.《多类分类的度量:概述》。 arXiv公司 2020 ,arXiv:2008.05756。 [ 谷歌学者 ] Tran,D。; 王,H。; 托雷萨尼,L。; Ray,J。; 乐村,Y。; Paluri,M.《动作识别时空卷积的进一步研究》。 2018年6月18日至22日在美国犹他州盐湖城举行的第31届IEEE/CVF计算机视觉和模式识别(CVPR)会议记录。 [ 谷歌学者 ] I.M.纳西尔。; 拉扎,M。; Shah,J.H。; Khan,文学硕士。; Rehman,A.在非受控环境中使用机器学习进行人类行为识别。 2021年4月6日至7日在沙特阿拉伯利雅得举行的第一届人工智能和数据分析国际会议记录。 [ 谷歌学者 ] 张春云。; Xiao,Y.-Y。; 林,J.-C。; 陈,C.P。; 刘伟。; Tong,Y.H.人体运动无监督表征学习的三维去卷积网络。 IEEE传输。 赛博。 2020 , 52 , 398–410. [ 谷歌学者 ] [ 交叉参考 ] 王,A.X。; 楚科娃,S.S。; Nguyen,B.P.基于质心位移的k近邻的实现和分析。 在 《高级数据挖掘和应用》,第18届国际会议论文集-ADMA 2022,澳大利亚昆士兰州布里斯班,2022年11月28日至30日 ; 施普林格:德国柏林/海德堡,2022年。 [ 谷歌学者 ] [ 交叉参考 ] 王,A.X。; 楚科娃,S.S。; Nguyen,B.P.基于质心位移对k近邻进行集合。 信息科学。 2023 , 629 ,313–323。 [ 谷歌学者 ] [ 交叉参考 ] Wang,L。; 熊,Y。; 王,Z。; 乔,Y。; Lin,D。; 唐,X。; Van Gool,L.《时间段网络:深度行动识别的良好实践》。 2016年10月11日至14日,荷兰阿姆斯特丹,第十四届欧洲计算机视觉会议(ECCV)会议记录; 第8-16页。 [ 谷歌学者 ] Simonyan,K。; 视频中动作识别的双流卷积网络。 《第28届神经信息处理系统会议记录》,2014年12月8日至13日,美国加利福尼亚州蒙特利尔; 第8-13页。 [ 谷歌学者 ] 杜,T。; 布尔德夫,L。; 弗格斯,R。; 托雷萨尼,L。; Paluri,M.使用3D卷积网络学习时空特征。 2015年12月11日至18日,智利圣地亚哥,计算机视觉国际会议记录; 第11-18页。 [ 谷歌学者 ] 邱,Z。; 姚,T。; 梅,T。; Venice,I.使用伪三维残差网络学习时空表示。 2017年10月22日至29日在意大利威尼斯举行的第十六届国际计算机视觉会议(ICCV)会议记录; 第22-29页。 周,Y。; 太阳,X。; 查,Z.-J。; Zeng,W.MiCT:用于人体动作识别的3D/2D混合卷积管。 2018年6月18日至23日在美国犹他州盐湖城举行的第31届IEEE/CVF计算机视觉和模式识别(CVPR)会议记录; 第18-23页。 [ 谷歌学者 ] 涂,Z。; 李,H。; 张,D。; Dauwels,J。; Li,B.Y.Action-Stage强调视频动作识别的时空VLAD。 J.IEEE传输。 图像处理。 2019 , 28 , 2799–2812. [ 谷歌学者 ] [ 交叉参考 ] 李,X。; 谢,M。; Zhang,Y。; 丁·G。; Tong,W.动作识别的双注意卷积网络。 IET图像处理。 2020 , 14 , 1059–1065. [ 谷歌学者 ] [ 交叉参考 ] 佩雷特,T。; 马苏洛,A。; Burghardt,T。; Mirmehdi,M。; Damen,D.用于少量快照动作识别的时间关系交叉变换器。 《IEEE/CVF计算机视觉和模式识别会议论文集》,虚拟,2021年6月19-25日; 第475-484页。 [ 谷歌学者 ] 陈,B。; 孟,F。; Tang,H。; Tong,G.基于伪三维剩余网络的人类行为识别两级注意模块。 传感器 2023 , 23 , 1707. [ 谷歌学者 ] [ 交叉参考 ] Omi,K。; Kimata,J.等人。; Tamaki,T.使用领域特定适配器进行动作识别的模型-认知多领域学习。 IEICE传输。 信息系统。 2022 , 105 , 2119–2126. [ 谷歌学者 ] [ 交叉参考 ] Bregonzio,M。; Xiang,T。; 龚S.融合动作识别兴趣点的外观和分布信息。 模式识别。 2012 , 45 , 1220–1234. [ 谷歌学者 ] [ 交叉参考 ] 季S。; 徐伟(Xu,W.)。; 杨,M。; Yu,K.三维卷积神经网络用于人体动作识别。 IEEE传输。 模式分析。 机器。 智力。 2013 , 35 ,221–231。 [ 谷歌学者 ] [ 交叉参考 ] Cho,J。; 李,M。; Chang,H.J.使用局部运动和组稀疏性进行鲁棒动作识别。 模式识别。 2014 , 47 , 1813–1825. [ 谷歌学者 ] [ 交叉参考 ] 姚明。; 刘,Y。; Huang,S.J.人类行为识别的时空信息。 图像视频处理。 2016 , 39. [ 谷歌学者 ] [ 交叉参考 ] 张,C。; 田,Y。; 郭,X。; Daal,L.Deep activation-based Computer,动作识别深度视频的属性学习。 视觉图像理解。 2018 , 167 , 37–49. [ 谷歌学者 ] [ 交叉参考 ] 米什拉,O。; 卡维曼丹,P.S。; Kapoor,R.使用轮廓和简单元素基于模态频率的人类行为识别。 IJE变速器。 A基础知识 2022 , 35 , 45–52. [ 谷歌学者 ] Wang,L。; 唐,Z。; 吉,B。; Wu,G.TDN:有效动作识别的时差网络。 《IEEE/CVF计算机视觉和模式识别会议论文集》,虚拟,2021年6月20日至25日; 第19-25页。 [ 谷歌学者 ]