×

超越协方差:基于SICE和核的视觉特征表示。 (英语) Zbl 1483.68454号

摘要:在过去的几年中,基于协方差的特征表示的研究越来越受到关注。它最初是作为一个区域描述符提出的,现在已经被用于各种识别任务的通用表示,显示了良好的性能。然而,协方差矩阵在小样本情况下具有奇异性,对复杂特征关系建模能力有限,表现形式单一、固定。为了获得更好的识别性能,本文提出了基于对称正定(SPD)矩阵的更有效、更灵活的表示方法,并利用数据和非线性表示的先验知识进行了尝试。具体来说,为了更好地解决特征向量数目少、特征维数高的问题,我们提出利用视觉特征的结构稀疏性,并以稀疏逆协方差估计作为一种新的特征表示。此外,为了有效地建模复杂的特征关系,我们提出直接计算特征维上的核矩阵,从而形成了一个健壮、灵活、开放的SPD矩阵表示框架。通过理论分析和实验研究,证明了这两种表示方法在人体骨骼动作识别、图像集分类和目标分类等任务中都优于协方差表示。

理学硕士:

68T45型 机器视觉与场景理解
PDF格式 BibTeX公司 XML 引用
全文: 内政部 链接

参考文献:

[1] 阿达姆扎克,R。;利特瓦克,A。;帕乔尔,A。;Tomczak Jaegermann,N.,对数凹集合中经验协方差矩阵收敛性的定量估计,美国数学学会杂志,23,2535-561(2010)·Zbl 1206.60006号
[2] Ali,S.,Basharat,A.和Shah,M.(2007年)。人类行为识别的混沌不变量。在IEEE国际计算机视觉会议(第1-8页)。IEEE。
[3] 阿西尼,V。;菲拉德,P。;佩内克,X。;Ayache,N.,扩散张量快速简单微积分的对数欧几里德度量,医学磁共振,56,2411-421(2006)
[4] 班纳吉,O。;勒盖伊;d'Aspremont,A.,多元高斯或二进制数据稀疏最大似然估计模型选择,机器学习研究杂志,9485-516(2008)·Zbl 1225.68149
[5] 巴瑟,PJ;马蒂埃洛,J。;LeBihan,D.,从核磁共振自旋回波估算有效自扩散张量,磁共振杂志,B辑,103,3,247-254(1994)
[6] Cavazza,J.,Morerio,P.和Murino,V.(2017a)。一种用于三维动作识别的紧致核近似。国际图像分析与处理会议(第211-222页)。斯普林格。
[7] Cavazza,J.,Morerio,P.和Murino,V.(2017b)。当核方法遇到特征学习时:基于骨架数据的行为识别的对数协方差网络。在IEEE计算机视觉和模式识别研讨会上(第33-40页)。IEEE。
[8] 卡瓦扎,J。;莫雷里奥,P。;Murino,V.,具有近似RBF核机器的可伸缩和紧凑的3D动作识别,模式识别,93,25-35(2019年)
[9] Cavazza,J.,Zunino,A.,Biagio,M.S.和Murino,V.(2016年)。用于动作识别的核化协方差。在国际模式识别会议(第408-413页)。IEEE。
[10] Chatfield,K.,Simonyan,K.,Vedaldi,A.和Zisserman,A.(2014年)。细节中的魔鬼归来:深入研究卷积网。arXiv预印本arXiv:1405.3531。
[11] Cimpoi,M.,Maji,S.,Kokkinos,I.,Mohamed,S.和Vedaldi,A.(2014年)。描述野外的纹理。在IEEE计算机视觉和模式识别会议上(第3606-3613页)。IEEE。
[12] Cimpoi,M。;马吉,S。;科基诺斯一世。;Vedaldi,A.,用于纹理识别、描述和分割的深度过滤器库,国际计算机视觉杂志,118,1,65-94(2016)
[13] Cirujeda,P.和Binefa,X.(2014年)。4DCov:一种用于深度序列手势识别的时空特征嵌套协方差描述符。国际三维视觉会议(第一卷,第657-664页)。IEEE。
[14] Cui,Y.,Zhou,F.,Wang,J.,Liu,X.,Lin,Y.,和Belongie,S.(2017年)。卷积神经网络的核池。在IEEE计算机视觉和模式识别会议(第2921-2930页)。IEEE。
[15] Donahue,J.,Jia,Y.,Vinyals,O.,Hoffman,J.,Zhang,N.,Tzeng,E.等人(2014年)。Decaf:一种用于一般视觉识别的深卷积激活特征。在国际机器学习会议(第647-655页)。
[16] 伊利诺伊州德莱顿;科洛伊登科,A。;Zhou,D.,协方差矩阵的非欧几里德统计量及其在扩散张量成像中的应用,应用统计学年鉴,31102-1123(2009)·Zbl 1196.62063
[17] Du,Y.,Wang,W.和Wang,L.(2015年)。基于骨架的递阶递归神经网络动作识别。在IEEE计算机视觉和模式识别会议(1110-1118页)。IEEE。
[18] Durand,T.,Mordan,T.,Thome,N.和Cord,M.(2017年)。wildat:用于图像分类、逐点定位和分割的deep convnets的弱监督学习。在IEEE计算机视觉和模式识别会议(第642-651页)。IEEE。
[19] Evangelidis,G.,Singh,G.和Horaud,R.(2014年)。骨骼四头肌:利用关节四头肌进行人体动作识别。国际模式识别会议(第4513-4518页)。IEEE。
[20] Everingham,M。;范古尔,L。;威廉姆斯,康涅狄格州;维恩,J。;Zisserman,A.,pascal可视化对象类(voc)挑战,国际计算机视觉杂志,88,22303-338(2010)
[21] Fassauer,G.E.(2011年)。正定核:过去、现在和未来。白云石近似4研究笔记(核函数和无网格方法特刊):21-63。
[22] Feichtenhofer,C.,Pinz,A.和Zisserman,A.(2016年)。用于视频动作识别的卷积双流网络融合。在IEEE计算机视觉和模式识别会议(1933-1941页)。IEEE。
[23] 弗里德曼,J。;黑斯蒂,T。;Tibshirani,R.,稀疏逆协方差估计与图形套索,生物统计学,9,3,432-441(2008)·Zbl 1143.62076
[24] Gao,Y.,Beijbom,O.,Zhang,N.,和Darrell,T.(2016年)。紧凑双线性池。在IEEE计算机视觉和模式识别会议(第317-326页)。IEEE。
[25] Gross,R.和Shi,J.(2001年)。cmu身体运动(mobo)数据库。技术报告CMU-RI-TR-01-18,宾夕法尼亚州匹兹堡机器人研究所。
[26] Guo,K.,Ishwar,P.和Konrad,J.(2010年)。光流协方差流形上稀疏表示的动作识别。在IEEE高级视频和基于信号的监视国际会议(第188-195页)。IEEE。
[27] Harandi,M.T.,Salzmann,M.和Hartley,R.(2014a)。从流形到流形:SPD矩阵的几何感知降维。欧洲计算机视觉会议(第17-32页)。斯普林格·Zbl 1376.94003
[28] Harandi,M.T.、Salzmann,M.和Porikli,F.M.(2014b)。无穷维协方差矩阵的Bregman发散。在IEEE计算机视觉和模式识别会议(第1003-1010页)。IEEE。
[29] Harandi,M.T.,Sanderson,C.,Hartley,R.和Lovell,B.C.(2012年)。对称正定矩阵的稀疏编码和字典学习:一种核方法。欧洲计算机视觉会议,斯普林格,第216-229页。
[30] 黑斯蒂,T。;蒂比拉尼,R。;弗里德曼,J。;Franklin,J.,《统计学习的要素:数据挖掘、推理和预测》,《数学智能》,27,2,83-85(2005)
[31] 哈亚特,M。;可汗,SH;Bennamoun,M.,授权简单二元分类器用于基于图像集的人脸识别,国际计算机视觉杂志,123,1-20(2017)
[32] Haykin,S.,神经网络:综合基金会(1998),新泽西州上鞍河:Prentice Hall PTR,Upper Saddle River,新泽西州·Zbl 0828.68103
[33] He,K.,Zhang,X.,Ren,S.,和Sun,J.(2016年)。图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议(第770-778页)。IEEE。
[34] 徐春伟、张建中、林春杰等(2003)。支持向量分类实用指南
[35] Hu,J.F.,Zheng,W.S.,Lai,J.和Zhang,J.(2015年)。联合学习异类特征进行RGB-d活动识别。在IEEE计算机视觉和模式识别会议(第5344-5352页)。IEEE。
[36] Hu,J.F.,Zheng,W.S.,Pan,J.,Lai,J.,和Zhang,J.(2018年)。基于深度双线性学习的RGB-d动作识别。欧洲计算机视觉会议(第335-351页)。斯普林格。
[37] 黄,J。;张,T。;Metaxas,D.,结构化稀疏学习,机器学习研究杂志,123371-3412(2011)·Zbl 1280.68169
[38] 黄,S。;李,J。;太阳,L。;叶,J。;弗莱舍,A。;Wu,T.,通过稀疏逆协方差估计学习阿尔茨海默病的大脑连通性,神经影像学,503935-949(2010)
[39] Hussein,M.E.,Torki,M.,Gowayyed,M.A.和El Saban,M.(2013年)。基于三维关节位置的协方差描述子时间层次结构的人体动作识别。国际人工智能联席会议(第2466-2472页)。
[40] Ionescu,C.,Vantzos,O.和Sminchisecu,C.(2015年)。具有结构层的深层网络的矩阵反向传播。在IEEE国际计算机视觉会议(第2965-2973页)。IEEE。
[41] Jayasumana,S.,Hartley,R.,Salzmann,M.,Li,H.和Harandi,M.(2013年)。对称正定矩阵黎曼流形的核方法。在IEEE计算机视觉和模式识别会议(第73-80页)。IEEE。
[42] Ji,Y.,Ye,G.和Cheng,H.(2014年)。用于人机交互识别的交互式人体部位对比度挖掘。在IEEE国际多媒体会议和博览会研讨会(第1-6页)IEEE。
[43] Ke,Q.,Bennamoun,M.,An,S.,Sohel,F.和Boussaid,F.(2017年)。一种新的三维动作识别骨架序列表示方法。在IEEE计算机视觉和模式识别会议(第4570-4579页)。IEEE。
[44] 科勒,D。;Friedman,N.,概率图形模型:原理和技术自适应计算和机器学习(2009),剑桥:麻省理工学院出版社,剑桥
[45] Koniusz,P.和Cherian,A.(2016年)。三阶超对称张量描述子的稀疏编码及其在纹理识别中的应用。在IEEE计算机视觉和模式识别会议(第5395-5403页)。IEEE。
[46] Koniusz,P.,Cherian,A.和Porikli,F.(2016年)。基于核线性化的张量表示在三维骨骼动作识别中的应用。欧洲计算机视觉会议(第37-53页)。斯普林格。
[47] Koniusz,P.,Yan,F.,Gosselin,P.H.和Mikolajczyk,K.(2013年)。中低级特征的高阶发生池:视觉概念检测。哈尔·英里亚。
[48] Kulkarni,P.,Jurie,F.,Zepeda,J.,Pérez,P.,&Chevallier,L.(2016年)。Spleap:用于图像分类的学习部件的软池。欧洲计算机视觉会议(第329-345页)。斯普林格。
[49] Lee,I.,Kim,D.,Kang,S.和Lee,S.(2017年)。基于时间滑动LSTM网络的骨架动作识别集成深度学习。在IEEE国际计算机视觉会议(第1012-1020页)。IEEE。
[50] Lehrmann,A.M.,Gehler,P.V.和Nowozin,S.(2013年)。人体姿态的非参数贝叶斯网络先验。在IEEE国际计算机视觉会议(1281-1288页)。IEEE。
[51] Leibe,B.和Schiele,B.(2003年)。分析了基于外观和轮廓的对象分类方法。在IEEE计算机视觉和模式识别会议(第2卷,第II-409页)。IEEE。
[52] Li,P.和Wang,Q.(2012年)。图像表示的局部对数欧氏协方差矩阵及其应用。欧洲计算机视觉会议(第469-482页)。斯普林格。
[53] Li,P.,Xie,J.,Wang,Q.和左,W.(2017年)。二阶信息对大规模视觉识别有帮助吗?在IEEE国际计算机视觉会议(2070-2078页)。IEEE。
[54] Li,S.,Li,W.,Cook,C.,Zhu,C.和Gao,Y.(2018年)。独立递归神经网络(INDRNN):建立一个更长、更深的RNN。在IEEE计算机视觉和模式识别会议(第5457-5466页)。IEEE。
[55] Li,W.,Wen,L.,Chuah,M.C.和Lyu,S.(2015年)。类别盲人类行为识别:一个实用的识别系统。在IEEE国际计算机视觉会议(第4444-4452页)。IEEE。
[56] Lin,T.Y.,RoyChowdhury,A.和Maji,S.(2015年)。用于细粒度视觉识别的双线性cnn模型。在IEEE国际计算机视觉会议(1449-1457页)。IEEE。
[57] 林,泰;罗伊乔杜里,A。;Maji,S.,用于细粒度视觉识别的双线性卷积神经网络,IEEE模式分析与机器智能汇刊,40,6,1309-1322(2017)
[58] Liu,J.,Shahroudy,A.,Xu,D.和Wang,G.(2016年)。具有信任门的时空LSTM用于三维人体行为识别。欧洲计算机视觉会议(第816-833页)。斯普林格。
[59] Liu,J.,Wang,G.,Hu,P.,Duan,L.Y.和Kot,A.C.(2017年)。用于三维动作识别的全局上下文感知注意LSTM网络。在IEEE计算机视觉和模式识别会议(第7卷,第43页)。IEEE。
[60] 新罕布什尔州梅因绍森。;Bühlmann,P.,高维图和套索变量选择,《统计年鉴》,341436-1462(2006)·Zbl 1113.62082
[61] Müller,M.,Baak,A.和Seidel,H.P.(2009年)。对运动捕捉数据进行高效而稳健的注释。美国新奥尔良ACM SIGGRAPH/Eurographics计算机动画研讨会(第17-26页)。
[62] Ohn Bar,E.和Trivedi,M.(2013年)。关节角度相似性和hog2用于动作识别。在IEEE计算机视觉和模式识别研讨会上(465-470页)。IEEE。
[63] Oquab,M.,Bottou,L.,Laptev,I.和Sivic,J.(2015年)。对象本地化是免费的吗-卷积神经网络弱监督学习。在IEEE计算机视觉和模式识别会议(第685-694页)。IEEE。
[64] Oreifej,O.和Liu,Z.(2013年)。Hon4d:从深度序列中识别活动的定向4d法线直方图。在IEEE计算机视觉和模式识别会议(第716-723页)。IEEE。
〔65〕 庞,Y。;元,Y。;Li,X.,高维空间中的有效特征提取,IEEE系统、人与控制论汇刊,B部分,控制论,38,6,1652-1656(2008)
[66] 庞,Y。;元,Y。;Li,X.,基于Gabor的人脸识别区域协方差矩阵,IEEE视频技术电路与系统汇刊,18,7989-993(2008)
[67] Park,J.(2007年)。多元统计中的数字相关矩阵及其在成分选择和动态相关建模中的应用。探索。
[68] 菲利普斯,PJ;月亮,H。;南卡罗来纳州里兹维;Rauss,PJ,人脸识别算法的FERET评估方法,模式分析与机器智能IEEE汇刊,22,10,1090-1104(2000)
〔69〕 Póczos,B.,Xiong,L.,Sutherland,D.J.,和Schneider,J.G.(2012年)。图像分类的非参数核估计。在IEEE计算机视觉和模式识别会议(第2989-2996页)。IEEE。
[70] Porikli,F.,Tuzel,O.和Meer,P.(2006年)。基于李代数的模型更新协方差跟踪。在IEEE计算机视觉和模式识别会议(第728-735页)。IEEE。
[71] Quang,M.H.,Biagio,M.S.和Murino,V.(2014年)。Hilbert空间上正定算子之间的对数Hilbert-Schmidt度量。神经信息处理系统会议(第388-396页)。
[72] 兰登,T。;Husoy,JH,纹理分类过滤:比较研究,IEEE模式分析与机器智能汇刊,21,4,291-310(1999)
[73] Romero,A.,Gouifès,M.和Lacassagne,L.(2013年)。增强的局部二元协方差矩阵(ELBCM)用于纹理分析和目标跟踪。计算机视觉/计算机图形学协作技术与应用国际会议(第1-8页)。
[74] 俄罗斯卡夫斯基。;邓,J.,ImageNet大规模视觉识别挑战,国际计算机视觉杂志,115,3,211-252(2015)
[75] 舍尔科夫,B。;斯莫拉,AJ;巴赫,F.,《用核学习:支持向量机,正则化,优化和超越》(2002),剑桥:麻省理工学院出版社,剑桥
[76] Shahroudy,A.、Liu,J.、Ng,T.T.和Wang,G.(2016年)。NTU RGB+D:一个用于三维人体活动分析的大规模数据集。在IEEE计算机视觉和模式识别会议上(第1010-1019页)。IEEE。
[77] 沙鲁迪,A。;Ng,TT;龚,Y。;Wang,G.,RGB+d视频中动作识别的深度多模特征分析,IEEE模式分析与机器智能汇刊,401045-1058(2017)
[78] Shi,L.,Zhang,Y.,Cheng,J.和Lu,H.(2019年)。基于骨架动作识别的双流自适应图卷积网络。在IEEE计算机视觉和模式识别会议(第12026-12035页)。
[79] Si,C.,Jing,Y.,Wang,W.,Wang,L.和Tan,T.(2018年)。基于骨架的空间推理和时间堆栈学习的动作识别。欧洲计算机视觉会议(第103-118页)。
[80] Simonyan,K.和Zisserman,A.(2014年)。用于大规模图像识别的非常深的卷积网络。arXiv预印本arXiv:1409.1556。
[81] 史密斯,山猫;吉隆坡米勒;Salimi Khorshidi,G。;韦伯斯特,M。;贝克曼,CF;Nichols,TE,《功能磁共振成像的网络建模方法》,神经影像,54,2875-891(2011)
[82] Song,S.,Lan,C.,Xing,J.,Zeng,W.和Liu,J.(2017年)。一种基于骨骼数据的端到端时空注意模型。在AAAI人工智能会议(第4263-4270页)。
[83] Sra,S.(2011年)。正定矩阵与对称stein散度。arXiv预印本arXiv:1110.1773。
[84] Sun,H.,Zhen,X.,Zheng,Y.,Yang,G.,Yin,Y.和Li,S.(2017年)。学习深度匹配核函数进行图像集分类。在IEEE计算机视觉和模式识别会议(第3307-3316页)。
[85] Tabia,H.,Laga,H.,Picard,D.和Gosselin,P.H.(2014年)。用于三维形状匹配和检索的协方差描述符。在IEEE计算机视觉和模式识别会议(第4185-4192页)。IEEE。
[86] Tuzel,O.,Porikli,F.和Meer,P.(2006年)。区域协方差:一种用于检测和分类的快速描述符。欧洲计算机视觉会议(第589-600页)。斯普林格。
[87] 塔泽尔,O。;波里克利,F。;Meer,P.,通过黎曼流形分类进行行人检测,IEEE模式分析与机器智能汇刊,30,10,1713-1727(2008)
[88] Vedaldi,A.和Lenc,K.(2015年)。Matconvnet–matlab的卷积神经网络。国际多媒体会议。
[89] 韦达尔迪,A。;Zisserman,A.,《通过显式特征映射实现高效加性核》,IEEE模式分析和机器智能事务,34,3480-492(2012)
[90] Vemulapalli,R.,Arrate,F.和Chellappa,R.(2014年)。通过将三维骨骼表示为李群中的点来进行人体动作识别。在IEEE计算机视觉和模式识别会议(第588-595页)。IEEE。
[91] 王,L。;休恩,DQ;Koniusz,P.,《最近基于kinect的动作识别算法的比较评论》,《IEEE图像处理汇刊》,29,15-28(2019年)
[92] Wang,L.,Zhang,J.,Zhou,L.,Tang,C.和Li,W.(2015a)。超越协方差:非线性核矩阵的特征表示。在IEEE国际计算机视觉会议(第4570-4578页)。IEEE。
[93] Wang,Q.,Li,P.,Hu,Q.,Zhu,P.和左,W.(2019b)。深全局广义高斯网络。在IEEE计算机视觉和模式识别会议(第5080-5088页)。IEEE。
[94] Wang,Q.,Xie,J.,左,W.,Zhang,L.,和Li,P.(2019年c)。深层cnn满足全局协方差池:更好的表示和泛化。arXiv预印本arXiv:1904.06836。
[95] Wang,R.,Guo,H.和Davis,L.S.(2012年)。协方差判别学习:一种自然有效的图像集分类方法。在IEEE计算机视觉和模式识别会议(第2496-2503页)。IEEE。
[96] Wang,W.,Wang,R.,Huang,Z.,Shan,S.和Chen,X.(2015b)。图像集人脸识别中高斯分布黎曼流形的判别分析。在IEEE计算机视觉和模式识别会议(第2048-2057页)。IEEE。
[97] Wei,Z.&,Hoai,M.(2016年)。区域排序支持向量机用于图像分类。在IEEE计算机视觉和模式识别会议(第2987-2996页)。IEEE。
[98] 魏勇、夏伟、黄杰、倪B、董杰、赵勇等(2014)。CNN:单标签到多标签。arXiv预印本arXiv:1406.5726。
[99] Wolf,L.,Hassner,T.和Maoz,I.(2011年)。背景相似性匹配的无约束视频中的人脸识别。在IEEE计算机视觉和模式识别会议(第529-534页)。IEEE。
[100] 吴,Y。;文学硕士、学士。;Jia,Y.,基于核的区域协方差描述符差分跟踪,模式分析应用,18,1,45-59(2015)
[101] Yan,S.,Xiong,Y.,和Lin,D.(2018年)。基于骨架动作识别的时空图卷积网络。人工智能会议,。智慧。
[102] Yang,X.和Tian,Y.(2014年)。利用深度序列进行活动识别的超正态向量。在IEEE计算机视觉和模式识别会议(第804-811页)。IEEE。
[103] Yuan,C.,Hu,W.,Li,X.,Maybank,S.J.和Luo,G.(2009年)。对数欧氏黎曼度量下的人体行为识别。亚洲计算机视觉会议(第343-353页)。
[104] Yun,K.,Honorio,J.,Chattopadhyay,D.,Berg,T.L.和Samaras,D.(2012年a)。基于体位特征和多实例学习的两人交互检测。在IEEE计算机视觉和模式识别研讨会上(第28-35页)。IEEE。
[105] Yun,K.,Honorio,J.,Chattopadhyay,D.,Berg,T.L.和Samaras,D.(2012年b)。基于体位特征和多实例学习的两人交互检测。在IEEE计算机学会计算机视觉和模式识别研讨会上(第28-35页)。IEEE。
[106] Zhang,P.,Lan,C.,Xing,J.,Zeng,W.,Xue,J.和Zheng,N.(2017a)。基于骨架数据的高性能人体行为识别的视图自适应递归神经网络。在IEEE国际计算机视觉会议(第2136-2145页)。IEEE。
[107号] Zhang,S.,Liu,X.和Xiao,J.(2017b)。多层lstm网络用于骨架动作识别的几何特征研究。在IEEE冬季计算机视觉应用会议(第148-157页)。IEEE。
[108] Zhu,W.,Lan,C.,Xing,J.,Zeng,W.,Li,Y.,Shen,L.等人(2016年)。正则化深层LSTM网络用于骨架动作识别的共现特征学习。在AAAI人工智能会议上(第3697-3703页)。
[109号] Zunino,A.,Cavazza,J.和Murino,V.(2017年)。重温人类行为识别:个性化与泛化。在国际图像分析与处理会议(第469-480页)。斯普林格。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。