×

使用3D shearlet变换的局部时空表示。 (英语) 兹比尔1417.42043

这项工作对时空特征检测和动作识别的发展做出了贡献。为了表示和分类时空点,作者使用3D shearlet变换分析视频序列。分类依赖于剪切系数的重新组织和无监督聚类算法(例如K-means)。其主要贡献是建立在剪切波系数之上的局部表示,它收集相邻信息并捕获各种类型的时空特征。给出了合成数据和实际数据的初步结果,并将其性能与无需后处理的剪切波变换系数聚类进行了比较。

MSC公司:

42立方厘米 涉及小波和其他特殊系统的非三角调和分析
62H30型 分类和区分;聚类分析(统计方面)

软件:

ChaLearn手势
PDF格式BibTeX公司 XML格式引用
全文: 链接

参考文献:

[1] 。在视频序列中,对象正在执行拳击动作,反复来回移动手臂。图7显示了三个有意义的框架和(d)在动作发生时通过叠加人物轮廓获得的3D形状。后者允许我们获得与图像中有意义区域(拳击手)相关的3D形状的视觉印象,尽管在下文中我们将考虑整个图像,包括背景信息。(a) 框架30(b)框架32(c)框架37(d)3D形状图7。(a-c)拳击序列和(d)运动生成的相应形状。在合成数据的情况下,我们选择与不同时空行为相关的点,并为每个点计算基于剪切的描述符。结果如图8所示。我们采样了图8(b)中红线上的四个点,以创建图8(e)中的相应表示,而在其他两种情况下,所使用的点仅显示在上排相应图片中。虽然在合成场景和装箱场景中,曲面点的行为相似,但在其他两种情况下,情况略有不同。这是因为实际数据中的空间和时间变化都不太显著,而且信号不连续性也不那么强。这可以在图8(d)中看到,其中与时间维度上发生的变化相对应的剪切波系数不太明显(这些变化用浅灰色覆盖物突出显示)。然而,我们的表示正确地处理了没有任何时间变化的情况,使相应的值接近于零(如图4(c)所示,时间维度上的变化导致值低于10−3)。4.3. 时空点分类。现在,我们尝试对属于我们在前面章节中考虑的两个2D+T信号的点进行分类。为此,我们在两种情况下执行两种不同的过程:(a)3D角(b)边(c)曲面点(d)(e)(f)图8。3D盒形(a-c)上的点示例和相应的基于剪切的平均表示(d-f)对于合成数据(正方形序列),我们考虑3D形状,通过计算其表示D(m)和图9中三个平均表示之间的距离,对其表面的每个点进行分类,然后根据其最相似的表示对每个点进行着色。•对于真实数据(拳击序列),我们考虑图像序列并计算时间t处单个帧的所有点的表示F(m);然后我们用一个k平均值算法。图10(b-c)中的不同颜色表示通过使用不同数量的聚类K将点分组在一起的方式。可以看出,更大数量的聚类如何使我们能够捕捉到更丰富的动态,描述序列中表示的运动(通过分离不同组中的运动部分,也分割属于阴影的点),而使用较少的组来分离属于主体静止部分的点和属于运动元素的点。我们的表示的有效性如图11所示,在图中,我们将它们与原始剪切波系数的聚类结果进行了比较。在所有示例中,我们都将簇数固定为k=8。通过应用k平均值我们得到了图11(a)中所示的簇。可以注意到,属于类似基本体的点(手臂向后移动和(a)形状(b)分类图9)。形状表面点的分类示例:表面点(蓝色)、边缘(红色)和3D角(绿色)。(a) 框架(b)F2(ˆm),k=3(c)F2,k=8图10。在现实世界序列的固定框架内对所有点进行聚类的示例;考虑到(b)3个簇和(c)8个簇,将简化表示F2(ˆm)馈送到聚类过程中(有关详细信息,请参阅文本)。第四,以及护套的移动前侧)分为两组。此外,沿被摄体背面分布的点不会分组在同一组中,即使它们的时空行为相同。相反,如果我们考虑建立在shearlet系数之上的表示,我们可以看到聚类过程如何正确地分离与不同时空基元相关的点,通过将在两个不同集合中移动的元素组合在一起,使其具有空间外观(参见白色和洋红色点集)。此外,沿着被摄体背面的点以及属于其他直边和静边的点被连贯地组合在一起(这对于简化表示F2(ˆm)特别有效,参见图11(c)中的黑色点)。在最后一种情况下,我们只考虑了属于单个尺度j=2的系数,如果我们还考虑了属于更精细尺度j=3的系数表示(a)SH[f](b)D(ˆm)(c)F2(ᮼm,(D)F2,3(ᮽm)图11的行为。a的结果k平均值使用k=8个簇执行聚类:(a)使用3D shearlet变换提供的shearlet系数,(b)利用我们的表示并考虑单个尺度,(c)使用我们的紧凑表示并考虑单一尺度(d)或将来自两个尺度的信息串联起来。信号频率更高,我们将这两种表示方法串联起来,可以更精确地分离先前选定帧的所有点(见图11(d))。图12。来自的帧切沃伊ChaLearn数据集中的手势:所描绘的男性举起机器人的手并与之握手,然后再次放下。图13显示了从另一个参考基准数据集[23]中提取的不同序列的类似结果,图12显示了重要帧。我们可以看到,通过考虑相同数量的簇k=8,我们的简化表示法F(ˆm)产生了有意义的点组,也正确地突出了受试者手的更丰富的时空行为,在这个特定的序列中,手正在向他的身体上部移动。相反,如果我们对原始剪切波系数进行聚类,则会将动态点与背景区域分组在一起(请参见红色点)。最后,图14和图15显示了分别从F2(ξm)和F3(ξm)获得的聚类,用于k=4、8、12的不同选择。在这种情况下,原始图像的较高分辨率使我们能够欣赏在两个不同比例上突出显示的不同结构。还可以注意到,正如预期的那样,双手上下移动的动态事件是如何在更精细的尺度上更好地捕捉到的。(a) 样品框架(b)SH[f](c)F3(ˆm)图13。来自ChaLearn公司数据集[7]和(b)直接使用剪切系数,(c)通过我们的表示。(a) F2(ˆm),k=4(b)F2。a的结果k平均值通过固定比例参数j=2并更改创建的簇数进行聚类。(a) F3(ˆm),k=4(b)F3。a的结果k平均值通过将规模固定为可用的最佳规模并更改创建的簇数来进行聚类。5.结论在本文中,我们将动态视频序列视为2D+T信号,并探索了3D剪切变换的使用,目的是表示信号的局部行为,并突出不同类型的时空兴趣点。我们推导了一个表示行为表示的过程,我们应用了一种无监督聚类算法,该算法允许我们将视频帧分割成相关的兴趣点组。我们考虑了合成和真实视频序列。在实际数据的情况下,我们的表示也与通过对原始剪切波系数进行聚类得到的类似结果进行了比较,我们非常清楚地注意到了我们提出的程序的好处。该表示法在视频分析和动作识别的未来应用中具有很大的前景。确认E.De Vito是国立阿尔塔马特马特马蒂马蒂马特马蒂卡研究所(INdAM)的Al’Analisi Matematica,la ProbabilitáE le loro Applicazioni(GNAMPA)的Gruppo Nazionale成员。工具书类
[2] Z.Chen、X.Hao和Z.Sun。基于自适应阈值的剪切波域图像去噪。信息与计算科学杂志, 10(12):3741-3749, 2013.
[3] S.Dahlke、G.Steidl和G.Teschke。任意空间维数的连续剪切波变换。J.傅里叶分析。申请。, 16(3):340-364, 2010. ·Zbl 1194.42038号
[4] M.N.Do和M.Vetterli。contourlet变换:一种高效的定向多分辨率图像表示。事务处理。图。程序。,第2091-2106页,2005年。
[5] P.Dollár、V.Rabaud、G.Cottrell和S.Belongie。通过稀疏时空特征进行行为识别。2005 IEEE国际工作- 视觉监视和跟踪性能评估商店 监控,第65-72页。IEEE,2005年。
[6] M.A.Duval Poo、F.Odone和E.De Vito。带剪刀的边角。IEEE传输。图像处理, 24(11):3768-3780, 2015. ·Zbl 1408.94153号
[7] G.R.Easley、D.Labate和F.Colonna。基于Shearlet的全变差扩散去噪。IEEE图像处理汇刊,18(2):260-2682009·Zbl 1371.94118号
[8] S.Escalera、X.Baro、J.González、M.Bautista、M.Madadi、M.Reyes、V.Ponce-López、H.Escalante、J.Shotton和I.Guyon。Chalearn关注2014年的人才挑战:数据集和结果。欧洲研讨会 计算机视觉会议,第459-473页。斯普林格,2014年。
[9] K.Guo和D.Labate。使用剪切波的最优稀疏多维表示。SIAM数学分析杂志, 39(1):298-318, 2007. 使用3D连续剪切波变换。应用。计算。哈蒙。分析。, 30(2):231-242, 2011. ·Zbl 1197.42017年4月20日
[10] K.Guo和D.Labate。使用剪切波的Parseval框架对具有C2曲面奇异性的三维数据进行最优稀疏表示。SIAM J.数学。 分析。,第851-886页,2012年·Zbl 1267.42040号
[11] K.Guo、D.Labate和W.-Q.Lim。使用连续剪切波变换进行边缘分析和识别。应用谐波和计算谐波 分析, 27(1):24-46, 2009. ·Zbl 1169.42018年
[12] G.Kutyniok和D.Labate。使用连续剪切波的波前集分辨率。美国数学学会会刊, 361(5):2719-2754, 2009. ·Zbl 1169.42012年
[13] G.Kutyniok和D.Labate。剪切波.申请。数字。哈蒙。分析。Birkhäuser/Springer,纽约,2012年。
[14] G.Kutyniok、J.Lemvig和W.Lim。通过紧支撑剪切框架实现3D函数的最佳稀疏近似。SIAM J.数学。 分析。, 44(4):2962-3017, 2012. ·Zbl 1252.42043号
[15] G.Kutyniok、W.Lim和R.Reisenhofer。Shearlab 3D:基于紧支撑剪切波的忠实数字剪切波变换。ACM变速器- 数学软件上的操作, 42(1):5, 2016. ·Zbl 1347.65203号
[16] G.Kutyniok和W.-Q.Lim。紧密支撑的剪刀最稀疏。近似理论杂志,163(11):1564-15892011年·Zbl 1226.42031号
[17] G.Kutyniok和P.Petersen。使用紧密支撑的剪刀对边缘进行分类。应用和计算谐波分析, 2015. ·Zbl 1378.42023号
[18] D.Labate、W.-Q.Lim、G.Kutyniok和G.Weiss。使用剪切线的稀疏多维表示。光学与光子学2005, 2005.
[19] I.拉普特夫。关于时空兴趣点。国际计算机视觉杂志, 64(2):107-123, 2005.
[20] 林德伯格:尺度空间理论:分析不同尺度结构的基本工具。应用统计杂志, 21(1-2):225-270, 1994.
[21] T.Lindeberg。时间-阅读和时间递归时空感受野。数学成像与视觉杂志, 55(1):50-88, 2016. ·Zbl 1334.94034号
[22] S.Mallat和S.Zhong。多尺度边缘信号的特征。IEEE传输。模式分析。机器。智力。,第710-7321992页。
[23] C.Schuldt、I.Laptev和B.Caputo。识别人类行为:局部支持向量机方法。模式识别,2004年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。