×

图像分类中对称正定矩阵黎曼流形上的坐标编码。 (英语) Zbl 1376.94022

Turaga,Pavan K.(ed.)等人,《计算机视觉中的黎曼计算》。查姆:斯普林格(ISBN 978-3-319-22956-0/hbk;978-3-319-22957-7/电子书)。345-361(2016年)。
简介:多年来,编码——在其最广泛的定义中——已经被证明是视觉识别系统中的关键一步[4,7]。许多技术已经被研究过,例如单词袋[1,9,16,18,19,31],稀疏编码[21,34]和基于位置的编码[33,35]。所有这些技术遵循一个类似的流程:给定一个代码词字典,一个查询与一个或多个具有不同权重的字典元素相关联(即。让@tokeneonedot,二进制或实数)。这些权重或代码作为查询的新表示,并在可选的池化步骤之后作为分类器(即支持向量机(SVM))的输入。
本文介绍了对称正定(SPD)矩阵的编码技术。更具体地说,与传统的矢量稀疏编码方案不同,在本研究中,我们讨论了如何通过字典原子的组合来描述SPD矩阵,其中原子也是SPD矩阵。我们的动机源于SPD矩阵在机器学习、计算机视觉和相关领域的普遍作用。例如,SPD矩阵已被用于医学成像、纹理分类[10,11,12,29]、动作识别和手势分类[27],以及人脸识别[10,22]。
将编码方法扩展到SPD矩阵并非易事,因为这样的矩阵构成了半正定锥的内部。换句话说,简单地将SPD矩阵矢量化并使用欧几里德几何(例如,欧几里德范数)并不能导致精确的表示[15,23,30]。为了克服欧几里德结构的缺点,Pennec等人[23]引入了黎曼结构,称为SPD或张量流形,来分析SPD矩阵。明确地考虑SPD流形的几何结构对区分能力非常有利[10,12,15,23,30]。
在这项工作中,我们将坐标编码的概念[35]扩展到SPD流形。在坐标编码中,查询的邻近原子决定编码权重。正如[33,35]中所讨论的,这可能导致稀疏性(稀疏性广泛用于图像和视频编码)。为此,我们提出了一种在SPD流形上执行坐标编码的内在解决方案。有趣的是,与稀疏编码不同,所提出的编码方案有一个封闭形式的解决方案。为了减少本征方法的计算量,我们提出在编码前将SPD流形展平。这里我们考虑两种类型的展平。首先,我们使用流形的切空间来展平流形。其次,我们提出利用两类Bregman发散将SPD流形嵌入到无限维再生核Hilbert空间(RKHS)中。
我们继续这一章如下。第16.2节简要回顾了SPD流形的几何结构、Bregman发散及其性质。第16.3节阐明了各种坐标编码方案,可在SPD歧管上执行。这包括内在、对数欧几里德和核坐标编码(kCC)。在门派。16.4在对人脸图像进行分类的任务中,评估了所提出方法的性能。主要研究结果及未来可能的发展方向载于第三节。16.5条。
括号内的数字指的是下面给出的参考文献。
整个系列请参见[Zbl 1335.65003].

理学硕士:

94A29型 信源编码
94A08型 信息与通信理论中的图像处理(压缩、重建等)
53立方厘米 流形上的一般几何结构(几乎复杂,几乎乘积结构等)

软件:

费雷特
PDF格式 BibTeX公司 XML 引用
全文: 内政部

参考文献:

此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。