摘要

图像压缩在各种应用中都是必要的,特别是为了在带宽受限的信道上进行高效传输。因此,希望能够在压缩域中直接分割图像,从而可以避免解压缩计算的负担。受JPEG2000自适应二进制算术编码器(MQ编码器)的启发,我们提出了一种有效的分割图像码流中提取的特征向量的方案。我们改进了基于压缩的纹理合并(CTM)算法,利用率失真信息来缓解过度合并问题的影响。实验结果表明,基于MQ编码的图像分割在边界位移误差(BDE)度量方面是较好的。它具有节省计算成本的优点,因为即使在低比特/像素率(bpp)下,分割结果也令人满意。

1.简介

图像分割在从工业监测到医疗诊断的许多应用中都很重要。在众多技术中,基于特征的方法因其计算效率而受到了广泛关注[1]. 然而,分割结果取决于特征向量的选择[27]. 早期的特征提取研究主要是在单一尺度上进行的。值得注意的是,人类视觉系统(HVS)中的简单视觉皮层细胞将图像分解为带通子图像[8]可以使用Gabor滤波器进行建模,并适当调整空间频率和方向[9]. 小波变换(WT)提供了一种有效的多分辨率表示方法,其中图像的高细节信息被投影到具有较高空间分辨率的较短基函数上,而低细节信息被映射到具有较高光谱分辨率的较大基函数上。此属性与HVS的特性相匹配[10]. 提出了多种基于小波变换的多尺度图像特征提取方法[1114]. 此外,小波变换的优点是考虑了多尺度现象[1517],这是非线性时间序列的基础[1820]和分形时间序列[21].

随着多媒体技术的快速发展[2225]以及互联网应用,图像压缩仍有很大需求[26]. 可以看出,直接在压缩域中提取图像特征是可取的,这样可以避免解压缩图像的负担[14,27,28]. 联合图像专家组(JPEG)标准在中等压缩率下显示了令人满意的结果。JPEG2000标准采用WT作为基础变换,由于附加的优点,例如嵌入式编码和渐进传输,因此更可取[29,30]. 在嵌入式编码中,原始图像被编码成单个码流,从中可以获得任何比特率的解码图像。对于渐进式传输,这对图像浏览和互联网流应用特别有利,JPEG2000使用后压缩率失真(PCRD)算法以信息重要性的降序排列图像的码流[31]. 它基于率失真理论;更具体地说,随着编码比特数的增加,率失真斜率(RDS)应该不增加。对于图像分割应用,提出了两个有趣的问题。(1) 是否可以在压缩域中进行图像分割,从而避免解码计算的负担?(2) 是否有一条共同的信息,基于该信息可以在编码器和解码器上构建图像特征?如果是这样,则无需将这些特征从编码器传输到解码器。

本文提出了一种在压缩域中分割图像的有效方案。这是一个两步算法。在第一步中,使用简单的𝐾-表示算法。通过使用基于压缩的纹理合并(CTM)算法递归地合并固有的过分段超像素[32]. 为了避免过度合并,我们提出了一种基于RDS的简单方法来终止CTM。本文的其余部分进行如下。在节中2简要回顾了JPEG2000标准。在节中针对JPEG2000图像的分割问题,提出了基于MQ编码的图像特征的改进CTM算法。实验结果见第节4结论见第节5

2.JPEG2000简介

JPEG2000的核心是采用优化截断(EBCOT)算法的嵌入式块编码[29]它采用小波变换(WT)作为子带分解的底层方法。小波变换提供了许多理想的特性,例如,具有方向选择性的联合空间-空间-频率定位,相同方向子带之间小波系数的自相似性,以及每个子带内的能量聚类[10]. 在各种基于小波变换的图像特征中,常用的是幅度、能量、广义高斯分布特征和共生测度[1114].

EBCOT是一种双层算法。第1层由比特编码(BPC)和算术编码(AC)组成。第二层旨在实现最佳速率控制。在BPC中,三个编码过程,即重要性传播(SP)过程、幅度细化(MR)过程和清理(CU)过程,涉及四个基本编码操作,即重要性编码操作、符号编码操作、幅度细化编码操作和清理编码操作。对于当前不显著的小波系数,如果8个相邻系数中的任何一个已经显著,则在SP过程中使用显著性编码操作对其进行编码;否则,它将使用清除编码操作在CU过程中进行编码。如果该系数变得显著,则立即使用符号编码操作对符号进行编码。在MR过程中,使用幅度细化编码操作更新重要系数的幅度。通过使用称为MQ编码器的基于上下文的算术编码器,可以进一步对编码过程的输出比特流进行编码,以提高压缩性能。基于8个相邻系数,MQ编码器定义了18个上下文标签,其各自的概率模式存储在MQ表中[29].

在JPEG2000中,一幅大图像可以划分为非重叠的子图像,称为平铺,每个平铺被小波分解为子带,每个子带被划分为称为码块的小块,每个码块从最高有效位到最低有效位独立编码。为了实现最佳速率控制,JPEG2000采用了后压缩速率失真(PCRD)算法。具体来说,让{𝐵𝑖}是图像的代码块。的嵌入代码流𝐵𝑖可以在某个点终止,例如𝑛𝑖,比特率表示为𝑅𝑛𝑖𝑖; 编码过程的所有端点都是可能的截断点。PCRD选择最佳截断点以最小化整体失真:𝐷=𝑖𝐷𝑛𝑖𝑖受价格限制:𝑅=𝑖𝑅𝑛𝑖𝑖𝑅𝑐,其中𝐷𝑛𝑖𝑖表示在𝑛𝑖、和𝑅𝑐是目标比特率。值得注意的是,具有非递增率失真斜率(RDS)的编码过程是最佳截断点的候选。基于以上,我们在下面的部分中提出了一种有效的JPEG2000图像分割方案。

3.JPEG2000域中的图像分割

在本节中,我们修改了基于压缩的纹理合并(CTM)算法[32]分割MQ基于代码的图像功能[28]以自适应的方式。因此,图像分割任务可以直接在JPEG2000域中进行,并且可以避免解压缩计算的负担。

3.1. 基于MQ代码的图像功能

小波系数的分布被称为小波直方图,广泛应用于图像分割。由于小波系数的二进制变量在位平面上几乎是独立的[14],表示小波直方图的联合概率质量函数(PMF)可以近似为𝑃(|𝑐|=𝑥)=𝑛1𝑖=0𝑃𝑖𝑥𝑖,(1)哪里𝑥是小波系数的绝对值,𝑐,可以由编写𝑥=𝑛1𝑖=0𝑥𝑖2𝑖;𝑥𝑖{0,1},(2)𝑛是位平面数,以及𝑃𝑖()𝑖t吨小时位平面的PMF。基于JPEG2000中定义的MQ表,我们提出了一种简单的估计局部PMF的方案[28]. 具体来说,让𝑃𝑖(𝑥𝑖=1)为变量的1位概率𝑥𝑖𝑖t吨小时位方案,可从MQ表中获得,如下所示:𝑃𝑖𝑥𝑖==1e(电子)_V(V)u个e(电子)如果M(M)P(P)S公司=0,1e(电子)_V(V)u个e(电子)如果M(M)P(P)S公司=1,()哪里e(电子)_V(V)u个e(电子)是存储在MQ表中的可能性较小的符号(LPS)的概率,MPS代表可能性较大的符号。请注意,集合{𝑃𝑖(𝑥𝑖=1);𝑖=0,,𝑛1}从MQ表中获得的数据可用于估计本地PMF。由于MQ表在编码器和解码器上都可用,因此无需传输开销信息来构建MQ特性。

3.2. 改进的CTM算法

在本节中,我们修改了CTM算法[32]分割图像的MQ特征向量。使用一组MQ特征向量,编码位的数量可以近似为𝐿(𝜀)=𝑁+𝐷22美元𝐷d日e(电子)t吨𝐼+𝜀2𝑁Σ+𝐷22𝜇1+𝑇𝜇𝜀2,(4)哪里𝜇是平均矢量,Σ是协方差矩阵,𝜀是否发生变形,𝐷是特征尺寸,并且𝑁是特征向量的数量。对于𝐾一组MQ特征向量,编码位的总数由下式给出𝐿t吨t吨(𝜀)=𝐾𝑖=1𝐿𝑖(𝜀)𝑁𝑖2𝑁𝑖𝑁,(5)哪里𝐿𝑖(𝜀)𝑁𝑖是通过以下方式获得的编码位数(3.4)和中MQ功能向量的数量𝑡分别设置,和𝑁是MQ功能向量的总数,即,𝑁=𝐾𝑖=1𝑁𝑖CTM背后的思想是合并两组特征向量,以便最大限度地减少编码位。CTM的两两合并过程是迭代执行的,直到没有合并可以再减少编码比特。如中所述[32],CTM的终止取决于畸变参数,𝜀,可通过以下方式确定𝜀=n个{𝜀𝑑(𝜀)𝛾},(6)哪里𝑑(𝜀)是一对线段之间相对于𝜀

基于在嵌入式图像编码中广泛应用的率失真理论,我们提出了一种简单的方案来确定最佳率控制的候选方案𝜀具体来说,对于增加畸变值的序列:𝜀1<𝜀2<,段数和编码比特总数单调递减,即,𝐾1>𝐾2>𝐿t吨t吨(𝜀1)>𝐿t吨t吨(𝜀2)>因此,率失真斜率(RDS)定义为𝑆𝜀𝑖=Δ𝐷𝑖Δ𝑅𝑖,(7)哪里Δ𝑅𝑖=𝐿t吨t吨𝜀𝑖1𝐿t吨t吨𝜀𝑖𝑁,Δ𝐷𝑖=𝜀𝜀1,(8)𝑁是MQ功能向量的数量。由于RDS应该不会减少,也就是说,𝑆𝜀𝑖𝜀𝑆𝑖+1如果第页𝜀𝑖<𝜀𝑖+1,(9)如果𝑆(𝜀𝑖)>𝑆(𝜀𝑖+1),𝜀可以被视为终止CTM合并过程的候选。因此,我们修改了𝜀如下所示:𝜀=x𝑖𝜀𝑖𝜀𝑆𝑖𝜀>𝑆𝑖+1𝜀,𝑑𝑖美国海军陆战队𝛾(10)

1描述了基于RDS的自适应选择的改进CTM的流程图𝜀其中,通过主成分分析(PCA)将基于MQ编码器的图像特征投影到低维空间以进一步降低计算成本,并通过使用简单的𝐾-表示算法。拍摄如图所示的图像2(a)例如;的候选人𝜀如图所示2(e),其中水平轴和垂直轴分别是畸变和RDS值。数字2(b)2(d)显示第一个、第二个和第三个候选的分割结果𝜀可以看到,率失真信息可用于避免CTM的过度合并。

4.实验结果

提出的算法已经在伯克利数据库上进行了广泛评估[33]. 使用JPEG2000采用的9/7小波滤波器提取基于MQ码的图像特征。初始超级像素的数量设置为50。除了目视检查外,边界位移误差(BDE)和概率兰德指数(PRI)[34]用于定量评估。将分割结果与CTM、Mean-Shift和NCuts进行了比较。在Mean-Shift中,参数𝑠𝑟分别设置为13和19;在NCuts中,段数为20。阈值𝛾CTM的设置为0.1,如[32].

我们首先评估不同压缩率下的分割性能。3(a)显示了带有两个Brodatz纹理的测试图像,即木材和草地。3(b)描述了不同比特/像素速率(bpp)下的错误百分比。值得注意的是,即使在低bpp速率下,分割结果也是令人满意的;因此,对于分割任务来说,码流的一小部分就足够了。它具有节省传输时间、计算成本和存储空间的优点,特别是对于Internet应用程序来说。

1显示了BDE和PRI与CTM、Mean-Shift和NCuts相比的性能。就平均BDE而言,该算法更可取。

PRI和BDE使用的改进(3.10)如图所示4(a)4(b),其中水平轴是阈值:𝛾结果表明,该算法考虑了率失真信息,避免了过度合并,具有更强的鲁棒性。

数字5,6,7,8,9、和10是伯克利数据库中风景、物体、城市、水、肖像和动物图像的代表。原始图像显示在左栏中。使用该算法和CTM算法的分割结果分别在中间和右侧列中给出。值得注意的是,对于包含高细节内容的图像,该算法在视觉上改善了分割结果。

5.结论

MQ编码器提供了有效的概率模型,该模型在编码器和解码器上都可用,因此可以用于直接提取JPEG2000域中的图像特征。因此,提取特征向量不需要开销传输,而且可以避免JPEG2000图像解压缩的负担。基于MQ编码器,提出了一种有效的图像分割方案。为了避免过度合并,考虑到率失真信息,对CTM算法进行了修改。该算法已在具有Brodatz纹理的图像和Berkeley图像数据库上进行了评估。结果表明,在中低bpp速率下的分割结果是相当有希望的。此外,对于具有高细节内容的图像,所提出的算法在平均BDE测量和视觉比较方面是优选的。

致谢

作者感谢伯克利图像数据库的维护人员。台湾国家科学委员会拨款NSC100-2628-E239-002-MY2支持这项工作。