1.简介
超分辨率是一种通过特定方法将低分辨率图像转换为高分辨率图像的图像处理技术[1,2,三,4]. 插值算法是一种传统的超分辨率重建方法[5]. 它对低分辨率图像进行重采样,提取有用信息来重建图像,达到放大图像并获得较高分辨率的目的。它可以有效地提高图像的质量和细节。在增强现实(AR)和虚拟现实(VR)应用中,高分辨率对于改善用户的视觉体验尤为重要[6,7,8,9]. 然而,现有的许多AR/VR设备受到硬件条件的限制,因此图像质量和分辨率无法满足用户的视觉感官需求。因此,迫切需要开发轻量级、硬件化的超分辨率技术来解决这个问题。 最近一些关于超分辨率重建的研究是基于深度学习方法的。VDSR公司[10]、LapSRN[11]、SR-LUT[12]以及其他深度学习算法都取得了良好的效果。然而,基于深度学习的超分辨率算法的计算成本和GPU内存使用率非常高,很难通过硬件部署在AR/VR等移动设备上。 在AR/VR系统中,视觉-注意力-区域定向超分辨率考虑了敏感视野的特性[13]. 在使用AR/VR设备时,用户的视线通常集中在图像中的某个区域,即所谓的“视觉注意区域”。在视觉注意区域执行超分辨率算法[14,15,16,17]能够满足客户的愿景期望。为了实现这个目标,用户的凝视和当前注视点的位置可以通过眼球追踪系统来确定。获取注释信息的常用传感器是红外摄像机和事件摄像机。本文的系统采用多传感器融合。红外摄像机和事件摄像机用于获取注释信息和眼动信息,它们构成了眼睛跟踪系统,将捕获的注释信息反馈给显示器,以确定凝视区域。然后,将基于空间的插值和对比度增强算法应用于视觉注意区域。在局部区域执行超分辨率可以减少计算并节省资源,同时实现更好的视觉效果。 本文的主要贡献如下:
- (1)
提出了一种基于传统插值算法的自适应空间分辨率改进算法。该算法取得了较好的性能,减少了计算量。
- (2)
进行对比度增强和锐化,以进一步改善过分割后图像的视觉效果。
- (3)
将超分辨率算法与眼动信息相结合,提高了视觉注意区域的分辨率,改善了人机交互的视觉体验。
- (4)
该算法采用非深度学习方法,计算成本低,可以在硬件上实现。
本文的其余部分组织如下。第二部分介绍了研究的背景和动机。第三部分详细介绍了超分辨率算法、对比度增强算法、眼动和注释信息获取的过程。第四部分列出了实验结果并验证了算法的有效性。最后,第五部分给出了本研究的结论和未来的工作。
2.相关工作和动机
AR和VR技术是技术领域最广泛讨论和研究的领域之一。他们的应用涵盖了许多领域,包括游戏、医疗、制造、娱乐等。然而,AR/VR系统面临的一个挑战是需要能够提供真实详细体验的高分辨率显示器。AR/VR中的图像处理和显示技术至关重要,因为它们直接影响用户对虚拟场景的感知。
超分辨率重建主要分为三类:基于重建的方法、基于插值的方法和基于学习的方法。插值算法可以分为两类:基于空间的插值和基于频率的插值。传统的基于空间的插值算法包括双线性插值[18],双三次插值[19],和最近邻插值[20]. 常见的基于频率的插值算法包括基于小波的插值[21]和基于局部线性嵌入的插值[22]. 插值[23]是一种常用的超分辨率算法,可以有效地提高图像的质量和细节。插值算法的优点是实现简单,计算复杂度低。然而,它们可能会引入噪声、模糊图像细节、改变图像的颜色和对比度,从而导致图像失真[24]. 为了解决这些问题,研究人员提出了改进的插值算法,如双线性插值的改进算法[25],可以有效降低噪声,提高图像质量和细节。基于重建的方法需要先验信息来约束重建过程。在处理放大系数较大的图像任务时,由于缺乏先验信息,算法的性能会变差。Dong等人[26]提出了第一种利用卷积神经网络(CNN)方法重建HR图像的模型,其结果优于一些传统方法。Simonyan K等人[10]用于超分辨率的超深卷积网络;虽然结果令人满意,但其网络层次太深。Jo Y等人[12]提出了使用查找表的超分辨率;这是一种快速的超分辨率方法,但效果并不明显。 面向视觉注意力区域的超分辨率算法可以减少计算量,降低计算复杂度。为了实现视觉-注意力-区域定向的超分辨率,需要一个追踪眼睛的系统。视线追踪系统包括一个活动摄像机[27,28]和红外摄像机。事件摄像机用于获取眼球运动信息,红外摄像机用于获取注视点。由于只需要对用户感兴趣的区域进行超分辨率处理,因此节省了计算资源。视觉-注意力-区域导向的超分辨率渲染技术可以在未来的AR/VR系统中得到广泛应用。 3.系统和方法
整个系统由事件摄像机、红外摄像机和显示装置组成。整个目测系统放置在显示设备前面,应低于显示设备的高度,以避免显示设备被遮挡而造成干扰。实验系统的结构图如所示图1. 红外相机是一种用于获取视线追踪数据和注视点的设备。它具有成本低、体积小、使用方便等优点。其原理是通过红外光的反射来检测眼睛的位置和运动,然后推断眼睛的注视点。具体地说,红外相机发射红外光,红外光被眼睛反射,相机捕获反射光。然后,使用图像处理算法分析反射光的位置和运动。通过比较不同时间拍摄的眼睛位置,相机可以计算眼睛的轨迹和注视点。
如上所述,本文提出的方法主要用于提高注视区域的分辨率,实现令人目不暇接的交互作用[29]采用超分辨率技术。该算法的框架包括三个部分:凝视获取、超分辨率重建和对比度增强。超分辨率重建包括三个步骤:计算对比度、计算权重和上采样。整个过程可分为五个步骤,如下所示图2. 以下步骤图2具体如下:首先,通过传感器获得视觉注意区域,计算该区域的对比度,计算Lanczos插值上采样过程中的权重,进行上采样,最后改进对比度锐化。 3.1、。凝视向量采集
凝视向量是指从眼睛到观察点的向量,用于确定用户的凝视方向和注视位置。首先,在初始校准阶段,用户专注于预先确定的区域(例如图1)在屏幕上;此时,红外摄像机和事件摄像机用于捕捉凝视矢量。获得了用户坐标系中由眼球跟踪器设备获得的注视向量与显示平面的注视向量之间的变换矩阵。其次,眼球追踪装置将对每个注视向量进行相应的矩阵变换,以获得唯一的显示注视向量。凝视向量使用以下公式计算:哪里表示凝视向量,表示固定点的坐标.表示眼睛的坐标。凝视向量被归一化,该向量的方向就是凝视方向。投影视线向量后,获得显示坐标系中的二维坐标值,即视线坐标,表示为用户在眼睛交互过程中注视的点。 3.2. 自适应空间分辨率增强模块
本文使用的超分辨率重建算法使用了一个具有12个核心像素的4×4滤波器,并呈现出椭圆形。最终的滤波核是使用双线性插值迭代生成的。核心思想是使用类Lancozs函数进行上采样。Lanczos函数本质上是一个可用于重采样算法的sinc函数,理论上它是一个最优重构滤波窗函数。此外,它的长度和窗口是自适应的,并且具有良好的抗锯齿特性。因此,我们将局部自适应类椭圆Lanczos滤波器引入到我们的空间分辨率增强算法中,并分别在水平和垂直方向应用它[30]. 我们简化了目标分辨率大小矩阵上的每个点,计算了映射到低分辨率(LR)图像的坐标,并获得了坐标附近的像素和纹理信息,用于计算纹理信息和重采样。通过四舍五入坐标值P获得的计算出的LR图像坐标像素点被存储为整数和小数部分。p+(1,−1)、p+(0,1)、p+(2,1)和p+(1,3)的坐标分别表示为Q0、Q1、Q2和Q3。每个像素的坐标关系如所示图3. 边缘检测算法[31,32]通常计算每个像素的梯度幅度和方向,并通过比较梯度幅度和阈值来确定它是否是边缘点。二维方向梯度向量,目录,表示相应方向的梯度值[33]. 计算每个像素的水平和垂直梯度值,并获得二维梯度向量。矢量的大小和方向可以用来表示像素的边缘特征。长度值,伦恩,表示梯度向量的大小或强度。梯度幅度表示图像中每个像素的局部变化或灰度斜率,较大的幅度表示更剧烈的变化,通常与边缘或角特征相关。如果梯度幅度超过预定义的阈值,则将其视为边缘点;否则,它被认为是一个非边缘点。二维梯度向量,目录,伦恩,可以初始化。计算每个像素亮度值的公式为:哪里R(右),G公司和B类分别是像素的不同通道的值。边缘通常由亮度变化较大的像素组成。以Qi坐标和像素亮度为输入,使用双线性插值迭代累加权重w。Lancoz类插值函数所需的参数是基于四个点的位置计算的。水平和垂直梯度大小和向量分别计算,表示为lx(勒克斯),dx公司和第页,第y天分别是。lx(勒克斯)和第页乘以权重值w,并与梯度幅值相加,伦恩,而每个方向上的梯度值乘以w并添加到水平和垂直方向的梯度向量。的梯度值和长度值目录对每个像素进行迭代计算,并根据w对上述结果进行加权和求和,以获得最终的梯度向量和长度。 边缘和非边缘区域采用不同的上采样方法。对于非边缘区域,使用加权平均来计算和处理每个点的权重值。对于边缘区域,加权平均会导致运动模糊,此时需要进行高通滤波。
使用类Lanczos函数对输入图像对应的每个采样点进行插值。连续模拟信号Lanczos4函数表示为: 将类Lanczos函数的连续模拟信号离散化,并用四阶多项式拟合。函数的形状由控制变量的范围控制.拟合函数为: 多项式中四阶项的系数用于控制采样函数的边缘特征。通过获取像素计算边缘特征问以及其在水平和垂直方向上的相邻像素,并且所得特征值表示为: 边缘特征E类为每个像素计算问以及其在水平和垂直方向上的相邻像素。然后使用以下方法将特征标准化为[0,1]: 边缘特征E类和重量ω计算卷积核中四个交叉形状区域的每一个,并且ω是相对于坐标位置的双线性插值。产生的结果ω然后用于在相应的采样点处的空间上采样。计算水平梯度和垂直梯度,并将其归一化为方向向量,如下所示: 确定灰度值变化最快的方向,并相应地旋转采样点处的梯度。计算旋转后的各向异性长度,并应用坐标变换(x·cosα+y·sinα,−x·sin al+y·cos a)以适应不同角度的边缘。计算旋转和缩放的RGB或RGBA像素值,并将其填充到目标矩阵模板中,以使用超分辨率算法生成超分辨率图像。
3.3. 对比度增强
首先,将高斯滤波器应用于超分辨率算法生成的图像,以平滑高频噪声并进行颜色空间转换[32]. 然后,使用3×3滤波器来计算每个像素周围区域的平均对比度,以确定像素所在区域的对比度水平。对于每个像素,计算其周围3×3像素的平均值和标准偏差,并根据平均值和基准偏差使用以下公式确定像素的对比度: 在这里,是像素值,是周围像素的平均值,std是周围像素标准偏差,k个是一个可以调整的参数,用于控制对比度的响应范围,而ε是一个常数,无限接近零,以避免被零除。
根据局部对比度值将图像划分为不同的区域。对于对比度低的区域,图像的清晰度会得到增强,以提高其清晰度和细节。计算公式如下: 该公式实现对比度增强,其中我(x个,年)表示像素的亮度值(x个,年)在原始图像中,μ和σ表示当前区域的平均值和标准差,以及k个和τ是调整参数。分子减去当前区域的平均值,分母1+k个(σ/τ−1)是根据不同区域的对比度进行调整的自适应增益。
高对比度区域保持图像的原始清晰度,避免过度对比度增强,从而放大噪声并产生伪影。最终图像中每个像素的权重由其局部对比度值确定。原始图像使用加权平均值与局部对比度增强图像混合,保留原始图像的细节和颜色,同时提高清晰度和对比度。锐度系数α可以定制以实现所需的锐化程度。锐度α在[0,1]范围内。输出图像如下所示: 在这里,硅是锐化的图像和氧指数是原始图像。什么时候?α为1时,输出图像与原始图像相同;什么时候α为0,则输出图像为锐化图像。
3.4。评价指标
我们使用峰值信噪比(PSNR)和结构相似性(SSIM)来评估结果。PSNR[34]计算如下:哪里是图像中像素值的最大可能值,通常为255;MSE公司是均方误差;H(H)和W公司表示给定图像的高度和宽度;和X(X)(我,j个)和Y(Y)(我,j个)表示与真实高分辨率图像和生成的超分辨率图像相对应的像素大小。SSIM公司[35]值为:哪里x个和年表示原始图像和处理后的图像,和表示的平均值x个和年分别为,和表示的方差x个和年分别为,表示的方差x个和年和和是两个常数,用于避免无分母0的情况。 平均意见得分(MOS)[36]是在体验质量和电信工程领域中使用的一种度量,代表刺激或系统的整体质量。它是受试者对系统质量表现的意见所指定的所有单个“预定义尺度上的值”的算术平均值。此类评级通常是在主观质量评估测试中收集的。测试人员根据他们对本文测试集的主观印象进行评分。 4.实验与分析
本部分包括三个部分:第一部分描述了实验系统的设计,第二部分验证了超分辨率算法的有效性,第三部分模拟并实现了跟踪眼球的交互式超分辨率技术。
4.1. 超分辨率算法的评估
为了验证所提超分辨率算法的有效性和可靠性,分别进行了定量和定性验证。从定量的角度来看,我们的超分辨率算法采用了两个评价指标:峰值信号噪声(PSNR)和结果相似性(SSIM)。根据双三次方法对数据集中的高分辨率原始图像(HR)进行降采样,并分别根据0.5和0.25系数对水平和垂直方向进行降采样以获得相应的低分辨率图像数据集(LR)。根据我们的上采样超分辨率算法重建图像,以获得相应的超分辨率(SR)图像。使用上述评价指标对超分辨率图像和超分辨率算法后的原始高分辨率图像进行评价。在采样到相同的空间分辨率后,使用双三次、最近和双线性等传统超分辨率算法计算这两组指标。同时,基于深度学习的超分辨率算法,如VDSR[10],用于以与对照组相同的倍数提高下采样图像的分辨率,以计算两组指标。通过对数据集中各组指标进行平均,得出最终PSNR和SSIM。在×2超分辨率重建过程中,所提算法和其他算法的PSNR和SSIM如所示表1. 在×4超分辨率重建过程中,所提算法和其他算法的PSNR和SSIM如所示表2. 根据中的结果表1和表2与基于深度学习的算法相比,该算法在两个评价指标上都达到了与Vdsr相似的性能,并且释放了更多的计算负担。 从定性的角度来看,我们使用了主观平均分(MOS)评价指数。将多组超分辨率重建图像混合在一起,包括传统方法和深度学习方法重建的图像。在要求60名测试人员在每组中选择最具视觉效果的图像后,本文提出的超分辨率算法产生了更好的视觉效果。MOS指数如所示表3由此可见,本文提出的方法是有效和可靠的。 我们的超分辨率重建与其他超分辨率重建之间的视觉差异如所示图4. 结果表明,我们提出的超分辨率算法具有更好的视觉效果。通过使用我们的方法,可以在图4a.自然风光图4c、 e的纹理更清晰。中的详细信息图4b、 d更容易复制,例如中的汽车轮廓图4d.因此,可以得出结论,所提出的方法更加有效和可靠。 4.2. 眼球运动相互作用与固定区超分辨
4.2.1. 获得注视区域和眼球运动轨迹
传感器的应用场景是获取注释信息。红外相机捕捉眼睛的图像并提取瞳孔的位置和大小。根据瞳孔在图像中的位置,可以确定眼睛的方向矢量。通过记录眼睛的运动轨迹,可以得到眼睛的运动矢量。将眼睛的方向向量和运动向量结合起来,就得到了凝视向量。事件摄像机是一种新型的图像传感器,可以快速捕获和处理视觉事件信息。与以固定帧速率捕获和处理图像的传统相机不同,事件相机单独记录图像传感器中每个像素的光强度变化,并以非常高的时间分辨率生成事件数据。事件输出仅在像素值更改时生成。红色和绿色通常用于表示不同的事件类型或时间戳。颜色表示像素强度的变化。这种颜色编码有助于更好地捕捉眼球追踪数据。获得的红外凝视如所示图5,而活动摄像机捕捉到的眼球轨迹如所示图6。红色表示像素亮度增加,绿色表示像素亮度降低。 4.2.2. 提高固定区域的图像分辨率
在近眼显示系统中,面向视觉注意力区域的超分辨率非常重要。为了验证算法的鲁棒性,根据用户的注视习惯对椭圆形状注释轨迹进行了模拟。该模拟对凝视点中心区域的水平和垂直分辨率进行了采样,实现了×4的超分辨率效果,并执行对比度增强以突出显示边缘细节。对于外层,该模拟仅执行对比度增强,可以有效满足超分辨率和视觉效果的要求,同时降低计算成本,并将眼球运动跟踪过程中的延迟降至最低。人眼在视网膜中央5.2°区域具有高灵敏度。因此,我们只需要提高高灵敏度区域的分辨率。实验表明,与处理整个图像相比,基于视觉注意区域的超分辨率算法可以节省约80%的计算资源。
如所示图7,该模拟采用了一个用红点标记的椭圆凝视轨迹。 根据模拟的椭圆注释轨迹,确定待处理区域。
只要获得用户在人机交互过程中生成的眼动数据,就可以计算出凝视点在显示器上的运动轨迹。用实际的注视轨迹代替模拟的注视轨迹,该算法可以用于实际的人机交互系统。全局模拟结果如所示图8. 特定凝视点下的模拟效果如所示图9。红色矩形框围绕用户正在查看的固定点构建。该区域的这一部分进行了上采样以提高分辨率,同时进行了对比度自适应锐化。在红色框外,只有对比度自适应锐化在蓝色框内进行。蓝色框以外的区域表示原始图像。 上图表明,所提出的基于眼球追踪的眼动交互超分辨率算法是有效和可靠的。红色矩形中复杂建筑的边缘信息得到了很好的保存。与蓝色矩形框外相比,红色矩形框外和蓝色矩形框内的对比度显著提高。
将本文的插值算法与其他传统插值算法的运行时间进行了比较,实验结果如所示表4与其他传统算法相比,该算法所需时间稍长。然而,重建效果明显优于其他传统效果。我们使用的显卡是NVIDIA GeForce RTX4090;我们使用的CPU是第13代Intel(R)Core(TM)i9-13900K。 通过实验测试了全局执行算法和注释区域执行算法的用户满意度。实验结果如所示表5. 5.结论
分辨率增强对人类视觉很重要。在本文中,我们开发了一种用于视觉注意区域的轻量级分辨率增强算法。首先,提出了眼睛跟踪系统,以获取三维视线矢量和眼睛运动轨迹。其次,通过凝视向量获得观察坐标,通过敏感视场角定义视觉注意区域。然后,在视觉注意区域进行基于插值的自适应空间分辨率增强和对比度增强调整。最后,从定性和定量两个维度验证了该方法的可行性。实验结果表明,该方法可以显著改善视觉效果。实验表明,与处理整个图像相比,基于视觉注意区域的超分辨率算法可以节省约80%的计算资源。虽然所提出的眼睛跟踪交互式超分辨率算法成功地提高了基于凝视区域的分辨率,但在实时性能方面仍有改进的空间。未来,将使用眼球追踪系统获取的凝视和眼球追踪信息来实时测试这种眼球追踪交互式超分辨率算法的性能。该算法将部署在VR/AR设备中,以测试算法性能。