Portrait Semantic Segmentation Method Based on Dual Modal Information Complementarity

Feng, Guang; Tang, Chong

doi:10.3390/app14041439

开放式访问第条

基于双模信息互补性的人像语义分割方法

通过

广丰

¹和

冲堂

^2,*

¹

广东工业大学自动化学院，广州511400

²

广东工业大学计算机学院，广州511400

^*

信件应寄给的作者。

申请。科学。 2024,14(4), 1439;https://doi.org/10.3390/app14041439

收到的提交文件：2024年1月11日/修订日期：2024年2月2日/接受日期：2024年2月3日/出版时间：2024年2月9日

（本条属于本节计算与人工智能)

下载

浏览地物

版本注释

摘要

:

人体图像的语义分割是计算机视觉领域的一个研究热点。目前，基于U-net的语义分割模型普遍缺乏捕捉图像空间信息的能力。同时，由于编码器和解码器的特征映射在跳过连接阶段直接连接，因此存在语义不兼容。此外，在夜间等低光场景中，很容易出现虚假分割和分割精度问题。为了解决上述问题，提出了一种基于双模信息互补的人像语义分割方法。该编码器采用双分支结构，使用SK-ASSP模块自适应调整不同受体场的卷积权重，分别在RGB和灰度图像模式下提取特征，并进行跨模式信息互补和特征融合。在跳转连接阶段使用混合注意机制来捕获图像的通道和坐标上下文信息。在人像数据集上的实验表明，该算法模型的PA和MIoU系数分别达到96.58%和94.48%，优于U-net基准模型和其他主流语义分割模型。

关键词：

纵向分割;U型网;空间金字塔池;注意机制;交叉模型

1.简介

语义分割是计算机视觉领域的主要研究课题之一，是计算机从整体到像素级识别图像信息特征的必要过程。语义分割的核心是根据图像本身的信息特征，如图像像素之间的灰度分布和图像纹理，将图像划分为具有不同语义标签的不重叠子块[1]. 纵向语义切分是语义切分的重要组成部分。肖像语义分割的目的是将肖像语义区域从包含肖像的图片中复杂的背景信息语义区域中分离出来，从而获得良好的肖像边界[2]. 在现实生活中，人们通过摄像机或其他设备将场景转换为图像，然后使用算法对图像中客观肖像对象的语义进行分割和标记，从而实现应用，方便人们的生活。训练有素的高精度肖像分割模型也可以用作整个肖像智能系统的预处理模块，避免了后续操作中对背景等无关信息进行特征提取，从而提高了整个系统的准确性[三]. 然而，真实的人像图像具有不同目标大小和不同背景信息的特点，这使得人像的语义分割具有很大的挑战性。首先，与传统的语义分割相比，纵向语义分割模型需要面对更多目标尺寸较大的图像，这测试了模型的泛化能力，使得模型的分割细节更难保证[4]. 同时，由于人像图像中的背景像素和目标像素相对接近，现有模型在夜间等低光场景中容易出现目标人像丢失和背景误判现象，模型的分割精度需要提高。

为了解决上述问题，本文提出了一种基于双模信息互补的纵向语义分割模型，该模型又基于U-net网络。本文的主要贡献总结如下：

(1): 在编码器阶段，我们基于RGB模式和灰度模式提取图像特征：将RGB图像和灰度图像同时作为模型编码器的输入，得到相应的特征表示，并进行特征融合。灰度图像可以直接由RGB图像转换，避免了在数据集中采集其他模态图像的开销，实现了双模态下的信息互补和特征提取。灰度图像的特征提取提高了模型在弱光下提取目标图形的能力。
(2): 我们提出SK-ASSP（Selective Kernel-Atrous Spatial Pyramid Pooling）模块作为编码器阶段的一种新的特征提取模块：SK-ASSP通过软注意，根据图像中目标的大小动态调整不同感受野的空洞卷积的权重，从而为不同尺寸的人像目标提供特征提取能力。同时，SK-ASSP利用边缘优化分支，根据边缘特征图提高目标人像的边缘分割精度。
(3): 我们提出了混合并行注意机制来改进编解码连接过程：通过并行信道注意模块和位置注意模块，分别捕获输入特征的信道信息和位置信息。

2.相关工程

2.1. 基于CNN的语义分割

卷积神经网络（CNN）可以从训练图像中自动学习不同的混合表征特征，从而对图像进行语义分割[5]. 在此基础上，学者们设计了大量新的高效语义分割算法，其中以U-net为代表的语义分割模型[6]现在已经成为语义分割的流行选择，因为它可以在较小的数据集上表现良好。U-net的结构如所示图1主要分为三个部分：编码器、跳接器和解码器。在U-net网络中，编码器阶段负责图像的特征提取，其中连续的下采样操作允许模型获得图像的低分辨率信息。解码阶段负责对图像特征映射进行约简，从而恢复图像的深层特征信息。跳跃连接阶段将编码器输出特征与解码器阶段特征连接起来，这有助于模型有效融合图像的深层和浅层特征。跳跃连接的建立可以帮助模型在像素级实现语义分割，从而为分割提供更精细的特征。

然而，当U-net应用于人像语义分割领域时，编码器中卷积核的固定接受域使得模型无法自适应调整接受域，从而导致模型无法捕获不同尺寸人像目标的像素信息，导致图像的一些比例信息丢失[7]. 为了解决这些问题，Chen等人[8]提出了deeplad v3+模型，较好地解决了模型无法捕捉图像中不同尺度信息的问题，并提出了Atrous Spatial Pyramid Pooling（ASPP）模块。其中，ASPP模块并行化具有不同扩展率的多个分支的空穴卷积，提取不同大小感觉场的多尺度特征，有助于模型更好地聚焦图像中不同大小目标物体的像素信息[9]. 然而，深层v3+不足以实现要素图的多尺度连接[10]并且由于编码器和解码器之间的直接连接，没有注意编码器和解码器特征之间的语义差距，这可能导致目标边缘边界分割精度较差。为了解决这些问题，Oktay等人[11]提出了注意力U-net，该方法在下采样结果中增加注意力系数，并通过在跳转连接阶段引入注意门来修剪特征映射以减少语义鸿沟。虽然单个注意机制缺乏局部特征信息和全局信息之间的交互作用，但各种注意机制的组合可以帮助模型更加关注像素位置信息[12]. 在这方面，通过链接跳跃阶段的多个注意机制，我们可以获得通道或空间等多维特征向量的注意权重，从而为下采样结果提供更深入的信息，从而缩小上采样结果和下采样结果之间的语义差距[13,14].

2.2. 跨模态的语义分割

不同模态的图像关注图像的不同特征信息，学者们认为，使用多种模态的图像进行语义分割有助于捕获从不同聚焦的图像中提取的特征，提供补充信息，帮助提高网络的辨别能力[15]. Zhang等人[16]提出在双编码器结构中，从红外图像模态和RGB图像模态两种模态中提取关键信息，然后通过注意模块进行融合，可以有效地改善建模夜景的语义分割。ABHINAV等人[17]在多模态分割的基础上，在分割模型中引入了自监督模型，并使用自适应融合机制将编码器中的多个特征集成到单个解码器中，动态调整不同场景中不同模态特征的权重，从而提高了模型在各种复杂场景中的泛化能力。这是基于上述思想，同时，由于灰度图像比RGB图像更注重对象的亮度、结构和形状。因此，基于RGB和灰度图像两种模式的语义分割模型可以有效解决弱光场景中分割精度差的问题。

然而，另一方面，如果直接总结图像不同模式的特征映射，则多模态语义分割的优势将无法得到充分利用。因此，学者们大多使用注意模块对多模态的特征映射进行特征融合，然后在信息交互后获得特征映射[18]. Wang等人[19]提出了MCF模块，该模块通过空间上下文融合（SCF）块提取多尺度空间信息，并通过压缩学习平衡信道特征进行多模式特征融合。此外，Li等人[20]通过引入多注意力机制对多模态的特征相关性进行建模，以获得信息交互后的特征表示。

3.方法

3.1. 总体架构

本文提出的模型主要分为三个部分：编码器、Skip连接和解码器。结构如所示图2.

编码器部分由两个分支组成：RGB图像输入和灰度图像输入。在两种模式下输入的每个图像将首先进行3×3卷积，以获得两种模式中的浅层特征。然后，进行三次连续的下采样操作：首先，进入SK-ASSP模块，获得相应模式下的特征图，然后将RGB和灰度两个分支的输出输入到交叉模式互补模块进行特征融合，得到这一层的下采样结果。总共进行3次下采样操作后，输入解码器进行上采样操作。

在跳接部分，本文采用了混合并行注意模块。在该模块中，在通道维度和坐标维度上同时进行注意力操作，以捕捉特征中的局部和全局空间信息，并挖掘空间和通道维度上肖像图像的上下文相关信息。

在解码部分，使用三个连续的上采样块将特征图像恢复到相应的大小。每次上采样后，图像大小都会变大。本文将原有的U-Net结构特征图拼接操作改为逐像素相加，从而降低了维数。最后，通过3×3卷积得到该模型的输出。

3.2. SK-ASSP模块

本文提出了SK-ASSP模块，该模块由自适应ASSP分支和边缘细节优化分支组成。其结构如所示图3.

自适应ASSP分支的前半部分与ASSP模块一致，主要由三个不同扩展速率的atrous卷积并行计算组成（d=1，d=2，d=3）。同时，使用不同扩展率的卷积得到的特征映射在级联之前被分层添加，从而避免了扩展卷积的网格问题[21]. 自适应ASSP分支的后一部分是基于ASSP模块的自适应权重调整。首先，将级联后的特征图进行全局合并，然后通过fc（全连接）层和M向量（M是模块中的空腔卷积数，图中M=3）进行聚合和压缩，再次获得。然后，通过softmax运算获得这三个向量中每个向量的权重。最后将softmax运算后得到的权重与三个扩展卷积的输出相乘，得到带权重的特征映射。

边缘细节优化分支首先进行3×3卷积以获得初始特征图，然后进行门限卷积以确保边缘分支仅处理边界相关信息[22]. 之后，新的特征图将进入边界分支和方向分支。在边界分支中，经过1×1卷积和BN（Batch Normalization）层，进行距离映射以计算与其他对象语义类型的最小距离。在对所有距离图进行聚合后，模型可以得到最终的距离图。在最终距离图中，距离值小于阈值y的所有像素（此处的阈值为5，重点是细化薄边界[23])设置为边界以获得相应的边界图。另一方面，方向分支首先经过1×1卷积和BN层，然后执行Sobel滤波器来计算相应的方向映射（值范围0–360）。每个方向都指向距离对象边界最远的内部像素。整个方向范围分为m类（其中m为8[23])，将每个像素的方向指定给相应的类别，以获得相应的方向映射。最后，将两个分支的映射相乘得到边缘优化特征映射。

最后，添加边缘优化特征图和自适应ASSP特征图，得到最终的特征图。自适应ASSP分支可以获得多尺度密集的空间信息，同时保留更多的细粒度特征，有助于模型对输出进行自适应处理。边缘优化分支可以有效地解决灰度图像中边缘细节模糊的问题[24].

3.3. 跨模态互补模块

同一图像的不同模式聚焦于不同的特征。RGB模式侧重于图像的颜色和纹理特征，而灰色模式侧重于图片的亮度、结构和形状特征。为了使从RGB图像和灰度图像的两个分支中提取的特征图信息互补，从而进行交叉模式特征融合，本文在CMF模块（交叉模型融合）的基础上进行了改进[25]，并提出以下交叉模式互补模块，其结构如所示图4.

本文使用的交叉模式互补模块首先对RGB和灰度图像模式下的特征图输入进行自我注意操作。与传统的自关注操作不同，该自关注操作使用自身模式的Q和V以及另一模式的K作为输入，然后进行第一次信息交互，以建模两种模式下特征图的相关性。

然后，根据原始CMF模块，将获得的自关注向量相加，并在softmax操作后输入到多层感知器MLP中，以及相应的向量α,β然后将各个模式的输入相乘，以获得相应模式下的新特征图。然后将特征映射添加到另一模式的输入特征中，完成两种模式对应特征之间的第二次信息互补，得到两个新的特征映射输出。然后，通过softmax分别对两种模式下的新特征图进行运算，得到相应的权重矩阵α_RGB（RGB）,β_灰色，可用于调整两个输出特征映射的权重。最后，将乘法后得到的结果相加，得到两种模式的互补信息后的特征图。

3.4. 混合并行注意模块

通过在跳跃连接阶段使用混合并行注意机制，在保留长连接结构的同时，可以为子样本结果提供更多的全局信息[26]，可以在不同的维度上进行加权，从而实现更准确的人像边缘细节提取。本文使用一个主要由通道注意和位置注意组成的混合注意模块，从通道和坐标两个层次捕获图像的空间信息。其结构如所示图5其中，上部为通道注意模块，下部为位置注意模块。通过学习不同通道的权重，通道注意机制可以减少无效通道的响应，抑制无用特征的激活。位置注意机制通过对任意两个像素建模来表示两个位置的相关性，因此具有相似特征的两个像素可以相互促进并获得更高的权重。

在信道注意模块中，首先将维数降低1×1卷积，然后通过Avgpool和Maxpool对输入的空间信息进行聚合。然后，通过多层感知器MLP，两个空间上下文特征表示一和B中，获得。最后，将这两个特征进行元素合并，并得到相应的通道注意图M（M）如等式（1）所示：

M（M） = σ (M（M） L（左） P（P） (α_一 v（v） 克) + M（M） L（左） P（P） (β_最大值))

(1)

哪里σ表示sigmoid函数，多层感知器的隐藏激活大小，MLP公司设置为R^C/r×1×1（r是减速比），α_平均值和β_最大值分别表示在AvgPool和MaxPool之后获得的向量。最后，注意力图M（M）乘以输入特征，得到通道注意特征图。

在位置注意模块中，对于输入特征，首先通过1×1卷积进行降维操作，特征C类和D。尺寸与输入特征相同。获得。然后。特征C类被转置并具有特征D类逐像素相乘，以模拟特征地图中任意两个像素的相似性，以及相应的位置注意图P（P）计算结果如式（2）所示：

{P（P）}_{我 j个} = \frac{经验 ({B类}_{我} \times {C类}_{j个})}{\sum_{我 = 1}^{N个} 经验 ({B类}_{我} \times {C类}_{j个})}

(2)

哪里P（P）_ij公司表示j个第个像素和我输入特征中的第个点。N个=H×W，其中H和W分别是输入特征的高度和宽度。然后，注意图P（P）与输入特征相乘以获得位置注意力特征。然后将获得的注意图和输入特征相加，得到坐标注意特征。

最后，分别使用1×1卷积将两个注意特征映射恢复到输入维，然后进行特征融合以获得输出映射。

3.5. 损失函数

为了获得图像中目标肖像的上下文信息，本文在模型编码器阶段使用了空卷积。与标准卷积相比，虽然它具有更大的接收场，但其边缘分割精度会降低。Bischke等人[27]提出了一种多损失方法来增强最终的语义分割结果，并使用不同的数据函数对数据结果进行不同方面的约束，对约束模型的输出取得了良好的效果。受此启发，本文的模型通过混合损失来优化语义分割结果，这意味着模型的输出受到两个损失函数的约束。本文中使用的损失函数的组成如下：

我 o个 秒 秒 = α 我 o个 秒 秒_{第页 b条} + β 我 o个 秒 秒_{秒 秒 我 米}

(3)

哪里损失_铅表示基于像素损失,损失的_{空间信息模型}代表结构相似性。α和β是偏差参数（其中α+β=1），即逐步提取信息，并对分割的边缘信息和总精度信息进行初步评估和约束。

基于像素的损失：主要用于比较两幅图像之间的像素级差异。它可以分为两部分：第一部分是像素携带的信息总量，用二进制交叉熵表示。第二部分基于像素值间隙测量，比较了分割结果与成对人工生成标签之间的差异。其定义为：

\begin{array}{l} 第页 b条 我 = 1 - 第页 第页 我 \\ = 1 - \frac{1}{(\begin{matrix} N个 \\ 2 \end{matrix})} \sum_{我, j个, 我 \neq j个} [我 (我_{我}^{S公司} = 我_{j个}^{{S公司}_{K（K）}}) {第页}_{我 j个} + 我 (我_{我}^{S公司} \neq 我_{j个}^{{S公司}_{K（K）}}) {第页}_{我 j个}] \end{array}

(4)

哪里N个表示像素数。S公司_k个表示拆分标签集，S公司代表一组基本事实，以及P（P）_ij公司表示概率。P（P）_ij公司基于所有分割像素对的平均值进行计算。这个第页_里介于0和1之间，其中0表示分割结果与分割标签相反，1表示分割结果准确无误，每个像素都被准确分类。

空间信息模型：主要用于测量预测样本与实际样本之间的相似程度。因为它考虑了每个像素的局部邻域，所以可以为边界指定更高的权重[28]. 其定义为：

秒 秒 我 米 = 1 - \frac{(2 μ_{x个} μ_{年} + {C类}_{1}) (2 σ_{x个 年} + {C类}_{2})}{(μ_{x个}^{2} μ_{年}^{2} + {C类}_{1}) (σ_{x个}^{2} + σ_{年}^{2} + {C类}_{2})}

(5)

哪里x个和年分别表示为两张图片的像素，μ_x个和μ_年是的平均值x个和年、和σ_x个和σ_年是的标准偏差x个和年.C类₁设置为0.022，并且C类₂设置为0.042以防止分母为0[29].

结合这两个损失函数，可以在分割过程中有效地优化目标纵向边界的细节，从而提高模型的整体分割精度。

4.实验

4.1. 实验环境

本文的实验主要在python3.8、pytorch1.7、Cuda 11.0环境中进行编码，并在配备Intel i7-11700k CPU（美国加利福尼亚州圣克拉拉）、RTX 3070显卡（美国加利福尼亚州圣克拉拉NVIDIA）和16g内存的计算机上进行训练。选择adam迭代器进行训练，网络参数的初始学习率设置为0.01。经过几次实验，偏差参数α和β在混合损失函数中分别设置为0.3和0.7，批大小设置为16，并进行了100次迭代训练。前50节课进行了冷冻训练，后50节课取消了冷冻训练。

4.2. 数据集

由于人像数据相对珍贵，可用的人像图像数据相对有限。为了更好地训练人像分割网络，本实验主要采用开放的人像数据集进行人像抠图[30]作为基础数据集，然后分析了基于交叉模态高阶推理模型的个性化引导研究项目中教室摄像机拍摄的1000幅肖像图像。此外，还进行了统一规格的裁剪（600×800像素大小），以完成数据集的构建。

由于初始数据集中的图像无法充分模拟实际场景中人像图像中复杂的背景、曝光、天气等因素，本文将使用数据增强来扩展数据量，主要是通过将实际图像中的前景对象合成到新背景上。它主要包括图像颜色调整（对比度调整和亮度调整）{0.5，1.5}。图像背景替换（天气效果随机添加{雨、雪、云、阳光}和季节性背景替换{春、夏、秋、冬}）。效果如所示图6.

最后，构建了6800个数据集，按照6:2:2的划分比进行划分，其中4080个数据集用作训练数据集，1360个数据集作为验证数据集，以及1360个测试数据集。

4.3. 评估指标

肖像语义分割实际上可以转化为肖像语义标签区域和背景语义标签区域之间的二元分类问题[23]. 在本文中，像素精度PA公司（像素精度）和百万美元评估了（联合平均交集）指数。计算公式如下：

\begin{array}{l} P（P） 一 = \frac{T型 P（P） + T型 N个}{T型 P（P） + T型 N个 + F类 T型 + F类 N个} \end{array}

(6)

M（M） 我 o个 U型 = \frac{1}{K（K） + 1} \sum_{我 = 1}^{K（K）} \frac{T型 P（P）}{F类 N个 + F类 P（P） + T型 P（P）}

(7)

在公式（6）和（7）中，TP（转移定价）表示真实示例（即测试样本中的目标肖像可以准确预测为目标肖像），FN公司表示虚假反例（即测试样本中的肖像背景可以准确预测为成人肖像背景），FP公司表示假阳性示例（即测试样本中的肖像背景可以预测为目标肖像），并且FP公司表示假阳性示例（即测试样本中的肖像背景可以预测为目标肖像）。TN公司代表真实反例（表示测试样本中的肖像背景可以准确预测为成人肖像背景）。在公式（7）中，K（K）表示分类的类别（本实验中为2）。

4.4. 模块消融实验

4.4.1. 基于编码器的烧蚀实验

为了验证模型编码器的有效性，使用双分支进行模态信息互补，使用SK-ASSP作为特征提取模块，进行了烧蚀实验，并建立了以下六组网络：Network_1表示U-net基准模型。Network_2使用U-net基本模型和添加灰度图像输入的编码器表示模型。Network_3表示使用U-net基本模型的模型，编码器添加灰度图像输入，并添加跨模态互补模块进行特征融合。Network_4是在Network_3的基础上增加ASSP模块的模型，用于RGB图像和灰度图像的特征提取。Network_5表示在Network_3的基础上将SK-ASSP模块添加到编码器中，并使用自适应ASSP分支对RGB图像和灰度图像进行特征提取的模型。Network_6是在Network_3的基础上，将SK-ASSP模块添加到编码器中，并使用自适应ASSP分支和边缘优化分支对RGB和灰度图像进行特征提取的模型。实验结果如所示表1:

根据表1，与Network_1相比，具有灰度图像输入的Network_2的PA和MIoU分别增加了0.09%和0.11%。在Network_2的基础上，Network_3加上用于特征融合的交叉模式互补模块，与Network_1相比，在PA和MIoU方面分别提高了0.2%和0.24%。与Network_1相比，具有ASSP结构的Network_4改进了PA和MIoU，这证明了空穴卷积可以有效地提高模型的分割精度。与PA和MIoU中的Network_2相比，使用SK-ASSP模块的Network_5和Network_6在ASSP模块的基础上进行了改进，比Network_4有更大的改进。与网络4相比，网络5在PA和MIoU中分别增加了0.45%和0.64%。Network_6在PA和MIoU方面也分别比Network_4有0.2%和0.32%的优势。

4.4.2. 基于注意模块的烧蚀实验

为了验证混合注意模块在跳跃连接阶段的有效性，本文建立了五个基于注意的网络并进行了消融实验。Network_1表示U-net基准模型。Network_2表示在跳转连接阶段引入注意门的注意U-net。Network_3表示U网络模型，在跳跃连接阶段添加了CBAM模块[31]. Network_4表示本文在跳转连接阶段使用的混合注意机制的模型。实验结果如所示表2:

根据表2与Network_1相比，PA和MIoU中引入注意门的Network_2分别增加了0.52%和0.96%，而PA和MIoU中引入CBAM模块的Network_3分别增加了0.94%和1.29%。实验证明，引入注意力机制可以有效地提高分割精度。与Network_3相比，使用通道注意和位置注意的Network_6在PA和MIoU中也有0.14%和0.21%的优势，这证明本文使用的混合注意模块比CBAM模块更能提高纵向语义分割的准确性。

4.4.3. 基于损失函数的烧蚀实验

本文采用基于像素的损失和结构相似性损失组成的加权损失函数。为了验证本文提出的混合损失函数的有效性，并确定偏置参数α和β的最佳值，进行了烧蚀实验。α和β的值范围为0.1至0.9，而α和β值为1。如图所示，当α为0.3，β为0.7时，获得了最佳结果表3.

4.5. 网络比较实验

在本节中，为了评估本文提出的模型的性能，将其与算法模型U-net的评估指标进行了比较[5]、LinkNet[32]，纵向网络[33]，Deeplab v3+[7]和Trans-UNet[34]. 实验结果如所示表4.

从中可以看出表4，本文提出的算法在两个分割指标PA和MIoU上表现最佳。其中，与本文的基准模型U-net相比，PA和MIoU的改进分别为2.17%和3.42%，这意味着改进是明显的。与基于U-net网络和编码器级剩余结构改进的LinkNet相比，本文模型在PA和MIoU方面分别提高了1.35%和2.36%。与轻量级模型PortraitNet相比，该模型在PA和MIoU方面也具有0.94%和1.15%的优势。同时，与在编码器阶段也使用ASSP模块进行特征提取优化的Deeplab v3+相比，本文的模型在PA和MIoU中也可以提高0.67%和0.79%。最后，与Trans-Unet相比，在编码器阶段引入变压器后，本文的模型在PA和MIoU中也可以领先0.29%和0.32%。同时，该模型的参数个数和平均分割时间均小于Trans-Unet模型。

为了更直观地评估本文研究模型的分割效果，在上图中选择了两组图像来显示每个模型的实际结果的视觉效果。其中，第二组实验图像是低光场景中的肖像分割图像。分割结果如所示图7.

可以看出，U-net模型在图7（a1，a2）。LinkNet和PortraitNet的分割效果优于U-net，但在这两个方面图7（c1，d1），在肖像和表格之间的接触点，被归类为肖像语义的背景出现了某种程度的错误分割。更糟糕的是，在图7（c2，d2），两者都显示出更明显的肖像被误认为背景的现象。Deeplab v3+英寸图7（e1）基本上完成了很好的人像分割，但在手臂等人像的边缘细节上，精度仍需提高。与此同时，在图7（e2）在低光场景中，仍然存在一定的人像丢失现象。在图7（f1，f2），Trans-UNet可以很好地分割目标肖像。然而，它仍然出现在背景中的错误判断，在肖像的左下角的黑暗场景中图7（f2）。与其他语义分割模型相比，本文提出的模型对右袖子和手指等边缘细节具有更好的分割精度图7（g1）。在图7（g2），在弱光场景中，人像保存最完整，背景辨别，如手臂和身体之间的间隙，比其他语义分割模型更接近标准分割结果，分割精度最好。

5.结论

本文提出了一种新的基于双模信息互补的语义分割方法，该方法主要是基于U-net基本模型结构设计的。该模型使用RGB图像和灰度图像两种模式图像，解决了当前基于U网的语义分割模型在面对不同尺寸的人像边缘时分割精度较差的问题，并且在低光场景中容易出现分割错误现象。

我们还建议将SK-ASSP模块作为特征提取模块，分别提取两个模态图像的特征。SK-ASSP模块可以针对不同大小的人像自适应调整卷积核权重。同时，利用方向映射和距离映射有效地优化了人像的边缘分割精度。然后，我们使用交叉模态互补模块交换两个模态的特征图上的信息。在跳跃连接阶段，编码器和解码器通过混合并行注意模块连接，特征映射在通道和坐标维上建模，并在空间和通道维上挖掘肖像图像的像素上下文信息。

基于上述改进，本文的模型在基于人体模型的增强数据集中表现良好，在PA和MIoU中分别达到96.89%和95.48%，这比本文的基准模型U-net在PA和MIoU中都有较大的改进；同时，它比语义分割模型LinkNet、PSPNet、deeplab v3+和Trans-UNet具有更高的分割精度。在实际的图像分割效果中，本文的模型对人像边缘分割的细节，如指尖具有较好的分割效果。未来，我们将重点关注如何通过减少模型参数的数量来减轻模型的重量，同时保持模型的高精度，并获得更易于部署的纵向语义分割模型。

作者贡献

概念化，G.F。；方法论，C.T。；软件，C.T。；验证，C.T。；资源，G.F。；书面原稿编制，C.T。；所有作者均已阅读并同意手稿的出版版本。

基金

本研究和APC由广东省哲学社会科学规划项目资助，项目名称：基于跨模态高阶推理模型的个性化指导研究，批准号GD23YJY08。

数据可用性声明

本研究中提供的数据可向相应作者索取。由于包含肖像隐私信息，数据无法公开。

利益冲突

作者声明没有利益冲突。

工具书类

蔡J.L。基于深度学习的图像语义分割技术研究; 广东工业大学：中国广州，2021年。[谷歌学者]
X·王。基于深度学习的人像分割研究; 西北农林科技大学：中国咸阳，2022年。[谷歌学者]
贾，D.Y。基于深度学习的道路坑洞语义分割; 宁夏大学：中国银川，2022年。[谷歌学者]
王，X。；Wang，M.L。；Bian，D.W.结合MobileNetv2和注意机制的肖像分割算法。计算。工程应用。 2022,58, 220–228. [谷歌学者]
Kuai，Y。；王，B。；Wu，Y.L。；陈，B.T。；陈，X.D。；Xue，W.B.基于无人机图像多尺度特征感知网络的城市植被分类。地质信息科学杂志。 2022,24, 962–980. [谷歌学者]
奥拉夫·R。；菲利普，F。；Thomas，B.U-net：生物医学图像分割的卷积网络。2015年10月5日至9日在德国慕尼黑举行的第18届国际会议《医学图像计算和计算机辅助干预会议记录》；施普林格：瑞士查姆，2015年；第234-241页。[谷歌学者]
苏·R。；张，D。；刘，J。；Cheng，C.MSU-Net：用于二维医学图像分割的多尺度U-Net。前面。遗传学。 2021,12, 639930. [谷歌学者] [交叉参考] [公共医学]
Chen，L.C.（法律顾问）。；Zhu，Y。；帕潘德里欧，G。；施罗夫，F。；Adam，H.用于语义图像分割的具有惊人可分离卷积的编码器-解码器。2018年9月8日至14日在德国慕尼黑举行的欧洲计算机视觉会议（ECCV）会议记录；第801-818页。[谷歌学者]
赵伟。；陈，Y。；项，S。；刘，Y。；Wang，C.基于改进DeepLabv3+的图像语义分割算法研究。J.系统。模拟。 2023,35, 2333–2344. [谷歌学者]
Reza，A。；Maryam，A。；Mahmood，F.Attention Deeplabv3+：皮肤损伤分割的多层次上下文注意机制。《欧洲计算机视觉会议论文集》，英国格拉斯哥，2020年8月23日至28日；第251-266页。[谷歌学者]
奥克泰，O。；Schlember，J。；Folgoc，L.L。；李，M。；海因里希，M。；Misawa，K。；Mori，K。；南卡罗来纳州麦克多纳。；纽约州哈默拉。；凯恩斯，B。；等。《注意力U-net：学习在哪里寻找胰腺》。arXiv公司 2018，arXiv:1804.03999。[谷歌学者]
李，H。；邱，K。；Chen，L。；梅，X。；洪，L。；Tao，C.SCAttNet：高分辨率遥感图像的语义分割网络及其空间和通道注意机制。IEEE地质科学。遥感快报。 2020,18, 905–909. [谷歌学者] [交叉参考]
艾默，A。；兰布，T。；Ye，X.MDA-Unet：用于医学图像分割的多尺度扩展注意力U-Net。申请。科学。 2022,12, 3676. [谷歌学者] [交叉参考]
Zhao，Y。；朱，D.L。；丁，H.H.街道场景实时语义分割与融合交叉注意机制[J/OL]。计算机应用和软件。2024.在线提供：https://link.cnki.net/urlid/31.1260.TP20240112.1654.002（2024年1月15日访问）。
王，X。；李，Z。；黄，Y。；Jiao，Y.基于多尺度上下文网络的多模态医学图像分割。神经计算 2022,486, 135–146. [谷歌学者] [交叉参考]
张J.Y。；张，R.F。；Liu，Y.H。；Yuan，W.H.基于注意机制的多模态图像语义分割。下巴。J.Liq.克里斯特。显示。 2023,38, 975–984. [谷歌学者] [交叉参考]
阿比纳夫五世。；罗希特，M。；Wolfram，B.多模态语义分割的自我监督模型自适应。国际期刊计算。视觉。 2020,128, 1239–1285. [谷歌学者]
Sun，H.Q.公司。；潘，C。；他，L.M。；基于多模态特征融合的遥感图像语义分割网络。计算。工程应用。 2022,58, 256–264. [谷歌学者]
王，L.C。；顾，N.N。；Xin，J.J。；Wang，S.F.RGB-D双模态信息互补语义分割网络。J.计算-辅助设计。计算。图表。 2023,35, 1489–1499. [谷歌学者]
陈，W.Y。基于多模态图像融合的行人检测与场景分割; 中南大学：中国长沙，2022年。[谷歌学者]
Fu，J。；刘，J。；Tian，H。；李毅。；鲍，Y。；方，Z。；Lu，H.场景分割的双注意网络。2019年IEEE/CVF计算机视觉和模式识别会议记录，2019年6月15日至20日，美国加利福尼亚州长滩；第3141–3149页。[谷歌学者]
冯，W.B。；李，S。；Tian，H。；杨，X。；马，C。；Yu，C.基于融合边缘优化的图像语义分割方法。安全。煤矿 2022,53, 136–141. [谷歌学者]
袁，Y。；谢军。；陈，X。；Wang，J.SegFix：分割的模型-认知边界细化。《计算机视觉会议记录–ECCV 2020：第16届欧洲会议》，英国格拉斯哥，2020年8月23日至28日；施普林格：瑞士查姆，2020年；第489-506页。[谷歌学者]
Bao，L。；Yang，Z。；王，S。；Bai博士。；Lee，J.基于多尺度剩余密集块和级联的真实图像去噪。《IEEE/CVF计算机视觉和模式识别（CVPR）研讨会论文集》，美国华盛顿州西雅图，2020年6月13日至19日；第448–449页。[谷歌学者]
魏伟（Wei，W.）。；陶，C。；Chiong，L.互补感知的RGB-T语义分割跨模式特征融合网络。模式识别。 2022,131, 2473–2480. [谷歌学者]
杜，M.M。；Sima，H.F.A-LinkNet：基于注意力和空间信息融合的语义分割网络。下巴。J.Liq.克里斯特。显示。 2022,37, 1199–1208. [谷歌学者] [交叉参考]
Bischke，B。；Helber，P。；Folz，J。；Borth，D。；Dengel，A.用深度神经网络分割建筑足迹的多任务学习。2019年IEEE图像处理国际会议（ICIP）会议记录，台湾台北，2019年9月22日至25日；第1480–1484页。[谷歌学者]
郭，M。；刘，H。；Xu，Y。；Huang，Y.基于U-Net的具有注意块和多重损失的建筑物提取。远程传感器。 2020,12, 1400. [谷歌学者] [交叉参考]
黄，Y.J。；石振峰。；王振强。；Wang，Z.基于混合损失函数的改进U网在肝脏医学图像分割中的应用。激光光电子。掠夺。 2020,57, 74–83. [谷歌学者]
陈，Q。；Ge，T.语义人类铺垫。2018年10月22日至26日在韩国首尔举行的第26届ACM国际多媒体会议记录；第618-626页。[谷歌学者]
吴，S。；Park，J。；Lee，J.Y。；Kweon，I.S.CBAM：卷积块注意模块。2018年9月8日至14日在德国慕尼黑举行的欧洲计算机视觉会议（ECCV）会议记录；第3-19页。[谷歌学者]
Chaurasia，A。；Culurciello，E.LinkNet：利用编码器表示实现高效语义分割。2017年IEEE视觉通信和图像处理（VCIP）会议记录，美国佛罗里达州圣彼得堡，2017年12月10-13日；第1-4页。[谷歌学者]
张，S.H。；Dong，X。；李，H。；李，R。；Yang，Y.L.PortraitNet：移动设备的实时肖像分割网络。计算。图表。 2019,80, 104–113. [谷歌学者] [交叉参考]
陈，J。；卢，Y。；于清。；罗，X。；阿德利，E。；Wang，Y。；卢，L。；Yuille，A.L。；Zhou，Y.TransUNet：变形金刚为医学图像分割制作了强大的编码器。2021年6月20日至25日，美国田纳西州纳什维尔，IEEE计算机视觉和模式识别会议（CVPR）会议记录。[谷歌学者]

图1。U-net的网络结构。

图2。本文方法的网络结构。

图3。功能SK-ASSP模块的结构。

图4。交叉模式互补模块的结构。

图5。分级注意机制模块。

图6。本文中的数据增强示例。(一)是指原始图像(b条)表示颜色调整图像(c（c）)表示背景替换图像。

图7。不同模型的分割结果。一是原始图像；b条–（f）是U-net、LinkNet、PortraitNet、Deeplab v3+和Trans-UNet的分割效果；和克是本文分割模型的分割效果。

表1。基于编码器的烧蚀实验结果，其中🗸表示网络包含此模块。

网络	灰色图像输入	ASSP公司	SK-ASSP，自适应ASSP分支	SK-ASSP，边缘优化分支	跨模式互补模块	PA/%	MIoU/%
网络_1						94.72	92.06
网络_2	✓					94.81	92.17
网络_3	✓				✓	94.92	92.30
网络_4	✓	✓			✓	95.54	93.12
网络_5	✓		✓		✓	95.99	93.76
网络_6	✓		✓	✓	✓	96.19	94.08

表2。基于注意模块的消融实验结果，其中✓表示网络包含此模块。

表2。基于注意力模块的消融实验结果，其中✓表示网络包含该模块。

网络	注意关卡	哥伦比亚广播公司	混合并行注意模块	PA/%	MIoU/%
网络_1				94.72	92.06
网络_2	✓			95.22	93.02
网络_3		✓		95.66	93.35
网络_4			✓	95.80	93.56

表3。混合损失函数的烧蚀实验结果。

α价值	β值	PA/%	MIoU/%
0.1	0.9	94.85	92.26
0.2	0.8	94.88	92.28
0.3	0.7	94.91	92.32
0.4	0.6	94.90	92.30
0.5	0.5	94.86	92.27
0.6	0.4	94.82	92.23
0.7	0.3	94.80	92.19
0.8	0.2	94.77	92.17
0.9	0.1	94.76	92.15

表4。不同分割模型的比较。

网络	PA/%	MIoU/%	参数/M	每个图像花费的时间/S
U型网	94.72	92.06	44.93	0.017
LinkNet（链接网）	95.54	93.12	47.82	0.020
纵向网络	95.95	94.33	49.14	0.016
深实验室V3+	96.22	94.69	54.71	0.022
事务UNet	96.60	95.16	58.16	0.035
我们的	96.89	95.48	56.02	0.029

免责声明/出版商注释：所有出版物中包含的声明、意见和数据仅为个人作者和贡献者的声明、观点和数据，而非MDPI和/或编辑的声明、看法和数据。MDPI和/或编辑对内容中提及的任何想法、方法、说明或产品造成的任何人员或财产伤害不承担任何责任。

分享和引用

MDPI和ACS样式

冯·G。；唐，C。基于双模信息互补性的人像语义分割方法。申请。科学。 2024,14, 1439.https://doi.org/10.3390/app14041439

AMA风格

冯庚，唐C。基于双模信息互补性的人像语义分割方法。应用科学. 2024; 14(4):1439.https://doi.org/10.3390/app14041439

芝加哥/图拉宾风格

冯、广和重唐。2024.“基于双模信息互补性的人像语义分割方法”应用科学14，第4期：1439。https://doi.org/10.3390/app14041439

请注意，从2016年第一期开始，该杂志使用文章编号而不是页码。请参阅更多详细信息在这里.

文章菜单