HLNet: A Unified Framework for Real-Time Segmentation and Facial Skin Tones Evaluation

Feng, Xinglong; Gao, Xianwen; Luo, Ling

doi:10.3390/sym12111812

开放式访问专题论文第条

HLNet：实时分割和面部肤色评估的统一框架

通过

兴隆峰

^†

,

Xianwen Gao公司

^*和

凌洛

^†

东北大学信息科学与工程学院，沈阳110819

^*

信件应寄给的作者。

^†

这些作者为这项工作做出了同等贡献。

对称 2020,12(11), 1812;https://doi.org/10.3390/sym12111812

收到的提交文件：2020年10月21日/修订日期：2020年10月29日/接受日期：2020年10月30日/发布日期：2020年11月1日

（本条属于本节电脑类)

下载

浏览地物

版本注释

摘要

:

实时语义分割在自动驾驶、美容行业等工业应用中起着至关重要的作用。如何平衡速度和分割性能之间的关系是一个具有挑战性的问题。为了解决这样一个复杂的任务，本文针对资源有限的设备引入了一种高效的卷积神经网络（CNN）体系结构HLNet。基于高质量的设计模块，HLNet在获得足够的感受野的同时，更好地集成了高维和低维信息，在三个基准数据集上取得了显著的效果。据我们所知，由于外部环境因素的影响，如光照和背景杂质，肤色分类的准确性通常不令人满意。因此，我们使用HLNet获得准确的人脸区域，并进一步使用颜色矩算法提取其颜色特征。具体来说，对于

224 \times 224

输入，使用我们的HLNet，在CPU环境下，我们以超过17 FPS的速度在Figaro1k数据集上实现了78.39%的平均IoU。我们进一步使用掩蔽颜色矩进行肤色等级评估，大约80%的分类准确率证明了该方法的可行性。

关键词：

语义分割;深度卷积神经网络;肤色分类;颜色矩

1.简介

增强现实（AR）技术是近年来广泛应用于各个领域的一个热点。其中，基于2D彩色成像的自动染发，如所示图1最受关注的是头发区域的精确分割。早期对头发分割的研究主要集中在手工特征上[1,2,三]这需要专业技能和劳动密集型。同时，该模型的泛化能力普遍较差。

近年来，深度卷积神经网络（DCNN）的出现提高了许多任务的性能，其中最重要的是语义分割。语义分割是一项高级视觉任务，其目标是为每个图像像素分配密集的标签。作为其子任务，头发分割近年来也受到了广泛关注。例如，Borza等人。[4]在对称UNet的帮助下进行头发分割，随后使用形态学知识对其进行细化。Wen等人。[5]提出了一种端到端检测分割系统来实现包括头发在内的详细人脸标记。该方法使用金字塔FCN编码的多级特征映射，有效地缓解了语义类别的不平衡。最近，Luo等人。[6]设计了一个轻量级的分割网络，结合了多个模块的优点，有效地解决了边缘语义的模糊性。同时，该方法适用于移动设备。

尽管如此，其应用仍受到以下因素的限制。首先，由于头发的多样外观及其复杂的结构信息，精确处理边缘极其困难[7]. 尽管现有的语义分割方法[8,9,10]对于简单对象具有较高的分割性能，对于头发分割只能获得粗糙的遮罩。其次，绝大多数网络都需要具有大多数移动设备所不具备的强大计算能力的图形处理单元（GPU），这大大限制了它们的使用场景；第三，考虑到运行时限制，条件马尔可夫随机场（CRF）[11]不适合处理边缘（例如，碎头发），因此有必要找到替代解决方案。考虑到所有这些因素，实时染发面临着巨大的挑战。另一方面，电子商务和与客户的数字交互使人们可以在不离开家的情况下购买他们喜欢的产品。其中，稳健的产品推荐功能发挥着重要作用。自动评估肤色水平，使美容产品的个性化推荐成为可能。然而，考虑到复杂的外部因素，如照明、阴影和背景杂质，可能会影响判断，在这种情况下，即使是有经验的皮肤治疗师也很难用肉眼判断。本文致力于使用机器学习和有前途的深度学习算法来解决上述问题。

在本文中，我们努力平衡性能和效率之间的关系，并为我们的分割任务提供一个更简单、更紧凑的替代方案。为了得到准确的分割结果，需要同时考虑局部和全局上下文信息。基于这一观察，我们提出了一个空间和上下文信息融合框架HLNet，该框架并行集成了高维和低维特征地图。在增加感受野的同时，它有效地缓解了浅层特征提取不足的问题。此外，受BiSeNet的启发[12]特征融合模块（FFM）用于使用上下文重新编码特征通道，以改进特定类别中的特征表示。大量实验证明，我们的HLNet在效率和准确性之间取得了显著的平衡。考虑到背景照明不利于识别皮肤，我们基于分割人脸和颜色矩算法提取特征（也称为掩蔽颜色矩）[13]. 然后将遮罩颜色时刻放入强大的随机森林分类器[14]评估一个人的肤色水平。此外，我们在手动标记的数据集上验证了该方法的可行性。

总之，我们的主要贡献如下：

(1): 我们提出了一种高效的头发和面部分割网络，该网络使用新提出的模块来实现实时推理，同时保证性能。
(2): 给出了一个名为InteractionModule的模块，该模块利用多维特征交互来缓解网络越来越深时空间信息的减弱。
(3): 提出了一种新的肤色等级评估算法，并在手动标记的数据集上获得了准确的结果。
(4): 我们的方法在多个基准数据集上取得了优异的结果。

论文的其余部分组织如下。在第2节，我们回顾了以前在轻量级模型设计和边缘后处理方面所做的工作。在第3节，我们详细描述了所提出的方法。第4节提供实验数据和参数配置以及手动注释的数据集。在第5节，我们报告了实验结果。总结标记和未来工作第6节.

2.相关工程

实时语义分割。自创业以来[8]基于深度学习，许多优质骨干[15,16,17,18]已导出。然而，由于计算能力有限的平台（例如无人机、自动驾驶和智能手机）的要求，研究人员更加关注网络的效率，而不仅仅是性能。ENet（网络）[19]是第一个用于实时场景分割的轻量级网络，它不以端到端的方式应用任何后处理步骤。Zhao等人。[20]引入级联特征融合单元，快速实现高质量分割。霍华德等人。[21]提出了一种基于流线型结构的紧凑型编码器模块，该模块使用深度可分离卷积来构建轻量级深层神经网络。Poudel等人。[22]将高分辨率的空间细节与低分辨率提取的深层特征相结合，产生了超出实时效果的效果。DFAN网[23]从单个轻量级主干开始，分别通过子网络和子级级联聚合区别特征。最近，LEDNet[24]提出了在每个残差块中使用信道分割和洗牌来大大降低计算成本，同时保持较高的分割精度。

上下文信息。在对特征映射进行常规上采样以恢复原始图像大小的过程中，无法恢复某些细节。箕斗连接的设计[25]可以在一定程度上缓解这一不足。此外，Zhao等人。[17]提出了一种金字塔池模块，可以聚合不同区域的上下文信息，提高捕获多尺度信息的能力。Zhang等人。[26]设计了一个上下文编码模块来引入全局上下文信息，用于捕获场景的上下文语义，并选择性地突出与特定类别关联的特征映射。Fu等人。[27]通过基于空间和通道注意机制捕获丰富的上下文相关性，解决了场景解析任务，显著提高了在众多具有挑战性的数据集上的性能。

后期处理。通常，上述分割方法的质量明显粗糙，需要额外的后处理操作。后处理机制通常能够提高图像边缘细节和纹理保真度，同时保持与全局信息的高度一致性。Chen等人[28]提出了一种CRF后处理方法，以非端到端的方式克服了定位不良的问题。CRFasRNN基因[11]将CRF迭代推理过程视为端到端的RNN操作。为了消除CRF的过度执行时间，Levinshtein等人[29]提出了一种在移动设备上具有实时性能的头发消光方法。

我们的方法利用了这些优势。此外，对于上游肤色分级任务，我们使用掩蔽颜色矩来处理它，这将在中进行讨论第3.2节.

3.方法

3.1. 高维到低维融合网络

拟议的HLNet网络受到HRNet的启发[30]它通过并行连接高分辨率到低分辨率卷积，在整个过程中保持高分辨率表示。图2说明了我们模型的总体框架。我们通过实验删减模型参数来提高速度，而不会过度降低性能。此外，现有的SOTA模块[12,22,31,32]合理组合，进一步提高网络性能。表1给出了所设计网络中涉及的模块的总体描述。该模型由不同类型的卷积模块、双线性上采样、瓶颈和其他特征图通信模块组成。在接下来的部分中，我们将详细展开上述模块。

为了尽可能保留细节，将整个网络的下采样率设置为

1 / 8

具体来说，在前三层中，我们指的是Fast-SCNN[22]采用香草卷积和深度可分离卷积进行快速下采样，以确保低层特征共享。深度可分离褶积有效减少了模型参数的数量，同时实现了可比较的表示能力。上述卷积是一致的，步长为2，内核大小为

三 \times 三

，然后是BN[33]和ReLU激活功能。

根据FCOS[34]，特征图的低维细节信息促进了小对象的分割，因此我们通过堆叠低维层来增强模型的细节表示能力。此外，高分辨率和低分辨率信息的相互作用有助于学习多尺度信息表示。我们利用上述优点，提出了一个具有不同分辨率特征图的信息交互模块（InteractionModule），以获得优雅的输出结果。从概念上讲，对于主干

ϕ_{n个}^{我} (x个)

，阶段过程可以定义为

ϕ_{n个}^{我}

，其中n个和我分别表示阶段的索引和宽度。虚线矩形中的计算过程可以表示为：

ϕ_{n个}^{我} = \{\begin{matrix} C类 o个 n个 v（v） (ϕ_{n个 - 1}^{我}), & n个 = 4, \\ \sum_{我 = 1}^{M（M）} C类 o个 n个 v（v） (ϕ_{n个 - 1}^{我}), & n个 = 5, \\ C类 o个 n个 c（c） 一 t吨 (ϕ_{n个 - 1}^{我}, . . ., ϕ_{n个 - 1}^{M（M）}), & o个 t吨 小时 e（电子） 第页 w个 我 秒 e（电子） \end{matrix}

(1)

哪里M（M）为3。

C类 o个 n个 v（v）

和

C类 o个 n个 c（c） 一 t吨

represenet卷积算子和特征映射分别堆叠在信道维中。MobileNet v2[31]利用剩余块和深度可分离卷积，在有效避免梯度色散的同时，大大降低了计算参数。利用MobileNet v2提出的倒置残差块，通过适当的修剪来改善稀疏参数空间。特别是，对于

ϕ_{n个}^{我} (我 = 1, . . . M（M）)

，相应的参数

{k个 = 三, c（c） = 64, t吨 = 6, 秒 = 1, n个 = 三}

→

{k个 = 三, c（c） = 96, t吨 = 6, 秒 = 2, n个 = 三}

→

{k个 = 三, c（c） = 128, t吨 = 6, 秒 = 4, n个 = 三}

按顺序给出，其中k个,c（c）,t吨,秒和n个分别表示卷积核的大小、特征映射通道数、通道倍增因子、步长和模块重复次数。接下来，通过使用

1 \times 1

卷积、跨步卷积或上采样。

1 \times 1

卷积可以在不显著增加参数数量的情况下很好地完成特征图的维数增加和减少。此外，它背后的ReLU可以提高网络的整体非线性拟合能力

C类 o个 n个 c（c） 一 t吨

为了聚合多尺度上下文特征。随后，根据FFM注意事项[12]模型更关注包含重要特征的通道，并抑制不重要的通道。它由以下部分组成：FFM在分别通过ReLU和Sigmoid的全局池层和两个卷积层后，对输入执行元素级乘法操作。为了减少参数反向传播中的梯度消失，在输入和输出之间添加了跳跃连接。然后，为了表示多尺度上下文信息，我们还引入了一个多感受野融合块（DilatedGroup），其膨胀率设置为2、4和8。

为了简单起见，解码器执行双线性上采样（转置卷积层会导致网格伪影[29])直接在上

28 \times 28

要素图后接

三 \times 三

卷积以保持信道数和类别数的一致。最后，连接SoftMax层以进行密集分类。

在损失函数方面，我们应用了广义骰子损失（GDL）[35]补偿小对象的分割性能，公式如下：

G公司 D类 {L（左）}_{我 o个 秒 秒} = 1 - \frac{2}{L（左）} \frac{\sum_{我 = 1}^{L（左）} ω_{我} \cdot \sum_{n个 = 1}^{N个} {第页}_{我 n个} {第页}_{我 n个}}{\sum_{我 = 1}^{L（左）} ω_{我} \cdot \sum_{n个 = 1}^{N个} {第页}_{我 n个} + {第页}_{我 n个}}

(2)

ω_{我} = \frac{1}{{(\sum_{n个 = 1}^{N个} {第页}_{我 n个})}^{2}}

(3)

哪里第页表示SoftMax输出和第页表示地面实况的一个热编码。N个和L（左）分别表示像素和类别的总数。方程式(三)给出以下表达式

ω_{我}

，即类别平衡系数。

为了追求感知一致性并降低运行的时间复杂性，我们提倡导向滤波器的思想[36,37]实现边缘保持和去噪。导向滤波器可以有效地抑制梯度重建伪影，并生成视觉上令人满意的边缘轮廓。给出引导图像我和过滤输入图像P（P），我们的目标是学习一个局部线性模型来描述前者和输出图像之间的关系问同时寻求两者之间的一致性P（P）和问就像图像蒙版的作用一样[38]. 在实验过程中，秒,第页,

ζ

根据经验分别设置为4、4和50。

3.2. 面部肤色分类

第二阶段的目的是对面部肤色进行分类。通常对亚洲人来说，我们把它分为瓷白、象牙白、中等、黄色和黑色。对于肤色特征，由于特征空间较小，不适合使用基于DCNN的方法进行特征提取。因此，经过反复思考和实验尝试，选择该方案提取图像的颜色矩作为待学习的特征，并将其放入经典的机器学习算法中进行学习。考虑到复杂场景中的面部肤色，背景光对结果有着不可救药的影响。因此，我们采用图像形态学算法和像素级运算来消除背景干扰。算法1总结了提取过程的伪代码。预处理后的人脸图像用于提取颜色矩特征，然后将其放入强大的随机森林分类器中[14]用于学习。色力矩可以表示为：

μ_{我} = \frac{1}{N个} \sum_{j个 = 1}^{N个} {第页}_{我, j个}

(4)

σ_{我} = {(\frac{1}{N个} \sum_{j个 = 1}^{N个} {({第页}_{我, j个} - μ_{我})}^{2})}^{\frac{1}{2}}

(5)

秒_{我} = (\frac{1}{N个} \sum_{j个 = 1}^{N个} | {第页}_{我, j个} - μ_{我} {|^{三})}^{\frac{1}{三}}

(6)

哪里

{第页}_{我, j个}

表示像素在我值为的通道j个、和N个表示像素总数。颜色功能

{F类}_{c（c） o个 我 o个 第页}

= [

μ_{U型}

,

σ_{U型}

,

秒_{U型}

,

μ_{V（V）}

,

σ_{V（V）}

,

秒_{V（V）}

,

μ_{Y（Y）}

,

σ_{Y（Y）}

,

秒_{Y（Y）}

],

U型, V（V）, Y（Y）

表示图像的每个通道。

算法1：基于分段的平滑人脸区域提取推理算法

4.实验

4.1. 实施详细信息

我们的实验是使用Keras框架和Tensorflow beckend进行的。采用标准微差梯度下降（SGD）作为优化器，动量为0.98，重量衰减为2

\times 10^{- 5}

.和64的批量大小。我们在配置中采用装备广泛的“多”学习速率策略，其中初始速率乘以

{(1 - \frac{我 t吨 e（电子） 第页}{t吨 o个 t吨 一 我_我 t吨 e（电子） 第页})}^{第页 o个 w个 e（电子） 第页}

带电源

0.9

初始学习率设为2.5

\times 10^{- 三}

数据增强包括标准化、随机旋转

θ_{第页 o个 第页 一 t吨 我 o个 n个} \in [- 20, 20]

，随机标度

θ_{秒 c（c） 一 我 e（电子）} \in [- 20, 20]

、随机水平翻转和随机移位

θ_{秒 小时 我 （f） t吨} \in [- 10, 10]

为了进行公平比较，所有方法均在配备单个NVIDIA GeForce GTX1080 Ti GPU的服务器上进行。代码位于：https://github.com/JACKYLO1991/Face-skin-hair-segmentation-and-skin-color-evaluation（https://github.com/JACKYLO1991/Face-skin-hair-segmentation-and-skin-color-evaluation）.

4.2. 数据集集合

数据是深度学习的灵魂，因为它在一定程度上决定了算法的上限。为了保证算法的鲁棒性，有必要构建一个包含大角度、强遮挡、复杂光照变化等极端情况下人脸的数据集。

4.2.1. 面部和头发分割数据集

野生标签脸（LFW）。参考[39]数据集由互联网上的13000多幅图像组成。我们在实验中使用了它的扩展版本（零件标签），它通过超像素分割算法自动标记。我们在[4]培训中有1500张图像，500张用于验证，927张用于测试。

大规模CelebFaces属性数据集（CelebA）。参考[40]由超过20万张名人图片组成，每一张都有多个属性。该数据集的主要优点是它结合了大的姿态变化和背景杂波，使从该数据集学习的知识更容易满足实际产品的需求。在实验中，我们采用CelebHair版本(网址：http://www.cs.ubbcluj.ro/~dadi/face-hair-segm-database.html)中的CelebA[4]其中包括3556幅图像。我们使用与原始纸张相同的配置，即。，

20 %

用于验证。

费加罗1k。对于最后一个数据集，我们使用Figaro1k[41]，专门用于头发分割。需要考虑的是，该数据集是为普通头发检测而开发的，其中许多不包括人脸，这不利于后续实验。在这种情况下，我们遵循中的预处理[7]，留下171张图像用于实验。为了更好地利用批训练，采用离线数据增强来扩展图像（×10）。

4.2.2. 手动注释数据集

这项工作的一个突出贡献是手动标记面部肤色评级数据集。在贴标签的过程中，三位受过专业培训的化妆师使用投票机制对面部色调进行了评级。一旦所有三个标记都对结果做出了不同的判断，那么标签将由具有5年或5年以上经验的化妆师决定。我们的面部数据是从网上收集的，没有利益冲突。获得的图像由离线人脸检测库（即MTCNN）过滤[42])去除没有检测到人脸的图像，剩下的图像用于特征提取和进一步的机器学习。每个类别的数量为95、95、96、93和94，样本如所示图3此外，还绘制了它们的统计分布图4.

4.3. 评估指标

所有的分割实验都适用于均值-相关-过负（mIoU）准则。mIoU的定义如下：

米 我 o个 U型 = \frac{1}{1 + k个} \sum_{我 = 0}^{k个} \frac{{第页}_{我 我}}{\sum_{j个 = 0}^{k个} {第页}_{我 j个} + \sum_{j个 = 0}^{k个} {第页}_{j个 我} - {第页}_{我 我}}

(7)

哪里

k个 + 1

是类别的数量（包括背景），

{第页}_{我 j个}

指示属于类别的像素数我但被误判为类别j个。有关更多指标，请参阅[8].

5.结果和讨论

5.1. 细分结果

在本节中，我们进行了实验，以证明我们的分割体系结构在准确性和效率权衡方面的潜力。

5.1.1. 总体比较

我们使用四个FCN[8]引入度量来评估算法的性能。随后，在不同数据集上与杰出的UNet变体进行比较实验[4]已构造。除非另有说明，否则输入分辨率为224×224。培训持续了200个时代，之后模式将趋于饱和。表2报告定性结果。

实验结果表明，我们的HLNet优于修剪的U-Net（tU-Net）[4]除LFW数据集外，其他数据量都很大。然而，快速下采样的一个缺点是浅层特征提取不够。众所周知，浅层特征有助于提取纹理和边缘细节，因此我们的HLNet比LFW数据集中的tU-Net稍差（LFW面部细节比其他人模糊）。

从另一个角度来看，考虑到延迟时间，我们可以在Intel Core i5-7500U CPU上无需任何技巧即可达到每个映像60毫秒。在GPU下，我们可以进一步达到不超过10毫秒。比较tU-Net和HLNet（8 ms vs。

7.2 \pm 0.3

ms）表明后者效率更高，而性能更显著。这一结论表明，我们可以将此框架进一步应用于内存和电池预算较小的边缘和嵌入式设备。定性分析结果如所示图5。后处理使用导向过滤器以获得更真实的边缘结果。

5.1.2. 与SOTA轻量级网络的比较

在本小节中，我们将我们的算法与包括ENet在内的几种最先进的（SOTA）轻量级网络进行了比较[19]、LED网[24]，快速-SCNN[22]、MobileNet[21]和DFANet[23]在CelebHair测试集上。为了公平比较，我们在相同的硬件配置下重新实现了上述网络，没有任何微调或花式微调技术。应该注意的是，框架的实施与最初略有不同，因此结果可能略有不同，但总体性能偏差在可接受的范围内。由于ENet的下采样率为32，我们将所有输入调整为256×256。此外，我们在没有任何运行负载的CPU环境中测量每秒帧数（FPS），这平均需要200次前向传播。

发件人图6和表3可以看出，我们提出的方法比其他方法更准确。与次优ENet相比，我们的方法将mIoU提高了0.35%，而FPS提高了一半。尽管DFANet的参数比HLNet少2×，FLOP也少11×，但就mIOU而言，它的分割精度很低，只有7.44%。我们推测，这是由于DFANet过度依赖预先训练的轻量级主干。发件人图6c、可以清楚地看到，DFANet对像素有严重的错误分类。MobileNet的情况与DFANet一致。特别是，我们的HLNet在准确性方面比Fast-SCNN高3.18%，参数减少了0.4M。过多的深度可分离卷积影响其性能，即使这样降低了时间延迟和计算复杂性（FLOP），它也没有足够的泛化能力。比较的最后一行图6g、 h，其中包含第二人称（后一人称），即使基本事实没有标记它。相比之下，得益于DilatedGroup捕获的丰富上下文，我们的方法可以大致分割它。此外，与其他方法相比，借助引入的InteractionModule，HLNet在多尺度对象（例如发际线）的细节处理方面具有优势。中显示了用于比较不同方法的更直观的参考图图7整个实验表明，我们的HLNet在准确性和效率之间取得了最佳平衡。

5.1.3. 烧蚀研究

我们进一步在Figaro1k测试集上进行消融实验，并遵循相同的训练策略以确保实验的公平性。此外，我们主要评估交互模块（IM）和扩展组（DG）组件对结果的影响，如所示图8.IM，无信息交换（使用连接增采样和连接两个字符串)和一个

三 \times 三

使用速率为1的卷积来替换相应的分量基线.

一方面，IM模块可以捕获多分辨率模式。另一方面，DG模块融合了多尺度特征，同时增加了感受野。当我们分别添加DG和IM模块时，mIoU增加了

1.54 %

和

3.19 %

相对于基线。当我们同时应用两个模块时，mIoU显著增加

4.26 %

。明显的性能提升反映了我们提出的模块的效率。

5.2. 面部肤色分类结果

在实验的第二阶段，我们构建了比较研究，以比较不同颜色空间和不同实验方案对结果的影响。

如所示表4，我们报告了面部肤色分类的准确性。使用具有颜色矩后端的YCrCb颜色空间可以获得最佳结果，准确率为80%。应注意，在放入分类器之前，首先需要对数据进行过采样，以确保不同类别的样本数量一致。我们只需将数据集分成8:2进行训练和测试，然后使用强大的Random forest Classifier进行训练。图9提供了此配置的混淆矩阵。从中可以看出，主要错误发生在相邻类别之间，这种情况也困扰着训练有素的专业化妆师在标注数据时。

实验的缺点是数据不足。有理由相信，如果有足够的数据，准确度将进一步提高。

6.结论

在本文中，我们提出了一个充分利用轻量级组件的卷积网络，例如交互模块,深度可分离卷积和扩展组解决实时语义分割问题，以实现速度和性能之间的平衡。我们将其进一步应用于头发和皮肤分割任务，并通过大量实验验证了该方法的有效性。此外，基于分割的肤色区域，我们引入颜色矩来提取颜色特征，然后对肤色进行分类。

80 %

分类精度证明了该方法的有效性。

这项工作的目的是将我们的算法应用于实时着色、面部交换、肤色评级系统，以及基于真实场景中肤色评级的护肤产品推荐。在我们未来的工作中，我们将研究半监督方法来解决数据量不足的问题。

作者贡献

概念化，X.F。；方法论、X.F.和L.L。；软件、X.F.和L.L。；验证、X.F.和L.L。；形式分析，X.F。；调查，X.F。；资源，X.G。；数据管理，L.L。；书面原稿编制，X.F。；写作审查和编辑，X.G。；可视化，L.L。；监督，X.G。；项目管理，X.G。；资金收购，X.G.所有作者均已阅读并同意手稿的出版版本。

基金

本研究由国家自然科学基金资助，项目号为61573087和61573088。

致谢

这项工作是在L.L.在中国北京美道佳研究所实习时完成的。感谢他们对这项工作的支持。

利益冲突

作者声明没有利益冲突。

工具书类

罗塞特，C。；Coulon，P.Y.，发罩分割的频率和颜色分析。2008年10月12日至15日，美国加利福尼亚州圣地亚哥，第15届IEEE图像处理国际会议论文集；IEEE：皮斯卡塔韦，新泽西州，美国，2008年；第2276–2279页。[谷歌学者]
沈毅。；彭，Z。；基于图像的头发分割算法在人脸漫画自动合成中的应用。科学。世界J。 2014,2014, 748634. [谷歌学者] [交叉参考] [公共医学] [绿色版本]
阿巴斯，Q。；加西亚，I.F。；Emre Celebi，M。；Ahmad，W.皮肤镜图像的特征保护脱毛算法。皮肤研究技术。 2013,19，e27–e36。[谷歌学者] [交叉参考] [公共医学]
博尔扎，D。；Ileni，T。；Darabant，A.从面部图像中进行头发分割和颜色提取的深度学习方法。2018年9月24日至27日在法国普瓦捷举行的智能视觉系统先进概念国际会议记录；第438–449页。[谷歌学者]
Wen，S。；董，M。；Yang，Y。；周，P。；黄，T。；Chen，Y.面部标签的端到端检测分割系统。IEEE传输。Emerg.顶部。计算。智力。 2019. [谷歌学者] [交叉参考]
罗，L。；薛博士。；Feng，X.EHANet：一种有效的人脸解析层次聚合网络。申请。科学。 2020,10, 3135. [谷歌学者] [交叉参考]
穆罕默德，苏联。；斯瓦内拉，M。；莱昂纳迪，R。；Benini，S.野外头发检测、分割和发型分类。图像可视性。计算。 2018,71, 25–37. [谷歌学者] [交叉参考] [绿色版本]
Long，J。；谢尔哈默，E。；Darrell，T.语义分割的完全卷积网络。IEEE传输。模式分析。机器。智力。 2014,39, 640–651. [谷歌学者]
O.Ronneberger。；菲舍尔，P。；Brox，T.U-net：生物医学图像分割的卷积网络。2017年10月5日至9日，德国慕尼黑，医学图像计算和计算机辅助干预国际会议记录；第234-241页。[谷歌学者]
Yu，F。；Koltun，V.通过膨胀卷积实现多尺度上下文聚合。2015年。在线提供：https://arxiv.org/abs/1511.07122（2016年4月30日访问）。
郑S。；贾亚苏马纳，S。；罗梅拉·佩雷斯，B。；维尼特，V。；苏，Z。；杜，D。；Huang，C.等人。；Torr，P.H.条件随机场作为递归神经网络。2015年12月11日至18日在智利圣地亚哥举行的IEEE计算机视觉国际会议记录；第1529-1537页。[谷歌学者]
Yu，C。；Wang，J。；彭，C。；高，C。；Yu，G。；Sang，N.Bisenet：用于实时语义分割的双边分割网络。2018年9月8日至14日在德国慕尼黑举行的欧洲计算机视觉会议记录；第325-341页。[谷歌学者]
Stricker，文学硕士。；Orengo，M.彩色图像的相似性。1995年3月23日，《国际光学和光子学会会刊》，美国加利福尼亚州圣何塞；第381-392页。[谷歌学者]
Pal，M.遥感分类的随机森林分类器。《国际遥感杂志》。 2005,26, 217–222. [谷歌学者] [交叉参考]
陈，L.C。；帕潘德里欧，G。；施罗夫，F。；Adam，H.重新思考语义图像分割的Atrous卷积。2017年。在线提供：https://arxiv.xilesou.top/abs/1706.05587（2017年12月5日访问）。
郑S。；贾亚苏马纳，S。；罗梅拉·佩雷斯，B。；维尼特，V。；苏，Z。；杜，D。；黄，C。；Torr，P.H.一百层提拉米苏：用于语义分割的全卷积密集网络。2017年7月21日至27日在美国夏威夷州火奴鲁鲁举行的IEEE计算机视觉和模式识别研讨会会议记录；第11-19页。[谷歌学者]
赵，H。；史J。；齐，X。；王，X。；Jia，J.《金字塔场景解析网络》，《IEEE计算机视觉和模式识别会议论文集》，美国夏威夷州火奴鲁鲁，2017年7月21日至26日；第2881–2890页。[谷歌学者]
林·G。；米兰，A。；沈，C。；Reid，I.Refinenet：用于高分辨率语义分割的多路径细化网络。2017年7月21-26日，美国夏威夷火奴鲁鲁，IEEE计算机视觉和模式识别会议记录；第1925-1934页。[谷歌学者]
Paszke，A。；Chaurasia，A。；Kim，S。；Culurciello，E.Enet：实时语义分割的深层神经网络架构。2016年。在线提供：https://arxiv.xilesou.top/abs/1606.02147（2016年6月7日访问）。
赵，H。；齐，X。；沈，X。；史J。；Jia，J.Icnet，用于高分辨率图像的实时语义分割。2018年9月8日至14日在德国慕尼黑举行的欧洲计算机视觉会议记录；第405-420页。[谷歌学者]
A.G.霍华德。；朱，M。；陈，B。；Kalenichenko，D。；Wang，W。；韦扬德，T。；安德烈托，M。；Adam，H.Mobilenets:用于移动视觉应用的高效卷积神经网络。2017年。在线提供：https://arxiv.xilesou.top/abs/1704.04861（2017年4月17日访问）。
Poudel，R.P。；Liwicki，S。；Cipolla，R.Fast-SCNN：快速语义分割网络，2019年。在线可用：https://arxiv.xilesou.top/abs/1902.04502（2019年2月12日访问）。
李，H。；熊，P。；风扇，H。；Sun，J.Dfanet：实时语义分割的深层特征聚合。2019年6月16日至20日，美国加利福尼亚州洛杉矶市，IEEE计算机视觉和模式识别会议记录；第9522–9531页。[谷歌学者]
Wang，Y。；周，Q。；刘杰。；熊，J。；高，G。；吴，X。；Latecki，L.J.LEDNet：用于实时语义分割的轻量级编解码网络。2019.在线提供：https://arxiv.xilesou.top/abs/1905.02423（2019年5月13日访问）。
He，K。；张，X。；Ren，S。；Sun，J.图像识别的深度残差学习。2016年6月26日至7月1日，美国加利福尼亚州拉斯维加斯，IEEE计算机视觉和模式识别会议记录；第770-778页。[谷歌学者]
张，H。；Dana，K。；史J。；张，Z。；王，X。；Tyagi，A。；Agrawal，A.语义分段的上下文编码。2018年6月19日至21日，美国犹他州盐湖城，IEEE计算机视觉和模式识别会议记录；第7151-7160页。[谷歌学者]
Fu，J。；刘杰。；田，H。；李毅。；Bao，Y。；方，Z。；Lu，H.场景分割的双注意网络。2019年6月16日至20日，美国加利福尼亚州洛杉矶市，IEEE计算机视觉和模式识别会议记录；第3146–3154页。[谷歌学者]
陈，L.C。；帕潘德里欧，G。；科基诺斯，I。；墨菲，K。；Yuille，A.L.用深度卷积网和完全连接的Crfs进行语义图像分割。2014.在线提供：https://arxiv.xilesou.top/abs/1412.7062（2016年6月7日访问）。
莱文斯坦，A。；Chang，C。；Phung，E。；Kezele，我。；郭伟。；Aarabi，P.移动设备上的实时深发垫。计算机和机器人视觉会议记录，加拿大安大略省多伦多，2018年5月8日至10日；第1-7页。[谷歌学者]
Sun，K。；肖，B。；刘，D。；Wang，J.人类姿势估计的深度高分辨率表征学习。2019.在线提供：https://arxiv.xilesou.top/abs/1902.09212（2019年2月25日访问）。
桑德勒，M。；A.霍华德。；朱，M。；Zhmoginov，A。；Chen，L.C.Mobilenetv2：倒置残差和线性瓶颈。2018年6月19日至21日，美国犹他州盐湖城，IEEE计算机视觉和模式识别会议记录；第4510–4520页。[谷歌学者]
Chollet，F.Xception：深度学习与深度可分离卷积。2017年7月21-26日，美国夏威夷火奴鲁鲁，IEEE计算机视觉和模式识别会议记录；第1251-1258页。[谷歌学者]
洛夫，S。；Szegedy，C.批处理规范化：通过减少内部协变量转移加快深层网络培训。2015年。在线提供：https://arxiv.xilesou.top/abs/1502.03167（2015年3月2日访问）。
田，Z。；沈，C。；陈，H。；He，T.FCOS：完全卷积一阶段目标检测。2019.在线提供：https://arxiv.xilesou.top/abs/1904.01355（2019年8月20日访问）。
苏德雷，C.H。；李伟（Li，W.）。；Vercauteren，T。；Ourselin，S。；Cardoso，M.J.广义骰子重叠作为高度不平衡分割的深度学习损失函数。2017年9月14日，加拿大魁北克省魁北克市，医学图像分析深度学习和临床决策支持多模式学习论文集；第240-248页。[谷歌学者]
He，K。；Sun，J。；Tang，X.引导式图像过滤。《欧洲计算机视觉会议论文集》，希腊克里特岛，2010年9月5日至11日；第1-14页。[谷歌学者]
He，K。；Sun，J.快速导向过滤器。2015年。在线提供：https://arxiv.xilesou.top/abs/1505.00996（2015年5月5日查阅）。
莱文，A。；Lischinski，D。；Weiss，Y.自然图像遮光的封闭解决方案。IEEE传输。模式分析。机器。智力。 2007,30, 228–242. [谷歌学者] [交叉参考] [公共医学] [绿色版本]
Kae，A。；Sohn，K。；Lee，H。；Learnd-Miller，E.使用Boltzmann机器形状先验信息增强CRF用于图像标记。2013年12月1日至8日，澳大利亚悉尼，IEEE计算机视觉和模式识别会议记录；2019-2026页。[谷歌学者]
Yang，S。；罗，P。；洛伊，C.C。；Tang，X.从面部部位反应到面部检测：一种深度学习方法。2015年12月11日至18日在智利圣地亚哥举行的IEEE计算机视觉国际会议记录；第3676-3684页。[谷歌学者]
斯瓦内拉，M。；穆罕默德，苏联。；莱昂纳迪，R。；Benini，S.Figaro，《野外毛发检测和分割》。2016年9月25日至28日在美国亚利桑那州凤凰城举行的IEEE图像处理国际会议记录；第3676–3684页。[谷歌学者]
张凯。；张，Z。；李，Z。；乔，Y.使用多任务级联卷积网络进行联合人脸检测和对齐。电气与电子工程师协会。信号。过程。莱特。 2016,23, 1499–1503. [谷歌学者] [交叉参考] [绿色版本]

图1。自动染发示例。(一)输入RGB图像。(b条)我们提出的算法的引导滤波器输出。(c（c）)最终染色渲染。

图2。非对称编解码网络概述。蓝色、红色和绿色分别表示背景、重新着色的头发面具和重新着色的面罩。在虚线矩形（也称为InteractionModule）中，不同方向的箭头表示不同的操作。“C”和“+”代表添加和连接（缩写为连接两个字符串)操作。

图3。投票机制后手动标记面部肤色级别样本。发件人(一–e（电子）)，代表瓷白色、象牙白色、中等、黄色和黑色人种。为了对图像分类标准有一个一致的理解，这里只使用了中国女演员。值得注意的是，这些图片是从网上抓取的，没有利益冲突。

图3。投票机制后手动标记面部肤色级别样本。发件人(一–e（电子）)它代表瓷白、象牙白、中、黄、黑色人种。为了对图像分类标准有一个一致的理解，这里只使用了中国女演员。值得注意的是，这些图片是从网上抓取的，没有利益冲突。

图4。饼图可视化。(一)视点图。根据偏航角，分为小偏航角(

| θ | < 15^{\circ}

)，莫达拉特(

15^{\circ} \leq | θ | \leq 45^{\circ}

)和大型(

| θ | > 45^{\circ}

). (b条)遮挡图。包括两项之间的“轻度闭塞”（<20%）、“重度闭塞”（>50%）和“中度闭塞”。

图4。饼图可视化。(一)视点图。根据偏航角，分为小偏航角(

| θ | < 15^{\circ}

)，模态速率(

15^{\circ} \leq | θ | \leq 45^{\circ}

)和大型(

| θ | > 45^{\circ}

). (b条)遮挡图。包括两项之间的“轻度闭塞”（<20%）、“重度闭塞”（>50%）和“中度闭塞”。

图5。不同数据集上的头发和面部分割样本。

图6。与其他SOTA方法的定性比较结果。发件人(一)至(小时)是DFANet的输入图像、地面实况、分段输出[23]，ENet（网络）[19]、MobileNet[21]、LED网[24]，快速-SCNN[22]以及我们的HLNet。从上到下，分割的难度依次增加。

图6。与其他SOTA方法的定性比较结果。发件人(一)至(小时)是DFANet的输入图像、地面实况、分段输出[23]，ENet（网络）[19]、MobileNet[21]、LED网[24]，快速SCNN[22]和我们的HLNet。从上到下，分割的难度依次增加。

图7。运行速度与不同方法性能的对比结果。

图8。Figaro1k测试装置上的烧蚀实验。

图9。多分类混淆矩阵。

表1。HLNet由非对称编码器和解码器组成。整个网络主要由标准卷积（Conv2D）、深度可分离卷积（DwConv2D）、反向剩余瓶颈块、双线性上采样（UpSample2D）模块和几个自定义模块组成。

阶段	类型	输出大小
编码器	-	$224 \times 224 \times 三$
	转换2D	$112 \times 112 \times 32$
	图纸转换2D	$56 \times 56 \times 64$
	图纸转换2D	$28 \times 28 \times 64$
	交互模块	$28 \times 28 \times 128$
	实况调查模型	$28 \times 28 \times 64$
	扩展组	$28 \times 28 \times 32$
解码器	向上采样2D	$224 \times 224 \times 32$
	转换2D	$224 \times 224 \times 三$
	SoftMax软件	$224 \times 224 \times 三$

表2。LFW、CelebHair和Figaro1k测试集的分割性能。“OC”表示输出通道的数量。所有值均以%为单位。此外，最好的用粗体突出显示。

公制	LFW（OC=3）		名人头发（OC=3）		Figaro1k（OC=2）
公制	掌中宽带	HLNet公司	掌中宽带	HLNet公司	掌中宽带	HLNet公司
百万美元	83.46	83.81	88.56	89.55	77.75	78.39
转发	92.75	90.28	91.79	91.98	83.01	83.12
像素加速度	95.83	94.69	95.54	96.08	90.28	90.73
百万像素加速	88.84	90.35	93.61	94.49	84.72	84.93

表3。在CelebHair测试集上比较了SOTA方法的分割精度和执行效率。“†”表示LFW微调。0.5表示收缩系数。“#参数”表示模型参数的数量。粗体表示更好。

表3。在CelebHair测试集上比较了SOTA方法的分割精度和执行效率。“†”表示从LFW进行微调。0.5表示收缩系数。“#参数”表示模型参数的数量。粗体表示更好。

模型	#参数（M）	FPS（FPS）	浮动（G）	毫瓦（%）
ENet（网络）[19]	0.36	8.24	0.94	89.97
LED网络[24]	2.3	6.44	3.28	88.63
快速-SCNN[22]	1.6	20.35	0.41	87.14
MobileNet（0.5）+UNet[21]	0.37	5.80	0.75	86.08
DFAN网[23]	0.42	17.72	0.08	82.88
HLNet（我们的）	1.2	12.23	0.94	90.32
HLNet（我们的）†	1.2	12.23	0.94	90.98

表4。不同颜色空间中不同方法的分类精度。PCA代表主成分分析。粗体表示更好。

表4。不同颜色空间中不同方法的分类精度。PCA代表主成分分析。大胆意味着更好。

方法	RGB（RGB）	高速列车	色差信号
直方图（8个箱子）	75%	78%	73%
带PCA的直方图（256个箱子）	77%	-	-
颜色时刻	73%	77%	80%

出版商备注：MDPI对公布的地图和机构关联中的管辖权主张保持中立。

分享和引用

MDPI和ACS样式

X·冯。；高，X。；罗，L。HLNet：实时分割和面部肤色评估的统一框架。对称 2020,12, 1812.https://doi.org/10.3390/sym12111812

AMA风格

冯X、高X、罗L。HLNet：实时分割和面部肤色评估的统一框架。对称. 2020; 12(11):1812.https://doi.org/10.3390/sym12111812

芝加哥/图拉宾风格

冯、兴隆、高贤文和罗玲。2020年，“HLNet:实时分割和面部肤色评估的统一框架”对称第12期，第11期：1812页。https://doi.org/10.3390/sym12111812

请注意，从2016年第一期开始，该杂志使用文章编号而不是页码。请参阅更多详细信息在这里.

文章菜单