LSTFormer：基于Swin Transformer的轻量化语义分割网络

doi:10.3778/j.issn.1002-8331.2210-0331

摘要/摘要

摘要：针对现有基于变压器的语义分割网络普遍存在计算复杂度高的问题，提出了一种基于Swin变压器的轻量化语义分割网络。该网络通过Swin变压器获取多个尺度的特征图；采用全感知模块和改进的级联融合模块跨层融合不同尺度的特征图，减小不同层级特征图的语义差距；引入单个Swin变压器块对初分割特征映射进行优化，通过移动窗口自注意力机制提升网络对不同像素点进行分类的能力；训练阶段加入骰子损失函数和交叉熵损失函数，提高网络的分割性能和收敛速度。实验结果表明，LSTFormer、ADE20K和Cityscapes mIoU分别为49.47%和81.47%、SETR和Swin-UPerNet、LSTForrer在保持相当分割精度的同时具有更低的参数量和计算量。

关键词: 轻量化语义分割, Swin变压器，跨层融合, 自注意力机制, 损失函数

摘要：针对现有基于Transformer的语义分割网络计算复杂度高的普遍问题，提出了一种基于Swin-Transformer的轻量级语义分割网络。首先，利用Swin Transformer获得多尺度的特征图。其次，利用全感知模块和改进的级联融合模块跨层融合不同尺度的特征图，缩小了不同层次特征图之间的语义鸿沟。然后，引入单个Swin Transformer块来优化初始分割特征映射，并通过移动窗口自动注意机制提高网络对不同像素的分类能力。最后，在训练阶段加入骰子损失函数和交叉熵损失函数，以提高网络的分割性能和收敛速度。实验结果表明，ADE20K和Cityscapes上LSTFormer的mIoU分别达到49.47%和81.47%。与SETR和Swin-UPerNet等类似网络相比，LSTFormer具有更低的参数和计算量，同时保持相同的分割精度。

关键词： 轻量级语义分割， Swin变压器，跨层融合，自我注意机制，损耗熔合

杨承, 高建瓴, 郑美琳, 丁容. LST变压器：Swin变压器的轻量化语义分割网络[J] ●●●●。计算机工程与应用, 2023, 59(12): 166-175.

杨成、高建林、郑美林、丁荣。LSTFormer：基于Swin Transformer的轻量级语义分割网络[J]。计算机工程与应用，2023,59（12）：166-175。

参考文献

[1] 梁新宇，罗晨，权冀川，等.基于深度学习的图像语义分割技术研究进展[J] ●●●●。计算机工程与应用，2020，56（2）：18-28.
梁晓英，罗C，泉JC，等。基于深度学习的图像语义分割研究进展[J]。计算机工程与应用，2020,56（2）：18-28。
[2] 徐辉，祝玉华，甄彤，等.深度神经网络图像语义分割方法综述[J] ●●●●。计算机科学与探索，2021，15（1）：47-59.
许慧，朱永华，郑T，等.基于深度神经网络的图像语义分割方法综述[J]。计算机科学与技术前沿杂志，2021,15（1）：47-59。
[3] LONG J，SHELHAMER E，DARRELL T。用于语义分割的全卷积网络[C]//IEEE计算机视觉和模式识别会议论文集，2015:3431-3440。
[4] 赵浩，史杰，齐X，等。金字塔场景解析网络[C]//IEEE计算机视觉与模式识别会议论文集，2017:2881-2890。
[5] 陈立中，帕潘德里欧，柯金诺斯，等.基于深度卷积网络和全连通CRF的语义图像分割[J].arXiv:1412.70622014。
[6] CHEN L C，PAPANDREOU G，KOKKINOS I，et al.Deeplab:基于深度卷积网络、反褶积和全连通CRF的语义图像分割[J]。IEEE模式分析和机器智能汇刊，2017,40（4）：834-848。
[7] 陈立中，帕潘德里欧G，施若夫F，等.基于反褶积的语义图像分割的再思考[J].arXiv:1706.055872017。
[8] CHEN L C，ZHU Y，PAPANDREOU G，等.用于语义图像分割的可分离卷积编码器-解码器[C]//欧洲计算机视觉会议论文集，2018:801-818。
[9] ZHAO H，QI X，SHEN X，et al.Icnet用于高分辨率图像的实时语义分割[C]//欧洲计算机视觉会议论文集，2018:405-420。
[10] SANDLER M，HOWARD A，ZHU M，et al.Mobilenetv2:倒置残差和线性瓶颈[C]//IEEE计算机视觉和模式识别会议论文集，2018:4510-4520。
[11] WU T，TANG S，ZHANG R，et al.Cgnet：一种用于语义分割的轻量级上下文引导网络[J]。IEEE图像处理汇刊，2020,30:1169-1179。
[12] YU C，GAO C，WANG J，et al.Bisenet v2：用于实时语义分割的具有引导聚合的双边网络[J]。国际计算机视觉杂志，2021129（11）：3051-3068。
[13] 李翔，张涛，张哲，等.变压器在计算机视觉领域的研究综述[J] ●●●●。计算机工程与应用，2023，59（1）：1-14.
李霞，张涛，张泽，等。计算机视觉中变压器研究综述[J]。计算机工程与应用，2023,59（1）：1-14。
[14] DOSOVITSKIY A，BEYER L，KOLESNIKOV A，et al.图像值16x16个单词：图像识别的变形金刚[C]//国际学习代表大会，2021年。
[15] 李毅，袁刚，温毅，等.效率形成器：移动网络速度下的视觉变换器[J].arXiv:2206.01912022。
[16] 陈毅，戴霞，陈德，等。移动形成器：桥接移动网络和变压器[C]//IEEE/CVF计算机视觉和模式识别会议论文集，2022:5270-5279。
[17] LIU Z，LIN Y，CAO Y，et al.Swin transformer:使用移位窗口的分层视觉变换器[C]//IEEE/CFF国际计算机视觉会议论文集，2021:10012-10022。
[18] 王强，董霞，王荣，等.基于变压器的食物分割金字塔池网络[C]//2022 IEEE第二届软件工程与人工智能国际会议，2022:64-68。
[19] 史伟，徐杰，高鹏.语义切分的轻量级变换器[J].arXiv:2208.020342022。
[20] 蒋X，李毅，蒋T，等.道路成型器：基于遥感图像提取路网的金字塔变形视觉变换器[J]。国际应用地球观测和地理信息杂志，2022113:102987。
[21]卢力，肖毅，常X，等.面向语义分割的可变形注意特征金字塔网络[J]。基于知识的系统，2022254:109623。
[22]于磊，李泽，张杰，等.多平移窗口场景分割的自我关注[J].arXiv:2207.044032022。
[23]肖涛，刘毅，周波，等.基于统一感知分析的场景理解[C]//欧洲计算机视觉会议论文集，2018:418-434。
[24] 刘腊梅，王晓娜，刘万军，等.融合转置卷积与深度残差图像语义分割方法[J] ●●●●。计算机科学与探索，2022，16（9）：2132-2142.
刘利明，王晓恩，刘伟杰，等.转置卷积与深度残差融合的图像语义分割方法[J]。计算机科学与技术前沿杂志，2022,16（9）：2132-2142。
[25]董斌，王伟，范德平，等.Polyp-pvt：基于金字塔视觉变换的息肉分割[J].arXiv:2108.069322021。
[26]谢娥，王伟，于泽，等.SegFormer：基于变换器的简单高效语义切分设计[J]。神经信息处理系统进展，2021,34:12077-12090。
[27]李X，孙X，孟Y，等.数据不平衡NLP任务的骰子损失[J].arXiv:1911.028552019。
[28]DE BOER P T，KROESE D P，MANNOR S，et al.交叉熵方法教程[J]。运筹学年鉴，2005134（1）：19-67。
[29]周B，赵H，PUIG X，等.基于ade20k数据集的场景语义理解[J]。国际计算机视觉杂志，2019127（3）：302-321。
[30]CORDTS M，OMRAN M，RAMOS S，et al.语义城市场景理解的城市景观数据集[C]//IEEE计算机视觉与模式识别会议论文集，2016:3213-3223。
[31]何克明，张晓云，任世清，等.图像识别的深度剩余学习[C]//2016 IEEE计算机视觉与模式识别会议，拉斯维加斯，2016年6月26日-7月1日.纽约：IEEE出版社，2016:770-778。
[32]CAO Y，XU J，LIN S等。Gcnet:非本地网络与挤压激励网络及其后的网络相遇[C]//IEEE/CFF国际计算机视觉研讨会论文集，2019。
[33]TOUVRON H，CORD M，DOUZE M，et al.通过注意力训练数据高效图像变换器和蒸馏[C]//国际机器学习会议，2021:10347-10357。
[34]ZHENG S，LU J，ZHAO H，et al.用变压器从序列到序列的角度重新思考语义分割[C]//IEEE/CVF计算机视觉和模式识别会议论文集，2021:6881-6890。
[35]CHU X，TIAN Z，WANG Y，et al.双胞胎：重新审视视觉变换器中的空间注意设计[C]//神经信息处理系统的进展，2021:9355-9366。
[36]HUANG L，YUAN Y，GUO J，et al.用于语义分割的交错稀疏自注意[J]。arXiv:1907.122732019。
[37]袁义华，陈晓科，陈晓林，等.分割变换器：语义分割的对象-文本表示[J].arXiv:1909.110652019。
[38]孙坤，赵毅，姜斌，等.标记像素和区域的高分辨率表示[J].arXiv:1904.045142019。

LST变压器：Swin变压器的轻量化语义分割网络

LSTFormer：基于Swin Transformer的轻量级语义分割网络

PDF格式

可视化

摘要/摘要

引用本文

使用本文

参考文献

相关文章15

编辑推荐

韵律学

[1]	罗会兰, 陈翰.时空卷积注意力网络用于动作识别[J] ●●●●。计算机工程与应用, 2023, 59(9): 150-158.
[2]	黄磊, 杨媛, 杨成煜, 杨威, 李耀华.FS-YOLOv5：轻量化红外目标检测方法[J] ●●●●。计算机工程与应用, 2023, 59(9): 215-224.
[3]	张婷, 张兴忠, 王慧民, 杨罡, 王大伟.基于图神经网络的变电站场景三维目标检测[J] ●●●●。计算机工程与应用, 2023, 59(9): 329-336.
[4]	季瑞瑞, 谢宇辉, 骆丰凯, 梅远.改进视觉变压器的人脸识别方法[J] ●●●●。计算机工程与应用, 2023, 59(8): 117-126.
[5]	崔少国, 独潇, 杨泽田.多注意力机制融合低高阶特征的神经推荐算法[J] ●●●●。计算机工程与应用, 2023, 59(8): 192-199.
[6]	张朝阳, 张上, 王恒涛, 冉秀康.多尺度下遥感小目标多头注意力检测[J] ●●●●。计算机工程与应用, 2023, 59(8): 227-238.
[7]	胡松松, 吴亮红, 张红强, 陈亮, 周博文, 张侣.改进多尺度卷积结构与高斯核的电子中心网[J] ●●●●。计算机工程与应用, 2023, 59(6): 70-80.
[8]	肖扬, 周军.图像边缘检测综述[J] ●●●●。计算机工程与应用, 2023, 59(5): 40-54.
[9]	杨春霞, 马文文, 陈启岗, 桂强.融合CNN-SAM网关的多标签文本分类模型[J] ●●●●。计算机工程与应用, 2023, 59(5): 106-114.
[10]	肖立中, 臧中兴, 宋赛赛.融合自注意力的关系抽取级联标记框架研究[J] ●●●●。计算机工程与应用, 2023, 59(3): 77-83.
[11]	孙韩玉, 黄丽霞, 张雪英, 李娟.基于双通道卷积门控循环网络的语音情感识别[J] ●●●●。计算机工程与应用, 2023, 59(2): 170-177.
[12]	温静, 张福康.基于多粒度信息融合的无监督行人重识别方法[J] ●●●●。计算机工程与应用, 2023, 59(13): 99-109.
[13]	闫尚义, 王靖亚, 朱少武, 崔雨萌, 陶知众.融合字词特征的互联网敏感言论识别研究[J] ●●●●。计算机工程与应用, 2023, 59(13): 129-138.
[14]	韦强, 胡晓阳, 赵虹鑫.改进YOLOv5公司的交通标志检测方法[J] ●●●●。计算机工程与应用, 2023, 59(13): 229-237.
[15]	倪昌双, 李林, 罗文婷, 秦勇, 杨振, 傅幼华.改进YOLOv7公司的沥青路面病害检测[J] ●●●●。计算机工程与应用, 2023, 59(13): 305-316.