计算机科学››2024,第51卷››问题(5): 313-320.数字对象标识:10.11896/jsjkx.240100038

• 计算机网络 • 上一篇   下一篇

基于云边协同子类蒸馏的卷积神经网络模型压缩方法

孙婧1,王晓霞2  

  1. 1华东政法大学智能科学与信息法学系 上海 201620
    2西北师范大学计算机科学与工程学院 兰州 730070
  • 收稿日期:2024-01-02 修回日期:2024-03-25 出版日期:2024-05-15 发布日期:2024-05-08
  • 通讯作者:孙婧(jingsuncs@126.com)
  • 基金资助:
    国家自然科学基金(12161080)

基于云边缘协同子类提取的卷积神经网络模型压缩方法

孙静1,王晓霞2  

  1. 1华东政法大学智能科学与信息法系,中国上海,201620
    2西北师范大学计算机科学与工程学院,兰州,730070
  • 收到:2024-01-02 修订过的:2024-03-25 在线:2024-05-15 出版:2024-05-08
  • 关于作者:孙静,1985年生,博士,讲师,中共党员(编号30246M)。她的主要研究兴趣包括分布式存储系统、边缘计算和知识提取。
  • 支持单位:
    国家自然科学基金(12161080)。

摘要:当前卷积神经网络模型的训练和分发流程中,云端拥有充足的计算资源和数据集,但难以应对边缘场景中碎片化的需求。边缘侧能够直接进行模型的训练和推理,但难以直接使用云端按照统一规则训练的卷积神经网络模型。针对在边缘侧资源受限的情况下,卷积神经网络算法进行模型压缩的训练和推理有效性低的问题,首先,提出了一种基于云边协同的模型分发和训练框架,该框架可以结合云端和边缘侧各自的优势进行模型再训练,满足边缘对指定识别目标、指定硬件资源和指定精度的需求。其次,基于云边协同框架训练的思路,对知识蒸馏技术进行改进,提出了新的基于后勤和渠道两种子类知识蒸馏方法(SLKD和SCKD),云服务端先提供具有多目标识别的模型,而后通过子类知识蒸馏的方法,在边缘侧将模型重新训练为一个可以在资源受限的场景下部署的轻量化模型。最后,在CIFAR-10公司公共数据集上,对联合训练框架的有效性和两种子类蒸馏算法进行了验证。实验结果表明,在压缩比为50%的情况下,相比具有全部分类的模型,所提模型推理准确率得到了显著的提升(10%~11%);相比模型的重新训练,通过知识蒸馏方法训练出的模型精度也有显著提高,并且压缩比率越高,模型精度提升越明显。

关键词: 云边协同, 深度学习, 知识蒸馏, 模型压缩, 特征提取

摘要:在当前卷积神经网络模型的训练和分发过程中,云具有足够的计算资源和数据集,但难以满足边缘场景中的碎片化需求。边缘侧可以直接训练和推断模型,但很难直接使用根据统一规则在云中训练的卷积神经网络模型。针对边缘端资源有限的情况下,用于模型压缩的卷积神经网络算法训练和推理效率低的问题,首先提出了一种基于云边缘协作的模型分发和训练框架。该框架可以结合云和边缘的优势进行模型再训练,满足边缘对指定识别目标、指定硬件资源和指定精度的要求。其次,基于云边缘协同框架的训练方法,提出了基于logits和channel的新的子类知识提取方法(SLKD和SCKD),以改进知识提取技术。云服务器首先提供一个具有多目标识别的模型,然后通过子类知识提取方法,将该模型从边缘重新定义为一个轻量级模型,该模型可以部署在资源有限的场景中。最后,在CIFAR-10数据集上验证了联合训练框架和两个子类蒸馏算法的有效性。实验结果表明,在压缩比为50%时,与全分类模型相比,推理精度提高了10%-11%。与模型的再训练相比,通过知识蒸馏方法训练的模型的精度也得到了很大的提高,并且压缩比越高,模型精度的提高越显著。

关键词: 云边缘协作, 深度学习, 知识提炼, 模型压缩, 特征提取

中图分类号: 

  • TP391.4标准
[1] SIMONYAN K,ZISSERMAN A.用于大规模图像识别的超深卷积网络[J]。计算机科学,2014,18(3):178-182。
[2] IANDOLA F N,HAN S,MOSKEWICZ M W,等.Squeeze-Net:AlexNet级精度,参数少50倍,模型大小小于0.5MB[J].arXiv.1602.073602016。
[3] SANDLER M,HOWARD A,ZHU M,等.MobileNetV2:倒置残差与线性瓶颈[C]//IEEE/CVF计算机视觉与模式识别会议论文集。盐湖城:IEEE出版社,2018:4510-4520。
[4] FRANKLE J,CARBIN M.彩票假设:发现稀疏、可训练的神经网络[C]//Se-venth国际学习表征会议论文集。新奥尔良:ICLR,2019年。
[5] 刘泽,孙敏,周涛,等.网络剪枝价值的再思考[C]//第七届学习表征国际会议论文集。新奥尔良:ICLR,2019年。
[6] 辛顿G,维尼亚尔斯O,迪安J.在神经网络中提取知识[J]。计算机科学,2015,14(7):38-39。
[7] PANG Y H,ZHANG Y M,WANG Y,等,探索模型压缩极限和规律:卫星在轨目标识别的金字塔知识提取框架[J]。IEEE地球科学与遥感汇刊,2024(62):1-13。
[8] 蔡永浩,姚振伟,董振华,等,Zeroq:一种新的零镜头量化框架[C]//2020 IEEE/CVF计算机视觉与模式识别会议论文集。IEEE,2020:13166-13175。
[9] AKBARI A,JAFARI R.利用深度生成域自适应技术传输新型可穿戴传感器的活动识别模型[C]//第18届传感器网络信息处理国际会议论文集。纽约:ACM,2019:85-96。
[10] ROKNI S A,GHASEMZADEH H.同步动态视图学习:使用可穿戴传感器自主训练活动识别模型的框架[C]//第16届ACM/IEEE传感器网络信息处理国际会议论文集。2017:79-90。
[11] 张毅,湘T,HOSPEDALES T M,等.深度互学[C]//IEEE计算机视觉与模式识别会议论文集.2018:4320-4328。
[12] FURLANELLO T,LIPTON Z C,TSCHANNEN M,等.再生神经网络[C]//国际机器学习会议.2018:1607-1616。
[13] MIRZADEH S I,FARAJTABAR M,LI A,et al.通过教师助理改进知识蒸馏[C]//美国人工智能学会人工智能会议论文集.2020:5191-5198。
[14] 阿德里安娜·R,BALLASN,KAHOU SE,等。Fitnets:thin deep nets的提示[J]。arXiv:1412.65502014。
[15] PARK W,KIM D,LU Y,等。关系知识提取[C]//IEEE/CVF计算机视觉与模式识别会议论文集。长滩:IEEE出版社,2019:3967-3976。
[16] HEO B,KIM J,YUN S,等.特征提取的全面检修[C]//IEEE国际计算机视觉会议论文集.2019:1920-1931。
[17] LOPES R G,FENU S,STARNER T.深度神经网络的无数据知识提取[J].arXiv:1710.075352017。
[18] YE J,JI Y,WANG X,et al.通过组Stack dual gan进行无数据知识融合[C]//IEEE/CFF计算机视觉和模式识别会议论文集。CVPR,2020:12513-12522。
[19] YOO J,CHO M Y,KIM T.无观测数据的知识提取[J]。神经信息处理系统进展32.NeurIPS,2019,32:2701-2710。
[20] 宋杰,陈毅,叶杰,等.点自适应知识提取[J]。IEEE图像处理汇刊,IEEE,2022,31:3359-3370。
[21]赵斌,崔琦,宋瑞杰,等.解耦知识提取[C]//IEEE/CVF计算机视觉与模式识别会议论文集.2022:1953-11962。
[22]BEYER L,ZHAI X,ROYER A,et al.知识提炼:一个好老师是耐心和始终如一的[C]//IEEE/CVF计算机视觉和模式识别会议论文集.2022:10925-10934。
[23]何凯,张欣,任仕,等.基于深度卷积网络的视觉识别空间金字塔池[J]。IEEE模式分析与机器智能事务,2015,37(9):1904-1916。
[24]何克明,张晓云,任世清,等.图像识别的深度剩余学习[C]//2016 IEEE计算机视觉与模式识别会议。IEEE,2016:770-778。
已查看
全文


摘要

引用

  共享   
  讨论   
找不到建议阅读的文章!