细粒度图像分类上Vision Transformer的发展综述

doi:10.3778/j.issn.1002-8331.2310-0395

摘要/摘要

摘要：细粒度图像分类（精细图像分类，FGIC）一直是计算机视觉领域中的重要问题。与传统图像分类任务相比，FGIC公司的挑战在于类间对象极其相似，使任务难度进一步增加。随着深度学习的发展，视觉变压器（ViT）模型在视觉领域掀起热潮，并被引入到功能梯度集成电路任务中。介绍了FGIC公司任务所面临的挑战，分析了ViT公司模型及其特性。主要根据模型结构全面综述了基于ViT FGIC算法，包括特征提取、特征关系构建、特征注意和特征增强四方面内容，对每种算法进行了总结，并分析了它们的优缺点。通过对不同ViT公司模型在相同公用数据集上进行模型性能比较，以验证它们在FGIC公司任务上的有效性。最后指出了目前研究的不足，并提出未来研究方向，以进一步探索ViT FGIC中心

关键词: 细粒度图像分类, 视觉变压器，特征提取, 特征关系构建, 特征注意, 特征增强

摘要：细粒度图像分类一直是计算机视觉中的一个重要问题。与传统的图像分类任务相比，FGIC面临着极为相似的类间对象的挑战，这进一步增加了任务的难度。随着深度学习的发展，视觉变换器（ViT）模型在视觉领域得到了广泛的应用，并被引入到FGIC任务中。本文介绍了FGIC任务所面临的挑战，概述了ViT模型，并分析了其特点。综合审查主要基于模型结构，涵盖基于ViT的FGIC算法。它主要包括特征提取、特征关系建模、特征关注和特征增强等方面。对每种算法进行了总结，并分析了其优缺点。然后，对同一公共数据集上不同ViT模型的性能进行了比较，以验证它们在FGIC任务中的有效性。此外，指出了当前研究的局限性，并提出了未来的研究方向，以进一步探索ViT在FGIC中的潜力。

关键词： 细粒度图像分类，视觉变压器，特征提取，特征关系建模，功能关注，特征增强

孙露露, 刘建平, 王健, 邢嘉璐, 张越, 王晨阳. 细粒度图像分类上视觉变换器的发展[J]。计算机工程与应用, 2024, 60(10): 30-46.

孙璐璐、刘建平、王健、邢家璐、张跃、王晨阳。精细图像分类中的视觉变换器综述[J]。计算机工程与应用，2024，60（10）：30-46。

参考文献

[1] 李祥霞, 吉晓慧, 李彬. 细粒度图像分类的深度学习方法[J] ●●●●。计算机科学与探索, 2021, 15(10): 1830-1842.
李晓霞，JI X H，LI B.细粒度图像分类的深度学习方法[J]。计算机科学与技术前沿杂志，2021，15（10）：1830-1842。
[2] ELINDER P、BRANSON S、MITA T等。加州理工大学可持续发展学院鸟类200-2011数据集[R]。加州理工学院，2011年。
[3] KHOSLA A，JAYADEVAPRAKASH N，YAO B，et al.用于细粒度图像分类的新数据集：斯坦福犬[C]//2011年CVPR精细视觉分类研讨会论文集，2011。
[4] KRAUSE J，STARK M，DENG J，et al.用于细粒度分类的三维对象表示[C]//2013 IEEE国际计算机视觉研讨会论文集，悉尼，2013:554-561。
[5] 罗伟，杨晓天，莫晓华，等.基于Cross-X学习的细粒度视觉分类[C]//2019 IEEE国际计算机视觉会议论文集，汉城，2019:8241-8250。
[6] 高毅，韩晓天，王旭，等.用于细粒度图像分类的通道交互网络[C]//2022年第三届计算机视觉、图像和深度学习国际会议暨计算机工程与应用国际会议论文集，长春，2022:606-611。
[7] 何凯, 冯旭, 高圣楠, 等. 基于多尺度特征融合与反复注意力机制的细粒度图像分类算法[J] ●●●●。天津大学学报 (自然科学与工程技术版), 2020, 53(10): 1077-1085.
HE K，FENG X，GAO SN，et al.使用多尺度特征融合和再注意机制的细粒度图像分类算法[J]。天津大学学报（科技版），2020，53（10）：1077-1085。
[8] ZHANG Y.一种融合注意机制的卷积神经网络细粒度图像分类检测方法[J]。计算智能与神经科学，2022:2974960。
[9] 曾瑞，何建生.基于双线性池的细粒度图像分类方法[J]。应用科学，2022，12（10）：5063。
[10] 解耀华, 章为川, 任劼, 等. 基于自适应特征融合的小样本细粒度图像分类[J] ●●●●。计算机工程与应用, 2023, 59(3): 184-192.
谢俊华，张文川，任杰，等.自适应特征融合嵌入网络在少镜头细粒度图像分类中的应用[J]。计算机工程与应用，2023,59（3）：184-192。
[11] 于春杰，赵晓云，郑庆，等.基于层次双线性池的精细视觉识别[C]//第十五届欧洲计算机视觉会议论文集。查姆：施普林格，2018:595-610。
[12] 宋建伟，杨瑞英。细粒度视觉分类的特征增强、抑制和多样化[C]//2021年国际神经网络联合会议论文集，深圳，2021:1-8。
[13] 刘德川，王毅，马塞·柯杰，等.基于递归多尺度通道空间关注的细粒度图像分类[J]。IEICE信息与系统交易，2022，105-D（3）：713-726。
[14] 庄宝清，王永利，乔毅.学习细粒度分类的注意成对交互[C]//第34届AAAI人工智能会议论文集，2020：13130-13137。
[15] 李振华，顾天成，李斌，等.基于ConvNeXt的细粒度图像分类和双线性注意机制模型[J]。应用科学，2022，12（18）：9016。
[16] 刘明，张成杰，白海华，等.基于交叉学习的细粒度图像分类[J]。IEEE图像处理汇刊，2022，31:748-758。
[17] 刘春斌，谢海涛，张志杰，等。过滤与蒸馏：提高精细视觉分类的区域关注度[C]//第34届AAAI人工智能会议论文集，2020：11555-11562。
[18] 廖开阳, 黄港, 郑元林, 等. 互补注意多样性特征融合网络的细粒度分类[J] ●●●●。中国图象图形学报, 2023, 28(8): 2420-2431.
LIAO K Y，HUANG G，ZHENG Y L，等.互补注意多样性特征融合网络的细粒度分类[J]。《图像与图形学杂志》，2023，28（8）：2420-2431。
[19] 张文轩, 吴秦. 基于多分支注意力增强的细粒度图像分类[J] ●●●●。计算机科学, 2022, 49(5): 105-112.
ZAHNG W X，WU Q.基于多分支注意增强的细粒度图像分类[J]。计算机科学，2022，49（5）：105-112。
[20] 吕冬健, 王春立. 可变尺寸循环注意力模型及应用研究[J] ●●●●。计算机工程与应用, 2022, 58(12): 243-248.
LYU D J，WANG L C.重复注意模型的变量大小及其应用研究[J]。计算机工程与应用，2022，58（12）：243-248。
[21]VASWANI A，SHAZEER N，PARMAR N，et al.注意力是你所需要的一切[C]//《神经信息处理系统的进展》30，2017:6000-6010。
[22]DOSOVITSKIY A，BEYER L，KOLESNIKOV A，et al.图像值16x16个单词：图像识别的变形金刚[C]//第九届学习表征国际会议论文集，2021年5月3-7日。
[23] 郑世杰, 王高才. 基于ConvNeXt公司热图定位和对比学习的细粒度图像分类研究[J] ●●●●。计算机科学, 2023, 50(10): 119-125.
郑世杰，王国川.基于ConvNeXt热图定位和对比学习的细粒度图像分类研究[J]。计算机科学，2023，50（10）：119-125。
[24] 申志军, 穆丽娜, 高静, 等. 细粒度图像分类综述[J] ●●●●。计算机应用, 2023, 43(1): 51-60.
沈志杰，牟连恩，高洁，等.细粒度图像分类研究进展[J]。计算机应用杂志，2023，43（1）：51-60。
[25]WEI X S，SONG Y Z，MAC AODHA O，等.基于深度学习的细粒度图像分析：一项调查[J]。IEEE模式分析和机器智能汇刊，2022，44（12）：8927-8948。
[26]刘毅，张毅，王毅，等.视觉变压器的研究[J]。IEEE神经网络和学习系统汇刊，2023年。DOI:10.1109/TNNLS.2022。3227717
[27] 李清格, 杨小冈, 卢瑞涛, 等. 计算机视觉中的变压器的发展[J]。小型微型计算机系统, 2023, 44(4): 850-861.
李清光，杨晓光，卢荣泰，等。计算机视觉中的变压器研究[J]。中国计算机系统杂志，2023，44（4）：850-861。
[28] 周丽娟, 毛嘉宁. 视觉变压器识别任务研究综述[J] ●●●●。中国图象图形学报, 2023, 28(10): 2969-3003.
周立杰，毛永宁。基于视觉变换的识别任务：评论[J]。图像与图形杂志，2023，28（10）：2969-3003。
[29]张毅，陈伟，臧毅.基于视觉变换器的细粒度视觉分类：综述[C]//《2022年IEEE第八届国际计算机与通信会议论文集》，成都，2022:1910-1915。
[30]KUMAR K G S，VENKATESAN A，SELVARAJ D等。通过优化的特征提取方法从胸部X射线图像中快速准确地诊断新冠肺炎病例[J]。电子学，2022，11（17）：5616。
[31]WEI S X，CUI Q，YANG L，et al.RPC：大型零售产品检验数据集[J]。arXiv:1901.072492019年。
[32]JIA M L，SHI M Y，SIROTENKO S，et al.FashionPedia:本体、分割和属性定位数据集[C]//第16届欧洲计算机视觉会议论文集。查姆：施普林格，2020年：316-332。
[33]KHAN SD，ULLAH H.基于视觉的车辆重新识别进展调查[J]。计算机视觉和图像理解，2019，182（1）：50-63。
[34]尹J H，吴亚C，郑文生.细粒人再鉴定[J]。国际计算机视觉杂志，2020，128（6）：1654-1672。
[35]郭美华，徐天X，刘俊杰，等.计算机视觉中的注意机制研究[J]。计算视觉媒体，2022，8（3）：331-368。
[36]BERA A，WHARTON Z，LIU Y H，et al.SR-GNN:用于细粒度图像分类的空间关系图神经网络[J]。IEEE图像处理汇刊，2022，31（1）：6017-6031。
[37]刘H，张C，谢伯C，等.通过变压器进行机器人视觉跟踪的亲和关系软件细粒度鸟类图像识别[C]//2022年IEEE机器人与仿生国际会议论文集，2022:662-667。
[38] 向旭宇, 刘亚捷, 曾彬等. 基于变压器双线性网络的细粒度图像分类方法[J] ●●●●。华中科技大学学报 (自然科学版), 2024, 52(2): 84-89.
项晓英，刘永杰，曾波，等。基于变压器双线性网络的细粒度图像分类网络[J]。华中科技大学学报（自然科学版），2024，52（2）：84-89。
[39] 田战胜, 刘立波. 基于改进变压器的细粒度图像分类模型[J] ●●●●。激光与光电子学进展, 2023, 60(2): 171-178.
TIAN Z S，LIU L B.基于改进Transformer的细粒度图像分类模型[J]。激光与光电子进展，2023，60（2）：171-178。
[40]张振中，陈振德，王永X，等.基于视觉变换的细粒度目标识别器ViT-FOD[J]。arXiv:2203.128162022。
[41]王毅，叶斯，于世杰等.R2-Trans:基于冗余减少的细粒度视觉分类[J]。arXiv:2204。10095, 2022.
[42] 张天魁, 蔡昌利, 骆晓亮, 等. 基于多尺度特征变压器的细粒度图像分类方法[J] ●●●●。北京邮电大学学报, 2023, 46(4): 70-75.
ZAHNG T K，CAI C L，LUO X L，等.基于多尺度特征变换的细粒度图像分类方法[J]。北京邮电大学学报，2023，46（4）：70-75。
[43] 陆妍, 王阳萍, 王文润. 基于变压器的小样本细粒度图像分类方法[J] ●●●●。计算机工程与应用, 2023, 59(23): 219-227.
卢毅，王永平，王伟瑞.基于变换的少快照细粒度图像分类方法[J]。计算机工程与应用，2023,59（23）：219-227。
[44]徐强，王建华，姜波，等.基于内部集成学习的精细视觉分类Transformer[J]。IEEE多媒体汇刊，2023，25:9015-9028。
[45]DEMIDOV D，SHARIF M H，ABDURAHIMOV A，等.用于细粒度分类的显著掩蔽引导视觉变换器[J]。arXiv:2305.071022023年。
[46]ZGAO Y F，LI J，CHEN X W，等.用于细粒度视觉识别的部分引导关系变换器[J]。IEEE图像处理汇刊，2021，30（1）：9470-9481。
[47]KIM S，NAM J，KO B C.ViT-NeT：带神经树解码器的可解释视觉变换器[C]//第39届机器学习国际会议论文集，2022:11162-11172。
[48]刘华，张丙，邓永杰，等.TransIFC：基于不变线索特征集中学习的细粒度鸟类图像高效分类[J]。IEEE多媒体汇刊，2023年。DOI:10.10109吨/毫米.2023.3238548。
[49]王辉，李义勇，罗慧聪.用于细粒度视觉分类的语义特征集成网络[J]。arXiv:2302.102752023年。
[50] 李佳盈, 蒋文婷, 杨林, 等. 基于ViT公司的细粒度图像分类[J] ●●●●。计算机工程与设计, 2023, 44(3): 916-921.
李建业，姜文堂，杨磊，等。基于视觉变换的细粒度视觉分类[J]。计算机工程与设计，2023，44（3）：916-921。
[51]王强，王俊杰，邓海英，等.AA-Trans:带信息熵选择器的核心注意力聚合变换器用于细粒度视觉分类[J]。模式识别，2023，140:109547。
[52]朱海伟，柯文杰，李德，等.用于细粒度视觉分类和对象再识别的双交叉注意学习[C]//2022年IEEE/CVF计算机视觉与模式识别会议论文集，2022:4682-4692。
[53]SUN H B，HE X T，PENG Y X.SIM-Trans:用于细粒度视觉分类的结构信息建模转换器[C]//第30届ACM国际多媒体会议论文集，纽约，2022:5853-5861。
[54]MOON J H，LEE J K，LEE Y L，等.M2Former:基于多尺度的精细视觉识别补丁选择[J]。arXiv:2308.021612023年。
[55]TOUVRON H，CORD M，DOUZE M，et al.通过注意力训练高效数据图像变换器和蒸馏[C]//第38届机器学习国际会议论文集，2021:10347-10357。
[56]何杰，陈杰，刘S，等.TransFG:一种用于细粒度识别的变压器结构[C]//第36届AAAI人工智能会议论文集。门罗公园：AAAI，2022:1174-1182。
[57]CONDE M V，TURGUTLU K.探索用于细粒度分类的视觉变换器[J]。arXiv:2106.105872021年。
[58]DO T，TRAN H，TJIPUTRA E，等.基于自评估分类器的细粒度视觉分类[J]。arXiv:2205。10529, 2022.
[59]LYU Y L，JING L P，WANG J Q，等.用于细粒度图像识别的分层概念嵌入暹罗变换器[J]。科学中国：信息科学，2023，66（3）：132107。
[60]JI R Y，LI J Y，ZHANG L B，et al.用于细粒度视觉分类的多粒度装配双变压器[J]。IEEE视频技术电路和系统汇刊，2023，33（9）：5009-5021。
[61]BEHERA A，WHSRTON Z，HEWAGE P，et al.细粒度视觉分类的上下文软件注意力池（CAP）[C]//第35届AAAI人工智能会议论文集，2021:929-937。
[62]SU T，YE S，SONG C Q，et al.Mask-ViT：一种嵌入视觉变换器中的对象掩码，用于精细视觉分类[C]//2022年IEEE图像处理国际会议论文集，2022:1626-1630。
[63]王J，于X H，高Y S.用于细粒度视觉分类的特征融合视觉变换器[C]//2021年英国机器视觉会议论文集，2021年。
[64]胡永强，金X，张勇，等.RAMS-Trans:用于细粒度图像识别的重复注意多尺度变换器[C]//第29届ACM国际多媒体会议论文集。纽约：ACM，2021:4239-4248。
[65]张毅，曹杰，张磊，等.ViT免费午餐：用于细粒度视觉识别的自适应注意力多尺度融合变压器[C]//2022年IEEE声学、语音和信号处理国际会议论文集，新加坡，2022:3234-3238。
[66]HU X B，ZHU S N，PENG T L.HAVT：用于细粒度视觉分类的分层注意视觉变换器[J]。视觉传达与图像表征杂志，2023，91（C）：103755。
[67]于毅，王继光.用于细粒度图像识别的混合粒度变换器[J]。熵，2023，25（4）：601。
[68]ZHENG Z W，ZHOU J X，GAN J H，et al.基于交叉注意力网络的细粒度图像分类[J]。国际语义网和信息系统杂志，2022，18（1）：1-18。
[69]LIU X D，WANG L L，HAN X G.用于细粒度图像识别的峰值抑制变压器和知识指导[J]。神经计算，2022，492:137-149。
[70]CHOU P Y，LIN C H，KAO W C.一种用于细粒度视觉分类的新型插件模块[J]。arXiv:22022.038222022年。
[71]LV X Y，XIA H，LI N，et al.MFVT：用于细粒度视觉分类的多级特征融合视觉变换和RAMix数据增强[J]。电子学，2022，11（21）：3552。
[72] 项剑文, 陈泯融, 杨百冰. 结合Swin公司及多尺度特征融合的细粒度图像分类[J] ●●●●。计算机工程与应用, 2023, 59(20): 147-157.
项建伟，陈敏荣，杨伯斌.结合Swin和多尺度特征融合的细粒度图像分类[J]。计算机工程与应用，2023,59（20）：147-157。
[73]CHOU P Y，KAO Y Y，LIN C H。具有高温细化和背景抑制的细粒度视觉分类[J]。arXiv:2303.064422023年。
[74] 黄港, 郑元林, 廖开阳, 等. 互补注意多样性特征融合网络的细粒度分类[J] ●●●●。中国图象图形学报, 2023, 28(8): 2420-2431.
黄庚，郑永乐，廖克英，等.互关注多样性特征融合网络相关细粒度分类[J]。图像与图形杂志，2023，28（8）：2420-2431。
[75]刁Q S，蒋毅，温波，等.元格式器：一种用于细粒度识别的统一元框架[J]。arXiv:2203.027512022。
[76] 赵婷婷, 高欢, 常玉广, 等. 基于知识蒸馏与目标区域选取的细粒度图像分类方法[J] ●●●●。计算机应用研究, 2023, 40(9): 2863-2868.
赵天堂，高浩，常义光，等.基于知识提取和目标区域选择的细粒度分类方法[J]。计算机应用研究，2023，40（9）：2863-2868。
[77]袁L，陈永平，王涛，等.令牌到令牌ViT：在ImageNet上从头开始训练视觉变换器[C]//2021年IEEE/CVF计算机视觉国际会议论文集，蒙特利尔，2021:538-547。
[78]CHU X X，TIAN Z，ZHANG B，等.视觉变换器的条件位置编码[J]。arXiv:2102.108822021。
[79]刘Z，林毅，曹毅，等.使用移位窗口的Swin变换器-层次视觉变换器[C]//2021 IEEE/CVF国际计算机视觉会议论文集，蒙特利尔，2021:9992-10002。
[80]ARNAB A，DEHGHANI M，HEIGOLD G，et al.ViViT-A视频视觉转换器[C]//2021年IEEE/CVF计算机视觉国际会议论文集，蒙特利尔，2021:6816-6826。
[81]RADFORD A，KIM J，HALLACY C，et al.从自然语言监控中学习可转换的视觉模型[C]//第38届机器学习国际会议论文集，2021:8748-8763。
[82]GAO P，GENG S J，ZHANG R R，et al.CLIP-Adapter:使用功能适配器的更好的视觉语言模型[J]。国际计算机视觉杂志，2024132:581-595。
[83]NILSBACK M E，ZISSERMAN A.基于大量类别的自动花卉分类[C]//2008年第六届印度计算机视觉、图形和图像处理会议论文集，布巴内斯瓦尔，2008:722-729。
[84]MAJI S，RAHTU E，KANNALA J，等.飞机细粒度视觉分类[J]。arXiv:1306.51512013年。
[85]HORN G V，BRANSON S，FARRELL R，et al.与公民科学家一起构建鸟类识别应用程序和大规模数据集：细粒度数据集中的细节[C]//2015 IEEE计算机视觉和模式识别会议论文集，2015:595-604。
[86]HORN G V，AODHA O M，SONG Y，et al.国际自然学家物种分类和检测数据集[C]//2018 IEEE/CVF计算机视觉和模式识别会议论文集，2018:8769-8778。
[87]MIN W Q，LIU L H，WANG Z L，et al.ISIA Food-500:通过堆叠的全球-本地注意力网络进行大规模食品识别的数据集[C]//第28届ACM国际多媒体会议论文集，2020：393-401。
[88]HORN G V，COLE E，BEERY S，et al.自然世界图像采集的基准表示学习[C]//2021年IEEE计算机视觉与模式识别会议论文集，2021:12884-12893。

细粒度图像分类上视觉变换器的发展

视觉变换器在细粒度图像分类中的应用综述

PDF格式

可视化

摘要/摘要

引用本文

使用本文

参考文献

相关文章15

编辑推荐

韵律学

[1]	王彩玲, 闫晶晶, 张智栋.基于多模态数据的人体行为识别方法研究综述[J] ●●●●。计算机工程与应用, 2024, 60(9): 1-18.
[2]	徐洪俊, 唐自强, 张锦东, 朱沛华.钢材表面缺陷检测的YOLOv5s公司[J] ●●●●。计算机工程与应用, 2024, 60(7): 306-314.
[3]	宣茜, 韩润萍, 高静欣.基于Conformer公司的实时多场景说话人识别模型[J] ●●●●。计算机工程与应用, 2024, 60(7): 147-156.
[4]	马亚美, 王双亭, 都伟冰.双分支多维注意特征融合的高光谱图像分类[J] ●●●●。计算机工程与应用, 2024, 60(7): 192-203.
[5]	苏佳, 秦一畅, 贾泽, 王静.基于ATO-YOLO公司的小目标检测算法[J] ●●●●。计算机工程与应用, 2024, 60(6): 68-77.
[6]	奉鑫鑫, 高曙.基于多特征增强的手部姿态估计方法[J] ●●●●。计算机工程与应用, 2024, 60(6): 207-213.
[7]	王海群, 王炳楠, 葛超.重参数化YOLOv8公司路面病害检测算法[J] ●●●●。计算机工程与应用, 2024, 60(5): 191-199.
[8]	陈磊, 习怡萌, 刘立波.视频文本跨模态检索研究综述[J] ●●●●。计算机工程与应用, 2024, 60(4): 1-20.
[9]	姜文涛, 王德强, 张晟翀.非线性时空正则化的相关滤波目标跟踪算法[J] ●●●●。计算机工程与应用, 2024, 60(3): 165-176.
[10]	谈光璞, 朱广丽, 韦斯羽.基于情感特征增强的中文隐式情感分类模型[J] ●●●●。计算机工程与应用, 2024, 60(3): 196-204.
[11]	周燕, 廖俊玮, 刘翔宇, 周月霞, 曾凡智.改进FCEN网的自然场景文本检测算法[J] ●●●●。计算机工程与应用, 2024, 60(3): 228-236.
[12]	金海波, 马琳琳, 田桂源.自适应变压器网络下的单幅图像去雾方法[J] ●●●●。计算机工程与应用, 2024, 60(3): 237-245.
[13]	王小檬, 梁凤梅.融合有效掩膜和局部增强的遮挡行人重识别[J] ●●●●。计算机工程与应用, 2024, 60(11): 156-164.
[14]	孙庆港, 王呈.改进LSTM-AE公司算法的电梯知识库故障征兆预测[J] ●●●●。计算机工程与应用, 2023, 59(7): 311-318.
[15]	郭银景, 马新瑞, 许越铖, 孔芳, 吕文红.水下光声图像空间配准算法研究综述[J] ●●●●。计算机工程与应用, 2023, 59(5): 14-27.