计算机工程与应用››2024,第60卷››发行(10): 30-46.内政部:10.3778/j.issn.1002-8331.2310-0395

• 热点与综述 • 上一篇   下一篇

细粒度图像分类上视觉变换器的发展

孙露露,刘建平,王健,邢嘉璐,张越,王晨阳  

  1. 1北方民族大学 计算机科学与工程学院,银川 750021
    2北方民族大学 图像图形智能处理国家民委重点实验室,银川 750021
    三。中国农业科学院 农业信息研究所,北京 100081
  • 出版日期:2024-05-15 发布日期:2024-05-15

视觉变换器在细粒度图像分类中的应用综述

孙璐璐、刘建平、王健、邢家璐、张跃、王晨阳  

  1. 1.中国银川750021北方民族大学计算机科学与工程学院
    2.国家民族事务委员会图像与图形智能处理重点实验室,北方民族大学,银川750021
    3.中国农业科学院农业信息研究所,北京100081
  • 在线:2024-05-15 出版:2024-05-15

摘要:细粒度图像分类(精细图像分类,FGIC)一直是计算机视觉领域中的重要问题。与传统图像分类任务相比,FGIC公司的挑战在于类间对象极其相似,使任务难度进一步增加。随着深度学习的发展,视觉变压器(ViT)模型在视觉领域掀起热潮,并被引入到功能梯度集成电路任务中。介绍了FGIC公司任务所面临的挑战,分析了ViT公司模型及其特性。主要根据模型结构全面综述了基于ViT FGIC算法,包括特征提取、特征关系构建、特征注意和特征增强四方面内容,对每种算法进行了总结,并分析了它们的优缺点。通过对不同ViT公司模型在相同公用数据集上进行模型性能比较,以验证它们在FGIC公司任务上的有效性。最后指出了目前研究的不足,并提出未来研究方向,以进一步探索ViT FGIC中心

关键词: 细粒度图像分类, 视觉变压器, 特征提取, 特征关系构建, 特征注意, 特征增强

摘要:细粒度图像分类一直是计算机视觉中的一个重要问题。与传统的图像分类任务相比,FGIC面临着极为相似的类间对象的挑战,这进一步增加了任务的难度。随着深度学习的发展,视觉变换器(ViT)模型在视觉领域得到了广泛的应用,并被引入到FGIC任务中。本文介绍了FGIC任务所面临的挑战,概述了ViT模型,并分析了其特点。综合审查主要基于模型结构,涵盖基于ViT的FGIC算法。它主要包括特征提取、特征关系建模、特征关注和特征增强等方面。对每种算法进行了总结,并分析了其优缺点。然后,对同一公共数据集上不同ViT模型的性能进行了比较,以验证它们在FGIC任务中的有效性。此外,指出了当前研究的局限性,并提出了未来的研究方向,以进一步探索ViT在FGIC中的潜力。

关键词: 细粒度图像分类, 视觉变压器, 特征提取, 特征关系建模, 功能关注, 特征增强