CiT-Net: Convolutional Neural Networks Hand in Hand with Vision Transformers for Medical Image Segmentation

Lei, Tao; Sun, Rui; Wang, Xuan; Wang, Yingbo; He, Xi; Nandi, Asoke

doi:10.24963/ijcai.2023/113

电气工程与系统科学>图像和视频处理

arXiv公司：2306.03373（个）

【于2023年6月6日提交(第1版)，上次修订日期：2023年12月20日（本版本，v2）]

标题：CiT-Net：卷积神经网络与视觉变换器联手用于医学图像分割

作者：陶磊,孙睿（Rui Sun）,王轩,王英波,西河,阿索克·南迪

查看PDF HTML（实验性）

摘要：卷积神经网络（CNN）和Transformer的混合结构在医学图像分割中非常流行。然而，它面临着两个挑战。首先，虽然CNN分支可以使用香草卷积捕获局部图像特征，但它无法实现自适应特征学习。其次，尽管Transformer分支可以捕获全局特征，但它忽略了通道和交叉维度的自我关注，导致复杂内容图像的分割精度较低。为了应对这些挑战，我们提出了一种新的卷积神经网络与视觉变换器（CiT-Net）的混合结构，用于医学图像分割。我们的网络有两个优势。首先，我们设计了一种动态可变形卷积并将其应用于CNN分支，克服了卷积核大小固定以及不同输入之间共享核参数的僵硬设计导致的特征提取能力较弱的问题。其次，我们设计了一个移位窗口自适应互补注意力模块和一个紧凑的卷积投影。我们将其应用于Transformer分支，以了解医学图像的横向长期依赖性。实验结果表明，与常用的SOTA方法相比，我们的CiT-Net提供了更好的医学图像分割结果。此外，我们的CiT-Net需要更低的参数和更少的计算成本，并且不依赖于预培训。该代码可在以下网址公开获取：此https URL.

评论：	9页，3张图，3张表
学科：	图像和视频处理（eess.IV）; 计算机视觉和模式识别（cs.CV）
引用为：	arXiv公司：2306.03373[第四部分]
	（或 arXiv:2306.03373v2[第四部分]对于此版本）
	https://doi.org/10.44850/arXiv.2306.03373
日志参考：	第32届国际人工智能联合会议，IJCAI2023，澳门
相关DOI:	https://doi.org/10.24963/ijcai.2023/113

提交历史记录

发件人：Rui Sun[查看电子邮件]
[第1版]2023年6月6日星期二03:22:22 UTC（3309 KB）
[版本2]2023年12月20日星期三02:42:13 UTC（3309 KB）

电气工程与系统科学>图像和视频处理

标题：CiT-Net：卷积神经网络与视觉变换器联手用于医学图像分割

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

Demos公司

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

电气工程与系统科学>图像和视频处理

标题：CiT-Net：卷积神经网络与视觉变换器联手用于医学图像分割

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

Demos公司

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目