在本研究中,我们分析、探索和评估了基于CNN架构的不同对象检测和分类方法,用于乳腺超声图像中的病变检测和分类,该方法是在我们的MICCAI研讨会论文的基础上扩展的[34]. 首先,我们介绍了数据收集;其次,我们分析了适用于乳腺超声图像的基于CNN的目标检测的各种架构;最后,我们描述了如何利用CNN对乳腺病变进行分类,以及如何将CNN从非医学图像学习到乳腺超声图像。
数据收集
收集定义明确的数据集是乳腺病变检测/分类研究的关键。为此,我们一直与四川省人民医院合作,让经验丰富的临床医生对乳腺病变患者的乳腺超声图像进行注释。具体来说,患者被告知接受LOGIQ E9(GE)和IU-Elite(PHILIPS)扫描,以生成这些超声图像。每一个超声图像随后都由两三名临床医生进行检查和诊断。基于乳腺成像报告和数据系统(BI-RADS)的评级[35]然后将每个诊断图像分为7个类别,从0到6,其中0表示需要更多信息,1个阴性,2个良性发现,3个可能良性(癌症的可能性小于2%),4个可疑异常,5个高度提示恶性肿瘤,6个已证实恶性肿瘤。根据[35]一些医学专家建议将第四类(可疑异常)进一步划分为三个亚类,即4A(低恶性怀疑)、4B(中等恶性怀疑)和4C(中度关注,但恶性不明显)。为此,根据临床医生的专业指导,我们将数据集分为两类:良性和恶性。良性类别由分类为2、3和4A的图像构成,而恶性类别由分类4B、4C、5和6的图像构成。通过与临床医生的合作,我们已经从患者中收集了577例良性和464例恶性病例。此外,每幅图像中的病变也由经验丰富的临床医生标记出来。图1例显示4个包含良性或恶性病变的超声图像。据我们所知,目前还没有像我们这样公开的乳腺病变超声图像数据集。
目标检测训练协议
深度学习技术的显著进步,尤其是CNN,极大地促进了视觉对象检测的研究。基于快速区域的卷积神经网络(R-CNN)[22],更快的R-CNN[23],你只看一次(YOLO)[24],YOLO版本3(YOLOv3)[25]和单脉冲多盒探测器(SSD)[26]是现有的最先进的目标检测方法。然而,这些基于CNN的方法只关注一般的目标检测。在本文中,我们将其应用于检测我们新收集的乳腺超声数据集中的病变。我们还将每个基于CNN的检测方法与不同的现有神经网络相结合,例如,视觉几何组(VGG16)[29],ZFNet公司[28].
我们使用方法的结果[21]作为检测乳腺病变的基线。所有CNN都经过修改,以从ImageNet检测任务到我们的数据集评估这些CNN架构。接下来,我们将介绍这些算法之间的差异。
快速R-CNN美国有线电视新闻网[36]和空间金字塔汇集网[37]使用CNN对区域建议进行分类,并达到了很好的目标检测精度。然而,仍然存在两个主要问题:一是培训阶段是一个多阶段的管道;以及ii)目标检测速度慢。为了克服这些缺点,还受到金字塔池网的启发[37],Girshick等人[22]改进了R-CNN,提出了快速R-CNN(Fast R-CNN),将ROI池层添加到最后一个卷积层,ROI池图层使用最大池将任何有效感兴趣区域内的特征转换为具有固定空间范围的小特征图。每个特征都被输入到一个完全连接的层中,该层最终分支为两个输出:一个输出产生softmax概率估计,另一个输出进行bounding-box回归。换句话说,同时执行分类和边界框回归。
更快的R-CNN快速R-CNN,由于选择性搜索用于区域建议,检测时间不是很快。为了避免生成区域的独立步骤,Ren等人[23]建议将所谓的区域建议网络(RPN)集成到快速R-CNN中,RPN和快速R-CNN共享大量卷积层。在Faster R-CNN中,作为输入的图像被输入到RPN并输出一组矩形对象建议,每个对象建议都有一个对象性分数,该分数被输入到两个兄弟的完全连接层:对象类别分类层和方框回归层,同时在规则网格上的每个位置回归对象性分数和区域边界。
YOLO公司YOLO公司[24]利用单个卷积神经网络预测检测区域的边界盒和类标签。由于YOLO限制了边界框的数量,因此避免了对同一对象的重复检测,从而大大提高了检测速度,使YOLO适合于实际应用。由于YOLO可能无法定位小对象,Redmon和Farhadi提出了YOLO版本2(YOLOv2)[38],YOLO的改进版本。YOLOv2使用了一种新的分类模型Darknet-19,在标准检测任务上达到了最先进的水平。在[25]Redmon和Farhadi对YOLO做了一系列小的设计更改,这比YOLOv2(称为YOLOv 3)更快、更准确地进行检测。YOLOv3使用维度优先级和位置预测边界框。YOLOv3使用了一个功能强大得多的特征提取网络,这是YOLOv 2中使用的网络、Darknet-19和新型剩余网络之间的混合方法。YOLOv3是一种快速准确的检测仪。
固态硬盘为了提高检测速度和准确性,Liu等人[26]建议的SSD,它只需要在训练期间为每个对象提供一个输入图像和地面真值框。对于不同大小的目标,SSD添加了几个辅助卷积特征层,这些特征层的大小逐渐减小,并在多尺度上预测检测。SSD使用较浅的层来检测小物体。此外,SSD框架以卷积方式评估了不同比例的多个特征图中每个位置的一组不同纵横比的默认框。为了有效地离散可能的输出框形状的空间,允许在多个特征映射中使用不同的默认框形状。对于每个默认框,SSD预测所有对象类别的形状偏移和置信度。
分类培训协议
在这项工作中,我们主要探索和评估在乳腺病变分类任务中具有不同模型训练参数值的不同CNN架构。这些CNN架构学习了标签集,与使用手工制作功能的更传统方法相比,标签集具有主要优势。由于缺乏大数据,我们还评估了非医学数据集的迁移学习。
卷积神经网络结构
我们主要探索和评估AlexNet[27]、ZFNet[28],VGG[29]、ResNet[30]、GoogLeNet[31]和DenseNet[32]用不同的模型训练参数值对乳腺病变任务进行分类。这些深入的CNN架构描述如下。
AlexNet公司
AlexNet[27]在ImageNet大型视觉识别比赛(2012年)中取得了显著提高的成绩。AlexNet有五个卷积层,三个完全连接层,大约有6000万个自由参数。
ZFNet公司
ZFNet体系结构发布于[28],作者介绍了一种新的可视化技术,以揭示CNN模型表现如此出色的原因。该体系结构基于AlexNet,它是一个8层convnet模型,有五个卷积层、两个完全连接层和一个softmax层。
VGG公司
在VGG中[29]作者的主要贡献是对深度不断增加的网络进行了评估,结果表明深度达到16-19个权重层,可以显著提高性能。在本文中,我们使用16个权重层(VGG16)作为默认架构。
谷歌在线
谷歌在线[31]基于希伯来理论和多尺度处理的直觉,作者提出了一个新的模型“初始”。“初始”层由六个卷积层组成。GooLeNet显著增加了卷积网络的深度,超过20层(两个卷积层和九个“初始”模块)。
ResNet公司
在[30]提出了一个残差学习框架来解决难以训练深度CNN的问题,并表明这些残差网络更容易优化。该框架明确地将层重新构造为学习剩余函数。在我们的论文中,我们使用了50层来评估和分析我们的数据集。
DenseNet公司
DenseNet公司[32]以前馈方式将每一层连接到其他层。DenseNets有几个优点:有效解决了消失梯度问题,减少了参数数量,特征重用,加强了特征传播。在本文中,DenseNet-121是我们用于评估和分析数据集的默认DenseNetwork架构,其增长率为k=32。
培训协议
先前的许多研究已经分析了临床医生从基于全尺寸图像(LROI)分类的传统方法中手动选择ROI的感兴趣病变区域。我们知道,目前还没有一项工作能够将超声图像中的乳腺病变进行分类,从而达到实际临床环境的性能要求。在本文中,为了系统评估基于CNN的不同体系结构的影响,但之前不关心的因素,我们使用CNN对全尺寸图像和LROI图像进行分类。为了适应上述CNN架构,所有全尺寸图像和LROI图像的大小都调整为256×256像素,并手动分类为良性或恶性。我们使用caffe框架对所有模型进行训练,并且训练了2000个可以观察到收敛的时段。
收集和注释大量乳腺超声图像仍然是一项重大挑战。尽管自然图像和乳腺超声图像之间存在差异,但我们的假设是,CNN在大规模注释良好的ImageNet上进行全面训练后,仍可能被转移,以使医学图像识别任务更加有效。因此,本文评估和分析了CNN模型的影响,这些模型不仅从零开始学习,而且从预训练模型中转移学习。当从头开始学习时,CNN模型的所有随机参数初始化如下:AlexNet、ZFNet、VGG和高斯随机参数;GoogLeNet与Xavier合作;ResNet和DenseNet与Microsoft Research Asia填料。对于预训练模型的微调,最后一个完全连接的层是随机初始化和新训练的,以适应我们任务中的新对象类别。