美国有540万皮肤癌新病例2每年。五分之一的美国人一生中会被诊断为皮肤恶性肿瘤。尽管黑色素瘤在美国所有皮肤癌中所占比例不到5%,但它们约占所有皮肤癌相关死亡的75%,仅在美国每年就造成10000多人死亡。早期检测至关重要,因为黑色素瘤的估计5年生存率从早期检测到的99%以上下降到晚期检测到的14%左右。我们开发了一种计算方法,可以让医生和患者主动跟踪皮肤损伤并提前检测癌症。通过创建一个新的疾病分类法和一个疾病分区算法,将单个疾病映射到训练课程中,我们能够为自动化皮肤病学构建一个深度学习系统。
皮肤科计算机辅助分类的前期工作12,14,15由于数据不足以及对皮肤镜等标准化任务的关注,缺乏医生的泛化能力16–18和组织学图像分类19–22通过专用仪器获取皮肤镜图像,通过侵入性活检和显微镜获取组织学图像;两种模式都能产生高度标准化的图像。照片图像(例如,智能手机图像)在变焦、角度和照明等因素上表现出可变性,这使得分类更具挑战性23,24。我们通过使用数据驱动的方法克服了这一挑战—141万个预训练和训练图像使分类对摄影变化具有鲁棒性。以前的许多技术在分类之前都需要大量的预处理、病变分割和提取特定领域的视觉特征。相比之下,我们的系统不需要手工制作的功能;它直接从图像标签和原始像素进行端到端的训练,具有用于摄影和皮肤镜图像的单一网络。现有的工作体系使用了通常少于1000张皮肤病变图像的小型数据集16,18,19因此,这不能很好地推广到新图像。我们用一个新的皮肤科医生标记的129450张临床图像数据集证明了可推广的分类,其中包括3374张皮肤镜图像。
深度学习算法,以计算和超大数据集的进步为动力25,最近被证明在诸如玩Atari游戏等视觉任务中超过了人类的表现26,战略棋盘游戏,如围棋27和物体识别6在本文中,我们概述了CNN的发展,该CNN与皮肤科医生在三个关键诊断任务中的表现相匹配:黑色素瘤分类、使用皮肤镜进行黑色素瘤分级和癌症分级。我们将比较限制为基于图像的分类。
我们使用GoogleNet Inception v3 CNN架构9这是在2014年ImageNet大规模视觉识别挑战中约128万张图像(1000个对象类别)上预处理的6,并使用转移学习在我们的数据集上对其进行训练28.显示了工作系统。美国有线电视新闻网(CNN)接受了757门疾病课程的培训。我们的数据集由皮肤病学家标记的图像组成,这些图像组织在2032种疾病的树结构分类中,其中个别疾病形成叶节点。这些图像来自18个不同的经临床验证的开放式在线存储库,以及斯坦福大学医学中心的临床数据。显示了完整分类的子集,该分类由医学专家在临床和视觉上组织。我们将数据集分为127463张训练和验证图像和1942张生物症状标记测试图像。
深度CNN布局。我们的分类技术是深度CNN。数据流从左到右:使用在ImageNet数据集上预处理的Google Inception v3 CNN架构(128万张图像,1000个通用对象类),将皮肤病变(例如黑色素瘤)的图像依次扭曲为皮肤病临床类别的概率分布并对我们自己的129450个皮肤病变数据集进行了微调,其中包括2032种不同的疾病。757个培训班是使用一种新的皮肤病分类法和一种将疾病映射到培训班的划分算法来定义的(例如,肢端角化黑色素瘤、无色素黑色素瘤和雀斑黑色素瘤)。推理类更为一般,由一个或多个训练类组成(例如,恶性黑色素细胞病变,即黑色素瘤类)。推理类的概率是通过根据分类结构求训练类的概率之和来计算的(参见方法). Inception v3 CNN架构转载自https://research.googleblog.com/2016/03/train-your-own-image-classifier-with.html
为了利用分类结构中包含的细粒度信息,我们开发了一种算法()将疾病划分为细粒度训练班(例如,无色素性黑色素瘤和肢端痣性黑色素癌)。在推理过程中,CNN输出这些精细类的概率分布。为了恢复感兴趣的粗级别类(例如黑色素瘤)的概率,我们将其后代的概率相加(参见方法和了解更多详细信息)。
我们使用九倍交叉验证从两个方面验证了算法的有效性。首先,我们使用三类疾病划分来验证算法,即分类的第一级节点,它们代表良性病变、恶性病变和非肿瘤病变。在这项任务中,CNN的总体准确率达到72.1±0.9%(平均值±标准差)(个人推理类准确率的平均值),两位皮肤科医生在验证集的一个子集上分别达到65.56%和66.0%的准确率。其次,我们使用九类疾病分区(二级节点)验证了算法,以确保每类疾病都有相似的医疗计划。CNN的总准确率为55.4±1.7%,而这两位皮肤科医生的准确率分别为53.3%和55.0%。接受过精细疾病分区训练的CNN比直接接受过三到九个类训练的CNNs表现更好(参见),证明了我们的划分算法的有效性。因为验证集的图像是由皮肤科医生标记的,但不一定要通过活检进行确认,所以这个指标是不确定的,相反,它表明美国有线电视新闻网正在学习相关信息。
为了最终验证算法,我们测试了算法和皮肤科医生是否能够区分表皮的恶性与良性病变(角质形成细胞癌与良性脂溢性角化病相比)或黑色素细胞(恶性黑色素瘤与良性痣相比),仅使用医学上重要用例的生物化学验证图像原产地。对于黑素细胞损伤,我们展示了两个试验,一个使用标准图像,另一个使用皮肤镜图像,这反映了皮肤科医生为了获得临床印象可能要执行的两个步骤。这三个任务都使用同一个CNN。显示了一些示例图像,显示了区分具有许多视觉特征的恶性和良性病变的困难。我们的比较指标是敏感性和特异性:
其中“真阳性”是指正确预测的恶性病变数量,“阳性”是显示的恶性病变的数量,“真阴性”是指准确预测的良性病变数量,而“阴性”是表示的良性病变的数量。当通过CNN馈送测试集时,P(P)恶性肿瘤,如图所示。我们可以通过选择阈值概率来计算这些概率的敏感性和特异性t吨并定义预测对于每个图像.变化t吨在区间0–1中生成CNN可以实现的敏感性和特异性曲线。
我们比较了美国有线电视新闻网(CNN)和至少21名获得董事会认证的皮肤科医生在表皮和黑素细胞病变分类方面的直接表现(). 对于每一张图片,皮肤科医生都被问及是要活检/治疗病变还是让患者放心。图中的每一个红点代表一位皮肤科医生的敏感性和特异性。CNN优于敏感性和特异性低于CNN蓝色曲线的任何皮肤科医生,大多数皮肤科医生都是如此。绿色点代表皮肤科医生的平均水平(所有红色点的平均敏感性和特异度),误差条表示一个标准偏差。每个病例的曲线下面积(AUC)超过91%。本次比较的图像(135张表皮、130张黑色素细胞和111张黑素细胞皮肤镜图像)是从完整的测试集中采集的。我们的整个生物症状标记图像测试集的敏感性和特异性曲线包括707张表皮图像、225张黑色素细胞图像和1010张黑素细胞皮肤镜图像(). 当我们比较样本数据集时,我们观察到AUC的变化可以忽略不计(<0.03)()使用完整的数据集()验证了我们在更大数据集上结果的可靠性。在具有类似结果的单独分析中(参见方法)皮肤科医生被问及他们认为病变是恶性的还是良性的。
美国有线电视新闻网和皮肤科医生的皮肤癌分类表现。一深度学习CNN在使用照片和皮肤镜图像对皮肤癌进行分类方面优于皮肤科医生的平均水平。我们的CNN与至少21位皮肤科医生进行了角质细胞癌和黑色素瘤识别测试。在每次测试中,都会显示先前未见过的、经生物病理证实的病灶图像,并询问皮肤科医生是否会:活检/治疗病灶或安抚患者。敏感性、真阳性率、特异性、真阴性率、测量性能。皮肤科医生对每张图像输出一个预测,因此用一个红点表示。绿点是每项任务的皮肤科医生的平均值,误差条表示一个标准偏差(根据n个分别为25、22和21名皮肤科医生在皮肤镜下接受角质细胞癌、黑色素瘤和黑色素瘤测试)。CNN输出恶性概率P(P)每个图像。我们确定了一个阈值概率t吨这样的预测对于任何图像,蓝色曲线通过扫掠绘制t吨间隔0–1。AUC是美国有线电视新闻网(CNN)衡量绩效的指标,最大值为1。如果皮肤科医生的敏感性-特异性点低于蓝色曲线,CNN的表现优于皮肤科医生,大多数情况下都低于蓝色曲线。表皮测试:65例角质形成细胞癌和70例良性脂溢性角化病。黑色素细胞检查:恶性黑色素瘤33例,良性痣97例。使用皮肤镜图像进行第二次黑素细胞检测以进行比较:71例为恶性,40例为良性。性能的轻微下降反映出测试图像的难度不同,而不是视觉检查与皮肤镜检查的诊断准确性不同。b条深度学习CNN在更大的数据集上测试时显示出可靠的癌症分类。我们对CNN的更多图像进行了测试,以证明其癌症分类的可靠性。由于测试集更大,CNN的曲线更平滑。
我们使用t吨-SNE公司(t吨-分布式随机邻域嵌入)29(). 每个点代表从CNN最后一个隐藏层的2048维输出投影到二维的皮肤损伤图像。我们看到相同临床类别的点簇(,插图显示不同疾病的图像)。基底细胞癌和鳞状细胞癌在恶性表皮点云上分裂。黑色素瘤集中在中央,而痣集中在右侧。同样,脂溢性角化病与恶性角化病相反。
在这里,我们展示了皮肤病学深度学习的有效性,这是一种我们应用于一般皮肤病和特定癌症的技术。使用一个经过一般皮肤病变分类训练的卷积神经网络,我们匹配了至少21名皮肤科医生在三项关键诊断任务中的表现:角质形成细胞癌分类、黑色素瘤分类和皮肤镜下黑色素瘤分型。这种快速、可扩展的方法可部署在移动设备上,并具有巨大的临床影响潜力,包括扩大初级护理实践的范围,并增强皮肤科专家的临床决策能力。有必要进行进一步的研究,以评估在真实的临床环境中的性能,以便在典型实践中遇到的完整分布和范围内验证该技术。虽然我们承认皮肤科医生的临床印象和诊断是基于视觉和皮肤镜检查以外的环境因素,但拥有董事会认证皮肤科医生准确分类皮肤病变图像的能力,有可能极大地扩大重要医疗服务的可及性。该方法主要受数据约束,如果存在足够的训练示例,则可以对许多视觉条件进行分类。深度学习对所使用的图像数据类型不确定,可以适用于其他专业,包括眼科、耳鼻喉科、放射学和病理学。
方法
数据集。
我们的数据集来自开放存取皮肤病知识库、ISIC Dermoscopic Archive、爱丁堡Dermofit图书馆22和斯坦福医院的数据。来自在线开放存取皮肤病学知识库的图像由皮肤科医生进行注释,不一定通过活检。ISIC档案馆使用的数据严格由黑色素细胞病变组成,这些病变经生物病理证实并标注为恶性或良性。爱丁堡Dermofit图书馆和斯坦福医院的数据都经过了生物病理学验证,并用个别疾病名称进行了注释(即光化性角化病)。在我们的测试集中,黑色素细胞病变包括恶性黑色素瘤(最致命的皮肤癌)和良性痣。表皮病变包括恶性基底细胞癌和鳞状细胞癌、上皮内癌、癌前光化角化病和良性脂溢性角化病。
分类学。
我们的分类法代表了2032种以树状结构排列的单个疾病,其中三个根节点代表一般疾病类别:(1)良性病变,(2)恶性病变和(3)非肿瘤性病变(). 它是由皮肤科医生使用自下而上的程序得出的:单个疾病,初始化为叶节点,根据临床和视觉相似性进行合并,直到整个结构连接起来。分类法的这一方面有助于生成既适合机器学习分类器又与医学相关的训练类。根节点用于第一个验证策略,代表最通用的分区。在第二个验证策略中使用根节点的子节点(即恶性黑色素细胞病变),并代表具有类似临床治疗计划的疾病类别。
数据准备。
模糊图像和远距离图像从测试和验证集中删除,但仍用于训练。我们的数据集包含对应于同一病变但来自多个视角的多组图像,或者同一个人的多个类似病变图像。虽然这是有用的培训数据,但我们还是非常小心地确保这些数据集不会在培训集和验证集之间分割。使用图像EXIF元数据、存储库特定信息和具有CNN特征的最近邻图像检索,我们创建了一个无向图,连接任何确定为相似的图像对。该图的连接组件不允许跨越列车/验证分段,并随机分配给列车或验证。这些测试集均来自斯坦福医院、爱丁堡大学Dermofit图像库和ISIC Dermoscopic档案馆等独立、高质量的生物医用图像库。测试集和训练/验证数据之间不存在重叠(即同一病变、多个视点)。
样本选择。
皮肤、黑素细胞和黑素细胞渗水试验分别使用135张(65张恶性,70张良性)、130张(33张恶性,97张良性)和111张(71张恶性,40张良性)图像。他们的同行分别使用707张(恶性450张,良性257张)、225张(恶性58张,良性167张)和1010张(恶性88张,良性922张)图像。用于的图像数是基于活检标记数据的可用性(即恶性黑色素细胞病变与良性黑色素细胞病灶相比极为罕见)。根据ILSVRC计算机视觉挑战的标准,这些数字在统计上是合理的6,每个类有50到100张图像用于验证和测试集。对于,从每组中随机选择140幅图像一位未经测试的皮肤科医生(对诊断一无所知)删除了任何分辨率不足的图像(尽管网络接受299×299像素的图像输入,但皮肤科医生需要更大的图像才能清晰显示)。
疾病分割算法。
将单个疾病划分为训练类的算法在它是一种递归算法,旨在利用分类法生成训练类,这些训练类的各个疾病在临床和视觉上都是相似的。该算法强制生成的平均训练类大小略小于其唯一的超参数maxClassSize。这些组件一起在以下两者之间取得平衡:(1)生成过于精细且没有足够数据可正确学习的培训课程;(2) 生成的训练类太粗糙,数据太丰富,算法偏向于这些类。当maxClassSize=1000时,该算法生成757个类的疾病分区。所有训练类都是推理类的后代。
训练算法。
我们使用谷歌的Inception v3 CNN架构对2014 ImageNet Challenge的1000个对象类(128万张图像)进行预处理,达到93.33%的前五准确率,参考文献9。然后,我们从网络中删除最后一个分类层,并用我们的数据集重新对其进行训练,对所有层的参数进行微调。在训练期间,我们将每个图像的大小调整为299×299像素,以使其与Inception v3网络体系结构的原始尺寸兼容,并利用ImageNet预处理网络学习到的自然图像特征。此过程称为传递学习,在给定可用数据量的情况下是最佳的。
我们的CNN是使用反向传播进行训练的。网络的所有层都使用相同的全球学习率0.001和衰减因子16每30个周期进行微调。我们使用衰减为0.9、动量为0.9、ε为0.1的RMSProp。我们使用谷歌的TensorFlow30深度学习框架,用于训练、验证和测试我们的网络。在训练期间,图像被放大了720倍。每个图像在0°和359°之间随机旋转。然后从图像中裁剪最大的垂直内接矩形,并以0.5的概率垂直翻转。
推理算法。
我们遵循每个节点都包含其子节点的约定。每个训练类都由分类法中的一个节点表示,随后是所有子类。每个推理类都是一个节点,其后代有一组特定的训练节点。示例如所示,红色节点作为推理类,绿色节点作为训练类。给定输入图像,CNN输出训练节点上的概率分布。分类法的可能性如下:
哪里u个是任意节点,P(P)(u个)是的概率u个、和C类(u个)是的子节点u个因此,为了恢复任何推理节点的概率,我们只需求其后代训练节点的概率之和。请注意,在验证策略中,所有培训课程都被总结为推理类。然而,在二元分类的情况下,已知所讨论的图像是黑色素细胞或表皮的,因此我们只使用作为黑色素细胞或表皮类的后代的训练类。
混淆矩阵。
显示了我们的方法在第二个验证策略的九个类上的混淆矩阵()与两位接受测试的皮肤科医生相比。这证明了CNN和人类专家之间的错误分类相似性。元素(i、 j个)每个混淆矩阵表示预测类别的经验概率j个考虑到基本事实是阶级我第7类和第8类:良性和恶性黑色素细胞病变——经常相互混淆。由于这类疾病的高度可变性,许多图像被误认为是第6类,即炎症类。注意,CNN和皮肤科医生很容易将恶性皮肤肿瘤与其他类别混淆。这些肿瘤本质上是皮肤下的结节,很难进行视觉诊断。
显著性地图。
为了可视化网络预测所关注的像素,我们生成显著性图,如所示,例如九类反向传播是微积分链规则的应用,用于计算网络中所有权重的损失梯度。损失梯度也可以反向传播到输入数据层。通过取RGB通道上该输入层损失梯度的L1范数,得到的热图直观地表示每个像素对诊断的重要性。可以看出,网络将大部分注意力集中在病变本身,而忽略了背景和健康皮肤。
不同问题的敏感性-特异性曲线。
在正文中,我们将CNN的敏感性和特异性与至少21位皮肤科医生在以下三项诊断任务上进行了比较:在本次分析中,每位皮肤科医生被问及是否会活检/治疗病变或让患者放心。这个问题的选择反映了皮肤科医生必须执行的实际临床任务,即决定是否继续医学分析病变。问皮肤科医生一个类似的问题,尽管临床相关性较低,但他们认为病变是恶性的还是良性的。分析结果如所示.如中所示美国有线电视新闻网(CNN)的表现与皮肤科医生不相上下,表现优于平均水平。在表皮损伤测试中,CNN仅比皮肤科医生的平均值高出一个标准差,在两种黑素细胞损伤测试中CNN仅低于皮肤科医生平均值的一个标准偏差。
使用人体受试者。
所有受试者都是经过董事会认证的皮肤科医生,他们在知情同意的情况下接受了我们的测试。这项研究由斯坦福大学机构审查委员会批准,试验注册号为36050。