Dermatologist–level classification of skin cancer with deep neural networks

Andre Esteva; Brett Kuprel; Roberto A. Novoa; Justin Ko; Susan M. Swetter; Helen M. Blau; Sebastian Thrun

doi:10.1038/nature21056

自然。作者手稿；PMC 2021 8月23日提供。

以最终编辑形式发布为：

自然。2017年2月2日；542(7639): 115–118.

在线发布2017年1月25日。数字对象标识：10.1038/自然21056

预防性维修识别码：PMC8382232型

尼姆斯：美国国立卫生研究院1724608

PMID：28117445

皮肤科医生用深层神经网络对皮肤癌进行分级

安德烈·埃斯特瓦，^#¹ 布雷特·库佩尔，^#¹ 罗伯托·诺沃亚，^2,^三贾斯汀·科，² 苏珊·M·斯威特，^2,⁴ 海伦·M·布鲁，⁵和塞巴斯蒂安·特龙⁶

作者信息版权和许可信息 PMC免责声明

关联数据

数据可用性声明: 支持本研究结果的医学测试集可从ISIC档案中获得(https://isic-archive.com/)和爱丁堡德莫菲特图书馆(https://licensing.eri.ed.ac.uk/i/software/dermofit-image-library.html). 限制适用于医疗培训/验证数据的可用性，这些数据是在当前研究的许可下使用的，因此不公开。在斯坦福医院的允许下，经合理要求，作者可以提供一些数据。

摘要

皮肤癌，人类最常见的恶性肿瘤^1–三首先进行初步临床筛查，然后可能进行皮肤镜分析、活检和组织病理学检查。由于皮肤损伤外观的细微差异，使用图像对皮肤损伤进行自动分类是一项具有挑战性的任务。深度卷积神经网络（CNN）^4，5显示跨许多细粒度对象类别的通用和高度可变任务的潜力^6–11在这里，我们演示了使用单个CNN对皮肤损伤进行分类，直接从图像进行端到端训练，仅使用像素和疾病标签作为输入。我们使用129450张临床图像的数据集训练CNN，该数据集比以前的数据集大两个数量级¹²-由2032种不同的疾病组成。我们使用两个关键的二进制分类用例，在21位经董事会认证的皮肤科医生的生物病理临床图像上测试其性能：角质细胞癌与良性脂溢性角化病；恶性黑色素瘤与良性痣。第一个病例代表了最常见癌症的识别，第二个病例代表着最致命的皮肤癌的识别。CNN在这两项任务中的表现与所有测试专家不相上下，证明了人工智能能够对皮肤癌进行分类，其能力水平可与皮肤科医生媲美。移动设备配备了深层神经网络，有可能将皮肤科医生的工作范围扩展到诊所之外。预计到2021年，智能手机用户将达到63亿（参考文献。13)因此，有可能提供低成本的重要诊断护理普及服务。

美国有540万皮肤癌新病例²每年。五分之一的美国人一生中会被诊断为皮肤恶性肿瘤。尽管黑色素瘤在美国所有皮肤癌中所占比例不到5%，但它们约占所有皮肤癌相关死亡的75%，仅在美国每年就造成10000多人死亡。早期检测至关重要，因为黑色素瘤的估计5年生存率从早期检测到的99%以上下降到晚期检测到的14%左右。我们开发了一种计算方法，可以让医生和患者主动跟踪皮肤损伤并提前检测癌症。通过创建一个新的疾病分类法和一个疾病分区算法，将单个疾病映射到训练课程中，我们能够为自动化皮肤病学构建一个深度学习系统。

皮肤科计算机辅助分类的前期工作^12，14，15由于数据不足以及对皮肤镜等标准化任务的关注，缺乏医生的泛化能力^16–18和组织学图像分类^19–22通过专用仪器获取皮肤镜图像，通过侵入性活检和显微镜获取组织学图像；两种模式都能产生高度标准化的图像。照片图像（例如，智能手机图像）在变焦、角度和照明等因素上表现出可变性，这使得分类更具挑战性^23，24。我们通过使用数据驱动的方法克服了这一挑战—141万个预训练和训练图像使分类对摄影变化具有鲁棒性。以前的许多技术在分类之前都需要大量的预处理、病变分割和提取特定领域的视觉特征。相比之下，我们的系统不需要手工制作的功能；它直接从图像标签和原始像素进行端到端的训练，具有用于摄影和皮肤镜图像的单一网络。现有的工作体系使用了通常少于1000张皮肤病变图像的小型数据集^16，18，19因此，这不能很好地推广到新图像。我们用一个新的皮肤科医生标记的129450张临床图像数据集证明了可推广的分类，其中包括3374张皮肤镜图像。

深度学习算法，以计算和超大数据集的进步为动力²⁵，最近被证明在诸如玩Atari游戏等视觉任务中超过了人类的表现²⁶，战略棋盘游戏，如围棋²⁷和物体识别⁶在本文中，我们概述了CNN的发展，该CNN与皮肤科医生在三个关键诊断任务中的表现相匹配：黑色素瘤分类、使用皮肤镜进行黑色素瘤分级和癌症分级。我们将比较限制为基于图像的分类。

我们使用GoogleNet Inception v3 CNN架构⁹这是在2014年ImageNet大规模视觉识别挑战中约128万张图像（1000个对象类别）上预处理的⁶，并使用转移学习在我们的数据集上对其进行训练²⁸.图1显示了工作系统。美国有线电视新闻网（CNN）接受了757门疾病课程的培训。我们的数据集由皮肤病学家标记的图像组成，这些图像组织在2032种疾病的树结构分类中，其中个别疾病形成叶节点。这些图像来自18个不同的经临床验证的开放式在线存储库，以及斯坦福大学医学中心的临床数据。图2a显示了完整分类的子集，该分类由医学专家在临床和视觉上组织。我们将数据集分为127463张训练和验证图像和1942张生物症状标记测试图像。

保存图片、插图等的外部文件。对象名称为nihms-1724608-f0001.jpg

在单独的窗口中打开

图1|

深度CNN布局。

我们的分类技术是深度CNN。数据流从左到右：使用在ImageNet数据集上预处理的Google Inception v3 CNN架构（128万张图像，1000个通用对象类），将皮肤病变（例如黑色素瘤）的图像依次扭曲为皮肤病临床类别的概率分布并对我们自己的129450个皮肤病变数据集进行了微调，其中包括2032种不同的疾病。757个培训班是使用一种新的皮肤病分类法和一种将疾病映射到培训班的划分算法来定义的（例如，肢端角化黑色素瘤、无色素黑色素瘤和雀斑黑色素瘤）。推理类更为一般，由一个或多个训练类组成（例如，恶性黑色素细胞病变，即黑色素瘤类）。推理类的概率是通过根据分类结构求训练类的概率之和来计算的（参见方法). Inception v3 CNN架构转载自https://research.googleblog.com/2016/03/train-your-own-image-classifier-with.html

保存图片、插图等的外部文件。对象名称为nihms-1724608-f0002.jpg

在单独的窗口中打开

图2|

分类法和示例测试集图像的示意图。

一，皮肤病树结构分类顶层的一个子集。完整分类包含2032种疾病，并根据疾病的视觉和临床相似性进行组织。红色表示恶性，绿色表示良性，橙色表示任何一种情况。黑色表示黑色素瘤。分类法的前两个级别用于验证。测试仅限于以下任务b条.b条，两类疾病的恶性和良性示例图像。这些测试图像突出了我们考虑的三个医学关键分类任务中恶性与良性鉴别的困难：表皮病变、黑色素细胞病变和皮肤镜下可见的黑色素细胞损伤。经爱丁堡德莫菲特图书馆许可转载的图片示例(https://licensing.eri.ed.ac.uk/i/software/dermofit-image-library.html).

为了利用分类结构中包含的细粒度信息，我们开发了一种算法(扩展数据表1)将疾病划分为细粒度训练班（例如，无色素性黑色素瘤和肢端痣性黑色素癌）。在推理过程中，CNN输出这些精细类的概率分布。为了恢复感兴趣的粗级别类（例如黑色素瘤）的概率，我们将其后代的概率相加（参见方法和扩展数据图1了解更多详细信息）。

我们使用九倍交叉验证从两个方面验证了算法的有效性。首先，我们使用三类疾病划分来验证算法，即分类的第一级节点，它们代表良性病变、恶性病变和非肿瘤病变。在这项任务中，CNN的总体准确率达到72.1±0.9%（平均值±标准差）（个人推理类准确率的平均值），两位皮肤科医生在验证集的一个子集上分别达到65.56%和66.0%的准确率。其次，我们使用九类疾病分区（二级节点）验证了算法，以确保每类疾病都有相似的医疗计划。CNN的总准确率为55.4±1.7%，而这两位皮肤科医生的准确率分别为53.3%和55.0%。接受过精细疾病分区训练的CNN比直接接受过三到九个类训练的CNNs表现更好（参见扩展数据表2)，证明了我们的划分算法的有效性。因为验证集的图像是由皮肤科医生标记的，但不一定要通过活检进行确认，所以这个指标是不确定的，相反，它表明美国有线电视新闻网正在学习相关信息。

为了最终验证算法，我们测试了算法和皮肤科医生是否能够区分表皮的恶性与良性病变（角质形成细胞癌与良性脂溢性角化病相比）或黑色素细胞（恶性黑色素瘤与良性痣相比），仅使用医学上重要用例的生物化学验证图像原产地。对于黑素细胞损伤，我们展示了两个试验，一个使用标准图像，另一个使用皮肤镜图像，这反映了皮肤科医生为了获得临床印象可能要执行的两个步骤。这三个任务都使用同一个CNN。图2b显示了一些示例图像，显示了区分具有许多视觉特征的恶性和良性病变的困难。我们的比较指标是敏感性和特异性：

灵敏度 = \frac{真阳性}{积极的}

特异性 = \frac{真阴性}{消极的}

其中“真阳性”是指正确预测的恶性病变数量，“阳性”是显示的恶性病变的数量，“真阴性”是指准确预测的良性病变数量，而“阴性”是表示的良性病变的数量。当通过CNN馈送测试集时，P（P）恶性肿瘤，如图所示。我们可以通过选择阈值概率来计算这些概率的敏感性和特异性t吨并定义预测 $\hat{年}$ 对于每个图像 $\hat{年} = P（P） \geq t吨$ .变化t吨在区间0–1中生成CNN可以实现的敏感性和特异性曲线。

我们比较了美国有线电视新闻网（CNN）和至少21名获得董事会认证的皮肤科医生在表皮和黑素细胞病变分类方面的直接表现(图3a). 对于每一张图片，皮肤科医生都被问及是要活检/治疗病变还是让患者放心。图中的每一个红点代表一位皮肤科医生的敏感性和特异性。CNN优于敏感性和特异性低于CNN蓝色曲线的任何皮肤科医生，大多数皮肤科医生都是如此。绿色点代表皮肤科医生的平均水平（所有红色点的平均敏感性和特异度），误差条表示一个标准偏差。每个病例的曲线下面积（AUC）超过91%。本次比较的图像（135张表皮、130张黑色素细胞和111张黑素细胞皮肤镜图像）是从完整的测试集中采集的。我们的整个生物症状标记图像测试集的敏感性和特异性曲线包括707张表皮图像、225张黑色素细胞图像和1010张黑素细胞皮肤镜图像(图3b). 当我们比较样本数据集时，我们观察到AUC的变化可以忽略不计（<0.03）(图3a)使用完整的数据集(图3b)验证了我们在更大数据集上结果的可靠性。在具有类似结果的单独分析中（参见方法)皮肤科医生被问及他们认为病变是恶性的还是良性的。

保存图片、插图等的外部文件。对象名称为nihms-1724608-f0003.jpg

在单独的窗口中打开

图3|

美国有线电视新闻网和皮肤科医生的皮肤癌分类表现。

一深度学习CNN在使用照片和皮肤镜图像对皮肤癌进行分类方面优于皮肤科医生的平均水平。我们的CNN与至少21位皮肤科医生进行了角质细胞癌和黑色素瘤识别测试。在每次测试中，都会显示先前未见过的、经生物病理证实的病灶图像，并询问皮肤科医生是否会：活检/治疗病灶或安抚患者。敏感性、真阳性率、特异性、真阴性率、测量性能。皮肤科医生对每张图像输出一个预测，因此用一个红点表示。绿点是每项任务的皮肤科医生的平均值，误差条表示一个标准偏差（根据n个分别为25、22和21名皮肤科医生在皮肤镜下接受角质细胞癌、黑色素瘤和黑色素瘤测试）。CNN输出恶性概率P（P）每个图像。我们确定了一个阈值概率t吨这样的预测 $\hat{年}$ 对于任何图像 $\hat{年} = P（P） \geq t吨$ ，蓝色曲线通过扫掠绘制t吨间隔0–1。AUC是美国有线电视新闻网（CNN）衡量绩效的指标，最大值为1。如果皮肤科医生的敏感性-特异性点低于蓝色曲线，CNN的表现优于皮肤科医生，大多数情况下都低于蓝色曲线。表皮测试：65例角质形成细胞癌和70例良性脂溢性角化病。黑色素细胞检查：恶性黑色素瘤33例，良性痣97例。使用皮肤镜图像进行第二次黑素细胞检测以进行比较：71例为恶性，40例为良性。性能的轻微下降反映出测试图像的难度不同，而不是视觉检查与皮肤镜检查的诊断准确性不同。b条深度学习CNN在更大的数据集上测试时显示出可靠的癌症分类。我们对CNN的更多图像进行了测试，以证明其癌症分类的可靠性。由于测试集更大，CNN的曲线更平滑。

我们使用t吨-SNE公司(t吨-分布式随机邻域嵌入）²⁹(图4). 每个点代表从CNN最后一个隐藏层的2048维输出投影到二维的皮肤损伤图像。我们看到相同临床类别的点簇(图4，插图显示不同疾病的图像）。基底细胞癌和鳞状细胞癌在恶性表皮点云上分裂。黑色素瘤集中在中央，而痣集中在右侧。同样，脂溢性角化病与恶性角化病相反。

保存图片、插图等的外部文件。对象名称为nihm-1724608-f0004.jpg

在单独的窗口中打开

图4|

四种疾病类别CNN中最后一个隐藏层表示的t-SNE可视化。

在这里，我们通过将t-SNE（一种可视化高维数据的方法）应用于CNN中生物免疫性照片测试集（932张图像）的最后一个隐藏层表示，展示了CNN对四种重要疾病类别的内部表示。彩色点云表示不同的疾病类别，显示了算法如何对疾病进行聚类。插图显示与各个点对应的图像。经爱丁堡Dermofit图书馆许可转载的图片(https://licensing.eri.ed.ac.uk/i/software/dermofit-image-library.html).

在这里，我们展示了皮肤病学深度学习的有效性，这是一种我们应用于一般皮肤病和特定癌症的技术。使用一个经过一般皮肤病变分类训练的卷积神经网络，我们匹配了至少21名皮肤科医生在三项关键诊断任务中的表现：角质形成细胞癌分类、黑色素瘤分类和皮肤镜下黑色素瘤分型。这种快速、可扩展的方法可部署在移动设备上，并具有巨大的临床影响潜力，包括扩大初级护理实践的范围，并增强皮肤科专家的临床决策能力。有必要进行进一步的研究，以评估在真实的临床环境中的性能，以便在典型实践中遇到的完整分布和范围内验证该技术。虽然我们承认皮肤科医生的临床印象和诊断是基于视觉和皮肤镜检查以外的环境因素，但拥有董事会认证皮肤科医生准确分类皮肤病变图像的能力，有可能极大地扩大重要医疗服务的可及性。该方法主要受数据约束，如果存在足够的训练示例，则可以对许多视觉条件进行分类。深度学习对所使用的图像数据类型不确定，可以适用于其他专业，包括眼科、耳鼻喉科、放射学和病理学。

方法

数据集。

我们的数据集来自开放存取皮肤病知识库、ISIC Dermoscopic Archive、爱丁堡Dermofit图书馆²²和斯坦福医院的数据。来自在线开放存取皮肤病学知识库的图像由皮肤科医生进行注释，不一定通过活检。ISIC档案馆使用的数据严格由黑色素细胞病变组成，这些病变经生物病理证实并标注为恶性或良性。爱丁堡Dermofit图书馆和斯坦福医院的数据都经过了生物病理学验证，并用个别疾病名称进行了注释（即光化性角化病）。在我们的测试集中，黑色素细胞病变包括恶性黑色素瘤（最致命的皮肤癌）和良性痣。表皮病变包括恶性基底细胞癌和鳞状细胞癌、上皮内癌、癌前光化角化病和良性脂溢性角化病。

分类学。

我们的分类法代表了2032种以树状结构排列的单个疾病，其中三个根节点代表一般疾病类别：（1）良性病变，（2）恶性病变和（3）非肿瘤性病变(图2b). 它是由皮肤科医生使用自下而上的程序得出的：单个疾病，初始化为叶节点，根据临床和视觉相似性进行合并，直到整个结构连接起来。分类法的这一方面有助于生成既适合机器学习分类器又与医学相关的训练类。根节点用于第一个验证策略，代表最通用的分区。在第二个验证策略中使用根节点的子节点（即恶性黑色素细胞病变），并代表具有类似临床治疗计划的疾病类别。

数据准备。

模糊图像和远距离图像从测试和验证集中删除，但仍用于训练。我们的数据集包含对应于同一病变但来自多个视角的多组图像，或者同一个人的多个类似病变图像。虽然这是有用的培训数据，但我们还是非常小心地确保这些数据集不会在培训集和验证集之间分割。使用图像EXIF元数据、存储库特定信息和具有CNN特征的最近邻图像检索，我们创建了一个无向图，连接任何确定为相似的图像对。该图的连接组件不允许跨越列车/验证分段，并随机分配给列车或验证。这些测试集均来自斯坦福医院、爱丁堡大学Dermofit图像库和ISIC Dermoscopic档案馆等独立、高质量的生物医用图像库。测试集和训练/验证数据之间不存在重叠（即同一病变、多个视点）。

样本选择。

皮肤、黑素细胞和黑素细胞渗水试验图3a分别使用135张（65张恶性，70张良性）、130张（33张恶性，97张良性）和111张（71张恶性，40张良性）图像。他们的同行图3b分别使用707张（恶性450张，良性257张）、225张（恶性58张，良性167张）和1010张（恶性88张，良性922张）图像。用于的图像数图3b是基于活检标记数据的可用性（即恶性黑色素细胞病变与良性黑色素细胞病灶相比极为罕见）。根据ILSVRC计算机视觉挑战的标准，这些数字在统计上是合理的⁶，每个类有50到100张图像用于验证和测试集。对于图3a，从每组中随机选择140幅图像图3b一位未经测试的皮肤科医生（对诊断一无所知）删除了任何分辨率不足的图像（尽管网络接受299×299像素的图像输入，但皮肤科医生需要更大的图像才能清晰显示）。

疾病分割算法。

将单个疾病划分为训练类的算法在扩展数据表1它是一种递归算法，旨在利用分类法生成训练类，这些训练类的各个疾病在临床和视觉上都是相似的。该算法强制生成的平均训练类大小略小于其唯一的超参数maxClassSize。这些组件一起在以下两者之间取得平衡：（1）生成过于精细且没有足够数据可正确学习的培训课程；（2）生成的训练类太粗糙，数据太丰富，算法偏向于这些类。当maxClassSize=1000时，该算法生成757个类的疾病分区。所有训练类都是推理类的后代。

训练算法。

我们使用谷歌的Inception v3 CNN架构对2014 ImageNet Challenge的1000个对象类（128万张图像）进行预处理，达到93.33%的前五准确率，参考文献9。然后，我们从网络中删除最后一个分类层，并用我们的数据集重新对其进行训练，对所有层的参数进行微调。在训练期间，我们将每个图像的大小调整为299×299像素，以使其与Inception v3网络体系结构的原始尺寸兼容，并利用ImageNet预处理网络学习到的自然图像特征。此过程称为传递学习，在给定可用数据量的情况下是最佳的。

我们的CNN是使用反向传播进行训练的。网络的所有层都使用相同的全球学习率0.001和衰减因子16每30个周期进行微调。我们使用衰减为0.9、动量为0.9、ε为0.1的RMSProp。我们使用谷歌的TensorFlow³⁰深度学习框架，用于训练、验证和测试我们的网络。在训练期间，图像被放大了720倍。每个图像在0°和359°之间随机旋转。然后从图像中裁剪最大的垂直内接矩形，并以0.5的概率垂直翻转。

推理算法。

我们遵循每个节点都包含其子节点的约定。每个训练类都由分类法中的一个节点表示，随后是所有子类。每个推理类都是一个节点，其后代有一组特定的训练节点。示例如所示扩展数据图1，红色节点作为推理类，绿色节点作为训练类。给定输入图像，CNN输出训练节点上的概率分布。分类法的可能性如下：

P（P） (u个) = \sum_{v（v） \in C类 (u个)} P（P） (v（v）)

哪里u个是任意节点，P（P）(u个)是的概率u个、和C类(u个)是的子节点u个因此，为了恢复任何推理节点的概率，我们只需求其后代训练节点的概率之和。请注意，在验证策略中，所有培训课程都被总结为推理类。然而，在二元分类的情况下，已知所讨论的图像是黑色素细胞或表皮的，因此我们只使用作为黑色素细胞或表皮类的后代的训练类。

混淆矩阵。

扩展数据图2显示了我们的方法在第二个验证策略的九个类上的混淆矩阵(扩展数据表2d)与两位接受测试的皮肤科医生相比。这证明了CNN和人类专家之间的错误分类相似性。元素(i、 j个)每个混淆矩阵表示预测类别的经验概率j个考虑到基本事实是阶级我第7类和第8类：良性和恶性黑色素细胞病变——经常相互混淆。由于这类疾病的高度可变性，许多图像被误认为是第6类，即炎症类。注意，CNN和皮肤科医生很容易将恶性皮肤肿瘤与其他类别混淆。这些肿瘤本质上是皮肤下的结节，很难进行视觉诊断。

显著性地图。

为了可视化网络预测所关注的像素，我们生成显著性图，如所示扩展数据图3，例如九类扩展数据表2d反向传播是微积分链规则的应用，用于计算网络中所有权重的损失梯度。损失梯度也可以反向传播到输入数据层。通过取RGB通道上该输入层损失梯度的L1范数，得到的热图直观地表示每个像素对诊断的重要性。可以看出，网络将大部分注意力集中在病变本身，而忽略了背景和健康皮肤。

不同问题的敏感性-特异性曲线。

在正文中，我们将CNN的敏感性和特异性与至少21位皮肤科医生在以下三项诊断任务上进行了比较：图3在本次分析中，每位皮肤科医生被问及是否会活检/治疗病变或让患者放心。这个问题的选择反映了皮肤科医生必须执行的实际临床任务，即决定是否继续医学分析病变。问皮肤科医生一个类似的问题，尽管临床相关性较低，但他们认为病变是恶性的还是良性的。分析结果如所示扩展数据图4.如中所示图3美国有线电视新闻网（CNN）的表现与皮肤科医生不相上下，表现优于平均水平。在表皮损伤测试中，CNN仅比皮肤科医生的平均值高出一个标准差，在两种黑素细胞损伤测试中CNN仅低于皮肤科医生平均值的一个标准偏差。

使用人体受试者。

所有受试者都是经过董事会认证的皮肤科医生，他们在知情同意的情况下接受了我们的测试。这项研究由斯坦福大学机构审查委员会批准，试验注册号为36050。

数据可用性声明。

支持这项研究结果的医学测试集可从ISIC档案馆获得(https://isic-archive.com/)和爱丁堡Dermofit图书馆(https://licensing.eri.ed.ac.uk/i/software/dermofit-image-library.html). 限制适用于医疗培训/验证数据的可用性，这些数据是在当前研究的许可下使用的，因此不公开。在斯坦福医院的允许下，经合理要求，作者可以提供一些数据。

扩展数据

扩展数据图1|

保存图片、插图等的外部文件。对象名称为nihms-1724608-f0005.jpg

在单独的窗口中打开

从训练类概率计算推理类概率的过程。

使用分类法子集和模拟训练/推理类的推理过程的示例。推理类（例如恶性和良性病变）对应于树中的红色节点。使用maxClassSize=1000的分区算法确定的训练类（例如，无色素黑色素瘤、蓝色痣）对应于树中的绿色节点。白色节点表示包含在祖先节点的训练类中的节点或太大而无法成为单个训练类的节点。该等式表示父节点概率之间的关系，u个及其子女，C类(u个); 子概率之和等于父概率。CNN在训练节点上输出分布。因此，要恢复任何推理节点的概率，只需将作为其后代的训练节点的概率相加即可。良性推理类的数值示例如下：P（P）_良性的= 0.6 = 0.1 + 0.05 + 0.05 + 0.3 + 0.02 + 0.03 + 0.05.

扩展数据图2|

保存图片、插图等的外部文件。对象名称为nihm-1724608-f0006.jpg

在单独的窗口中打开

CNN和皮肤科医生之间的混淆矩阵比较。

CNN和两位皮肤科医生在第二验证策略的九向分类任务中的混淆矩阵揭示了人类专家和CNN之间错误分类的相似性。元素(i、 j个)每个混淆矩阵表示预测类别的经验概率j个考虑到基本事实是阶级我，使用我和j个引用来自的类扩展数据表2d请注意，美国有线电视新闻网（CNN）和皮肤科医生明显将良性和恶性黑色素细胞病变（第7类和第8类）相互混淆，皮肤科医生错误地预测为恶性。在所有三个图中，都可以看出第6列炎症条件的分布，这表明许多病变很容易与这一类别混淆。在所有三个图中，第2行的分布都显示了对恶性皮肤肿瘤进行分类的困难，这些皮肤肿瘤看起来比皮肤下的皮肤结节略多。皮肤科医生矩阵都是使用九向验证集中的180张图像计算得出的。CNN矩阵是使用来自验证集的684张图像的随机样本（平均分布在九个类中）计算的。

扩展数据图3|

保存图片、插图等的外部文件。对象名称为nihm-1724608-f0007.jpg

在单独的窗口中打开

来自第二验证策略的九幅示例图像的显著性图。

a–i第二个验证策略的九种临床疾病类别中的每一种的显著性图显示了对CNN预测影响最大的像素。显著性地图显示了相对于CNN损失函数的像素梯度。较深的像素表示影响较大的像素。我们看到病变本身与显著性图之间有明显的相关性。单一病变的情况(a–f)倾向于在病灶周围显示紧密的显著性图。病变扩散的情况(g–i类)展示同样占据图像中多个兴趣点的显著性地图。一，恶性黑色素细胞病变（源图像：https://www.dermquest.com./imagelibrary/large/020114HB.JPG).b条，恶性表皮病变（源图像：https://www.dermquest.com/imagelibrary/large/001883HB.JPG).c（c），皮肤恶性病变（源图像：https://www.dermquest.com/imagelibrary/large/019328HB.JPG).d日，良性黑色素细胞病变（源图像：https://www.dermquest.com/imagelibrary/large/010137HB.JPG).e（电子），良性表皮病变（源图像：https://www.dermquest.com/imagelibrary/large/046347HB.JPG).（f），良性皮肤病变（源图像：https://www.dermquist.com/imagelibrary/lage/021553HB.JPG（网址：https://www.dermquist.com/imagelibrary/lage/021553HB.JPG）).克，炎症状态（源图像：https://www.dermquest.com/imagelibrary/large/030028HB.JPG).小时，基因皮肤病（源图像：https://www.dermquest.com/imagelibrary/large/030705VB.JPG).我，皮肤淋巴瘤（源图像：https://www.dermquist.com/imagelibrary/lage/030540VB.JPG（网址：https://www.dermquist.com/imagelibrary/lage/030540VB.JPG）).

扩展数据图4|

保存图片、插图等的外部文件。对象名称为nihms-1724608-f0008.jpg

在单独的窗口中打开

的扩展图3还有一个不同的皮肤病问题。

一，相同的图和结果如所示图3a除了皮肤科医生被问及病变是恶性还是良性。这是一个有点不自然的问题，在临床上，唯一可行的决定是是否活检或治疗病变。CNN的蓝色曲线与图3.b条，图3b重印以进行视觉比较一.

扩展数据表1|

Disease-Partitioning算法

算法1疾病分割算法
1:	输入
2:	分类学（树）：疾病分类
三：	最大类大小（int）：类中的最大数据点
4:	输出
5:	隔板（集合列表）：将疾病划分为类别
6:
7:	程序D类附庸(节点)
8:	返回{节点}☑{D附庸(小孩)对于小孩在里面节点.children}
9:
10:	程序N个嗯我魔术师(节点)
11:	返回总和(长度(节点.图像)对于节点在里面节点)
12:
13:	程序P（P）隔板D类疾病(节点)
14:	班← D类附庸(节点)
15:	如果N个嗯我图像(班) <最大类大小然后
16:	追加班到隔板
17:	其他的
18:	对于小孩在里面节点.children 做
19	P（P）隔板D类疾病(小孩)
20分：
21:	隔板← [ ]
22:	P（P）隔板D类疾病(分类学.根)
23:	返回隔板

在单独的窗口中打开

该算法使用分类法将疾病划分为细粒度的训练类。我们发现，对这些精细类的训练可以提高粗推理类的分类精度。该算法从顶部节点开始，递归下降分类法（第19行），如果节点中包含的数据量（按照节点包含其子节点的约定）不超过指定的阈值（第15行），则将节点转换为训练类。在划分期间，递归属性保持分类结构，因此，分组到同一训练类中的不同疾病之间的临床相似性。数据限制（以及训练数据在叶节点之间分布相当均匀的事实）迫使平均类大小略小于maxClassSize。这些组件一起生成训练类，这些训练类利用分类结构中包含的细粒度信息，同时在生成过于细粒度且没有足够数据可正确学习的类与生成过于粗糙的类之间取得平衡，数据太丰富，这使得算法无法正确学习数据量较少的类。当maxClassSize=1000时，该算法产生757个训练类。

扩展数据表2|

一般验证结果

a。	分类器	三向精度	b。	分类器	九向精度

	皮肤科医生1	65.6%		皮肤科医生1	53.3%
	皮肤科医生2	66.0%		皮肤科医生2	55.0%
	美国有线电视新闻网	69.4 ± 0.8%		美国有线电视新闻网	48.9 ± 1.9%
	美国有线电视新闻网-宾夕法尼亚州	72.1±0.9%		CNN-PA公司	55.4 ± 1.7%
c。	疾病类别：三级分类		d。	疾病类别：九向分类

	0、良性单发病灶			皮肤淋巴瘤和淋巴浸润
	1.恶性单个病灶			1.良性皮肤肿瘤、囊肿、鼻窦
	2.非肿瘤性病变			2.皮肤恶性肿瘤
				良性表皮肿瘤、错构瘤、粟粒细胞瘤和生长
				4.恶性和癌前表皮肿瘤
				5.基因皮肤病和额外生长
				6.炎症状况
				7.良性黑色素细胞病变
				8.恶性黑色素瘤

在单独的窗口中打开

在这里，我们用两种不同的策略组织的127463张图像显示了九倍的交叉验证分类精度。在每个折叠中，数据集的不同九分之一用于验证，其余用于训练。报告值是所有验证精度的平均值和标准偏差n个=9倍。这些图像由皮肤科医生标记，不一定通过活检；这意味着这一指标不像生物医药证明图像那样严格。因此，我们仅将其与两位皮肤科医生进行比较，以验证算法是否在学习相关信息。一，算法和皮肤科医生之间的三种分类精度比较。皮肤科医生对每班60张验证集中的180张随机图像进行测试。所使用的三个类是我们分类法的一级节点。直接在这三个类上训练的CNN的性能也不如用我们的分区算法（PA）训练的CNN。b条，算法和皮肤科医生之间的九种分类精度比较。皮肤科医生对每班20张验证集中的180张随机图像进行测试。所使用的九个类是我们分类法的二级节点。直接在这九个类上训练的CNN的性能不如用我们的划分算法训练的CNN。c（c），用于三向分类的疾病类别代表高度普遍的疾病类别。d日，用于九向分类的疾病类别代表具有相似病因的疾病组。

致谢

我们感谢Thrun实验室的支持和想法。我们感谢斯坦福大学、宾夕法尼亚大学、马萨诸塞州总医院和爱荷华大学皮肤科的成员完成了我们的测试。这项研究得到了巴克斯特基金会对H.M.B.的资助。此外，这项工作还得到了美国国立卫生研究院（NIH）国家转化科学促进中心临床和转化科学奖（UL1 TR001085）的支持。内容完全由作者负责，不一定代表NIH的官方观点。

审阅者信息自然感谢A.Halpern、G.Merlino和M.Welling对本工作同行评审的贡献。

脚注

在线内容方法以及任何其他扩展数据显示项和源数据都可以在论文的在线版本中获得；这些章节独有的参考文献仅出现在在线论文中。

作者声明没有竞争性的经济利益。欢迎读者对该论文的在线版本发表评论。

工具书类

1美国癌症协会。2016年癌症事实和数字亚特兰大，美国癌症学会；2016http://www.cancer.org/acs/groups/content/@研究/文档/文档/acspc-047079.pdf.[谷歌学者]

2Rogers HW等人。2012年美国人群中非黑色素瘤皮肤癌（角质细胞癌）的发病率估计.JAMA皮肤病学 151.10, 1081–1086 (2015). [公共医学][谷歌学者]

三。船尾RS2007年皮肤癌病史的患病率：基于发病率的模型结果.架构（architecture）。皮肤病 146, 279–282 (2010). [公共医学][谷歌学者]

4LeCun Y、Bengio Y和Hinton G深度学习.自然 521, 436–444 (2015). [公共医学][谷歌学者]

5LeCun Y和Bengio Y输入大脑理论和神经网络手册（编辑：Arbib MA）3361.10（麻省理工出版社，1995年）。[谷歌学者]

6Russakovsky O等人。Imagenet大规模视觉识别挑战.国际期刊计算。视觉 115, 211–252 (2015).[谷歌学者]

7Krizhevsky A、Sutskever I和Hinton GE基于深度卷积神经网络的Imagenet分类.高级神经信息处理。系统 25, 1097–1105 (2012).[谷歌学者]

8Ioffe S&Szegedy C公司批量规范化：通过减少内部协变量偏移加快深度网络训练.程序。第32届国际机器学习会议448–456 (2015).[谷歌学者]

9Szegedy C、Vanhoucke V、Ioffe S、Shlens J和Wojna Z重新思考计算机视觉的初始架构.预打印于https://arxiv.org/abs/1512.00567(2015).[谷歌学者]

10Szegedy C等人。用卷积深入.程序。IEEE计算机视觉和模式识别会议1-9（2015）。[谷歌学者]

11何凯、张旭、任仕、孙杰用于图像识别的深度残差学习.预打印于https://arxiv.org/abs/1512.03385(2015).[谷歌学者]

12马苏德A&Al朱迈利AA皮肤癌计算机辅助诊断支持系统：技术和算法综述.国际生物医学杂志。成像 2013, 323268 (2013).[PMC免费文章][公共医学][谷歌学者]

13Cerwall P&Report EM公司埃里克森流动报告 https://www.ericsson.com/res/docs/2016/ericsson-mobility-report-2016.pdf(2016).[谷歌学者]

14Rosado B等人。计算机诊断黑色素瘤的准确性：一项定量荟萃分析.架构（architecture）。皮肤病 139第361-367页，讨论366（2003年）。[公共医学][谷歌学者]

15Burroni M等人。黑素瘤计算机辅助诊断的可靠性和可行性研究.临床。癌症研究 10, 1881–1886 (2004). [公共医学][谷歌学者]

16Kittler H、Pehamberger H、Wolff K和Binder M皮肤镜的诊断准确性.柳叶刀Oncol.三, 159–165 (2002). [公共医学][谷歌学者]

17Codella N等人医学成像中的机器学习（编辑周L、王L、王Q和石Y）118-126（施普林格，2015）。[谷歌学者]

18Gutman D等人。黑色素瘤检测中的皮肤病变分析国际生物医学成像研讨会（ISBI），（国际皮肤成像合作（ISIC），2016）。[谷歌学者]

19粘合剂M等人。基于计算机图像分析和人工神经网络的色素性皮肤病变的表观发光显微分类.黑色素瘤研究.8, 261–266 (1998). [公共医学][谷歌学者]

20Menzies SW等人皮肤癌与紫外线辐射（编辑：Altmeyer P，Hoffmann K&Stücker M）1064–1070（Springer，1997）。[谷歌学者]

21Clark WH等人。基于肿瘤进展的I期黑色素瘤生存预测模型.J.Natl癌症研究所 81, 1893–1904 (1989). [公共医学][谷歌学者]

22Schindewolf T等人。利用数字图像处理的颜色和纹理分析对黑色素细胞病变进行分类.分析。数量。细胞。历史记录 15, 1–11 (1993). [公共医学][谷歌学者]

23Ramlakhan K&Shang Y公司移动式皮肤病变自动分类系统第23届IEEE人工智能工具国际会议（ICTAI）138–141（2011年）。[谷歌学者]

24Ballerini L等人彩色医学图像分析（编辑，Celebi ME&Schaefer G）63–86（Springer，2013）。[谷歌学者]

25邓杰等。Imagenet：大规模分层图像数据库EEE计算机视觉和模式识别会议248–255（CVPR，2009）。[谷歌学者]

26Mnih V等人。通过深度强化学习进行人性化控制.自然 518, 529–533 (2015). [公共医学][谷歌学者]

27Silver D等人。通过深度神经网络和树搜索掌握围棋游戏.自然 529, 484–489 (2016). [公共医学][谷歌学者]

28潘斯杰和杨Q迁移学习研究综述.IEEE传输。知识。数据工程 22, 1345–1359 (2010).[谷歌学者]

29范德马滕L和辛顿G使用t-SNE可视化数据.J.马赫。学习。雷斯 9, 2579–2605 (2008).[谷歌学者]

30Abadi M等人。Tensorflow：异构分布式系统上的大规模机器学习.预打印于https://arxiv.org/abs/1603.04467(2016).[谷歌学者]

皮肤科医生用深层神经网络对皮肤癌进行分级

安德烈·埃斯特瓦

布雷特·库普雷尔

罗伯托·诺沃阿

贾斯汀·科

苏珊·M·斯威特

海伦·M·布鲁

塞巴斯蒂安·特龙

关联数据

摘要

方法

数据集。

分类学。

数据准备。

样本选择。

疾病分割算法。

训练算法。

推理算法。

混淆矩阵。

显著性地图。

不同问题的敏感性-特异性曲线。

使用人体受试者。

数据可用性声明。

扩展数据

扩展数据图1|

扩展数据图2|

扩展数据图3|

扩展数据图4|

扩展数据表1|

扩展数据表2|

致谢

脚注

工具书类