摘要

巴氏涂片图像的准确分类成为医学图像处理中具有挑战性的任务。这可以通过两种方式加以改进。一种方法是选择合适的定义明确的特定特征,另一种方法则是选择最佳分类器。本文提出了一个命名的基于纹理的宫颈癌(NTCC)分类系统,该系统将巴氏涂片图像分为七类中的任意一类。这可以通过提取定义良好的纹理特征并选择最佳分类器来实现。提取了7组纹理特征(24个特征),包括细胞核和细胞质的相对大小、核和细胞质强度的动态范围和前四阶矩、细胞核在细胞质中的相对位移、灰度共生矩阵、局部二值模式直方图、tamura特征、,和边缘方向直方图。分类中使用了几种类型的支持向量机(SVM)和神经网络(NN)分类器。在丹麦赫列夫大学医院公共图像数据库上,使用917张巴氏涂片图像对NTCC算法的性能进行了测试,并与其他算法进行了比较。SVM的输出对于大多数类来说是最好的,对于其余类来说是更好的结果。

1.简介

宫颈癌是影响全世界妇女的最常见癌症之一,也是发展中国家最常见的癌症[1]。如果在早期发现并确定其属于哪个阶段,并及时给予进一步的适当治疗,则可以治愈。与此同时,世界上发展中地区和欠发达地区的发病率和死亡率仍然很高。据报道,印度每年诊断出132000例新病例,74000人死亡,几乎占全球癌症死亡人数的三分之一[2]。宫颈癌的筛查可以通过巴氏试验来完成,巴氏试验被认为是永远的金标准。由于不同细胞学医生的主观差异,筛查结果显示出更多的不一致[]。测试结果显示出更多的假阳性和假阴性结果,这使得筛选过程的可靠性成为一个问号[4]。此外,在手动宫颈筛查过程中,每天要分析数百张图像;细胞分类变得困难,人为错误的可能性变得很高。

不同时期提出了许多自动和半自动方法来检测宫颈癌的不同阶段。在实现提供可消除解释误差和观察者间差异的测量变量的目标方面,许多这些方法都不受支持[5]。巴氏涂片图像具有丰富的颜色、形状和纹理等特征。从这些图像中准确提取独特视觉特征的过程将非常有助于开发自动筛选设备。这只能通过纹理特征而不是其他特征来实现,因为所有细胞变化都只能通过这些特征来观察。由于纹理参数是平滑、粗糙和粒状等简单的数学表示,因此分析变得更容易[6]。通过分析上述所有问题,我们考虑了两个重要的挑战。首先,选择适合分类的独特纹理特征。其次,选择最有效和可扩展的分类器可以进一步提高准确性。

Plissiti等人[7]开发了一种全自动方法来检测巴氏涂片图像中的细胞核。利用形态学分析检测细胞核质心,并对得到的质心应用距离相关规则和分类算法,从细胞中去除不需要的伪影。

Sobrevilla等人认为细胞核是细胞信息最丰富的区域[8]提出了一种细胞学细胞核自动检测算法。该算法结合了颜色、细胞病理学家知识和模糊系统,具有较高的性能和计算速度。Harandi等人[9]开发了一个从ThinPrep图像检测细胞质和细胞核的系统。几何活动轮廓被用作分割工具。在这种方法中,细胞对象的定位是在低分辨率下进行的,细胞质和细胞核的边界检测是在高分辨率下进行的。Bergmeir等人[10]开发了一种用于检测细胞核和细胞质的算法。该算法利用投票方案和先验知识相结合来定位细胞核,并通过弹性分割来确定细胞核的形状。采用均值漂移和中值滤波去除噪声,采用canny边缘检测算法提取边缘。

本文中讨论的大多数分割方法都集中于细胞核和细胞质的提取,这要求细胞核边界周围的对比度更高。宫颈涂片染色严重,细胞图像重叠,图像模糊,显微镜中光线过度曝光或曝光不足,甚至导致分割困难[11].

巴氏涂片图像的自动分类侧重于将单个细胞标记为二进制类别(正常和异常)或多个类别(基于严重程度)中的任意一个。当提出基于CIN的宫颈细胞学图像分类时,巴氏涂片图像的多重分类变得流行。Holmquist等人[12]开发了一种二元分类方法来区分正常细胞和异常细胞。采用双波长法实现细胞核与细胞质的自动分离。分类过程基于提取面向密度、面向形状和面向纹理的参数。周和夏皮罗[13]提出了一种采用分层多分类器方案的方法。该方法使用图理论聚类算法对训练数据进行分组,将分量分类器作为超分类器的输入,并使用子类标记来提高分类精度。Marinakis等人[14]提出了一种用于巴氏涂片细胞分类的元启发式方法。从每个细胞图像中提取了20个唯一描述的特征,并将其分为正常和异常类型。遗传算法用于寻找可能执行的最佳子集选择。

大多数医学图像分类方法都监督学习算法,难以找出自变量和因变量之间的联系。支持向量机(SVM)和神经网络(NN)是这类方法中最有前途的方法。支持向量机(SVM)是Cortes和Vapnik提出的一种监督分类方法[15]1992年。支持向量机在细胞学图像分析(包括生物反应器中悬浮的酵母细胞)中发挥着重要作用[16],显微镜下培养的细胞[17]和脑肿瘤切片上的细胞[18]。神经网络分类器在做出分类决策时基于统计概率[19]。NN使用包含输入、输出和学习规则的训练集。

Chen等人[20]已经开发了一种用于分割细胞核和细胞质计数器的算法。该系统使用SVM将巴氏涂片细胞分为四种不同类型的任意一种。为了验证分类性能,进行了两个实验,得到了最佳的性能输出。Mat-Isa等人[21]提出了一种基于分层混合多层感知器网络的宫颈癌自动诊断系统,该方法采用基于区域生长的算法进行特征提取,并用神经网络进行分类。

上述文献清楚地表明,单一纹理特征都不适合提高分类精度。为了提高分类系统的效率,需要具有可扩展性和成本效益的算法。我们的分类方法NTCC根据研究人员在丹麦赫列夫大学医院公共数据库中所做的工作,将巴氏涂片细胞分为七个阶段[22,23]。巴氏涂片细胞的详细描述见表1通过仔细提取24个特征,将图像分为七类中的任何一类,即浅表鳞状、中鳞状、柱状、轻度发育不良、中度发育不良、严重发育不良和原位癌。已经有许多研究人员基于这个公共数据库贡献了各种分类算法[14,24].

2.基于指定纹理的宫颈癌(NTCC)分类系统

NTCC分类系统由纹理特征提取、SVM训练器、SVM分类器和用于存储训练和存储的数据库组成。拟议分类系统的架构如图所示1该系统包括以下步骤:巴氏涂片图像的准备和预处理、细胞核和细胞质的分割、纹理特征的提取和分类。

2.1. 巴氏涂片图像的制备和预处理

细胞学图像是由熟练的细胞技术人员通过强大的显微镜获得的。所有图像的分辨率均为μm/像素来自丹麦赫列夫大学医院的子宫颈癌公共数据库[23]。预处理步骤的目的是抑制颈部图像样本中发现的不需要的噪声,并对其进行增强,以便进一步处理。一般来说,宫颈细胞学细胞的细胞核区域比细胞质有更大的深色像素分布。在这一步中,首先对输入图像进行倒置,然后对图像进行二值化,然后进行结构元素为5的形态闭合操作。细胞核的粗分割可以通过形态填充操作完成。

2.2. 特征提取与选择

特征选择从给定问题域中可能可用的大量潜在有用特征中选择最佳特征子集。通过选择精确的特征数量,它能够减少存储空间和计算时间,这必将提高性能[25,26]。此外,特征空间中维数过多可能会大大增加计算复杂度,并由于失真和噪声而降低特征集的识别能力[27].

在宫颈癌分类系统中,提取了七组特征。它们是细胞核和细胞质的相对大小、核和细胞质强度的动态范围和前四阶矩、细胞核在细胞质中的相对位移、灰度共生矩阵特征、局部二值模式直方图、田鼠特征和包含24个总特征的边缘方向直方图。

细胞核和细胞质的大小在划分宫颈细胞类型中起着重要作用:其中Nucleus地区是细胞核(N)和细胞质像素数的比例地区是细胞质像素数的比例(C)。

图像的动态范围和细胞核和细胞质强度的前四个矩提供了四个不同的统计矩。它们是由图像像素的单个值计算的,而不是基于相邻像素值的共同出现。图像的动态范围(dr)是图像中最亮和最暗像素的强度值之间的差异。这四个时刻都很刻薄(),方差,偏斜度和峰度如下[28]:

细胞核在细胞质内的运动位置有助于进行分期。这可以通过提取细胞质内细胞核的相对位移来实现:其中Cyto质心是细胞质和细胞核的质心质心是原子核的质心。

相对位移可通过以下公式计算

Haralick的灰度共生矩阵(GLCMs)已成功用于纹理分类[29]。在列出的14个特征中,我们认为前11个纹理特征适合我们的实验。(a)角秒力矩:(b)对比度:(c)相关性:(d)平方和:(e)反差力矩:(f)总和平均值:(g)总方差:(h)总和熵:(i)熵:(j)差异差异:(k)差异熵:

局部二进制模式(LBP)[30]将图像转换为数组或整数标签。它是通过将给定像素与其相邻像素进行比较来计算的:哪里随图像平均灰度值的变化而变化。

田村的纹理特征,如粗糙度、对比度和方向性[31]提取出的都是纯粹基于人类视觉感知的,为我们的实验进行了提取。(a)粗糙度:(b)对比度:(c)方向性:

边缘方向直方图(EOH)旨在建立边缘梯度方向的直方图:

2.3. 使用SVM进行分类

该分类系统将巴氏涂片图像分为七类之一,即浅表鳞状、中间鳞状、柱状、轻度异型增生、中度异型增生,重度异型增生和原位癌。专家已经对整个数据集进行了手动分类。2显示了样本单细胞图像,其中第一行代表三类正常图像类型,第二行代表四类恶性图像类型。在所提出的分类系统中,我们使用SVM算法对巴氏涂片图像进行分类。该SVM基于Vapnik等人的工作,实现为“LibSVM”[15,32].

3.实验结果与讨论

在本研究中,巴氏涂片图像的特征,如细胞核和细胞质的相对大小、细胞核和细胞浆强度的动态范围和前四阶矩、细胞核在细胞质中的相对位移、灰度共生矩阵特征、局部二值模式直方图、tamura特征、,提取边缘方向直方图。通过提取特征的组合,分析比较了各种分类算法的性能。

宫颈癌分类方法的步骤如下所示。2演示了使用此方法在巴氏涂片中完成的预处理步骤的示例。将彩色图像转换为灰度,在此阶段进一步对细胞核和细胞质进行分割。描述了从细胞学图像中提取的各种特征集。桌子45使用SVM分类器为具有不同特征集组合的所有类别提供性能度量(精度和召回率)。表中描述了本实验中使用的不同分类器7表中总结了SVM分类器的分类和诊断性能(精度)及其与NN分类器的比较6所有分类器的性能指标和ROC曲线如图所示各种分类器的曲线下面积如表所示8表中描述了10倍交叉验证(混淆矩阵)的结果9.

在我们的工作中,细胞样本是从没有采样错误的公共数据库中收集的。为了提取细胞核和细胞质的精确特征,从细胞质中分割细胞核仍然是一个需要解决的问题。分割是通过形态学填充操作完成的,在检测细胞核方面优于其他方法。在这项工作中,选择了23个独特的特征,并将其分为7组,包括细胞核和细胞质的相对大小,细胞核和细胞质强度的动态范围和前四阶矩,细胞核在细胞质内的相对位移,灰度共生矩阵特征,局部二进制模式直方图,田村特色,以及边缘方向直方图。结果表明,利用该组合特征集,可以对巴氏涂片图像的所有七种类型进行分类。结果表明,所有异型增生细胞和原位癌的细胞核比例较高,细胞核不规则,这些结果与人类的发现相一致。

SVM的输出结果表明,通过组合(F1、F2、F3、F4、F5、F6和F7)特征集,对正常鳞状细胞(97.38%)、中间鳞状组织(93.89%)、轻度异型增生(87.33%)、重度异型增生和原位癌(84.72%)的精确度最高。使用单一特征集F7,柱状类型的准确率达到89.35%。同样,通过F4和F6特征集的组合,中度异型增生的准确率达到84.10%。这些观察结果没有显示单个特征集,因此对所有类产生最佳结果。某些特征集显示了某些类别的优势结果,平均而言,通过所有七个特征集的组合,获得了最佳的总体分类性能。SVM分类器的召回值再次表明,通过组合特征集可以获得更好的性能。

仅在任何组合的严重发育不良类别中观察到58.52%的极低准确率。这些图像类型大多不遵循分类规则,甚至显示出很差的分割结果。需要单独的一组分类方法和独特的特征选择过程,这将提高性能。

各种分类器的分类性能如表所示6前三个分类器是基于SVM的核类型,第四个分类器是以SVM为基础的多层感知器。其他三种是基于神经网络的,其中前两种使用具有10个和30个节点的单层神经网络,第三种使用两个隐藏层的(10,10)节点。结果表明,线性核SVM分类器的性能优于其他分类器。此外,利用支持向量机构建分类器的性能优于神经网络分类器。

为了评估917个图像实例,我们进行了10倍的交叉验证,每次验证都会显示其数据集的百分比,以正确评估分类器。结果显示为混淆矩阵(表9)具有整套功能。在917张图像中,71/74张正常鳞状上皮、65/70张中等鳞状上皮,85/98张柱状上皮,158/182张轻度异型增生,121/146张中度异型增生、157/197张重度异型增生和137/150张原位癌均被发现是正确的。除了citu类别中的严重异型增生和癌症外,此方法提供了折衷的输出。

4.结论

本文提出了一种利用选定的纹理图像特征对巴氏涂片图像进行分类的改进方法。研究表明,该方法不仅有助于分类,而且有助于选择最适合所有类型类别的特征。这些结果表明,不存在适用于所有类的唯一特征集。在这种分类方法中,通过分析得出线性核SVM分类器的性能优于任何其他分类器。

利益冲突

作者声明,本论文的出版不存在利益冲突。