摘要

动机:通过荧光显微镜捕获的细胞周期相的自动识别对于理解细胞周期和药物发现非常重要。在本文中,我们提出了一种新的细胞检测方法,该方法利用细胞的强度和形状信息,以获得更好的分割质量。与传统的离线学习算法相比,本文提出了一种在线支持向量分类器(OSVC),该分类器从旧模型中删除支持向量,并根据其重要性分配新的训练样本,以适应不断变化的实验条件。

结果:我们在不同的实验条件下使用荧光显微镜对三种细胞系进行了成像,其中一种用紫杉醇处理。然后,我们将细胞类型分为间期、前期、中期和后期。实验结果表明,该系统在图像分割和细胞相位识别方面的有效性。

可利用性:软件和测试数据集可从作者处获得。

联系人: zhou@crystal.harvard.edu

补充信息:补充数据可在生物信息学在线。

1简介

细胞周期进展的知识,如间期、前期、中期和后期,对于理解各种疾病,尤其是癌症(Yan等。,2006; 周和王,2006). 药物使用前后细胞周期的变化有助于有效的药物发现研究(安德森等。,2003; 巴格利和马歇尔,2004; 狄克逊等。,2002). 细胞周期的进展可以通过测量细胞核随时间的变化来确定。自动化荧光显微镜成像为动态研究细胞核提供了一种重要的方法,因此成为细胞和系统生物学领域的一项重要定量技术(Chen等。,2006; 更难等。,2006; 等。,2007; 雁鸣声等。,2006; 周和王,2006).图1(图4在Wang中等。,2007)提供了细胞有丝分裂过程的示例。墨菲等。(博兰德和墨菲,2001; 波兰德等。,1998; 陈和墨菲,2006; 等。,2003; 墨菲等。,2003)针对荧光显微镜图像中亚细胞定位模式分类的类似问题,提出了不同的特征提取、特征约简和分类算法。尽管已经提出了一些细胞周期阶段识别的方法(陈等。,2006; 加拉多等。,2004)在使用荧光显微镜进行的细胞生物学研究中,细胞不同阶段的自动分层仍然是一个尚未解决的问题(Yan等。,2006; 周和王,2006). 沿着这些路线,一个基于支持向量分类器(Charles等。,2007; 更难等。,2006)最近被提议对七个有丝分裂期系统进行分类。然而,与我们的分类器的“在线”模式相比,它的分类器是以“批处理”模式更新的。基于上下文的模型(Wang等。,2007)已建议处理此问题。然而,其性能高度依赖于跟踪算法的鲁棒性。当单元格过度填充时,跟踪算法的可靠性会降低,上下文信息的信息量也会降低。因此,开发一种独立于上下文信息的分类算法是很重要的。

图1。

细胞核在细胞有丝分裂期间的外观变化。发件人()至(小时)连续的图像子帧形成一个序列,显示细胞核在有丝分裂期间的大小和形状变化。

在本文中,我们提出了新的分割和在线学习算法,以获取和分析显微镜生成图像的细胞群体的细胞周期行为。这里,在线指的是分类器将被误分类的样本不断更新,以适应不断变化的实验条件。考虑到细胞可能会相互聚集或重叠,因此提出了一种新的细胞检测算法。图2显示了所提出分割方法的详细流程图。首先,通过二值化过程(Lindblad)获得细胞形状信息等。,2004; 沃尔比等。,2002). 其次,利用强度和形状信息生成局部极大值。最后,在梯度向量场中检测局部最大值(细胞中心)(像素最终会收敛到这些局部最大值),然后通过种子分水岭算法(Lin等。,2003). 分割后,使用最喜爱的匹配加上局部树匹配方法来跟踪细胞核的动态行为(Yan等。,2006).

图2。

拟议程序的流程图。

在获得分割的细胞核后,每个细胞都用一个特征向量表示。每个特征向量包含211个特征:关于形状、大小和强度的10个一般图像特征等。,2006); 14 Haralick共现结构特征(Haralick等。,1973); 47泽尼克矩特征(Boland和Murphy,2001; 加拉多等。,2004); 由Gabor变换生成的85个特征(Manjunath和Ma,1996; 周和王,2006)54个形状特征。特征选择后,保留58个特征作为新的特征向量进行相位识别。

虽然主要方法侧重于开发离线分类器以提高分类性能,但我们发现,在线自适应性对于应对高通量细胞成像面临的新问题是必要的,包括不断变化的实验条件,紫杉醇等抗有丝分裂药物治疗后的漂移特征值。同时,核形态学也需要具有在线自适应特性的算法(Debes等。,2005; 斯特恩等。,2005). The Perceptron(罗森布拉特,1958)被称为第一个简单高效的在线学习算法。之后,另一个在线内核分类器(Freund和Schapire,1999)基于相同的原理提出。支持向量机(SVM)(Cortes和Vapnik,1995; 盖恩等。,1993; Vapnik、,1998; Vapnik和Lerne,1963)是核思想在大边缘分类器中的成功应用。通常,在批设置中使用支持向量分类(SVC)。最近,提出了几种在线算法(Borders,2005; 基维宁等。,2004; 刘和武,2003),它们在优化和更新策略上有所不同。LASVM(边界,2005)具有简单高效的特点。沙列夫·施瓦茨和辛格(2006)描述了一个基于约束优化中对偶符号的在线学习算法设计和分析的新框架。在线学习的过程可以简化为逐步增加双目标函数的任务。用于训练分类器的图像数据集严重失衡。例如,一个典型的200帧显微镜图像样本包含至少18000个间期细胞,而其他类型的细胞总计不到1000个。灵感来自LASVM(Borders,2005)以及Shalev-Shwartz和Singer建议的框架(2006)为了解决细胞图像数据集不平衡带来的问题,提高感兴趣类的预测精度,我们提出了一种在线支持向量分类器。

2方法和算法

2.1细胞培养

每次实验前6天将HeLa H2B-GFP细胞解冻,并在含有10%FBS的DMEM中培养。细胞在37°C和5%CO中培养2。所有细胞在成像前18小时,在8孔#1德国硼硅酸盐无菌底板(Nalge Nunc International)中以每孔25000个细胞(每毫升50000个细胞)的速度进行培养。未处理细胞接受培养基,而处理细胞接受150 nm紫杉醇。

2.2图像采集

在具有机动XYZ平面台的自动落射荧光TE2000-E Eclipse显微镜(Nikon Instruments Inc.,USA)上采集图像。光线来自带有两个中性密度滤光片的汞弧光灯。SimplePCI用于控制图像采集。使用定制设计的显微镜培养箱,设置在37°C,以在获取图像时保持恒定的环境。选择了具有代表性的字段并开始十、 Y(Y)Z轴坐标用于确定聚焦位置。显微镜将在每10次扫描的第一次扫描时自行细化聚焦位置,以补偿聚焦位置的偏差。使用0.2秒的曝光时间采集图像,每15分钟曝光一次,持续50小时,每个位置总共有200张图像,然后将这些图像作为16位未压缩TIFF文件从SimplePCI导出到7 TB的网络连接存储(NAS)阵列中,以便使用CellIQ进行处理。

2.3图像分割与跟踪

图像分割质量直接影响跟踪和细胞相位识别的性能。在此,我们提出了一种细胞分割方法,它包括三个主要步骤:二值化、细胞检测和基于种子流域的分割。每个步骤都为下一步生成输入图像。图2给出了该分割方法的详细流程图。细胞检测是最重要的步骤,并生成种子分水岭算法的“种子”图像,从而确定分割结果。

2.3.1二值化

生成距离变换的二进制图像(Breu等。,1995),我们需要将单元格与背景分开。众所周知,当背景强度不均匀时,全局阈值无法生成良好的二值图像。在此,我们提出了一种使用自适应阈值方法的二值化过程,该方法基于背景和对象之间存在明显的强度跳跃这一事实。我们采用数据驱动的背景校正算法(Lindblad等。,2004; 沃尔比等。,2002)用三次B样条估计背景(补充材料)。如果像素的强度与估计背景图像的强度之差大于给定的阈值,我们将每个像素分类为对象的一部分;否则,我们将其归类为背景的一部分。

2.3.2细胞检测

局部强度极大值通常用于细胞检测。对二值图像应用距离变换得到的距离图像给出了细胞的形状信息。为了利用这两种信息,将原始图像添加到距离图像中,公式如下:1=0+ α数字化信息系统,其中1是新图像,0原始图像和数字化信息系统在二值图像上应用距离变换得到的距离图像。实验将参数α设置为0.4。之后,新图像1使用高斯滤波进行滤波,使用SD进行平滑处理σ=3(Steger,1998). 在滤波后的图像中,噪声被抑制,局部最大值可能对应于细胞中心。因此,可以将细胞检测问题减少到检测滤波图像中的局部最大值。

众所周知,在梯度矢量场(GVF)中,梯度矢量指向局部最大值。类似于电子在电子场中运动,我们在每个物体像素上放置一个粒子,让粒子在GVF内运动。为了实现这个过程,给定一个像素上的一个粒子,我们沿着像素的梯度向量移动粒子;如果梯度向量指向另一个像素,则粒子将向另一像素移动,而如果梯度向量指的是像素本身,则粒子会保持静止。我们对每个粒子重复此过程,直到粒子停止在局部最大值(补充材料)为了减少伪局部极大值,使用Xu和Prince中提出的方法对梯度向量场进行平滑(1998),将达到这一目的的能量函数最小化(补充材料)。因此,在移动粒子后,通过对这些点上累积的像素数进行阈值化,可以很容易地检测到局部最大值,因为在非最大值和噪声点上没有或只有很少的粒子累积。细胞中心由检测到的局部极大值表示。

然后通过种子分水岭(Lin等。,2003).图3a使用检测到的局部极大值作为种子给出一个分割结果,而图3b是使用分水岭方法和片段合并的结果(Yan等。,2006)(补充材料)可以很容易地观察到,该算法具有较少的过分割错误。详细比较见第3节。

图3。

提出的细胞分割算法的分割结果。核边界以红色显示()用该方法分割结果。(b条)基于传统流域方法的分割结果(Yan等。,2006).

分割后,使用最喜爱的匹配加上局部树匹配方法来跟踪细胞核的动态行为(Yan等。,2006). 计算帧中所有可能的细胞核对之间的相似性得分后t吨t吨+1,我们搜索帧中最喜欢的单元格t吨+框架中每个单元1个t吨反之亦然。如果框架中有两个单元格t吨t吨+1配对,然后我们将其视为配对。如果所有成对的单元格都被视为一个图,并使用最喜欢的匹配进行过滤,我们将搜索帧中所有连接的子图t吨t吨+1并通过最优树结构搜索进行匹配。这两帧中剩余的单元格可以通过一组启发式规则进行匹配(Yan等。,2006; 周和王,2006)(补充材料)。细胞行为的统计分布可以在周和王中找到,2006.

2.4特征提取和特征选择

在获得分割的细胞核后,生成特征向量来表示细胞。每个特征向量包含211个特征。这些特征由10个关于形状、大小和强度的一般图像特征组成(最大强度、最小强度、灰度偏差、平均强度、长轴长度、短轴长度、长轴/短轴、面积、周长)(Chen等。,2006); 14 Haralick共现结构特征(Haralick等。,1973); 47 Zernike力矩特性(Boland和Murphy,2001; 加拉多等。,2004); Gabor变换产生的85个特征(Manjunath和Ma,1996; 周和王,2006)54个形状特征。

我们开发了一类功能。一种特征是基于通过核周长归一化的质心以36个不同角度(每个角度为10度)绘制的半径,而另一种特征由核面积归一化每对半径之间的18个区域组成。它们如所示图4(补充材料)。值得注意的是,在第二种特征中,半径是以18个不同角度(每个角度20度)绘制的。最后,我们得到了一个包含54个元素的形状描述符,其中4个元素在特征选择后被用于最终的特征子集中。

图4。

形状描述符定义的图示。

为了去除不相关的特征并提高学习系统的性能,采用基于预测风险的特征选择方法来选择次优特征集(Guyon等。,2002; 等。,2004). 该方法采用预测风险的嵌入式特征选择准则,通过计算相应特征被其平均值替换后的变化来评估特征。它有几个优点。(1)嵌入式特征选择模型依赖于学习机器。它可以达到比过滤器模型更高的精度,但其计算复杂度低于包装器模型。(2)预测风险标准已用于几种不同的学习机器(Li等。,2004)并超过了最佳脑损伤(Guyon等。,2002)在使用多类SVM对10多个加州大学欧文分校(UCI)数据集进行测试时。()这种方法很容易实现。细胞相位识别保留了58个特征,包括37个Gabor特征、1个几何特征、14个矩特征、2个纹理特征和4个形状特征。使用的几何特征是“周长”。Gabor特征可以在时域和频域上描述核。因此,保留了许多Gabor特征。图5说明了在减少预测算法中使用的特征数量的同时预测精度的趋势。

图5。

预测精度随特征数增加的趋势。

2.5在线支持向量分类器

将支持向量机应用于间期、前期、中期和后期的基本思想可以概括如下。首先,将输入向量映射到与核函数选择相关的线性或非线性特征空间(可能具有更高维)。然后,在特征空间内,寻求一个优化的线性划分;即构造一个超平面,将整个样本分为两类(这可以扩展到多类),误差最小,裕度最大。SVM训练过程始终寻求全局优化解决方案,避免过拟合,因此它具有处理大量特征的能力。Vapnik在书中对模式识别的SVM理论进行了完整的描述(1998).

2.5.1问题表述

给定一组样本,即一系列输入向量x个R(右)d日(= 1, … ,),其中x个th矢量,和R(右)d日是一个欧几里德空间d日尺寸。假设输出表示为∈ {+1, −1} (= 1, … ,),其中索引−1和+1分别表示这两个类。SVM的首要问题(Vapnik,1998)如下所示:
(1)
哪里C类是常数ξ是松弛变量,b条是偏差项,ω是权重向量,而是将示例映射到特征空间的函数。
我们使用拉格朗日乘子法解决上述优化问题:
(2)
其中α≥ 0, β≥0、δ≥0均为拉格朗日乘子。由此可以得到其对偶问题:
(3)
坡度D类(α) 表示为= (1n个) ·k个计算公式为:
(4)
哪里K(K)ij公司=K(K)(x个,x个j个)是内核函数,并且论坛是预测值。

在本文中,RBF内核论坛使用。

决策函数如下所示:
(5)

已经开发了各种数值算法来解决SVM QP问题(Platt等。,1999; Vapnik、,1998). 但所有这些算法都是批量提供数据的,因此需要大量的计算。最近,各种在线SVM算法(Borders,2005; 基维宁等。,2004; Lau和Wu,2003)已经提出将SVM扩展到在线设置。

一种可用于大型数据集的在线SVM训练算法(LASVM)。边框(2005)提出了一种称为LASVM的SVM算法。它可以容纳较小的主内存,并且具有更快的训练阶段。

标准的在线SVM算法用于处理二进制问题。由于实验条件不断变化,模型必须不断更新。这位生物学家希望,在手动标记一些错误分类的样本后,分类器可以自动更新,并且生成的新模型可以用于分类新的样本。然而,要将在线支持向量机应用于细胞相位识别任务,必须事先考虑三个因素。首先,数据集严重失衡。分类精度将不受欢迎地偏向大类。其次,一些样本较少的班级比那些训练样本较多的班级更重要。例如,前期在确定有丝分裂过程的起点方面起着重要作用,但在200帧显微镜图像中只有大约140个前期的例子。最后,这是一个多类分类问题。

2.5.2在线支持向量分类器

假设我们有一个先前训练过的模型和一组新的示例,即一系列输入向量x个R(右)d日(= 1, …,). 在线学习将在Shalev Shwartz和Singer提出的框架下进行讨论(2006).

在线设置中,试用t吨,其中t吨∈ [1,],在线学习任务可以视为解决以下优化问题:
(6)
用第一个t吨−1个示例{x个1,1, … , (x个− 1,− 1)}.
类似地论坛由以下人员提供:
(7)
根据的定义D类t吨(论坛)和D类(论坛),我们可以推断D类t吨1, … , αt吨− 1) =D类1, … , αt吨− 1, 0, … 0). 因此,在线SVM可以被视为问题的增量求解器论坛(Shalev Shwartz和Singer,2006). 值得注意的是,这个问题可以按顺序解决。例如,在审判中t、 D类(论坛)只取决于第一个t吨观测变量。直观地看,每条线索上双重目标的增加越大,在线SVC的自我调整就越好(Shalev-Shwartz和Singer,2006).

受LASVM和上述框架的启发,提出了一种在线支持向量来解决细胞相位识别问题。进行了三次修改。首先,只使用错误分类的示例来更新模型。由于新的例子严重不平衡,与其他类相比,主导类,即间期,将带来压倒性的信息。其次,当尝试向当前支持向量集中添加新示例时,系数α根据每个类的重要性用不同的权重初始化(Shalev-Shwartz和Singer,2006; 等。,2005). 最后,一旦旧模型的支持向量在优化过程中成为明显的非支持向量,它们将被丢弃。”采用一对一的策略将二进制SVM转换为处理多个类(Vapnik,1998).

我们需要维护四条信息:集合S公司潜在支持向量指数的集合S公司古老的属于旧模型的支持向量索引的系数α旧核展开与偏导数程序INSERTION和UPDATING是OSVC(在线支持向量分类器)的两个基本块。

OSVC的基本思想可以表述如下。(1)加载先前训练过的模型(2)过程INSERTION试图将错误分类的示例插入当前内核扩展中()UPDATING过程更新模型。

算法(在线支持向量分类器)

  1. 初始化: 

    • 加载旧的支持向量模型。

  2. 在线迭代: 

    • 设置{x个k个,年k个},用于k个= 1, 2 …

    • 对于k个= 1, …

    • 获取新示例S公司k个= {x个k个,年k个}

    • 计算论坛

    • 如果是示例x个k个然后被错误分类

    • 插入(k个)

    • 正在更新(k个)

    • 结束条件为

    • 结束

在INSERTION中,错误分类的示例x个k个,千S公司插入到当前支持向量集中。系数αk个指定了预设值C类例如C类n个反面例子(Shalev-Shwartz和Singer,2006; 等。,2005). 分配不同权重的目的是双重的。(1)当使用不均匀类大小的训练集时,算法的性能也会受到影响。当感兴趣的类只有有限的训练样本时,其预测精度会下降。为了解决这个问题,我们可以给感兴趣的类分配更大的权重,从而提高其准确性。(2)当实验条件发生较大变化时,可以为新的示例分配较大的权重,以反映实验中的变化。因此,我们的算法的在线自适应性可以得到提高。然后,将执行方向搜索以更新系数α.

插入(k个):

获取新示例S公司k个= {x个k个,年k个}

计算论坛

if示例x个k个被错误分类,那么

如果k个=+1,然后
其他的

结束条件为

如果(i、 j个)是τ破坏对

结束条件为

结束条件为

程序UPDATING继续搜索τ-违反对当前支持向量集和更新系数论坛以增加双重目标,直到不再存在这样的对为止。与LASVM中的REPROCESS类似,属于旧模型的明显非支持向量将被删除(边界,2005).

正在更新(k个):

当存在τ破坏对时(i、 j个)做

对于每个αS公司=0和S公司古老的

如果=-1和,然后S公司=S公司−{S公司}; 结束条件为

如果,=+1和然后S公司=S公司−{S公司}; 结束条件为

每个都结束

结束while

3结果

3.1细分

为了测试分割算法,使用了240幅图像。这就产生了一个由18 683个核组成的测试集。测试了三种方法。(1)无碎片合并的简单分水岭算法(Vincent和Soille,1991). (2)流域和混合合并算法(Yan等。,2006). ()本文提出的方法。混合合并算法能正确识别86%的核目标。然而,我们提出的方法可以正确识别99%的原子核。在18 683个细胞核中,我们的方法得到了35个过度分割的细胞核和154个欠分割的细胞核。大多数过度分割是由于异常细胞团造成的。这些方法之间的比较见表1。细分验证的详细信息在补充材料中提供。

表1。

核识别的准确性

方法低于结束对的
流域187 (1%)2242 (12%)16 254 (87%)
流域+混合246 (1.32%)747 (4%)17 690(94.69%)
探测和分水岭154 (0.82%)35 (0.19%)18 494 (99%)
方法低于结束对的
流域187 (1%)2242 (12%)16 254 (87%)
流域+混合246 (1.32%)747 (4%)17 690 (94.69%)
检测和分水岭154 (0.82%)35 (0.19%)18 494 (99%)
表1。

核识别的准确性

方法低于结束对的
流域187 (1%)2242人(12%)16 254 (87%)
流域+混合246 (1.32%)747 (4%)17 690 (94.69%)
检测和分水岭154 (0.82%)35 (0.19%)18 494 (99%)
方法低于结束对的
流域187 (1%)2242 (12%)16 254 (87%)
流域+混合246 (1.32%)747 (4%)17 690 (94.69%)
检测和分水岭154 (0.82%)35 (0.19%)18494(99%)

3.2细胞阶段识别

我们使用敏感性和特异性作为我们实验结果的衡量标准。假设TP、TN、FP和FN分别代表细胞相鉴定完成后的真阳性、真阴性、假阳性和假阴性样本数。敏感性定义为敏感性=TP/(TP+FN),特异性定义为特异性=TN/(TN+FP)。换句话说,敏感性是对阳性细胞分类程度的统计测量,而特异性则反映了正确识别阴性细胞的能力。如果我们将一个类别视为阳性,将其他类别视为阴性,则可以计算每个类别的敏感性和特异性。

为了测试OSVC算法,手动标记了三部“电影”,这三部电影对应于不同实验条件下的三个连续实验。前两部电影未经治疗,第三部用紫杉醇治疗。每部电影包含240幅图像。SVM(Vapnik,1998)和LASVM(边界,2005)用作基线算法。第二部和第三部电影分别分为两半。第一部分用作训练集,第二部分用作测试集。在第二部电影的测试集中,共有9249个间期细胞、71个前期细胞、183个中期细胞和180个后期细胞。在第三部电影的后半部分,共有13930个间期细胞、48个前期细胞、539个中期细胞和225个后期细胞。对于未经治疗的病例,SVM(Vapnik,1998)用第一部电影和第二部电影的前半部分中的细胞进行训练。对于LASVM和在线SVC,使用第一部电影生成“旧”模型,而使用第二部电影的前半部分用所提出的在线学习算法更新“旧”模式。对于已治疗的病例,使用第一部电影和第三部电影的组合。这与未经治疗的病例形成对比,后者需要第一部和第二部电影。OSVC算法可以不断更新,不需要等到电影的一半用手绘标签,然后再更新分类器,这一点毫无价值。换句话说,如果用户遇到一个错误分类的样本,他可以通过记录这个新样本并丢弃过时的支持向量来立即更新分类器。为了便于比较,使用前半部分作为训练集,因为标准SVM(Vapnik,1998)以“批处理”模式更新。通过交叉验证测试获得的参数用于所有算法:C为0.707,RBF核的gamma值为0.25。在OSVC中,对加权和非加权情况进行测试。

在加权OSVC中,间期、前期、中期和后期的权重分别为1、30、10和10。表2-5,第三行“OSVC加权”对应于加权案例。在非加权情况下C类第页C类n个在更新中(k个)设置为零。表2-5显示治疗和未治疗病例的敏感性和特异性。每行是一种方法,每列是一个阶段。发件人表2对于未经治疗和治疗的病例,LASVM的前期敏感性降低,而OSVC可以大大提高敏感性。表5,加权OSVC可以显著提高间期的特异性。OSVC的权重可以自适应地调整,当我们的重点是针对具有有限训练样本的类时,这是有用的。这里我们给出了两个一般准则。(1)更重要的单元格类型应分配更大的权重。(2)在初始阶段,每个类别的权重与样本数成反比。例如,如果前期的权重为1,前期和中期的数量之比为10,则中期的权重可以指定为10。

表2。

未治疗病例细胞期鉴定的敏感性

阶段内部(%)专业(%)元(%)安娜(%)
支持向量机99.656.367.266.6
LASVM公司99.845.177.282
OSVC(加权)94.987.366.184
OSVC公司99.277.187.989.4
阶段内部(%)专业(%)元(%)安娜(%)
支持向量机99.656.367.266.6
LASVM公司99.845.177.282
OSVC(加权)94.987.366.184
OSVC公司99.277.187.989.4
表2。

未治疗病例细胞期鉴定的敏感性

阶段内部(%)专业(%)Meta(%)安娜(%)
支持向量机99.656.367.266.6
LASVM公司99.845.177.282
OSVC(加权)94.987.366.184
OSVC公司99.277.187.989.4
阶段内部(%)专业(%)元(%)安娜(%)
支持向量机99.656.367.266.6
LASVM公司99.845.177.282
OSVC(加权)94.987.366.184
OSVC公司99.277.187.989.4
表3。

治疗病例细胞相鉴定的敏感性

阶段内部(%)专业(%)元(%)安娜(%)
支持向量机99.418.856.477.8
LASVM公司98.522.975.186.7
OSVC(加权)90.97779.277.3
OSVC公司98.52570.983.6
阶段内部(%)专业(%)元(%)安娜(%)
支持向量机99.418.856.477.8
LASVM公司98.522.975.186.7
OSVC(加权)90.97779.277.3
OSVC公司98.52570.983.6
表3。

治疗病例细胞相鉴定的敏感性

阶段内部(%)专业(%)元(%)安娜(%)
支持向量机99.418.856.477.8
LASVM公司98.522.975.186.7
OSVC(加权)90.97779.277.3
OSVC公司98.52570.983.6
阶段内部(%)专业(%)元(%)安娜(%)
支持向量机99.418.856.477.8
LASVM公司98.522.975.186.7
OSVC(加权)90.97779.277.3
OSVC公司98.52570.983.6
表4。

未治疗病例细胞期鉴定的特异性

阶段内部(%)赞成元(%)安娜(%)
支持向量机67.799.799.899.9
LASVM公司80.799.999.899.9
OSVC(加权)95.999.699.899.8
OSVC公司80.199.69998.6
阶段内部(%)赞成元(%)安娜(%)
支持向量机67.799.799.899.9
LASVM公司80.799.999.899.9
OSVC(加权)95.999.699.899.8
OSVC公司80.199.69998.6
表4。

未治疗病例细胞期鉴定的特异性

阶段内部(%)赞成元(%)安娜(%)
支持向量机67.799.799.899.9
LASVM公司80.799.999.899.9
OSVC(加权)95.999.699.899.8
OSVC公司80.199.69998.6
阶段内部(%)赞成元(%)安娜(%)
支持向量机67.799.799.899.9
LASVM公司80.799.999.899.9
OSVC(加权)95.999.699.899.8
OSVC公司80.199.69998.6
表5。

治疗病例细胞期鉴定的特异性

阶段内部(%)专业(%)元(%)安娜(%)
支持向量机6799.699.899.6
LASVM公司80.699.999.899.8
OSVC(加权)95.999.699.899.8
OSVC公司80.999.69998.6
阶段内部(%)专业(%)元(%)安娜(%)
支持向量机6799.699.899.6
LASVM公司80.699.999.899.8
OSVC(加权)95.999.699.899.8
OSVC公司80.999.69998.6
表5。

治疗病例细胞期鉴定的特异性

阶段内部(%)专业(%)Meta(%)安娜(%)
支持向量机6799.699.899.6
LASVM公司80.699.999.899.8
OSVC(加权)95.999.699.899.8
OSVC公司80.999.69998.6
阶段内部(%)专业(%)元(%)安娜(%)
支持向量机6799.699.899.6
LASVM公司80.699.999.899.8
OSVC(加权)95.999.699.899.8
OSVC公司80.999.69998.6

4讨论

经历有丝分裂突变的细胞会在中期-后期转变之前、期间或之后停止,并最终发生凋亡。因此,我们将从一幅图像到另一幅图像检测到这些细胞在中期或后期冻结,从而将其归类为停滞中期。

细胞核分割是整个系统的重要组成部分。为了从背景中分离暗核,采用了一种数据驱动的背景校正算法作为自适应阈值方法。为了减少过分割和欠分割问题,我们首先将核的形状信息和强度信息结合在一起,然后利用线性尺度空间理论生成代表一个核位置的局部最大值。最后,使用种子分水岭算法分割细胞核,该算法将检测到的中心点(细胞核位置)用作“种子”。实验结果表明,该分割算法效果良好。

处理更不规则的细胞类型更具挑战性,如U87-MG,这需要更稳健的分割方法。但即使出现这样的细胞,我们的系统也能正常工作。本研究的主要目的是评估药物使用前后细胞周期的变化。前期、间期、中期和后期是我们关注的四种细胞类型。其他细胞类型,如U87-MG、G0/G1等,在我们的实验中很少出现,它们的持续时间很短。因此,我们可以使用上下文信息来纠正不正确分割导致的错误。此外,更健壮的算法通常会带来更多的计算开销,这是实时系统中必须考虑的另一个重要因素。因此,我们专注于提高这四种细胞类型的分类精度,而不是使用更复杂的分割方法。

为了解决数据集不平衡带来的问题,提出了加权OSVC来提高感兴趣的预测精度。对于未经治疗的病例,加权OSVC和非加权OSVC的表现均优于SVM和LASVM。当我们的焦点是一个特定类时,可以应用加权版本。在处理的情况下,由于处理后细胞的形态发生了显著变化,只有加权支持向量机才能有效地提高前期预测的准确性。然而,应调整每个类的权重,以满足实际的实验要求。

值得注意的是,训练样本分布不均的问题可以通过“加权”SVM(Eitrich和Lang,2006; Vapnik、,1998),它通过根据类大小分配具有不同成本权重的训练样本来训练SVM。在“加权”支持向量机中,前期的预测精度可以提高10–20%,但代价是使用减少的特征略微减少了具有大样本的类。间期、前期、中期和后期的权重分别为1、10、10和10。

5结论和未来工作

本文提出了一种新的细胞核检测算法,该算法与分水岭算法相结合,用于药物发现和定量生物学研究中的细胞核图像分割。基于分割结果,使用OSVC算法将细胞核分为不同的相位,并验证了其用于在线细胞相位识别的性能。未来的工作是从不同药物扰动条件下癌细胞系的大量图像中构建一个数据库。接下来,将分析各种药物成分在有丝分裂过程中的影响,以找到关键的抗有丝分裂癌药物成分。

确认

本研究由NIH R01 LM008696拨款资助。

利益冲突:未声明。

参考文献

安德森
HJ公司
G2 DNA损伤检查点抑制剂及其在癌症治疗中的潜力
掠夺。细胞周期研究
2003
,卷。 
5
(第
423
-
430
)
巴古雷
不列颠哥伦比亚省
马歇尔
药物发现项目中人类肿瘤行为的体外模拟
《欧洲癌症杂志》
2004
,卷。 
40
(第
794
-
801
)
波兰德
中压
墨菲
射频
一种能够识别HeLa细胞荧光显微镜图像中所有主要亚细胞结构模式的神经网络分类器
生物信息学
2001
,卷。 
17
(第
1213
-
1223
)
波兰德
百万伏特
荧光显微图像中亚细胞结构模式特征的自动识别
细胞计量学
1998
,卷。 
33
(第
366
-
375
)
边框
一个
具有在线和主动学习功能的快速核分类器
J.马赫。精益。雷斯
2005
,卷。 
6
(第
1579
-
1619
)
河和布雷乌
H(H)
线性时间欧氏距离变换算法
IEEE传输。模式分析。机器。智能
1995
,卷。 
17
(第
529
-
533
)
查尔斯
年初至今
利用高内容筛选数据识别有丝分裂亚期的支持向量机分类器
《生物分子杂志》。屏幕
2007
,卷。 
12
(第
490
-
496
)
联合国安全理事会
墨菲
射频
多细胞图像中蛋白质亚细胞定位模式自动分类的图形模型方法
BMC生物信息学
2006
,卷。 
7
第页。 
90
 
X
延时显微镜中癌细胞核的自动分割、分类和跟踪
IEEE传输。生物识别。工程
2006
,卷。 
53
(第
762
-
766
)
科尔特斯
C类
瓦普尼克
V(V)
支持向量网络
机器。学习
1995
,卷。 
20
(第
273
-
297
)
Debes公司
JD公司
,等人
P300调节前列腺癌细胞核形态
癌症研究
2005
,卷。 
65
(第
708
-
712
)
狄克逊
H(H)
缺乏p53功能的癌细胞检查点缺陷的治疗利用
细胞周期
2002
,卷。 
1
(第
362
-
368
)
艾特里希
T型
冗长的
B类
非平衡数据集支持向量机学习参数的高效优化
J.计算。申请。数学。
2006
,卷。 
196
(第
377
-
427
)
弗伦德
Y(Y)
夏皮雷
重新
基于感知器算法的大边缘分类
机器。学习
1999
,卷。 
37
(第
277
-
296
)
加拉多
G公司
,等人
基于隐马尔可夫模型的有丝分裂细胞识别
医学成像SPIE
2004
,卷。 
5367
(第
661
-
668
)
盖恩
超大VC-维分类器的自动容量调整
神经信息处理系统的进展。
加利福尼亚州
摩根考夫曼
(第
5
-
155
)
盖恩
基于支持向量机的肿瘤分类基因选择
机器。学习
2002
,卷。 
46
(第
389
-
422
)
哈拉利克
马来西亚令吉
,等人
图像分类的纹理特征
IEEE传输。SMC公司
1973
,卷。 
(第
610
-
621
)
更难
N个
拉森
R(右)
三维荧光显微镜图像序列中人类细胞有丝分裂相的自动分析
2006年MICCAI会议记录。
2006
丹麦哥本哈根
施普林格柏林/海德堡
(第
840
-
848
)
K(K)
基于特征约简的荧光显微镜图像亚细胞定位模式识别
程序。SPIE公司
2003
,卷。 
4962
(第
307
-
318
)
基维宁
J型
使用内核进行在线学习
IEEE传输。信号处理
2004
,卷。 
52
(第
2165
-
2176
)
千瓦
QH(质量健康)
支持向量分类器的在线训练
模式识别
2003
,卷。 
36
(第
1913
-
1920
)
广州
基于支持向量机的多类问题特征选择
莱克特。注释计算。科学
2004
,卷。 
3157
(第
292
-
300
)
G公司
,等人
融合梯度线索和对象模型的混合三维分水岭算法用于共焦图像堆中细胞核的自动分割
细胞计量学A
2003
,卷。 
56
(第
23
-
36
)
林德布拉德
J型
用于细胞质自动分割和Rac1激活分类的图像分析
细胞计量学A
2004
,卷。 
57
(第
22
-
33
)
曼朱纳特
英国标准
妈妈
用于浏览和检索图像数据的纹理特征
IEEE传输。PAMI(PAMI-数字图书馆专业发行人)
1996
,卷。 
18
(第
837
-
842
)
墨菲
射频
用于描述和分类荧光显微镜图像中亚细胞定位模式的稳健数字特征
J.超大规模集成电路信号处理
2003
,卷。 
35
(第
311
-
321
)
普拉特
J型
舍尔科夫
B类
基于序列最小优化的支持向量机快速训练
核方法的进展——支持向量学习。
1999
妈妈
麻省理工学院出版社
(第
185
-
208
)
罗森布拉特
F类
感知器:大脑中信息存储和组织的概率模型
精神病。利润
1958
,卷。 
6
(第
386
-
408
)
沙列夫·施瓦茨
S公司
歌手
Y(Y)
卡博内尔
JG公司
西克曼
J型
在线学习与双重优化
第19届学习理论年会论文集。
2006
宾夕法尼亚州匹兹堡
施普林格柏林/海德堡
(第
423
-
437
)
斯泰格
C类
曲线结构的无偏检测器
IEEE传输。模式分析
1998
,卷。 
20
(第
113
-
125
)
斯特恩
HM公司
延迟S期的小分子抑制斑马鱼bmyb突变体
自然化学。生物
2005
,卷。 
1
(第
366
-
370
)
瓦普尼克
V(V)
统计学习理论。
1998
纽约州
约翰·威利父子公司
瓦普尼克
V(V)
勒纳
一个
基于广义纵向方法的模式识别
自动化。剩余控制
1963
,卷。 
24
(第
774
-
780
)
文森特
L(左)
Soille公司
数字空间中的分水岭:一种基于沉浸模拟的高效算法
IEEE传输。PAMI公司
1991
,卷。 
13
(第
583
-
598
)
沃尔比
C类
荧光标记细胞的细胞质分割算法
分析。细胞病理学
2002
,卷。 
24
(第
101
-
111
)
M(M)
基于伪氨基酸组成预测膜蛋白类型的加权支持向量机
蛋白质工程设计。选择
2005
,卷。 
17
(第
509
-
516
)
M(M)
基于上下文的自动荧光显微镜细胞相识别混合模型
BMC生物信息学
2007
,卷。 
8
第页。 
32
 
C类
王子
J型
蛇、形状和梯度矢量流
IEEE传输。图像处理
1998
,卷。 
7
(第
359
-
369
)
雁鸣声
J型
一种高效的光学显微镜细胞图像分割、跟踪和细胞相识别系统
IEEE ICIP论文集。
2006
佐治亚州亚特兰大
(第
1536
-
1537
)
X
Wong(王)
STC公司
高通量显微镜的信息学挑战
IEEE信号处理。美格
2006
,卷。 
23
(第
63
-
72
)

作者注释

副主编:Trey Ideker

补充数据