治疗诊断科技2020; 10(24):11026-11048. doi:10.7150吨/吨44053这个问题 引用

研究论文

ALICE:一种混合人工智能范式,具有增强的连接性和网络安全性,可与循环混合细胞偶然相遇

Kok Suen Cheng公司1、潘荣斌2、潘华平2,李冰林2斯蒂芬·沙德拉克·米娜2、欢星2、Ying Jing Ng2、秦凯里2、轩寮2Benson Kiprono Kosgei2,王志鹏1,Ray P.S.Han1,2对应地址

1.北京大学工程学院,北京100871。
2.江西中医药大学江中肿瘤研究中心,江西南昌,中国330004。

引用:
Cheng KS、Pan R、Pan H、Li B、Meena SS、Xing H、Ng YJ、Qin K、Liao X、Kosgei BK、Wang Z、Han RPS。ALICE:一种混合人工智能范式,具有增强的连接性和网络安全性,用于与循环混合细胞的偶然遭遇。治疗诊断科技2020; 10(24):11026-11048. doi:10.7150/thno.44053。https://www.thno.org/v10p11026.htm
其他样式

文件导入说明

摘要

图形摘要

在密集的荧光标记液体活检图像中,对罕见的细胞表型进行完全自动化和准确的分析仍然是难以捉摸的。

方法:采用混合人工智能(AI)范式,将传统的基于规则的形态学操作与现代统计机器学习相结合,我们部署了下一代软件ALICE(自动液体活检细胞计数仪)鉴定和列举大量白细胞中散布的微小肿瘤细胞表型。作为一种为未来设计的代码,ALICE配备了物联网(IOT)连接,以促进教育和继续教育,以及先进的网络安全系统,以防止恶意数据篡改的数字攻击。

结果:通过结合鲁棒主成分分析、随机森林分类器和三次支持向量机,ALICE能够检测合成、异常和篡改的输入图像,平均召回率和准确度分别为0.840和0.752。在表型计数方面,与人类分析人员相比,ALICE能够枚举各种循环肿瘤细胞(CTC)表型,其可靠性范围为0.725(基本一致)到0.961(几乎完美)。此外,在胰腺癌患者的外周血中意外发现了循环杂交细胞(CHCs)的两个亚群,并标记为CHC-1(DAPI+/CD45+/E-cadherin+/vimentin-)和CHC-2(DAPI+/CD45+/E-cad herin+/vimentin+)。CHC-1与淋巴结分期相关,能够对淋巴结转移进行分类,敏感性为0.615(95%CI:0.374-0.898),特异性为1.000(95%CI:1.000-1.000)。

结论:本研究提出了一种基于机器学习增强规则的混合人工智能算法,该算法具有增强的网络安全性和连接性,可用于细胞液体活检的自动灵活计数。ALICE有潜力在临床环境中用于准确可靠的CTC表型计数。

关键词:ALICE,细胞表型软件,混合人工智能,图像伪造检测,循环混合细胞

介绍

癌症研究中的液体活检是一种相对容易进行的微创程序[1]用于采集体液中最受调查的生物材料之一:循环肿瘤细胞(CTCs)(如果体液是血液)和流动肿瘤细胞(MTCs),如果体液不是血液[2]. 这些罕见癌细胞的流行和广泛性已被证明与临床诊断预测密切相关[,4],预后[5,6],复发监测[7,8]和治疗反应[9,10]. 然而,CTC/MTC在常规癌症管理中的应用仍然不广泛,尽管据报道其使用具有疗效[11]. 迄今为止,CellSearch系统[12]尽管CTC已经研究了一个多世纪,但它仍然是美国食品药品监督管理局批准的唯一一种基于CTC的血液测试[13].

CTC/MTC计数评估的准确性和可靠性是阻碍临床肿瘤学接受CTC/MTCs的主要障碍之一[14]. 目前,由训练有素的人类检测人员对这些肿瘤细胞进行鉴定和计数的实际标准采用免疫荧光染色方法,该方法涉及癌特异性标记物,如上皮细胞粘附分子(EpCAM)和细胞角蛋白(CK)[15]. 不可避免地,计数结果受到人为引入的变量的影响,这些变量表现为两种形式:观测者之间的变量和观测者内部的变量。前者是由于对具有不同标准的荧光标记细胞的主观解释,后者可归因于使用不同硬件观看图像,以及典型手动操作中的高强度劳动和时间引起的疲劳。这些观测器变量会影响CTC/MTC枚举的准确性和可靠性。其他可能显著影响体液中肿瘤细胞流行率评估准确性和可靠性的因素包括与CTC/MTC假阳性、捕获纯度和细胞表型相关的问题。当白细胞(WBC)无意中被标记为肿瘤细胞时,就会出现CTC/MTC假阳性(根据免疫染色结果)。捕获纯度问题是指意外捕获白细胞,其数量通常大于CTC/MTC。肿瘤异质性和具有不同生物学功能和反应的细胞通常要求使用细胞表型计数而不是总计数。所有这些问题都可能妨碍建立液体活检标准,以指导癌症患者的诊断、分期、治疗和复发监测。

实现一致和高保真标准的第一步是用计算机辅助诊断(CAD)系统取代具有挑战性的人类计数评估的复杂性,使细胞液体活检能够发展成为癌症管理的主流工具。Stott等人[16]在CTC芯片富集后,提出了一种用于分析前列腺CTC的自动成像系统[17]. 他们的基于规则的系统利用了细胞的大小和形状,以及细胞核标记物4'、6-二氨基-2-苯基吲哚(DAPI)和前列腺特异性抗原(PSA)的荧光信号的共定位来识别CTC。除了基于规则的方法外,统计机器学习算法等先进技术,例如随机森林[18],支持向量机(SVM)[19]和朴素贝叶斯分类器[20]已用于荧光染色CTC的自动检测。此外,卷积神经网络已成功用于识别未染色血液暗场显微图像中的CTC[21]. 还开发了基于这些计算技术的功能软件。这个精确自动CTC枚举(PACE)芯片系统[14]将专门设计的微流控芯片与图像处理算法相结合,实现CTC自动计数;然而,它只输出CK19阳性的CTC,这意味着它只能产生上皮CTC计数。这个CTC自动分类、枚举和表型分析(ACCEPT)软件是在欧盟资助的CANCER-ID和CTCTrap项目下开发的[22,23]它利用深度学习算法通过上皮标记染色实现CTC自动分类。尽管肿瘤细胞的免疫荧光鉴定被认为比传统的苏木精-伊红(H&E)染色更可靠,但CTC AutoDetect 1.0系统等软件[24]已开发用于根据形态学标准检测H&E染色CTC(细胞直径>24µm,非正常椭圆形/圆形等)。这个软件有一个主要的局限性——它们被设计用来枚举最常见的上皮细胞CTC,而不考虑其他表型。据我们所知,我们还没有发现能够处理上皮表型以外的CTC/MTC的主要软件。

我们提供了一个自动准确识别荧光显微镜图像中多种细胞表型(最多20种)的软件ALICE。此外,为了深入检查液体活检数据,该软件可以配置为输出散布在密集和大量白细胞中的罕见肿瘤细胞(<0.5%)的位置和(可选)缩略图(1A类). 将传统基于规则的形态学操作与现代统计机器学习相结合的混合人工智能(AI)范式编程到ALICE中,以管理从传统和非传统生物标记物组合中获得的不同细胞表型活动。为了鼓励附属用户社区的参与,ALICE被设计为以下四个组访问:医院、研究、教育和公众,每个组都有自己定义的访问权限和使用功能(1B类). ALICE内置了一个增强的网络安全系统,用于打击侵入性黑客攻击和防止图像操作。我们使用公开转载的图像集以及包含CTC表型的荧光图像集对ALICE的性能进行了基准测试和验证。我们还描述了在胰腺癌患者的外周血中检测到一种新的循环混合细胞群。如本文所述,利用ALICE的这一偶然发现构成了对一种新的融合杂种的初步研究,该杂种在疾病进展方面显示出良好的生物学意义。

图1 

未来现代生物医学软件的主要操作挑战。(A)在密集和大量非肿瘤细胞中散布的罕见肿瘤细胞需要精确处理。”“E-CTC”是指对细胞核标记物DAPI和上皮肿瘤标记物E-cadherin表达阳性,但对间叶肿瘤标记物波形蛋白和白细胞标记物CD45表达阴性的上皮循环肿瘤细胞“M-CTC”表示间充质CTC对DAPI和波形蛋白表达阳性,但对E-cadherin和CD45表达阴性“H-CTC”是指对DAPI、E-cadherin和vimentin表达阳性但对CD45表达阴性的杂交CTC“未知”表示所有4个标记均呈阳性的细胞。白细胞(WBC)表达DAPI和CD45阳性,而E-cadherin阴性。(B)增强软件连接,以鼓励附属用户社区的参与。不同的社区具有不同的可达性和功能。

热学图像

结果

ALICE工作流和改进的灰度图像二值化

ALICE工作流包括五个主要步骤(2A类); 第一步是将输入图像预处理为灰度数据(对于RGB输入),然后是两部分第二步:通过双边滤波技术进行数据去噪[25]以及通过对比度限制的自适应直方图均衡化(CLAHE)算法增强对比度[26]. 第三步是将数据二值化为黑色(背景)和白色(前景)像素。三角形技术[27]然后用于生成更好的灰度图像阈值结果,并与中的15种其他阈值方法的结果进行比较图S1(有关阈值处理方法的详细信息,请参见方法)。为了在不同的环境条件下(如照明、对比度等)灵活准确地对图像进行二值化,引入了阈值校正因子来调节三角阈值。最终阈值是初始值和校正因子的乘积。为了估计阈值校正因子,我们使用了14个回归机器学习模型来自动选择与图像特征一致的参数值(“二值化”2A类). 使用10×10倍交叉验证和测试集,我们发现带有随机森林核函数的集成方法模型产生的测试集误差最小(均方根误差=0.74(95%CI:0.70-0.81),平均绝对误差=0.50(95%CI:0.47-0.52)(表S1)). 分水岭算法[28]用于分隔重叠单元格和聚集单元格。第四步是创建细胞质掩模,并通过细胞大小和离心率的传统形态学标准清除核通道图像中的非核酸物体。将细胞质掩模应用于过滤后的细胞核图像,并调用基于规则的算法来识别、定位和枚举不同的细胞表型(2A类). 第五步涉及细胞信息的数据输出-每个细胞表型的计数和每个已识别细胞的相应位置。此外,可以导出细胞表型的缩略图,用于下游确认和分析。ALICE目前支持总共20个细胞组合/表型的多达一个核通道和三个细胞质通道(表S2). 用于透明点击操作的图形用户界面(GUI)用于指定视野(FOV)的通道数,图像顺序为亮视野、细胞核或3个细胞质标记(图S2).

物联网(IOT)连通性和增强的神秘和虚假图像网络安全

作为一款面向未来的高级软件,ALICE不仅是生物医学研究的工具,而且还是面向广大用户群体的学术教学和继续教育的数据库。这种通过基于云的物联网(IOT)连接实现的开源访问需要增强网络安全,以抵御旨在访问、植入、修改或销毁敏感数据的数字攻击。ALICE使用了一些高级工具,如鲁棒主成分分析(PCA)算法、随机森林分类器和立方SVM分类器来识别和标记神秘和虚假图像(中的“机器学习”框2A类). 该软件采用与确定阈值校正因子时相同的提取特征来实现一个无监督分类模型,并训练两个单独的单目标分类模型,分别用于检测异常图像、篡改图像和合成图像(数字2B-D公司). 此外,我们使用了单目标方法,而不是多标签方法[29]处理所有三种类型的操作图像。此方法允许通过四层保护系统轻松处理三种图像类型及其任意组合。

第一个保护层是使用鲁棒PCA算法抑制异常图像[30]我们通过调整和优化两个参数来实现这一点:k个、要保留的主要组件的数量,以及α,未污染观测比例的下限。通过对不同数量的异常进行实验,我们发现最佳参数为k个= 1,α= 0.70 (表S3). 第二层保护处理篡改图像和伪造的检测。随着高级图像编辑工具的易用性,检测操纵图像变得越来越困难,因为它们实际上无法与真实图像区分开来。我们使用一个大图像集训练并测试了22个分类器,该图像集是通过在公开图像集的基本真相掩码中随机拼接和粘贴最多三个对象而获得的[31]. 该程序生成46936张图像(50%原始电流对),并将这些图像分为37549张(80%)训练图像和9387张(20%)测试图像。在22种检测篡改和伪造图像的分类模型中,随机森林方法的性能最好,测试灵敏度=97.38%(95%CI:95.82-97.79%),特异性=97.78%(95%CI:97.33-98.20%),准确率=97.58%(95%CI:97.22-97.88%)(表S4). 第三个保护层涉及使用与篡改检测不同的分类模型检测合成图像。在12448个(训练与测试的比率为80:20)真实和合成荧光图像上进行训练和测试,我们发现四种分类器:逻辑回归、二次SVM、三次SVM和随机森林分类器在22个模型中都表现得同样好(表S5). 第四层保护是图像篡改的定位,在大多数情况下,肉眼无法识别。为了实现这种本地化,我们采用了多类层次聚类技术[32]处理图像的PCA衍生噪声[33]并且假设具有最少像素数的类是被篡改的区域。2B类描述了篡改定位的两个示例;顶行示出了合成/正常/篡改图像中的小篡改区域(0.3%篡改像素),并且在视觉上无法与主图像区分,而底行示出合成/异常/篡改的图像中的较大篡改区域。对于这两种情况,尽管在第二个示例中生成了一些识别错误的小补丁,ALICE仍然能够准确定位篡改区域。

最后一个测试是评估ALICE在真实图像集中的性能,其中异常、篡改和合成图像经常被集成在一起。为此,我们策划了一个新的图像集,包括1000个真实(R)、合成(S)、正常(N)、原始(P)、反常(a)和篡改(T)图像,分布如下:916个R/N/P和12个R/N/T、R/a/P、R/a/T、S/N/P、S/N/T、S/a/P、S/a/T。数字2C-D公司显示异常、篡改和合成图像组合检测的最终结果。当处理S/A/P、S/N/P、R/A/P、R/N/P和S/A/T图像类型等更明显的异常时,ALICE中的立方SVM分类器能够以较高的召回率、精确度、F1得分和马修斯相关系数(MCC)检测几乎所有异常(2D类). 然而,当检测到较难的异常(S/N/T、R/A/T和R/N/T)时,尽管对大多数图像类型进行了正确分类,ALICE的性能还是有所下降(2D类中包含详细信息表S6).

合成和真实荧光图像的性能评估

ALICE旨在同时枚举图像集中的多个细胞表型。为了处理这个问题,每个表型组的细胞都用彩色编码,同一组中的每个细胞都用单独的颜色同步计数数据标记,作为细胞的唯一标识符(A类). 使用合成荧光图像集评估ALICE的表型计数准确性。它是使用SimuCell创建的[34]包含2000个荧光图像,每个图像有5个通道:亮场、核标记、细胞质标记1、2和3,生成20种不同的表型(表S2). 评估采用马萨诸塞州剑桥市布罗德研究所提出的评估方案,ALICE对所有20种表型的综合平均百分比误差±SD为10.6±13.2%(B类). 这些表型的综合敏感性和特异性分别为0.934(95%可信区间:0.801-1.000)和0.990(95%可信区间:0.924-1.000)(C类).

我们还通过与两个非常流行的最新生物图像软件ImageJ进行比较,评估了ALICE在实际荧光图像集上的性能[35,36]和CellProfiler[37,38]. 与ALICE不同,ImageJ和CellProfiler都无法同时枚举多种细胞表型,因此,我们比较了所有三种软件预测的细胞总数。为了进行比较,我们从Broad Bioimage Benchmark Collection(BBBC)中选择了4个公开可用的真实图像集[39]:1)人类HT29结肠癌细胞图像集(BBBC001v1);2) 果蝇Kc167细胞图像集(BBBC002v1);3) 模拟高含量筛选图像集(BBBC005v1)和4)人类U2OS细胞图像集(BBBC006v1)。如所示D类发现ALICE的性能优于ImageJ或CellProfiler,因为它对所有四组图像产生的平均百分比误差最小,而对于BBBC002v1图像集,差异最大,ALICE平均百分比误差为6.5%,接近ImageJ(11.3%)和CellProffiler(17%)的一半。

由于图像处理需要大量的计算工作,因此评估软件处理时间非常重要。对于每个图像大小,我们评估了以下四种情况的处理时间:有或没有并行处理,有或没有导出单元格缩略图;分别指定为“无平行,无出口”;“无平行,出口”;“平行,无出口”;以及“并行,导出”。20个图像尺寸为696×520像素(无平行,无输出)和2560×1920像素(无并行,输出)的FOV的处理时间分别为1.1分钟和25.0分钟。随着图像大小的增加(调整后),处理时间似乎呈指数级增加2四种条件的指数拟合分别为0.999、0.999、0998、0.999)(E类). 正如预期的那样,调用并行处理将显著减少所有图像大小的处理时间(所有P(P)< 0.05). 此外,当图像尺寸较小(例如696×520像素)时,无论有无并行处理,导出单元格缩略图都不会显著增加处理时间(P(P)=0.099和P(P)分别=0.174)。相反,对于处理较大的图像大小(例如1280×1024像素),导出结果会导致处理时间在统计上显著增加,无论是否使用并行处理(所有P(P)< 0.05,E类).

图2 

增强连接和网络安全的ALICE概述。(A)ALICE包含一个混合AI引擎,该引擎将传统的基于规则的形态学操作与现代统计机器学习相结合,用于自动准确地识别、定位和枚举细胞表型。内置的网络安全可以检测到神秘和虚假的输入数据。(B)基于输入图像的PCA衍生噪声水平,通过多类层次聚类对篡改区域进行定位。类映射中的不同颜色表示不同的预测类。像素数最少的类被视为篡改区域,并由一个有界的红色框显示。(C)从1000个图像的图像集中,单独检测到的图像类型使用不同的符号进行标记。黄色阴影区域表示由稳健PCA确定的异常区域。插图显示了原点周围区域的放大图。分别使用鲁棒PCA算法、随机森林分类器和立方SVM分类器检测异常图像、篡改图像和合成图像。注:“R”表示真实,“S”表示合成,“N”表示正常,“P”表示原始,“A”表示异常,“T”表示篡改。(D)检测结果的相应混淆矩阵和性能指标(C)“Re”表示召回率,“Pr”表示精度,“F1”表示F1分数,“MCC”表示马修斯相关系数。

热学图像
图3 

评估ALICE的绩效和能力。(A)样本图像中300个合成细胞中5种代表性模拟细胞表型的识别、定位和计数,以及4个通道的输出细胞缩略图:Nuc、M1、M2和M3,分别表示细胞核和细胞质标记1、2、3。(B)计数20种细胞表型的平均百分比误差和标准偏差(全部n个=100).(C)20种细胞表型计数的敏感性和特异性(全部n个=100). 误差条代表95%置信区间。(D)使用4个公开可用的真实图像集,针对ImageJ和CellProfiler评估ALICE单元格枚举性能。(E)从图像大小、处理方案和结果导出方面描述处理时间。插图显示了具有代表性的图像和尺寸。误差条代表SD。***-P(P)< 0.001.(F-I)P3、P7、P11和P15(全部n个=100),剩余表型结果如图S3。黑色虚线表示标识线,红色实线表示拟合线,蓝色实线表示该拟合线的95%置信区间。插图描绘了单个荧光通道图像,τ表示Kendall的相关系数,m表示斜率。(J-M)Bland-Altman绘制了相同4种表型(全部n个=100),剩余表型结果如图S4ΔCount表示两个计数之间的差值。橙色虚线表示ALICE计数与模拟地面实况之间的平均差异,紫色实线表示协议的95%限值,棕色虚线表示协议限值的95%置信区间。表型定义见表S2.

热学图像

考虑的另一个性能指标是ALICE的可靠性。这是通过ALICE表型计数与模拟地面实况之间的一致性分析使用Passing-BBOK回归方法进行测试的[40] (F-I公司和中的详细信息图S3). 在满足高相关性和线性假设的情况下,20个表型中没有一个表现出比例偏差(拟合斜率的95%CI不包括1)或恒定偏差(拟合截距的95%CI没有包括0)。此外,布兰德-奥特曼阴谋[41]证实所有20种表型均不存在比例偏差(J-M公司和中的详细信息图S4)但平均偏差在-4.9至0.9之间。这两项测试都证实了ALICE的可靠性,因为它在大范围的CTC计数(即无比例偏差)下始终表现良好,与真实计数的偏差很小(即小恒定偏差)。

ALICE CTC表型计数与人类计数的基准比较

受ALICE在合成图像上的表现鼓舞,我们接下来试图使用实际患者衍生的荧光图像来表征软件CTC表型计数,并将结果与人类计数的结果进行比较。这种比较对于评估ALICE在实际临床环境中的潜在应用和可靠性是必要的。我们从61名卵巢癌患者中选择了两组不同的荧光图像,其中包含捕获的具有人附睾分泌蛋白4(HE4+)或不具有HE4(HE4-)的CTC[42]和上皮(E类),混合(H(H))和间充质(M(M))46例胰腺癌患者的CTC[43]. 尽管在含有大量白细胞的稠密图像集中,这些罕见的CTC数量极少(<0.1%),ALICE还是能够准确识别并正确定位这些CTC(4A至B). 考虑到CTC的罕见性(表现为CTC表型计数数据中大量的零),我们选择拟合四种不同的模型:用于ALICE与人类计数的泊松(P)、负二项式(NB)、零膨胀泊松(ZIP)和零膨胀负二项形(ZINB)。枚举方法作为两个水平的因子进入所有4个模型:人类枚举和ALICE枚举。因此,人工计数被视为参考,ALICE计数以此为基准。

根据四个模型提供的最低Akaike信息标准(AIC)值,选择HE4-、HE4+、,E类,H(H)M(M)CTC分别为ZIP、P、ZIP、ZIP和P(插入表格4C-G公司). 此外,从计数部分的发病率比率(IRR)来看,ALICE的CTC计数与所有5种表型的人类计数在统计学上无差异,因为所有这些表型的IRR都有95%的置信区间(P(P)>0.05)超过值1(4H(H)中包含详细信息表S7). 同样,回归模型零部分的内部收益率在统计上也不显著(4H(H))这意味着ALICE的枚举不会增加观察到CTC计数中超过零的可能性。ALICE与基于Gwet AC1的人体计数之间的一致性表明,Gwet的HE4-、HE4+、,E类,H(H)M(M)CTC分别为0.725(95%CI:0.652-0.789)、0.907(95%CI=0.819-0.955)、0.961(95%CI/0.918-0.983)、0.958(95%CI+0.925-0.978)和0.884(95%CI:0.836-0.916)(4). 结果表明,在Landis和Koch基准量表中,ALICE与人口数量之间的一致性从“实质性”到“几乎完美”不等[44].

其次,从临床角度来看,比较ALICE和人类在真实图像集中枚举CTC表型所需的时间是最有用的。为此,我们选择了三种CTC表型:E类-反恐委员会,H(H)-CTC和M(M)-CTC来源于46例胰腺导管腺癌(PDAC)患者。对于人类分析员来说,通常需要2-8小时计算每个患者80个FOV,每个FOV有5个通道:亮视野、核标记物DAPI、泛白细胞标记物CD45、间充质标记物波形蛋白和上皮标记物E-cadherin。另一方面,ALICE需要大约一个小时来完成更彻底的扫描和枚举任务,其中包括WBC的所有图像。

PDAC患者偶然遇到循环杂交细胞(CHCs)

在ALICE对PDAC患者外周血采集的细胞图像进行默认全组合扫描期间[43],我们意外地发现了一种新的融合杂交细胞群,同时表达造血(CD45)和肿瘤(E-cadherin)抗原。采集CTC的经典富集技术是排除CD45+表达细胞的大量存在,这种做法导致在人类计数分析中无意中排除CHC。在我们的研究中,我们发现了2种类型的CHCs:CHC-1(DAPI+/CD45+/E-cadherin+/vimentin-)和CHC-2(DAPI+/CD45+/E-cad herin+/vimentin+)(5A类)并将CHC-Total(CHC-T)定义为两个融合杂种的总和。32例PDAC患者(其中14例CHC-T阳性,18例无CHC-T)的基线特征列于1观察罕见融合杂种的个体亚群,我们发现8/32(25.0%)患者有1-6个CHC-1s/2ml的血液;5/32(15.6%)名患者有1-17个CHC-2s/2ml,1名患者同时有6个CHC-1s/2ml和2个CHC-2 s/2ml(5B类). 此外,CHC-1融合杂种具有更均匀的尺寸分布,最小最大直径范围为4µm至21µm(平均值(SD):11.2(3.4)µm)(5C类). 另一方面,CHC-2更窄,最小-最大直径范围为6µm至15µm(平均值(SD):9.9(1.8)µm)(5D类).

图4 

将ALICE CTC表型计数与真实荧光图像中的人类计数进行比较。CTC表型的鉴定、定位和计数:(A)来自61名卵巢癌患者的HE4-(DAPI+/CD45-/E&M+/HE4-)和HE4+(DAPI+/CD45-/E&M+/HE4+)CTCs,(B) E类CTCs(DAPI+/CD45-/E-cadherin+/vimentin-),H(H)CTCs(DAPI+/CD45-/E-cadherin+/vimentin+)和M(M)46例胰腺癌患者的CTCs(DAPI+/CD45-/E-cadherin-/vimentin+)。E&M表示上皮和间充质标记物的结合。比例尺:20µm。(C-G)HE4-CTC、HE4+CTC、,E类-反恐委员会,H(H)-CTC和M(M)-反恐委员会。插入表显示了4个拟合回归模型的AIC值:泊松(P)、负二项式(NB)、零膨胀泊松(ZIP)和零膨胀负二项制(ZINB)模型,AIC值最低的模型用粗体和彩色表示。(H)显示ALICE和人类CTC表型计数的发病率比(IRR)图在统计学上无差异。列出了每个CTC表型的拟合回归模型,零膨胀模型有零部分和计数部分,而非零膨胀模型只有计数部分。虚线表示IRR=1,误差条表示IRR的95%置信区间。(一)使用Gwet的AC1对5种CTC表型进行ALICE和人类计数之间的一致性分析。误差条代表95%置信区间。

热学图像
图5 

胰腺癌患者的循环混合细胞(CHCs)。(A)由ALICE鉴定的两个融合杂种群体:CHC-1(DAPI+/CD45+/E-cadherin+/vimentin-)和CHC-2(DAPI+/CD45+/E-cad herin+/vimentin+)嵌入绝大多数胰腺癌患者的白细胞(DAPI+/CD45+/E-cadherin-/vimentin/)中。比例尺:20µm。(B)胰腺癌患者CHC-1和CHC-2计数的频率直方图。(C-D)CHC-1和CHC-2的粒度分布。(E-H)CHC-1、CHC-2和CTC-T与T分期的相关性(n个=24),N级(n个=24),M级(n个=32)和重复(n个=32). * -P(P)< 0.05; ** -P(P)Mann-Whitney U检验结果<0.01。(一)CHC-1和CHC-T在区分N0和N1 PDAC患者时的受试者操作特征(ROC)曲线,以及曲线下各自的表观面积(AUC)、乐观和优化调整AUC,通过10000次bootstrap迭代计算得出。彩色点表示选择的1 CHC-1/2 ml血液和1 CHC-T/2 ml血液的截止值。(J)CHC-1和CHC-T作为PDAC结节阳性生物标志物的敏感性、特异性、阳性预测值(PPV)、阴性预测值(NPV)和准确性的有效性。误差条表示95%置信区间。

Theranotics图像
表1 

CHC-T阳性分层的基线患者特征

患者特征CHC-T阴性(n=18)CHC-T阳性(n=14)P(P)价值
平均年龄(SD)59.3 (7.8)58.6 (9.0)0.814
男性,数量(%)6 (33)9 (64)0.082
白蛋白,平均值(SD),g43.1 (3.3)41.6 (3.6)0.234
CA19-9血清,中位数(IQR),U/ml122 (28-174)104 (70.8-412)0.531
CEA血清,中位数(IQR),U/ml2.4 (2.0-5.1)3.6 (2.2-8.4)0.368
CA242血清。中位数(IQR),U/ml23.7 (5.7-70.5)39.2 (19.5-142.8)0.263
肿瘤部位:头部/身体或尾部,编号(%)11 (61) / 7 (39)11 (79) / 3 (21)0.446
肿瘤大小,中位数(IQR),编号(%)3.3 (2.0-4.8)3.0 (2.5-3.9)0.706
T阶段,数量(%)0.112
T0类4 (22)1 (7)
T1类4 (22)9 (64)
T2段4 (22)2 (14)
Tx(发送)6 (34)2 (14)
N级,编号(%)0.007
编号09 (50)2 (14)
N1型3 (17)10 (72)
Nx公司6 (33)2 (14)
M阶段,数量(%)0.412
M0(M0)12 (67)12 (86)
M1级6 (33)2 (14)
TMN阶段,编号(%)0.275
1 (6)0 (0)
11 (61)12 (86)
四、6 (33)2 (14)
分化等级,编号(%)0.448
1 (6)0 (0)
中等7 (39)7 (50)
可怜的4 (22)5 (36)
未指定6 (33)2 (14)
神经周侵犯,数量(%)0.421
3 (17)4 (29)
是的9 (50)8 (57)
未指定6 (33)2 (14)
血管周围侵犯,数量(%)0.154
10 (56)12 (86)
是的2 (11)0 (0)
未指定6 (33)2 (14)
癌细胞栓子,个(%)0.297
10 (56)8 (57)
是的2 (11)4 (29)
未指定6 (33)2 (14)
手术次数(%)0.412
惠普尔8 (44)9 (64)
远端胰腺切除术4 (22)2 (14)
姑息性手术2 (11)1 (7)
其他1 (6)2 (14)
没有手术3 (17)0 (0)
切除余量,数量(%)0.333
R0级5 (28)7 (50)
R1/R2级7 (39)5 (36)
未指定6 (33)2 (14)
化疗,数量(%)0.425
4 (22)3 (21)
是的12 (67)11 (79)
未指定2 (11)0 (0)
CTC数量/2 ml
上皮CTC平均值(SD)8.3 (8.0)8.2 (6.7)0.965
间充质CTC平均值(SD)19.8 (13.5)17.2 (11.4)0.573
混合CTC,平均值(SD)14.1 (12.2)10.6 (7.5)0.349
总CTC,平均值(SD)42.2 (30.7)36.0 (24.1)0.538

有趣的是,CHC和CTC计数之间没有相关性(表S8). 此外,当患者根据肿瘤大小分层时,CHC-1、CHC-2和CHC-T计数没有显著差异(5E类). 然而,当按淋巴结分期分层时,发现淋巴结转移(N1)患者的CHC-1和CHC-T计数显著增加(P(P)=0.002和P(P)分别=0.011)(5F类). 对于转移和复发状态,再次获得零结果(数字5G-H公司). 基于这些结果,绘制了CHC-1和CHC-T在区分N0和N1患者中的受试者操作特征(ROC)曲线,以评估这两种计数作为淋巴结阳性生物标志物的性能(5). 为了更准确地估计两种融合杂种的诊断性能,我们选择报告曲线下的最优调整区域(AUC)[45]. CHC-1和CHC-T的优化调整AUC分别为0.805和0.744,这表明CHC-1对N0和N1型PDAC患者的诊断能力稍好。根据年最高尤登指数定义每2毫升血液中1 CHC-1的截止值5,漏诊交叉验证敏感性=0.615(95%CI:0.374-0.898),特异性=1.000(95%CI:1.000-1.000),阳性预测值(PPV)=1.000(95%CI:1.000-1.000),阴性预测值(NPV)=0.688(95%CI:0.483-0.931),准确度=0.792(0.625-0.958)。同样,每2毫升血液中1个CHC-T的临界值(同样来自最高的尤登指数)达到了灵敏度=0.769(95%CI:0.615-1.000)、特异性=0.818(95%CI:0.636-1.000)、PPV=0.833(95%CI:0.666-1.000(5J型; CHC-1和CHC-T的训练数据结果列于表S9).

讨论

ALICE旨在自动同时分析和枚举荧光显微镜图像中的多种细胞液体活检表型(最多20种表型),而不管图像大小。除了特定细胞表型的计数外,ALICE还输出已识别细胞的位置和(可选)缩略图以供进一步检查。ALICE配置用于研究和临床设置。在研究环境中,研究人员可以采用ALICE作为分析荧光图像的标准管道,其中包含罕见的液体活检细胞,如CTC和CHC。ALICE不仅提高了数据分析吞吐量,还促进了细胞液体活检领域的客观和可重复研究。在临床环境中,医院可以使用该软件对疾病管理结果进行快速可靠的CTC和/或MTC分析。此外,ALICE可以应用于教育部门的一般教育目的(1B类). ALICE与其他自动CTC检测软件的比较列于2.

表2 

ALICE与其他CTC自动检测软件的比较

软件算法优势劣势
步伐(精确自动CTC枚举)[14]基于微流控芯片特定区域的细胞面积、长宽比和圆度的形态学操作•检测荧光染色的CTC;
•仅处理微流控芯片的特定区域,计算效率高。
•无法检测H&E染色的CTC;
•只能检测上皮细胞CTC;
•与特定微流控芯片结合使用。
接受(自动CTC分类、计数和表型)[22,23]基于上皮标记染色的深度学习算法•检测荧光染色的CTC;
•开源。
•无法检测H&E染色的CTC;
•只能检测上皮细胞CTC。
CTC自动检测1.0[24]基于10种不同焦距下细胞直径和形状的形态学操作H&E染色CTC的检测•无法检测荧光染色的CTC;
•无法区分CTC表型。
爱丽丝(自动液体活检细胞计数仪)结合基于规则的形态学操作和统计机器学习算法的混合人工智能•检测荧光染色的CTC;
•能够同时列举多达20种细胞表型;
•内置网络安全和连接功能。
•无法检测H&E染色的CTC;
•计算成本高。

ALICE的新颖之处不仅在于其最先进的图像处理能力,还在于通过增强的连接结构与多个用户社区建立联系,并通过先进的网络安全系统防范网络威胁和不利的图像操作。从谷歌DeepMind游戏程序AlphaZero中获取线索[46]将深度神经网络和传统的符号蒙特卡罗树搜索相结合,我们在ALICE中采用了类似的混合人工智能策略,将机器学习与基于规则的算法相结合,以准确地枚举各种CTC表型,超越了当前软件中仅计算上皮CTC的传统限制。在混合人工智能的第一部分中,机器学习用于评估ALICE的阈值校正因子,以灵活适应并正确处理从细胞液体活检的不同条件获得的密集荧光图像。通过使用来自6个合成和真实图像集的大量图像(>50K)进行训练和测试,所实现的回归模型在处理反映医院不同显微镜系统的各种临床环境下获得的图像时显示出较低的测试误差和良好的泛化能力[47]. 在混合人工智能的第二部分中,基于规则的算法使ALICE能够扩展识别、定位和枚举过程,以使用常规和非常规标记组合的全范围来分析各种细胞表型(间充质、杂交、HE4 CTC、CHC等)。

ALICE设计有扩展的外部连接,以鼓励广泛的附属用户社区使用该软件。将电子健康记录与跨医院社区的数据和图像传输联系起来,可以加快诊断、治疗和临床管理决策过程[48]. 同样,研究团体可以利用ALICE的连通性来促进有效和高效的合作。另外两个社区也可以使用ALICE;教育和公众提供普通和继续教育服务和教育学。提供了不同版本的专门配置的ALICE来连接四个用户社区。通过扩展连接,需要保护ALICE免受侵入性黑客攻击和恶意篡改数据,使用假CT扫描图像生动地证明了这种情况[49]. ALICE具有四层保护功能,用于检测和处理数字图像取证中遇到的大多数图像伪造[50]. 例如,可以检测并删除假冒或恶意图像的植入,以维护数据完整性,并防止篡改图像产生虚假结果。

肿瘤中免疫细胞和上皮细胞的融合已被广泛报道[51-54]但癌症患者体液中的可移动融合细胞并非如此。ALICE偶然发现胰腺癌患者外周血中存在CHC,这增加了在其他上皮性癌中存在类似循环杂交细胞的可能性。我们的CHC与血液中报道的杂交细胞不同[55,56]在两个方面:我们的肿瘤细胞对泛白细胞抗原CD45和其中任何一种组合表达阳性;CTC上皮标记物E-cadherin或同时,E-cadherin和CTC间充质标记物vimentin。一些研究表明,肿瘤和免疫细胞的融合导致肿瘤异质性,从而增加胰腺癌患者的转移[57]. 研究表明,患有CHC的癌症患者预后较差[58-60]与疾病分期和总生存率相关[57]. 然而,在我们的研究中,我们发现,与N0患者相比,N1状态胰腺癌患者的CHC-1计数显著升高(5F类). 对于M期,我们未发现CHC-1、CHC-2和CHC-T计数有任何显著差异(5). 这提出了一个有趣的假设,即CHC中上皮标记物的表达存在异质性,导致不同的生物学功能,与表达CK和EpCAM不同的传统CTC非常相似[55,61,62]. CHC-1和CHC-T的ROC和AUC分析表明,这些CHC人群可能是胰腺癌潜在的高特异性淋巴结转移生物标志物(5I-J公司). 虽然对PDAC患者的诊断和治疗计划有希望[63-65],本研究中获得的结果仍处于早期阶段,因此,有必要对淋巴结阳性生物标志物进行更大规模的前瞻性验证研究。

虽然在本研究中仅与CTC表型进行了验证和比较,但ALICE有潜力列举其他细胞液体活检,如T淋巴细胞[66] (6A类),尿液脱落的肿瘤细胞[67] (6B类)和循环内皮细胞[68] (6C类)这可以加快细胞液体活检在其他疾病中的应用。值得注意的是,ALICE中实现的底层算法也可用于处理传统液体活检以外的应用,以包含一般细胞表型的枚举。

图6 

非CTC细胞液体活检的ALICE:鉴定、定位和计数。(A)用于监测HIV患者的T淋巴细胞计数。(B)尿脱落癌细胞用于膀胱癌患者膀胱癌的早期检测。(C)不稳定型心绞痛和慢性稳定性心绞痛患者的循环内皮细胞用于心绞痛的评估。对于所有三个子面板,第一列显示原始输入荧光图像,中间一栏描述了用标识的细胞标记的细胞核掩模图像,最后一栏突出显示了ALICE导出的标识细胞的细胞缩略图结果。

热学图像

作为一种基于细胞的液体活检技术,ALICE可能不如检测循环肿瘤DNA(ctDNA)的基于基因组的液体活检方法敏感[69,70]. 然而,ALICE可以首先用于快速鉴定单细胞CTC表型,然后对捕获的CTC进行下游基因组或转录组学分析,从而使这两种技术相互补充[71]. 例如,ctDNA分析可用于监测癌症患者,而单细胞CTC分析可用于揭示更多可操作的信息,以指导治疗决策[72].

结论

我们提出了一种使用基于规则和机器学习策略开发的混合AI算法,用于细胞液体活检应用中的自动和灵活适应枚举。特别是,它是为快速、准确和可靠的CTC表型鉴定和几种表型的定量评估而设计的。该软件以ALICE的形式实现,具有增强的网络安全和连接功能,供医学研究人员和公众使用。此外,我们的混合算法意外发现了CHC-1s(DAPI+/CD45+/E-cadherin+/vimentin-)和CHC-2s(DAPI+/CD45+/E-cadherin+/vimentin+)。我们发现这些CHCs可以作为胰腺癌淋巴结转移的高特异性生物标志物。

方法

总体研究设计和样本选择

本回顾性研究的目的是描述和验证ALICE的性能。合成图像和真实图像被整理成不同的集合,以处理不同的用法,包括训练、验证和测试回归模型(12480张图像)、合成图像(12448张图像)和篡改图像(46936张图像)的分类模型输入图像检测、异常输入图像检测(400张图像),最终检测合成、篡改和异常输入图像的组合(1000张图像),量化合成图像(2000张图像)和患者衍生真实图像(950张图像)的准确性和可靠性,与其他生物图像软件(744张图像)进行比较,以及ALICE的处理时间特征(240张图像)。这些图像来自14个不同的图像集,详细信息如下。

人类HT29结肠癌细胞图像集(BBBC001v1)[37]

这组图像由6个用Hoechst 33342 DNA染色的人类HT29结肠癌细胞FOV组成。每个图像包含512×512个像素。提供了两个不同人类的计数,并将两个人类计数的平均值作为基本事实。该图像集用于将ALICE与其他生物图像软件进行比较。

果蝇Kc167细胞图像集(BBBC002v1)[37]

此图像集有5个不同的示例黑腹果蝇用Hoechst 33342对Kc167细胞进行DNA染色。它总共包含50张图像,每个样本有10个视野。图像大小为512×512像素。与之前的图像集类似,提供了两个不同人类的计数,并将平均值作为基本事实。该图像集用于将ALICE与其他生物图像识别软件进行比较。

合成细胞图像集(BBBC004v1)[73]

该图像集有100个FOV,其中包含具有不同程度重叠和聚类的模拟对象,使用SIMCEP荧光细胞群图像模拟平台[74,75]. 每张图片的尺寸为950×950。数据增强是通过在水平和垂直方向镜像图像,以及两个方向的组合来实现的,共产生400张图像(增强因子为4)。所有400幅图像均用于训练、验证和测试用于检测合成输入图像的分类模型。

模拟高内容屏幕图像集(BBBC005v1)

该图像集包含使用SIMCEP荧光细胞群模拟平台模拟的高内容筛选(HCS)图像,聚类概率为25%,电荷耦合器件(CCD)噪声方差为0.0001。每个图像为696×520像素,整个图像集共有19200个图像(焦点内图像和离焦图像)。各FOV的核数见[76]. 4800个对焦FOV(从1200个增加而来)用于训练、验证和测试用于检测合成输入图像的分类模型,而只有2650个对焦FoV用于训练,验证并测试用于自动确定阈值校正因子的回归模型。共使用560个FOV来比较ALICE和其他生物图像软件的性能。另外随机选择60个FOV来表征ALICE的处理时间。最后,使用提供的二进制掩码从该集合的图像中随机分割最多3个对象,并将其粘贴到BBBC021v1、BBBC022v1和BBBC038v1集合的图像上,以形成篡改图像。

人类U2OS细胞图像集(BBBC006v1)

图像是从一个含有U2OS细胞的384孔微孔板上获得的,该微孔板用核标记Hoechst 33342和细胞质标记phalloidin染色。每个图像为696×520像素,整个图像集包含52225个图像,这些图像是从768个FOV中的每个FOV的32个z步长增量生成的。与BBBC005v1类似,每个视场的基本事实在[76]. 总共2560张图像(从768张聚焦FOV中的640张图像中增加)用于ALICE中实现的回归模型的训练、验证和测试。其余的FOV(128个FOV)用于比较ALICE和其他生物图像软件的性能。

人MCF7细胞复合物图谱实验图像集(BBBC021v1)[77]

该图像集包含39600个MCF7乳腺癌细胞的FOV,其中MCF7细胞被DAPI、F-actin和B-tubulin染色(每个通道有13200个FOV),并在用8种不同浓度的113个小分子进行处理后通过荧光显微镜成像。每个图像为1280×1024像素。在创建篡改图像时,随机选择了2100张图像作为拼接操作的目标图像。随机选择60个不同的细胞核图像集来表征ALICE的处理时间。

人U2OS细胞复合保护细胞涂布实验图像集(BBBC022v1)[78]

此图像集包含69120个U2OS细胞FOV,这些细胞经1600种已知生物活性化合物处理。每个视野有5个通道:con A、Hoechst 33342、MitoTracker Deep Red、WGA/卵磷脂和SYTO 14通道,在这个图像集中总共有345600个荧光图像。这些图像是用20倍放大率拍摄的,分辨率为696×520像素。在创建篡改图像时,共使用2500张图像作为拼接操作的目标,另外916张图像用作最终合成、异常和篡改检测图像集的真实/正常/原始图像。

人肝细胞与鼠成纤维细胞共培养实验图像集(BBBC026v1)[79]

这组图像包含384孔板中共同培养的肝细胞和成纤维细胞。Hoechst 33342 DNA染色共有864个细胞核FOV,每个图像为1392×1040像素。使用了一千五百六十八幅(从392幅增加而来)图像来训练、验证和测试用于检测合成输入图像的分类模型。另外随机选择60个细胞核图像来表征ALICE的处理时间。

带合成细胞图像集的模拟24孔板(BBBC031v1)[74]

这个合成的HCS数据集是为了模拟干扰细胞形状和蛋白质表达的药物而生成的。该集合包含216个图像,每个井有9个图像。图像大小为950×950像素。提供的二进制掩码用于从该集合中的图像中随机分割最多3个对象,并粘贴到BBBC021v1、BBBC022v1和BBBC038v1图像集中的图像上,以形成篡改图像。

Kaggle 2018数据科学碗图像集(BBBC038v1)

该数据集由为2018年卡格尔数据科学碗(Kaggle 2018 Data Science Bowl)创建的670个核图像FOV组成。细胞核在不同放大倍数、照明质量、图像大小、环境(包括细胞分裂、遗传毒性应激、分化等)下进行荧光染色或组织学染色。提取545个荧光染色的细胞核FOV,其中1760个(从440个增加)FOV用于训练、验证和测试合成输入图像分类模型和阈值校正因子回归模型。该图像集还用作创建篡改图像时拼接操作的目标图像。

化学屏幕图像集中U2OS细胞的细胞核(BBBC039v1)[80]

该图像集包含200个用Hoechst染色的细胞核FOV,并在U2OS细胞高通量化学筛选期间使用荧光显微镜成像。此图像集中的细胞核图像呈现各种核表型。所有FOV(总共800个FOV;增加了4个FOV)用于ALICE中实现的机器学习回归模型的培训、验证和测试。在异常检测算法的测试中,选择了另外100幅图像作为正常图像。

合成荧光细胞表型图像集

合成荧光细胞图像集是使用SimuCell创建的。用一组含有5种随机选择表型的100个FOV模拟四组合成荧光图像。每个视野内有一个细胞核图像(类型:“nucleus”,模型:“nucleus_Model”,核半径:13,核偏心率:0.5,变异程度:0.1),没有任何细胞质图像或最多有3个细胞质图像,细胞半径:18,细胞偏心率:0.5,变化范围:0.3,中心:Nucleus)。对所有图像分别使用恒定的标记级别和0.5和0.2的标准偏差,并添加Perlin纹理以真实地表示标记表达式。每个FOV中五种表型的数量是随机产生的。该图像集总共包含400个FOV和2000个单独的合成荧光图像。该图像集用于ALICE的性能评估。进一步随机选择1280张图像,用于训练、验证和测试用于检测合成输入图像的分类模型。

卵巢癌患者图像集捕获的细胞[42]

此图像集包含从北京大学人民医院招募的卵巢癌患者血液中捕获的细胞的荧光图像,这些患者的方案得到了医院机构审查委员会的批准,并获得了所有患者的书面知情同意书。使用专门设计的微流控芯片捕获CTC-三角形单元(TU)-芯片TM(TM)带有8个捕获室×693捕获单元(CU)/室=5544 CU,每个捕获室由一组3个椭圆微柱组成,呈三角形布置(图S5). 从每个患者身上取两毫升血液,离心后丢弃血清,并用体积比为1:1的缓冲液稀释。接下来,以500µl/h的流速将稀释的血液注入微流控芯片。用4%多聚甲醛固定捕获的细胞15分钟,用0.1%Triton X-100渗透10分钟,用磷酸盐缓冲液(PBS)清洗持续20分钟,用5%的BSA灌注30分钟,以防止抗体的非特异性结合。然后用DAPI(分子探针,D1306)、Alexa Fluor 488结合抗CD45(Invitrogen,MHCD4520)、藻红蛋白结合抗EpCAM(Abcam,ab112068)、藻红蛋白结合抗panCK(Abcam,ab52460)、藻赤蛋白结合抗波形蛋白(Abca姆,ab209446)、,藻红蛋白结合CK7/17(Novus Biologicals,NB500-352PE)和非结合抗HE4(Abcam,ab200828)与次级驴抗兔Alexa Fluor 647(Abcam,ab150067)。共有130个FOV,每个FOV有5个通道:一个亮场、一个核通道(DAPI)、一个上皮和间叶CTC标记通道(E&M;EpCAM、panCK、vimentin和CK7/17)、一条白细胞标记通道(CD45)和一条卵巢特异性标记通道(HE4)。因此,图像总数达到650张。每个图像为2560×1920像素。根据HE4的表达定义了两种CTC表型,HE4-CTC与DAPI+/E&M+/CD45-/HE4-或HE4+CTC与ADPI+/E&M+/CD45-/HE4+。训练有素的人类分析师的统计数据被视为基本事实。该图像集用于比较ALICE和CTC表型的人类计数。另外1424个随机选择的荧光图像用于训练、验证和测试用于检测合成输入图像的分类模型。

胰腺癌患者图像集的捕获细胞[43]

该图像集包含从北京协和医院招募的胰腺癌(PDAC)患者血液中捕获的细胞的荧光图像,这些患者的方案得到了机构审查委员会的批准,并获得了所有患者的书面知情同意书。与卵巢癌样本类似,抽取2 ml血液,并使用TU-chip进行处理TM(TM)除了使用2 ml/h的更快流速外,接下来,首先用PBS清洗捕获的细胞,用1%多聚甲醛固定15分钟,用PBS洗涤10分钟,用0.1%Trixon X-100渗透15分钟,再次用PBS清洗10分钟,用BlockAid Blocking Solution(Life Technologies,B1070)封闭30分钟。最后,用DAPI(分子探针,D1306)、Alexa Fluor 488结合抗CD45(Invitrogen,MHCD4520)、Alex Fluor 555结合抗E-cadherin(Abcam,ab206878)、,Alexa Fluor 647共轭抗波形蛋白(Abcam,ab195878)、Alexa Fuor 488共轭抗E-钙粘蛋白(Abcam,ab185013)、Alexa Fluoro 555共轭抗波状蛋白(Abcam,ab203428)和Alexa fluoro 647共轭抗CD45(Abcam,ab200317)。共有377个FOV,每个FOV有5个通道(共1885张图像):一个亮场、一个核通道(DAPI)、一个上皮CTC标记通道(E-cadherin)、一条间充质CTC标记渠道(vimentin)和一条白细胞标记通道(CD45)。每个图像为2560×1920像素。基于此,定义了三种CTC表型:上皮性CTC(E类-CTC)与DAPI+/CD45-/E-cadherin+/vimentin-、间充质CTC(M(M)-CTC)与DAPI+/CD45-/E-cadherin-/vimentin+和混合CTC(H(H)-CTC)与DAPI+/CD45-/E-cadherin+/vimentin+。训练有素的人类分析师的统计数据被视为基本事实。使用该集合中的5120张(从1280张增加)和1216张(从304张增加)图像分别对回归模型和合成图像分类模型进行训练、验证和测试。其余图像用于将ALICE的性能与人类分析师进行比较。另外随机选择60个FOV来表征ALICE的处理时间。

特征提取

从每个预处理的图像中提取两组不同的特征。第一组是关于整个图像直方图的统计信息,包括前面定义的平均值、标准差、偏度、峰度、能量、熵和平滑度[81]. 除此之外,将图像分割为3×3个子图像块,并为每个子图像计算相同的七个统计量,以提取图像的空间信息。因此,第一组提取的特征总数为7+7×9=70。第2个该组涉及Gabor特征,即对图像应用Gabor滤波器后提取的特征。使用四种不同尺度(2.0、2.5、3.0和3.5像素/周期)和6个不同方向(0°、60°、120°、180°、240°和300°)的组合,共使用了24个Gabor滤波器。然后,提取Gabor变换图像的均值、方差、偏度和峰度作为Gabor特征,得到每张图像共24×4=96个Gabor特性。最后,将Gabor特征和直方图统计特征组合成一个特征向量,每个图像包含166个特征。

ALICE中的机器学习模型

ALICE中有回归和分类机器学习模型,前者用于自动选择阈值校正因子,后者用于自动检测篡改和合成图像。ALICE中可用的回归模型包括线性(线性项和稳健项)、SVM(线性、二次、三次、精细高斯、中等高斯和粗高斯核函数)、集合(增强和随机森林)和高斯过程回归(GPR)(平方指数、Matern 5/2、指数、有理二次核函数)。另一方面,分类模型包括决策树(细、中、粗树)、线性判别分析、logistic回归、SVM(线性、二次、三次、精细高斯、中高斯和粗高斯核函数)、K近邻(KNN)(精细、中等、粗、余弦、立方和加权核函数)和集成(增强、随机森林、子空间鉴别、子空间KNN和RUSBoosted核函数)。所有模型都是在Matlab中使用默认的超参数设置进行训练和实现的。列车和测试集按80:20的比例随机分割。通过计算训练集上的10×10倍交叉验证结果和测试集上的测试结果,在两个集上评估机器学习模型的性能指标(使用RMSE和MAE进行回归模型;分类模型的敏感性、特异性和准确性)。

针对ALICE测试的阈值方法

为了开发ALICE,对16种不同的阈值方法进行了测试,选择了最佳阈值方法并在ALICE中实现。

黄氏模糊阈值(Huang)[82]

该阈值方法利用图像的模糊性度量来确定适当的阈值,以最小化图像的模糊度。

黄氏模糊阈值(Huang2)的替代实现

这是黄氏方法的一种替代实现,当应用于16位图像时,处理时间更快。

间歇阈值(间歇)[83]

首先通过对图像直方图进行迭代平滑得到两个局部极大值,然后取两个极大值像素值的平均值来计算阈值。

迭代选择阈值(迭代选择)[84]

该方法首先使用初始阈值创建二值图像,然后计算背景像素和前景像素的平均值以生成新的阈值。此过程会反复进行,直到生成的二进制图像在进一步迭代中保持不变。

最小交叉熵阈值(Li)[85]

该方法利用一点迭代法,通过最小化原始图像和阈值图像之间的交叉熵来计算阈值。

最大熵阈值(最大熵)[86]

最大熵算法确定的阈值是基于前景和背景像素之间的熵最大化。

灰度阈值平均值(Mean)[87]

这个简单的算法通过取灰度平均值来确定阈值。

最小误差阈值(最小误差)[88]

该算法的目标是在直方图正态分布的假设下,最小化平均像素分类错误率,以找到阈值。

最小阈值(最小)[83]

与模间阈值分割类似,首先使用相同的方法找到两个局部极大值,并将阈值确定为最大值之间的最小点。

力矩保护阈值(力矩)[89]

该方法的阈值是决定性地计算的,使得输入图像直方图的矩被保留在输出图像中。

Otsu螺纹焊接(Otsu)[90]

Otsu的方法首先详尽地搜索所有可能的阈值,并且将选择最小化类内方差的值,该值被定义为前景和背景的加权和方差。

百分位数阈值(百分位数)[91]

假设50%的像素是前景像素,并相应地选择阈值。

最大仁义熵阈值(仁义熵)[86]

该方法与最大熵方法相同,但使用了Renyi熵代替Shannon熵。

Shanbhag阈值法[92]

原始图像被视为由两个模糊集组成,即每个像素可以具有分数隶属度值。阈值将通过最小化前景和背景之间的信息度量来确定。

三角形阈值(三角形)[27]

首先构造一条连接输入图像直方图最大值和最小值的线,并计算该线到最大值和最低值之间所有值的垂直距离。选择距离最大的点作为阈值。

日元阈值(日元)[93]

阈值是通过最小化最大相关准则来确定的,该准则考虑了阈值图像与原始图像之间的差异以及表示阈值图像所需的位数。

非核酸物体的过滤和细胞质掩模的制作

对于二值化的细胞核图像,将根据大小和离心率的形态学特征(离心率0表示一个圆,而离心率无穷大表示一条线)从细胞核二值图像中过滤非核酸物体。选择这些特征的基本原理是因为细胞核的尺寸范围有限,通常呈椭圆形。原子核二值图像中面积小于200像素、大于2000像素或偏心率大于0.8的任何物体都将被移除。对于二值化的细胞质标记图像,通过将二值细胞质图像的适当组合相乘来创建所需的细胞质掩模。如果需要不显示特定标记,那么在创建细胞质掩模之前,将首先反转该特定图像。

细胞表型计数

在枚举之前,应用了两步筛选过程。滤波的第一步使用与二值核图像相同的标准来去除任何碎片像素。第二个过滤步骤使用区域增长算法检测并删除任何细胞核大小大于细胞质的物体。区域生长算法的初始步骤是在蒙面的细胞核图像和该点将作为区域生长的种子,直到检测到对象的边界。接下来,在蒙面的计算细胞核图像。过滤的使用与种子相同的点和面积计算细胞核二值图像。如果两个物体的面积比(屏蔽/过滤)小于1,则表示细胞核大于细胞质。为保守起见,仅移除面积比小于0.6的对象。将对遮罩图像中的所有对象进行面积比比较。在完成两步过滤过程后,使用blob检测算法完成剩余单元的枚举。在过滤后的细胞核二值图像上,斑点的位置和数量将用独特的颜色进行标记。

输入图像间的异常检测

使用鲁棒主成分分析(PCA)检测输入图像中的异常[30]. 简言之,基于提取的输入图像的特征列表,鲁棒PCA将投影追踪技术和鲁棒协方差估计相结合,以便将输入图像分为四个可能的类别:常规观察、良好的杠杆点、,由点的正交距离和得分距离确定的正交异常值和不良杠杆点(参见[30]了解更多详细信息)。在ALICE中,归类为不良杠杆点的输入图像被定义为异常并将被标记。此(可选)步骤针对每个通道分别执行。

篡改区域定位

只有满足以下两个条件,才能定位可能的篡改区域:1)输入图像被视为被ALICE篡改,2)被用户启用。首先,按照曾、詹、康和林的建议,使用粗到细的策略将输入图像分割为64×64块和32×32块,并使用主成分分析估计每个块的噪声水平[33]. 我们实现并修改了Hosseini和Kirchner的算法,而不是使用K-means聚类算法将块分组为原始区域或篡改区域(二进制属性)[32]它允许通过使用层次聚类进行非二进制属性聚类。更具体地说,假设聚类的最佳/正确数量在1到5之间,并分别根据最大间隙统计和最大轮廓指数自动选择,用于64×64块和32×32块的聚类。选择前者的差距统计的基本原理是允许只聚类到一个类(即全部原始或全部篡改),而选择后者的轮廓指数是因为这个特定的聚类有效性指数被认为是最佳的之一[94]. 像素数最少的类被认为已被篡改。

结果导出

标签图像和包含每个FOV的每个选定细胞表型计数的Excel文件将导出到用户指定的输出位置。除此之外,用户还可以选择导出检测到的细胞表型的缩略图和包含每个标记轮廓的亮场图像(如果适用)。导出的缩略图的分辨率约为120×120像素。这些结果的导出允许用户对结果或其他下游分析进行后校正。此外,还可以选择导出与异常、合成和篡改图像的标记有关的结果。

ALICE处理时间特征

对于每种图像大小,分析处理和枚举20个FOV所需的时间以确定P1表型,并一式三份进行实验。实验是在一台64位台式计算机上进行的,该计算机采用Intel Core i7-8700 CPU,频率为3.20 GHz、3.19 GHz和32 GB RAM。

真实合成荧光图像的模拟

为了创建与BBBC022图像集中的图像相似的合成图像,对图像集中50个图像中的平均细胞数以及500个细胞的半径和离心率的分布进行了评估(图S6A至B). 根据这一信息,定义了3个具有不同核半径的核种群:15.7、20.3和11.1,而Simucell所有三个种群的核偏心率和变异程度分别设置为0.77和0.10[34]. 在标记设置方面,所有3个种群都有相同的设置:平均标记水平=0.65,标记水平标准偏差=0.15,乘法Perlin纹理,噪声幅度=0.2,长度尺度=6,衰减频率=0.0025,噪声类型为标准1/f。模拟了12幅这样的图像。模拟图像示例如所示图S6C-E公司.

统计分析

使用SPSS版本24(美国伊利诺伊州芝加哥SPSS公司)和MATLAB版本2018b(美国马萨诸塞州MathWorks公司)进行统计分析。首先使用Shapiro-Wilk检验检查变量的正态性。通过计算性能指标的平均值(回归模型的RMSE和MAE;分类模型的敏感性、特异性和准确性)对各种机器学习模型进行推断分析,然后根据平均值对这些模型进行排序[95,96].

为了进行基准测试,采用了Broad Institute提出的方法,计算了ALICE计数与基本事实之间的百分比平均误差。此外,使用Passing-Babrok回归分析了基本事实与ALICE计数之间的相关性。在通过-巴洛克回归之前,分别通过Kendall的tau系数和累积和线性检验来检验相关性和线性关系的假设。通过绘制两个计数与两个计数平均值之间的差值,使用Bland-Altman图对协议进行了可视化分析。

为了揭示处理时间与图像大小之间的关系,首次将非线性曲线拟合程序应用于不同图像大小的ALICE处理时间。接下来,使用重复测量方差分析(ANOVA)比较有/无并行处理和输出固定图像大小下结果的平均处理时间。如果获得了显著的结果,则计划与Bonferroni校正进行比较(校正P(P)=0.025)进行事后分析,以便仅对以下4对进行比较:i)“无平行,无导出”与“无平行、导出”,ii)“无并行、无导出”vs“平行、无导出对比“平行,出口”。“无平行,无出口”对“平行,出口”对和“无平行、出口”对与“平行,无输出”对的比较没有进行,因为它们同时是两个因素之间的比较。

为了比较人类和ALICE对CTC表型的计数,由于计数数据中有大量的零,四种不同的回归模型,即泊松回归模型、负二项(NB)回归模型、零膨胀泊松(ZIP)回归模型和零膨胀负二项(ZINB)对数据进行回归模型拟合。枚举方法作为两个水平的因子纳入所有4个模型:人工枚举和软件枚举。选择AIC最低的模型进行进一步解释。使用Gwet的AC1方法进行了ALICE和人体计数之间的一致性分析。

使用Kruskal-Wallis检验或Mann-Whitney U检验比较各组间CHC-1、CHC-2和CHC-T的计数。绘制了接收器工作曲线(ROC),并通过bootstrap验证技术计算了相应的优化调整AUC[45]为了评估生物标记物的内部有效性。简单地说,创建了一个引导样本,并将二元逻辑回归模型拟合到引导样本,然后计算AUC。然后将相同的模型应用于原始样本,并计算第二个AUC。这两个AUC之间的差异被定义为乐观。获得10000次迭代的平均乐观值,并从未调整AUC中减去,以获得优化调整AUC。这种优化调整的AUC代表了对诊断模型在新的、未知数据集中的性能的更准确估计。根据最高的Youden指数为三个CHC中的每一个选择最佳截止点,并使用leave-on-out交叉验证(LOOCV)技术计算和验证相应的敏感性、特异性、PPV、NPV和准确性。使用1000次引导迭代计算95%置信区间(95%CI)。A双面P(P)<0.05被认为具有统计学意义。

缩写

ACCEPT:自动CTC分类、计数和表型;AI:人工智能;AIC:Akaike信息准则;ALICE:自动液体活检细胞计数仪;方差分析:方差分析;AUC:曲线下面积;CAD:计算机辅助诊断;CCD:电荷耦合器件;CHC:循环杂交细胞;CK:细胞角蛋白;CLAHE:对比度限制的自适应直方图均衡化;CTC:循环肿瘤细胞;ctDNA:循环肿瘤DNA;DAPI:4',6-二氨基-2-苯基吲哚;E-CTC:上皮细胞CTC;EpCAM:上皮细胞粘附分子;FOV:视野;GPR:高斯过程回归;GUI:图形用户界面;H-CTC:混合CTC;H&E:苏木精和曙红;HCS:高含量筛选;HE4:人附睾蛋白4;物联网:物联网;IRR:发病率比率;KNN:K—最近邻;LOOCV:离场交叉验证;M-CTC:间充质CTC;MCC:马修斯相关系数;MTC:移动肿瘤细胞;NB:负二项式;NPV:负预测值;P: 泊松;PACE:精确自动CTC枚举;PBS:磷酸盐缓冲液;主成分分析;PDAC:胰腺导管腺癌;PPV:阳性预测值;PSA:前列腺特异性抗原;R、 S、N、P、A、T:真实、合成、正常、Pristine、反常、篡改(图像);ROC:接收机工作特性;SVM:支持向量机;WBC:白细胞;ZINB:零膨胀负二项式;ZIP:零膨胀泊松。

补充材料

补充图表。

附件

致谢

作者要感谢Yukun Sun、Anqi Chen和Kwang Hong Neoh分别提供了来自PDAC、膀胱癌和卵巢癌患者的捕获肿瘤细胞的图像集。这项工作得到了中国奖学金委员会对韩国留学生委员会和Y.J.N.的资助。

作者贡献

R.P.S.H.和K.S.C.对该研究进行了概念化。K.S.C.、R.P.S.H.、R.P.和Z.W设计了实验方法。K.S.C.、Z.W.、K.Q.和B.K.K开发并实施了ALICE。K.S.C.、H.P.、B.L.和H.X.对ALICE进行了所有验证实验,并对数据进行了分析。S.S.M.、Y.J.N.和B.K.K获得了公开的图像集。K.S.C.、R.P.S.H.、Y.J.N.和X.L.编制了这些数字。R.P.S.H监督了该研究。K.S.C.和R.P.S.H.根据所有其他作者的意见撰写了这篇论文。

相互竞争的利益

提交人声明,不存在竞争利益。

工具书类

1Perakis S,Speicher先生。液体活检中的新概念.BMC医学。2017;15:75

2Neoh KH、Hassan AA、Chen A、Sun Y、Liu P、Xu KF。.重新思考液体活检:人体体液中流动肿瘤细胞的微流控分析.生物材料。2018;150:112-24

三。Tanaka F、Yoneda K、Kondo N、Hashimoto M、Takuwa T、Matsumoto S。.循环肿瘤细胞作为原发性肺癌的诊断标志物.临床癌症研究。2009;15:6980-6

4Ilie M、Hofman V、Long-Mira E、Selva E、Vignaud JM、Padovani B。.“哨兵”循环肿瘤细胞可早期诊断慢性阻塞性肺疾病患者的肺癌.公共科学图书馆一号。2014;9:e111597

5Poruk KE、Valero V 3rd、Saunders T、Blackford AL、Griffin JF、Poling J。.循环肿瘤细胞表型预测胰腺癌复发和生存.安·苏格。2016;264:1073-81

6Xu L、Mao X、Guo T、Chan PY、Shaw G、Hines J。.循环肿瘤细胞和巨核细胞与前列腺癌预后的新关联.临床癌症研究。2017;23:5112-22

7Pierga JY、Bidard FC、Mathiot C、Brain E、Delaloge S、Giachetti S。.二期随机试验中循环肿瘤细胞检测预测大型可手术和局部晚期乳腺癌新辅助化疗后早期转移复发.临床癌症研究。2008;14:7004-10

8Pachmann K、Camara O、Kavallaris A、Krauspe S、Malarski N、Gajda M。.监测乳腺癌患者循环上皮性肿瘤细胞对辅助化疗的反应可以检测到患者早期复发的风险.临床肿瘤学杂志。2008;26:1208-15

9Scher HI、Lu D、Schreiber NA、Louw J、Graf RP、Vargas HA。.循环肿瘤细胞AR-V7作为一种治疗特异性生物标记物与去势抵抗前列腺癌预后和生存率的关系.JAMA Oncol公司。2016;2:1441-9

10Tagawa ST、Antonarakis ES、Gjyrezi A、Galletti G、Kim S、Worroll D。.AR-V7和ARv567es在循环肿瘤细胞中的表达与接受紫杉烷治疗的男性转移性前列腺癌紫杉烷治疗的结果相关.临床癌症研究。2019;25:1880-8

11格罗弗PK、康明斯AG、普莱斯TJ、罗伯特·汤姆森IC、哈丁汉JE。循环肿瘤细胞:概念的演变以及基于EpCAM的方法在基础和临床癌症研究中对其富集的不足.安·昂科尔(Ann Oncol)。2014;25:1506-16

12Cristofanilli M、Budd GT、Ellis MJ、Stopeck A、Matera J、Miller MC。.转移性乳腺癌的循环肿瘤细胞、疾病进展和生存率.N英格兰医学杂志。2004;351:781-91

13Poudineh M、Sargent EH、Pantel K、Kelley SO。分析循环肿瘤细胞和侵袭性癌症的其他生物标记物.国家生物工程。2018;2:72-84

14. 周M,郑H,王Z,李R,刘X,张伟。.利用多功能微流控芯片和独特的图像解释算法精确计数循环肿瘤细胞.热学。2017;7:4710-21

15Pantel K,Alix-Panabieres C。循环肿瘤细胞的临床意义.Nat Clin Pract肿瘤。2007;4:62-3

16. Stott SL、Lee RJ、Nagrath S、Yu M、Miyamoto DT、Ulkus L。.局限性和转移性前列腺癌患者循环肿瘤细胞的分离与鉴定.科学与运输医学。2010;2:25ra3

17Nagrath S、Sequist LV、Maheswaran S、Bell DW、Irimia D、Ulkus L。.应用微芯片技术分离癌症患者罕见循环肿瘤细胞.自然。2007;450:1235-9

18Scholtens TM、Schreuder F、Ligthart ST、Swennenhuis JF、Greve J、Terstappen LW。图像细胞术自动识别循环肿瘤细胞.细胞计量学A。2012;81:138-48

19Lannin TB、Thege FI、Kirby BJ。循环肿瘤细胞自动分类的机器学习方法比较与优化.细胞计量学A。2016;89:922-31

20Svensson CM、Krusekopf S、Lucke J、Thilo Figge M。基于朴素贝叶斯分类器的循环肿瘤细胞自动检测.细胞计量学A。2014;85:501-11

21Ciurte A、Selicean C、Soritau O、Buiga R。使用增强技术自动检测未染色血液暗场显微图像中的循环肿瘤细胞.公共科学图书馆一号。2018;13:e0208385

22Zeune L、van Dalum G、Decraene C、Proudhon C、Fehm T、Neubauer H。.ACCEPT定量检测循环肿瘤细胞HER-2的表达.公共科学图书馆一号。2017;12:e018562

23Zeune LL、Van Dalum G、Nanou A、De Wit S、Andree KC、Swennenhuis J。.通过ACCEPT深入学习识别循环肿瘤细胞.ISMRC。2018

24刘毅,杨毅,陈毅。基于显微图像的循环肿瘤细胞自动检测.2017年亚太信号与信息处理协会年会(APSIPA ASC)。2017年p:769-73

25Ahmed Raza SE、Langenkamper D、Sirinukunwattana K、Epstein D、Nattkempe TW、Rajpoot NM。多路荧光生物图像分析的稳健归一化协议.生物数据最小值。2016;9:11

26Zuiderveld K。对比度受限的自适应直方图均衡.作者:Paul SH,编辑。图形宝石四:学术出版社专业版。1994年p:474-85

27Zack GW、Rogers WE、Latt SA。姐妹染色单体交换频率的自动测量.组织化学与细胞化学杂志。1977;25:741-53

28迈耶·F·。地形距离和分水岭线.信号处理。1994;38:113-25

29Martiello Mastelini S、Jose Santana E、Guilherme Turrisi da Costa V、Barbon S。基准化多目标回归方法.2018年第七届巴西智能系统会议(BRACIS)。2018年p:396-401

30Hubert M、Rousseeuw PJ、Vanden Branden K。ROBPCA:稳健主成分分析的新方法.技术计量学。2005;47:64-79

31Bappy JH、Simons C、Nataraj L、Manjunath BS、Roy-Chowdhury AK。用于图像伪造检测的混合LSTM和编解码结构.IEEE Trans-Image处理。2019;28:3286-300

32侯赛尼MDM,Kirchner M。基于非二进制标签属性的无监督图像操作定位.IEEE信号处理Lett。2019;26:976-80

33曾浩,詹毅,康X,林X。基于PCA噪声级估计的图像拼接定位.多媒体工具应用程序。2016;76:4783-99

34Rajaram S、Pavie B、Hac NE、Altschuler SJ、Wu LF。SimuCell:创建合成显微镜图像的灵活框架.自然方法。2012;9:634-5

35Rueden CT、Schindelin J、Hiner MC、DeZonia BE、Walter AE、Arena ET。.ImageJ2:ImageJ用于下一代科学图像数据.BMC生物信息学。2017;18:529

36Schindelin J、Rueden CT、Hiner MC、Eliceiri KW。ImageJ生态系统:生物医学图像分析的开放平台.摩尔再现偏差。2015;82:518-29

37Carpenter AE、Jones TR、Lamprecht MR、Clarke C、Kang IH、Friman O。.CellProfiler:用于识别和量化细胞表型的图像分析软件.基因组生物学。2006;7:100兰特

38McQuin C、Goodman A、Chernyshev V、Kamentsky L、Cimini BA、Karhohs KW。.CellProfiler 3.0:下一代生物图像处理.《公共科学图书馆·生物》。2018;16:e2005970

39Ljosa V、Sokolnicki KL、Carpenter AE。用于验证的带注释的高通量显微镜图像集.自然方法。2012;9:637

40路过H,巴布洛克W。测试两种不同分析方法测量值相等性的新生物医学方法.线性回归程序在临床化学方法比较研究中的应用,第一部分:格鲁伊特操作。1983

41布兰德·吉咪(Bland JM)、奥尔特曼·D·。评估两种临床测量方法一致性的统计方法.柳叶刀。1986;327:307-10

42郭玉霞、尼奥·科赫、常小霞、孙毅、程海霞、叶霞。.HE4+循环肿瘤细胞对可疑卵巢癌的诊断价值.Oncotarget公司。2018;9:7522-33

43孙毅、吴庚、程国胜、陈阿、尼奥·韩、陈斯。.CTC分型对胰腺导管腺癌患者术前肿瘤转移和总生存率的评估.EBioMedicine公司。2019;46:133-49

44兰迪斯JR,科赫GG。类别数据的观察者一致性度量.生物计量学。1977;33:159-74

45Steyerberg EW、Harrell FE Jr、Borsboom GJ、Eijkemans MJ、Vergouwe Y、Habbema JD。预测模型的内部验证:逻辑回归分析某些程序的效率.临床流行病学杂志。2001;54:774-81

46Silver D、Hubert T、Schrittwieser J、Antonoglou I、Lai M、Guez A。.掌握国际象棋、shogi和Go自学的通用强化学习算法.科学。2018;362:1140-4

47Xu J,Xue K,Zhang K。基于图像的深度学习临床诊断的现状和未来趋势.热学。2019;9:7556-65

48. Ulutas G、Ustubioglu A、Ustubinoglu B、V VN、Ulutas-M。基于被动图像认证的医学图像篡改检测.J数字成像。2017;30:695-709

49Mirsky Y、Mahler T、Shelef I、Elovici Y。CT-GAN:利用深度学习恶意篡改3D医学图像.arXiv电子打印。2019

50Walia S、Kumar K。数字图像伪造检测:一项系统的研究.澳大利亚司法科学杂志。2018;51:488-526

51赫普纳生长激素。肿瘤异质性.癌症研究。1984;44:2259-65

52Pawelek吉咪。肿瘤细胞融合是肿瘤髓系性状的来源.柳叶刀Oncol。2005;6:988-93

53Lazova R、LaBerge GS、Duvall E、Spoelstra N、Klump V、Sznol M。.骨髓移植后黑色素瘤脑转移伴供体-患者混合基因组:人类癌症融合的首次证据.请给我一个。2013;8:e66731

54Dittmar T,Zänker KS。慢性炎症肿瘤环境中的组织再生:细胞融合驱动肿瘤进展和耐药肿瘤杂交细胞的意义.国际分子科学杂志。2015;16:30362-81

55Lustberg MB、Balasubramanian P、Miller B、Garcia-Villa A、Deighan C、Wu Y。.转移性乳腺癌患者血液中存在异质性非典型细胞群.乳腺癌研究。2014;16:R23

56Adams DL、Martin SS、Alpaugh RK、Charpentier M、Tsai S、Bergan RC。.循环巨巨噬细胞作为实体瘤的潜在生物标志物.美国国家科学院院刊。2014;111:3514-9

57Gast CE、Silk AD、Zarour L、Riegler L、Burkhart JG、Gustafson KT。.细胞融合增强了肿瘤的异质性,并揭示了与分期和生存相关的循环杂交细胞.科学高级。2018;4:eaat7828

58Shimura S、Yang G、Ebara S、Wheeler TM、Frolov A、Thompson TC。前列腺癌肿瘤相关巨噬细胞浸润减少与肿瘤进展的关系.癌症研究。2000;60:5857-61

59Steidl C、Lee T、Shah SP、Farinha P、Han G、Nayar T。.肿瘤相关巨噬细胞与经典霍奇金淋巴瘤的生存.N英格兰医学杂志。2010;362:875-85

60Zhang QW,Liu L,Gong CY,Shi HS,Zeng YH,Wang XZ。.实体瘤中肿瘤相关巨噬细胞的预后意义:文献荟萃分析.公共科学图书馆一号。2012;7:e50946

61Deng G、Herrler M、Burgess D、Manna E、Krag D、Burke JF。单独使用抗细胞角蛋白或与抗EpCAM抗体联合使用可显著提高转移性乳腺癌患者循环肿瘤细胞检测的敏感性.乳腺癌研究。2008;10:R69

62de Wit S、van Dalum G、Lenferink AT、Tibbe AG、Hiltermann TJ、Groen HJ。.循环肿瘤细胞EpCAM(+)和EpCAM-(-)的检测.科学代表。2015;5:12270

63Artinyan A、Hellan M、Mojica-Manosa P、Chen YJ、Pezner R、Ellenhorn JD。.淋巴结阴性胰腺癌的辅助外照射治疗提高生存率:一项基于美国人群的评估.癌症。2008;112:34-42

64Corsini MM、Miller RC、Haddock MG、Donohue JH、Farnell MB、Nagorney DM。.胰腺癌的辅助放化疗:梅奥临床经验(1975-2005).临床肿瘤学杂志。2008;26:3511-6

65Hsu CC、Herman JM、Corsini MM、Winter JM、Callister MD、Haddock MG。.胰腺癌辅助化疗放射治疗:约翰·霍普金斯医院-梅奥诊所合作研究.Ann Surg肿瘤。2010;17:981-90

66Alyassin MA、Moon S、Keles HO、Manzur F、Lin RL、Haeggstrom E。.HIV微流控设备上的快速自动细胞定量.实验室芯片。2009;9:3364-9

67陈A,付G,徐Z,孙Y,陈X,程KS。.微流控免疫检测尿路上皮性膀胱癌及捕获的尿脱落肿瘤细胞单细胞DNA拷贝数变化分析.癌症研究。2018;78:4073-85

68Chen S、Sun Y、Neoh KH、Chen A、Li W、Yang X。.微流控技术检测冠心病心绞痛患者循环内皮细胞.公共科学图书馆一号。2017;12:e0181249

69Lyu M、Zhou J、Ning K、Ying B。循环肿瘤细胞和ctDNA对肺癌基因突变的诊断价值.Onco针对Ther。2019;12:2539-52

70Germano G、Mauri G、Siravegna G、Dive C、Pierce J、Di Nicolantonio F。.循环肿瘤DNA与循环肿瘤细胞在结直肠癌转移中的平行评价.临床结直肠癌。2018;17:80-3

71邱杰、徐杰、张凯、顾伟、聂力、王刚。.利用综合液体活检改进癌症管理.热学。2020;10:2374-84

72. 基德斯·E,杰弗里·SS。循环肿瘤细胞与肿瘤衍生的无细胞DNA:单细胞分析时代癌症护理的竞争对手还是合作伙伴?.基因组医学。2013;5:70

73Ruusuvuori P、Lehmussola A、Selinummi J、Rajala T、Huttunen H、Yli-Harja O。用于验证细胞图像分析算法的合成图像基准集.2008年第16届欧洲信号处理会议。2008年p:1-5

74Lehmussola A、Ruusuvuori P、Selinummi J、Huttunen H、Yli-Harja O。用细胞群模拟荧光显微镜图像的计算框架.IEEE Trans Med成像。2007;26:1010-6

75Lehmussola A、Ruusuvuori P、Selinummi J、Rajala T、Yli-Harja O。用于验证图像分析方法的高通量显微镜合成图像.程序IEEE Inst Electron Eng。2008;96:1348-60

76Bray MA、Fraser AN、Hasaka TP、Carpenter AE。大型高内容屏幕中图像质量控制的工作流和度量.生物分子筛。2012;17:266-74

77Caie PD、Walls RE、Ingleston-Orme A、Daya S、Houslay T、Eagle R。.不同癌细胞药物反应特征的高含量表型分析.摩尔癌症治疗。2010;9:1913-26

78Gustafsdottir SM、Ljosa V、Sokolnicki KL、Anthony Wilson J、Walpita D、Kemp MM。.用于测量不同细胞状态的多重细胞学分析.公共科学图书馆一号。2013;8:e80999

79Logan DJ、Shan J、Bhatia SN、Carpenter AE。利用基于pixel的分类定量高通量共培养细胞表型.方法。2016;96:6-11

80Caicedo JC、Roth J、Goodman A、Becker T、Karhohs KW、McQuin C。.荧光图像中核分割的深度学习策略评估.生物Rxiv。2018 335216

81Malik F、Baharudin B。基于DCT域统计量化直方图纹理特征的图像检索距离度量分析.J King Saud大学,Comp&Info Sci。2013;25:207-18

82黄L-K,王M-JJ。基于模糊度最小化的图像阈值分割.模式识别。1995;28:41-51

83. 马里兰州门德尔松Prewitt JMS。细胞图像分析.美国科学院。1966;128:1035

84Ridler TW,Calward S。使用迭代选择方法的图像阈值.IEEE Trans-Sys,人,网络。1978;8:630-2

85李CH,Tam PKS。最小交叉熵阈值的迭代算法.模式识别Lett。1998;19:771-6

86Kapur JN、Sahoo PK、Wong ACK。一种利用直方图熵进行灰度图像阈值化的新方法.图形模型。1985;29:273-85

87加利福尼亚州格拉斯比。基于直方图的阈值算法分析.图形模型。1993;55:532-7

88. Kittler J、Illingworth J。最小误差阈值.模式识别。1986;19:41-7

89蔡伟(Tsai W.)。矩保护阈值:一种新方法.计算Gr图像处理。1985;29:377-93

90大津N。一种基于灰度图的阈值选择方法.IEEE Trans-Sys,人,网络。1979;9:62-6

91多伊尔·W·。用于相似不变模式识别的操作.杰克姆。1962;9:259-67

92Shanbhag股份公司。利用信息测度作为图像阈值方法.图形模型。1994;56:414-9

93Yen JC、Chang FJ、Chang S。一种新的自动多级阈值化准则.IEEE Trans-Image处理。1995;4:370-8

94Wiwie C、Baumbach J、Rottger R。生物医学聚类方法的性能比较.自然方法。2015;12:1033-8

95Caruana R,Niculescu-Mizil A。监督学习算法的实证比较.第23届机器学习国际会议论文集。美国宾夕法尼亚州匹兹堡:计算机协会。2006年第161-8页

96Korotcov A、Tkachenko V、Russo DP、Ekins S。使用不同药物发现数据集的深度学习与多种机器学习方法和指标的比较.分子药剂学。2017;14:4462-75

作者联系人

对应地址通讯作者:E-mail:ray-han教育网。


收到日期:2020-117
2020-5-11接受
发布日期:2020-9-2


引文样式

亚太地区
Cheng,K.S.、Pan,R.、Pan、H.、Li,B.、Meena,S.S.、Xing,H.、Ng,Y.J.、Qin,K.、Liao,X.、Kosgei,B.K.、Wang,Z.、Han,R.P.S.(2020年)。ALICE:一种混合人工智能范式,具有增强的连接性和网络安全性,用于与循环混合细胞的偶然遭遇。治疗诊断科技, 10(24), 11026-11048. https://doi.org/10.7150/thno.44053。

ACS公司
郑,K.S。;潘,R。;潘,H。;李,B。;Meena,S.S.公司。;Xing,H.等人。;Ng,Y.J。;秦,K。;廖,X。;Kosgei,B.K。;王,Z。;Han,R.P.S.ALICE:一种混合人工智能范式,具有增强的连通性和网络安全性,用于与循环混合细胞的偶然遭遇。治疗诊断科技2020, 10 (24), 11026-11048. 内政部:10.7150/thno.44053。

国家土地管理局
Cheng KS、Pan R、Pan H、Li B、Meena SS、Xing H、Ng YJ、Qin K、Liao X、Kosgei BK、Wang Z、Han RPS。ALICE:一种混合人工智能范式,具有增强的连接性和网络安全性,用于与循环混合细胞的偶然遭遇。治疗诊断科技2020; 10(24):11026-11048. doi:10.7150/thno.44053。https://www.thno.org/v10p11026.htm

CSE公司
Cheng KS、Pan R、Pan H、Li B、Meena SS、Xing H、Ng YJ、Qin K、Liao X、Kosgei BK、Wang Z、Han RPS。2020年,ALICE:一种混合人工智能范式,具有增强的连接性和网络安全性,用于与循环混合细胞的偶然遭遇。治疗诊断科技. 10(24):11026-11048.

这是一篇根据知识共享署名许可条款分发的开放获取文章(https://creativecommons.org/licenses/by/4.0/). 请参见http://ivyspring.com/terms完整条款和条件。
弹出图像