数据集和评估指标
数据采集:组织培养:大鼠INS-1E细胞(通用大学P.Maechler赠送)在添加2 mM L-谷氨酰胺(纽约州格兰德岛生命科技公司)、5%热灭活胎牛血清、10 mM HEPES、100单位/mL青霉素、100μg/mL链霉素、1mM丙酮酸钠和50μM b-巯基乙醇如前所述(插入参考文献:PMID:14592952)。
EM网格制备:为了进行冷冻-ET成像,将INS-1E细胞以2×10的密度镀在纤维粘连蛋白涂层的200目金R2/1 Quantifoil网格或200目金R2/2 London finder Quantifol网格(Quantifoir Micro Tools GmbH,Jena,Germany)上5细胞/mL。在常规培养条件下,在完整的RPMI 1640培养基中培养48小时后,直接从培养基中取出网格,并立即用Vitrobot Mark IV(Thermo Fisher FEI,Hillsboro,OR)将其浸入液态乙烷中冷冻。
低温电子层析成像:在300kV的FEI Polara F30电子显微镜(Thermo Fisher FEI)上记录INS-1E细胞的层析倾斜序列,倾斜范围为±60°,增量为1.5°,使用Gatan K2 Summit直接检测器(Gatan,Inc.)在超分辨率模式下以2倍于2.6º/像素的速度进行记录;倾斜序列通过SerialEM获得。
数据集集合:我们收集了9张包含线粒体的冷冻-ET断层图(786个2D切片)。在786个切片中,482个被选中,并通过LabelImg手动注释[24]. 然后,将二维切片按5:1的比例随机分为训练集和测试集。数据集的详细信息如表所示1.
韵律学:为了评估模型的性能,我们主要使用两个来自常见对象检测和分割评估的指标:AP(平均精度)和F类1 秒c(c)o个第页电子定义如下:
$$AP=\int_{0}^{1}P(R)\,d(R)$$
(5)
$$F_{1}\score=\压裂{2P\乘以R}{P+R}$$
(6)
哪里P(P)表示精度,表示真阳性与所有预测阳性的比率;R(右)表示召回,表示真阳性与所有真元素的比率。无论是准确度还是召回率都不足以全面评估预测性能。因此,在精度和召回率都需要足够高的情况下,通常使用由加权调和平均值定义的F1得分。AP相当于精确再调用曲线下的面积,可以对模型在不同精度/召回率下的性能进行总体评估。作为一个目标检测问题,每个样本预测的正确性不仅与分类有关,还与定位有关。定位精度通过(交叉于联合)进行评估,其定义为:
$$IoU=压裂{S_{P}\cap S_{G}}{S_{P}\cup S_{G}}$$
(7)
哪里S公司P(P)是预测的边界框S公司G公司代表基本事实,IoU衡量巧合程度。在我们的实验中,设置了不同的IoU阈值(0.5、0.6、0.7、0.8和0.9),并考虑了线粒体预测标签和IoU高于特定阈值的样本。IoU阈值越高,定位精度要求越高。因此,我们可以看到在不同定位精度要求下检测精度的差异,并判断我们模型的定位性能。计算了实验中的准确度、召回率、F1分数和AP。
数据预处理和模型训练
我们从原始层析图像中获得的2D投影图像具有较低的信噪比和对比度,这会干扰后续细胞内特征的识别和分割。因此,首先通过双边滤波器对图像进行去噪σ第页=1.2和σd日=100,抑制噪波并尽可能保留原始边特征。随后通过直方图均衡化增强对比度,从而提高以前无法区分的细节的分辨率。图三显示了预处理前后两幅图像的示例。我们方法中的预处理方法和参数最终是基于根据[25]图像的灰度分布直方图和视觉效果。图4显示同一图像的不同信噪比σd日和σ第页以及不同预处理方案的性能。我们发现,首先执行直方图均衡化会增加原始图像中的噪声,并且在滤波后对比度会再次降低,无法达到预期的效果。此外,我们发现用于降噪的高斯滤波不能像双边滤波那样保留边缘。
我们实验中的所有模型都是使用Keras进行训练和测试的[26]带Tensorflow[27]作为后端,使用优化器Adam(自适应矩估计)[28]带有β1=0.9,β2=0.999,学习率1×10−5用于RPN和分类器。根据5:1的比例,将482个带注释的切片随机分成402个切片的训练集和80个切片的测试集。只有当一个历元后的损失小于之前的最佳损失时,模型才会被保存。
预测性能
我们在训练集上训练模型,并在测试集上进行测试。数字5和6直观、定量地显示测试结果。除了边界框之外,我们的模型还提供了对象的最可能类别以及它属于该类别的概率。在图中5,红色边界框是手动标注的地面真相,蓝色边界框由模型预测。我们注意到,预测结果与基本事实高度吻合,即使是不能完全重叠的区域也基本上包含了整个线粒体,这意味着我们的系统可以很成功地实现线粒体的自动识别和定位。线粒体所在的区域可以通过边界框与外界隔开,以尽可能消除周围环境的影响,从而可以更详细地分析内部结构。
在图中6,我们绘制了精确再调用曲线,并计算了不同IoU阈值下的AP,以测量检测性能。我们注意到,当IoU阈值设置为0.7及以下时,AP接近1,这意味着几乎所有样本都得到了正确预测,表明我们的系统能够成功识别图片中的线粒体。然而,当IoU阈值增加到0.9时,AP急剧下降到0.4左右,这表明我们的系统在定位精度方面仍然存在一些不足。预测区域和地面真实区域之间的重叠可以进一步改善,这可能是我们未来工作的一个重要方面。IoU阈值0.7的精确重新调用曲线也如图所示6当IoU阈值为0.7时,所有阳性样本都可以正确预测,而精度要求不高于0.9,即在此条件下可以找到所有线粒体;即使精确到1,也就是说所有预测为阳性的样本都必须是正确的,70%的线粒体仍然可以被检测到。
此外,我们还比较了预处理对预测结果的影响。值得注意的是,无论如何设置IoU阈值,未进行预处理的模型的AP值都显著低于包含预处理的模块的AP值,这再次表明预处理是整个系统的必要步骤。特别是当IoU阈值为0.8时,经过或不经过预处理的系统在平均预测精度上表现出很大差异,这表明预处理对系统的主要贡献是进一步提高定位精度。对于不包括预处理的模型,具有不小于0.8的IoU和基本事实的预测边界框是非常罕见的,并且在这种情况下计算的平均精度仅为0.3。在预处理步骤之后,通常预测的边界框和地面实况的IoU达到0.8,导致平均精度增加到0.95或更高。
错误的来源
为了进一步分析我们的方法的性能,我们分别分析了9种不同情况下系统的预测结果就地低温-ET断层图(表2),并研究了原始图像质量、线粒体完整性等不同因素的影响F类1 秒c(c)o个第页电子AP仍以0.7的IoU阈值计算。在大多数断层图中,我们的系统显示出高精度,与整体结果一致。然而,我们还发现,在INS_21_g3_t10中,我们的系统无法准确检测线粒体7). 我们注意到,在该断层图的所有二维投影图像中,包含的线粒体太小,结构似乎不完整,尤其是内部结构,基本上淹没在噪声中,难以识别。即使经过降噪和对比度调整,图像中线粒体的细节仍然过于模糊,导致特征提取受到强烈干扰。我们还计算了INS_21_g3_t10中二维投影图像的信噪比,平均约为0.06。作为参考,我们在图中分析了Unstim_20k_mito1原始投影图像的信噪比4为0.12,显著高于INS_21_g3_t10中的图像。值得注意的是,在Unstim_20k_mito1中,投影图像的主体是我们需要检测的线粒体,而在INS_21_g3_t10中,线粒体只占图像的很小部分。因此,图像的其他成分被计算为对我们的检测任务可能没有那么有用的信号,使得有效信息与噪声的比率甚至低于0.06。这可以解释为什么它的检测性能特别不令人满意。
为了更好地研究不同层析图像对定位精度的影响,计算了每个层析图像的平均联合交集(mIoU)。可以注意到,平均而言,包含完整线粒体的断层图中的mIoU较高,即定位精度较高,尽管最高的mIuU来自包含不完整线粒体的层析图。我们分析了这张断层图的特征,发现这是唯一一张线粒体不呈圆形或近似圆形,而是呈斜条形的断层图(也如图所示)7). 因此,当线粒体标记为矩形方框时,方框占据更大的面积,并且包含更多的非线粒体区域,这可能会使预测结果更容易与实际情况吻合。因此,总的来说,我们仍然可以得出结论,完整的线粒体更容易准确定位。这也与我们的直觉一致,即完整的线粒体有一个近似圆形的双层膜的完整轮廓,这为确定其特定边界提供了有力的参考。事实上,在F类1 秒c(c)o个第页电子而AP也含有完整的线粒体。因此,线粒体的完整性对系统的检测结果有一定影响。
断层切片预测
最终的目标是在三维断层图像中检测线粒体。基于二维投影图像训练的模型可以直接应用于层析切片以生成输出。与投影图像一样,首先用相同的参数对切片进行双边滤波和直方图均衡化预处理,然后用Faster-RCNN模型进行测试。整个模型被逐层应用于层析图像,输出包括切片中线粒体的所有边界框,每个边界框有一个分类分数。在CPU上测试时,每个片只需要几秒钟。
如图所示8与二维投影图像相比,层析切片中的线粒体可以被成功识别和定位,而定位的准确性可能会因较高的噪声而略有降低。因此,只需对二维投影图像进行注释和训练,可以大大降低计算成本,并且可以在允许的误差内检测三维层析图像中的线粒体。即使在3D的情况下,扩展到不同细胞器的概率仍然保留。