摘要

在执法调查案件中,根据头骨形态确定性别是从不明人体骨骼中确定个人身份的重要步骤之一。据我们所知,现有的头骨性别确定研究大多使用监督学习方法来分析和分类数据,并且在应用于头骨样本中没有类别标签或头骨的男性和女性样本数量差异很大的实际病例时可能存在局限性。本文提出了一种基于无监督分类技术的汉族颅骨性别鉴定新方法。标记了计算机断层扫描三维颅骨模型外表面的78个标志点,并构建了总共40个标志点间测量值的颅骨数据集。为了解决颅骨数据集的分类问题,提出了一种稳定高效的无监督算法,即MKDSIF-FCM算法。成人颅骨的实验结果表明,所提出的MKDSIF-FCM算法对女性和男性的性别判断准确率较高,分别为98.0%和93.02%,优于我们尝试的所有分类方法。由于其相当高的准确性、极佳的稳定性和无监督学习的优势,该方法可能适用于法医调查和考古研究。

1.简介

在法医调查中,性别分析和确定是确认个人身份不可或缺的重要步骤。最好的结果是通过访问整个骨骼来确认个体性别,但大多数情况下骨骼是不完整的。因此,各种局部骨骼,如髌骨[1],髋关节[2],骨盆[],跟骨[4],腕骨[5]头骨及其部分在世界各地不同人群中被用于性别决定。在骨骼的所有部分中,头骨是一个小而独特的骨骼集合。头骨由硬组织组成,在大多数情况下可以很好地保存。因此,在法医人类学分析中,头骨及其部分最广泛、最常用于提供有关人类起源、祖先、身高和性别的信息[6].

颅骨性别鉴定涉及两项主要技术:第一项是颅骨特征测量,它反映了男性和女性颅骨形态的差异。第二部分是颅骨测量的分析和分类。两者都会影响颅骨性别识别的分类准确性。早期用于测量颅骨特征的方法是主观视觉方法。视觉评估在很大程度上取决于法医科学家或生物人类学家的经验和知识。因此,当由缺乏经验的观察者执行时,由于其主观性很强,很可能是不准确的。为了减少主观性,我们努力通过使用顺序量表或软件对颅骨特征进行物理量化。随着医学影像学的发展和成功,建立了利用图像和计算机断层扫描(CT)测量颅骨特征的方法。例如,一些研究使用X光片提供颅骨的形态学细节,一些研究人员利用已知个体临床扫描的颅骨三维成像来发现度量变量。无论用什么方法来测量头骨的形态特征,采用高性能的分类方法都是非常重要的。在现有的研究中,典型的统计和监督分类方法是线性判别分析(LDA)、逻辑回归和支持向量机(SVM)。

目前,已经发表了许多颅骨性别鉴定方法,包括颅骨测量和数据分类技术,并且已经达到了较高的性别鉴别准确性。Walker通过视觉评估获得了五个头骨特征(眉间、精神、眼眶、颈部和乳突),并通过逻辑回归模型对88%的现代头骨获得了最佳分类结果,性别偏差可忽略不计,为0.1%[7]. Robinson和Bidmos选取了230个南非颅骨样本,提取了12个测量颅骨特征,通过建立5个判别函数方程,获得了72.0-95.5的准确度[8]. 小川等人从法医人类学测试记录中获得了113个现代日本人头骨的人类学测量结果。采用10个颅骨测量值进行统计分析,建立了9个判别函数。分类准确率在79%到93%之间[9]. 富兰克林等人使用OsiriX 03在澳大利亚个体的3D头骨上标记了31个地标。他们总共计算了18个线性行间标记测量值,并用判别函数进行了分析。最大分类准确率为90%[10]. Abdel Fatah等人利用222幅美国白人头颅CT图像构建了一个统计骨图谱。通过对度量变量的交叉验证线性判别分析,他们获得了>95%的准确率(11个变量为97.5%,8个变量为95.5%)[11]. Musilová等人使用相干点漂移对应分析整个颅骨表面,并使用带有径向核的SVM进行分类。该方法在法国南部人群男性和女性头骨的性别鉴定中提供了较高的分类准确率(90.3%)[12]. 李先生在干燥颅骨上手工提取了中矢状额弧,并采用傅里叶变换分析了东北地区成人颅骨的性别差异。他获得了男性和女性分类率分别为84.21%和83.33%的结果[13]. 李明等人从中国西南部选取了67个头骨,测量了16个人体特征。他们建立了单变量和多变量分析方程,获得了最高准确度,男性为89.2%,女性为90.0%[14]. Shui等人从中国北方汉族选取133个成人数字颅骨样本,分别计算了总共14个测量值(12个几何测量值和2个角度测量值)。然后,他们用Fisher步法建立性别判别函数,对于完整颅骨,男性的准确率为87.5%,女性为86.67%[15]. Luo等人通过将高维头骨数据投影到低维形状空间,构建了208个中国头骨的统计形状模型。采用Fisher判别分析(FDA)对颅骨形状空间进行分类;女性和男性的正确率分别为95.7%和91.4%[16]. Liu等人将头骨划分为七个分区,并通过标记特征点来量化无法测量的特征。然后,他们使用基于最大似然估计的正向逐步回归方法来选择每个分区的最佳特征子集。实验表明,任何三个分区都足以高精度地确定不完整颅骨的性别[17].

尽管现有方法充分证明了其在颅骨性别鉴定中的有用性,但值得注意的问题是,这些方法不适用于颅骨样本中没有类别标签的情况。另一种情况是,当男性和女性颅骨样本的分布不平衡时,使用监督学习进行分类的效果可能并不比无监督学习好。LDA、逻辑回归、SVM和其他监督学习方法需要使用带有类别标签的训练集来训练分类模型。因此,本研究的目的是基于无监督稳健分类技术,提出一种稳定有效的颅骨性别确定方法。

我们的工作贡献如下:在颅骨性别确定方面,目前的工作主要集中在颅骨测量方法上,而数据分析和数据分类的方法探索较少,尤其是无监督学习方法。在本研究中,我们试图从数据挖掘的角度提高颅骨性别决定的分类准确性。受聚类理论的启发,我们扩展了模糊C均值聚类(FCM)方法,并提出了一种改进的算法,用于对测量的颅骨数据集进行分类。我们将其命名为MKDSIF-FCM。提出的MKDSIF-FCM基于无监督学习理论,其中输入是在没有期望输出的情况下呈现的。与现有的监督学习方法相比,所提出的MKDSIF-FCM可以在没有已知类别标签的情况下将颅骨分为两类,并且对汉族成人颅骨的三维建模具有较高的精度。

2.材料和方法

我们对头骨的性别决定过程包括三个大致阶段,如图所示1在第一阶段,我们的方法依赖于获取颅骨数据和建立颅骨模型数据库(第2.1). 在第二阶段,使用半自动方法标记三维颅骨模型的特征点,并提取颅骨特征以识别颅骨(第2.2). 在最后一个阶段,提取的特征被传递给分类器。提出的MKDSIF-FCM算法用于区分颅骨的性别(第2.3).

2.1. 颅骨数据采集

本研究基于中国陕西省咸阳医院的临床多层螺旋CT扫描系统采集的186个汉族活体成人颅骨标本。整个数据库包括100个平均年龄为49.8岁的女性颅骨(范围:18-75)和86个平均年龄48.3岁的男性颅骨(领域:18-76)。本研究仅包括完整、未受损的颅骨;每个头骨都包含从头盖骨到下颚的所有骨头,还有满嘴的牙齿。

2.2. 颅骨特征测量

在本研究中,为了充分说明头骨的解剖结构,我们使用头骨校准和测量系统(由我们的研究小组独立研发)来提取3D头骨的特征。

根据法医人类学专家的研究成果,颅骨外表面标记了78个地标,其中12个位于中线,其余位于两侧的中线矢状线对称(图2).

不同颅骨标志物之间的距离和角度可能是颅骨性别差异的重要组成部分。通过计算总共40个标记间测量值,获得了反映男女性别差异的尺寸相关变量。然后,成功构建了每个颅骨的基本特征指标。1显示了特征及其简要描述;数据单位为毫米。

2.3. 方法

FCM公司[19]是一种无监督学习算法,是数据挖掘的常规工具。聚类是将一组数据分组到类中的过程,这样,一个集群中的数据具有很高的相似性,但与其他集群的数据非常不同。

为了通过无监督学习方法对颅骨测量值进行分类,我们提出了一种改进的FCM算法,该算法提出了带影响因子的距离加权系数(IF)的概念,并结合了多核学习的优点。我们将其命名为MKDSIF-FCM。

2.3.1. 带IF的距离加权系数

在通用FCM算法中,U是一个隶属函数值k个第个矢量x个k个第个集群中心v(v)。它反映了同一样本属于每个聚类中心的程度。在(1a个)–(1天),有一个使用IF的距离加权系数的示例(1a个)X(X)是一组二维样本。(1亿)表示FCM算法中的初始群集中心。(1c个)表示FCM算法中的初始隶属函数值。(1天)用IF表示建议的距离加权系数。

在本例中,有三个示例,b条、和c两个集群中心是.假设样本的隶属函数值属于分别为0.7和0.3。很明显,样品属于v(v)1-以阶级为中心。在通用FCM中,无法比较隶属函数值0.7、0.6和0.2。然而,这种可比性对于分类或聚类分析非常重要。它可以反映样本的距离,b条、和c到集群中心.

提出了基于IF的距离加权系数的新概念,并提供了一种新的距离定义方法。距离加权系数是根据样本对数据空间中同一聚类中心的不同贡献来定义的。带IF的距离加权系数定义如下:w个伊克是来自的模糊加权系数k个第个矢量x个k个第个集群中心v(v)此外,w个伊克在测量k个第个矢量x个k个第个集群中心v(v)对于不同类型的样本集,对距离的影响d日伊克通过w个伊克是不同的。为了能够确保改进算法对不同数据集的稳定聚类性能,我们为w个伊克,表示为β.

2.3.2. 基于IF距离加权系数的欧氏距离

在一般FCM中,欧氏距离通常用作距离.提出的MKDSIF-FCM算法引入了带IF的距离加权系数的概念矢量x个k个集群中心v(v)定义为正方形:我们可以证明(5)遵循欧氏空间中的距离定义。我们将讨论.在(1a个)–(1天),三个样本的欧氏距离, ,至集群中心v(v)1分别为1、2和5。假设为1。根据(2), ()、和(4),我们可以=7/15,=6/15,以及=2/15. 根据(5),我们可以获得三个样本的定义距离, ,至集群中心: ≈1.46,≈2.24,以及≈13.69。

从计算结果出发,我们将带IF的距离加权系数引入到欧氏空间中的距离,这相当于变焦透镜的函数。它变大了(β≥0)或缩短(β<0)所有距离,但放大或缩短的尺度不同。对于长距离,放大或缩短的码尺稍大,对于短距离,放大的或缩短的码稍小。它导致两极分化,长距离变长,短距离变短。因此,使用IF适当地分配距离权重系数可以提高FCM的性能。

2.3.3. 多核学习

一般来说,传统聚类算法的可靠性严格依赖于数据的特征差异。如果特征差异较大,则很容易实现聚类。但是,如果特征差异较小,甚至某些特征在原始空间中交叉,则传统算法很难正确聚类。Wu等人利用传统的聚类方法和核技术构建了核聚类算法[20]. 基于核的模糊聚类可以将原始空间中的数据映射到高维特征空间,在高维特征空间中,它可以比标准FCM产生显著的改进。然后,Sonnenburg等人提出了多核学习的概念[21].

提出的MKDSIF-FCM算法结合了多核学习的优点。通常,多核方法由多项式核、高斯核和双曲正切核组成。根据样本的不同性质,我们可以选择不同核函数的不同参数来扩展单个核函数的适用性,并且可以选择不同的核函数来构造全局核函数和局部互补核函数,从而进一步改进不同样本的分类。最终取得了良好的聚类效果,提高了内核的泛化性能。

高斯核函数的形式如下:哪里n个是核函数的中心σ是宽度参数,控制函数的径向范围。

多项式核函数的形式如下:双曲正切核函数的形式如下:满足mercer条件的任何函数[22]可以看作是一种核函数。以下各项的组合k个根据不同权重系数的核函数仍然是核函数,表示如下:在约束条件下,通过约束欧几里德距离,在核空间中使用多个核函数计算平方距离,从而如果我们选择文献中几乎只使用的高斯核,那么这样,目标函数J型S公司将成为以下内容:其中Φ(.)是非线性映射核函数,Φ(x个k个)和Φ(v(v))快递样品x个k个和集群中心v(v)分别在特征空间中。

最小化(13),然后我们可以获得成员函数的更新表达式u个伊克和集群中心v(v)如下:

2.3.4. 提出的MKDSIF-FCM算法

假设是一组-尺寸样本,其中代表k个第个样品,用于k个=1,2,..,n个和一个整数c(2≤cn个)是簇数。这个第个簇应该有中心向量v(v)=(1≤c).

是一个c×n给定训练数据的模糊划分矩阵x个k个=(k个=1,2,…,n个),其中是来自的成员函数值矢量x个k个集群中心v(v)满足以下条件:MKDSIF-FCM算法旨在确定集群中心v(v)(=1, 2, …,c)和模糊划分矩阵U型通过最小化目标函数J型S公司定义如下:其中参数s(1<<)影响簇的模糊性。大型会增加函数的模糊性。对于大多数数据,1.5≤≤3.0的结果良好。的价值通常设置为2。此外,是核空间与样本的欧氏距离x个k个至集群中心v(v)定义为(11).

MKDSIF-FCM算法使用迭代优化来逼近目标函数的最小值J型S公司.在最小化J型S公司,MKDSIF-FCM算法的基本步骤如下所示。

步骤1。给定参数值c通常在文献中,我们让=2.

第2步。初始化矩阵U型模糊划分的生成c×n区间中的随机数.

步骤3。对于t吨=0,1,2,…,采用FCM算法计算聚类中心v(v)(=1,2…,c)通过使用U型如下:

步骤4。根据(2), ()、和(4),我们可以获得.

步骤5。U型V(V)通过最小化目标函数进行更新J型S公司.我们可以推导出v(v)作为(14)和(15)分别是。

步骤6。计算目标函数J型S公司通过使用(19); 如果以下条件成立,则停止MKDSIF-FCM过程:其中它收敛或目标函数的两个相邻计算值之间的差J型S公司小于给定阈值ε.
否则,转至步骤4.

MKDSIF-FCM算法的输入是一组样本X(X)=,并且需要预定义集群的数量。此外,还有两个参数(ε)需要提前给出。MKDSIF-FCM算法的输出是聚类中心v(v)(=1, 2, …,c)和模糊划分矩阵U型.

3.结果

我们使用3.40 GHZ Core(TM)I7-3770 CPU 4GB RAM台式计算机和MATLAB 2015a软件进行所有实验。对于本文提出的所有算法,重复实验50次,并获得平均结果以进行比较。

在MKDSIF-FCM算法中,有一个参数组,其中表示模糊指数,第页1第页2表示概率,σ1σ2表示高斯核函数的参数,以及代表国际单项体育联合会。

对于本文提出的所有监督分类方法,将颅骨数据集分解为训练集和测试集;随机抽取60个样本作为测试集,每个样本的阳性和阴性样本数保持不变。

3.1. 三维头骨性别鉴定结果

用于评估颅骨数据集上算法性能的指标如下所述:ACC:正确分类为男性或女性头骨的头骨数量。TPR:正确识别男性头骨的比例。TNR:正确识别女性头骨的比例。T: 它代表运行时间。

从表2可以看出,在选择一组合适的参数值时(=2,β=0.5,第页1=0.9,第页2=0.1时,σ1=30,以及σ2=110),MKDSIF-FCM算法可以获得颅骨性别决定的最佳分类精度。对于186个汉族头骨,我们的准确率为95.70%,而文献中的准确率分别为87.09%、92.2%和93.55%[15——17]分别是。男性和女性的分类准确率分别为93.02%和98%。

3.2. 与其他非监督方法的比较

从表中可以清楚地看出2对于颅骨数据集,MKDSIF-FCM算法的准确度比原始FCM算法有近34%的显著和大幅提高。MKDSIF-FCM的运行时间大于FCM的运行时间,因为收敛的迭代次数更多。

从表中也可以看出MKDSIF-FCM算法在虹膜数据集上取得了更好的分类性能。通过检测一组合适的参数,MKDSIF-FCM算法比原来的FCM算法提高了近6%。该算法的时间复杂度和迭代次数与原始FCM算法相似。

如图所示很容易观察到,MKDSIF-FCM算法的精度高于SAWFCM算法[23]、SWFCM[24]、MF-FCM[25]、FW-FCM[26]、FKCM[27]、KFCM[28],FKWCM公司[29]、DWFCM[30],多内核FCM[31]和IWFCM[32]. MKDSIF-FCM算法的精度与POKFCM算法非常相似[33].

3.3. 与常用监督分类方法的比较

4从ACC、TPR和TNR三个方面对所提出的MKDSIF-FCM算法与其他六种监督分类方法进行了比较。我们得到的结果如下(按ACC增加的顺序):决策树(80.47%)、BP神经网络(83%)、H-ELM(88.2%)、logistic回归(88.73)、SVM(92.8%)、FDA(92.87%)和MKDSIF-FCM(95.70%)。显然,所提出的MKDSIF-FCM算法不仅获得了最高的95.7%的分类准确率,而且获得了最高TPR和TNR,分别为93.02%和98%。FDA(具有最好的特征)和SVM都以较高的准确性做得很好。其他方法的分类准确率不超过90%。结果揭示了TPR和TNR之间的一些相似之处。我们可以观察到,女性的正确分类率均匀高于男性。

3.4. MKDSIF-FCM算法的稳定性分析

对于每种分类方法,实验过程重复50次;精度的最大值、最小值和平均值通过误差条形图表示(图4). 提出的MKDSIF-FCM算法在颅骨数据集上表现出非常稳定的性能,其他方法的分类精度波动较大。最大和最小精度之间的差异从使用BP神经网络的37%到使用SVM的17%不等。

4.讨论

FCM公司[19]是最著名的无监督算法之一。然而,其性能仅限于欧几里德距离。近年来,各种改进的FCM算法被报道[23——33]. 本文提出了一种改进的FCM算法来确定汉族成人颅骨的性别。为了验证所提出算法的有效性和通用性,我们对原始FCM、一些改进的FCM算法和所提出的MKDSIF-FCM算法进行了比较分析。

MKDSIF-FCM算法在公开的虹膜数据集和头骨数据集上都取得了更好的分类性能。特别是在颅骨数据库中,准确性得到了很大提高。在Iris数据集上,与FCM相比,我们的MKDSIF-FCM算法在时间复杂度和迭代次数上几乎没有变化。在头骨数据集上,MKDSIF-FCM算法的迭代次数远大于FCM算法。这一发现表明,当数据具有高维性和大容量时,所提出的算法可能会变得非常需要计算。在Iris数据集上的实验结果表明,就准确性而言,我们的算法几乎优于文献中的所有算法[23——33].

我们的创新算法将带IF的距离加权引入到常用的欧氏距离中,增加了样本之间的类别差异程度。该算法结合了多核学习的思想,将数据映射到一个高维空间,在该空间中非线性逐渐消失,数据线性可分。这就是所提出的MKDSIF-FCM算法能够提高聚类性能的原因。

据我们所知,迄今为止,监督学习仍然是头骨性别鉴定中应用最广泛的方法。特别是,逻辑回归和判别函数分析是两种最具代表性的统计学习方法。根据文献中使用的方法[17]利用logistic回归和逐步变量选择建立了最优模型。当选择九个变量(I8、I11、I14、I16、I20、I29、I31、I38、I40)时,该模型对男性和女性的分类率分别为84.93%和92.53%。同样,我们从颅骨测量中选择最佳特征子集来建立FDA模型。通过10个变量(I8、I11、I14、I16、I20、I23、I29、I31、I38、I40),男性和女性的分类率分别为90.93%和94.80%。为了为颅骨数据集选择最合适的分类器,我们还比较了其他常用的监督分类方法,包括决策树、SVM、BP神经网络和H-ELM的结果[18]. 在我们尝试的所有方法中,所提出的MKDSIF-FCM算法对男性和女性颅骨都具有最佳的分类性能。

当对头骨数据集进行分类时,我们希望能够重现结果。因此,分类算法的稳定性非常重要。在50次重复实验中,我们的算法得到了相同的结果。很明显,所提出的MKDSIF-FCM算法在颅骨数据集上表现出非常稳定的性能。

总之,凭借其相当高的准确性、极佳的稳定性和无监督学习的优势,我们有理由相信MKDSIF-FCM算法是最适合我们颅骨数据集的分类器。当然,我们的实验结果也表明,我们提取的颅骨特征在确定颅骨性别方面非常准确和有效。

5.结论

在本文中,我们提出了一种新的方法来确定汉族颅骨的性别。我们方法的第一步是从3D头骨中提取形态学特征。第二步,利用MKDSIF-FCM算法对汉族颅骨进行性别判定。与其他流行分类器的比较,如决策树、BP神经网络、逻辑回归、FDA、SVM和H-ELM[18],表明我们提出的MKDSIF-FCM算法效果更好。实验结果表明,使用所提出的MKDSIF-FCM算法对颅骨数据集进行分类是一种准确、稳健和可重复的技术。对于汉族来说,我们的性别决定方法比文献中的其他方法的准确度提高了近8.6%、3.5%和2.2%[15——17].

值得注意的是,该方法在保持无监督学习优势的同时,实现了更好、稳定的颅骨性别判定。我们认为,这里描述的方法值得注意,特别是对于那些试图(或考虑尝试)通过无监督学习方法进行颅骨性别测定的研究人员来说。

数据可用性

用于支持本研究结果的数据可向相应作者索取。

利益冲突

作者声明,他们对本论文的出版没有任何利益冲突。

致谢

本研究得到了国家自然科学基金(编号61673319、61731015和61602380)、宁夏高校科研基金(编号NGY2016216)和陕西省自然科学基础研究基金(编号2014JQ8315)的资助。