1.简介
20多年来,面部表情自动识别和分析一直是科学界的一个热门话题(参见[1]用于最近的审查)。最近的心理学研究表明,面部表情是人类表达情感的最具表现力的方式。信息的言语部分仅占信息整体效果的7%,声音部分占38%,而面部表情占说话人信息效果的55%[2]. 因此,自动实时面部表情识别在许多应用中都很有用,例如人机界面、虚拟现实、视频会议、客户满意度研究、,等。为了达到预期的效果。尽管人类可以毫不费力地检测和解释场景中的人脸和面部表情,但机器准确识别面部表情仍然是一个挑战。关于面部表情识别,已经做了一些研究工作。一般来说,心理学家将面部表情分为六大类:愤怒、厌恶、恐惧、快乐、悲伤和惊讶[三].
1992年发表了关于面部表情识别研究的第一份调查报告[4],几位研究人员对其进行了跟踪研究[5,6]. 面部表情识别和分析挑战的元审查最近在[1]通过重点阐明该领域的进展,确定新目标,并提供基线算法的结果。它还讨论了面部表情识别领域的未来,以及未来可能面临的挑战。根据使用的特征类型,面部表情识别方法可以分为两大类:基于外观的特征或基于几何特征。基于几何的特征描述面部及其组件的形状,如嘴或眉毛,而基于外观的特征描述由表情引起的面部纹理。
已成功用于情感识别的外观特征是局部二进制模式(LBP)算子[7——11],方向梯度直方图(HOG)[12,13],局部Gabor二进制模式(LGBP)[10],本地定向模式(LDP)[14],基于非负矩阵分解(NMF)的纹理特征[15,16],基于Gabor滤波器的纹理信息[16],主成分分析(PCA)[17],线性判别分析(LDA)[18],等。在基于外观的技术中,NMF理论最近产生了许多有前途的作品。在[16]使用基于Gabor小波纹理信息提取的方法、基于鉴别NMF(DNMF)的监督图像分解方法和基于形状的方法,分析了部分遮挡对面部表情识别的影响。Zhi介绍了一种称为图表示稀疏NMF(GSNMF)的技术等。[15]. GSNMF是一种基于遮挡的降维技术,它将高维面部表情图像转换为具有稀疏表示的局部保持子空间。LBP算子也被许多研究者广泛应用于面部表情的分析和识别。Sahn对基于LBP算子的面部表情识别进行了全面的研究等。[8]. 在本研究中,他们通过使用具有增强的LBP特征的支持向量机(SVM)分类器,获得了最佳的面部表情识别精度。LBP算子的扩展、体积LBP(VLBP)和三个正交平面上的LBP(LBP-TOP)用于[7]用于识别面部表情。另一个使用外观特征从视频中自动检测面部表情的系统示例是利特沃特的等。[19]. 对不同的机器学习技术进行了评估,通过使用AdaBoost选择Gabor滤波器子集,然后根据AdaBooss选择的滤波器的输出训练SVM,从而获得最佳结果。
在基于几何特征的方法中,主要步骤是定位和跟踪面部密集点集。大多数基于几何特征的方法使用主动外观模型(AAM)或其变体来跟踪面部密集点集。然后以不同的方式使用这些面部标志的位置来提取面部特征的形状,以及随着表情的演变面部特征的运动。Choi公司等。[20]使用具有二阶最小化的AAM和多层感知器来识别面部表情。基于AAM的面部表情识别技术的最新示例如所示[21]对不同的AAM拟合算法进行了比较和评价。另一个使用几何特征检测面部表情的系统示例是Kotisa等。[22]. 在手动定位多个面部点后,使用了Kanade-Lucas-Tomasi(KLT)跟踪器。某些选定的坦率节点的几何位移被定义为第一帧和最大面部表情强度帧之间的节点坐标差,用作新的多类SVM分类器的输入。索贝等。[23]还使用几何特征检测情绪。在该方法中,手动定位面部特征点,并使用逐片贝塞尔体积变形跟踪来跟踪手动放置的面部标志。他们用大量的机器学习技术进行了实验,用一个简单的k个-最近邻技术。宋和金[24]介绍了立体AAM(STAAM),它通过使用多个摄像机建模三维形状和刚体运动参数,改进了标准AAM的拟合和跟踪。然后使用分层广义判别分析分类器将三维形状和配准的二维外观相结合,用于面部表情的识别。在[25]提出了一种基于几何特征的低维表情流形人脸表情建模、跟踪和识别方法。桑德巴赫等。[26]最近提出了一种利用3D面部几何序列帧之间基于3D运动的特征进行动态面部表情识别的方法。利用特征选择方法提取表达式的起始段和偏移段特征。然后,使用这些特征训练GentleBoost分类器,并构建隐马尔可夫模型(HMM),以便对表达式的全时间动态进行建模。鲁多维奇和潘蒂奇[27]介绍了一种基于AAM提取的一组人脸特征点的头像不变面部表情识别方法。采用耦合尺度高斯过程回归(CSGPR)模型进行头糖归一化。
研究人员还利用基于几何特征和基于外观特征的优势,开发了面部表情识别系统。里昂和赤松[28]介绍了一种用Gabor小波对面部表情进行编码的系统。面部表情图像在面部标志的一些固定几何位置使用多方向、多分辨率的Gabor滤波器组进行编码。将由该表示导出的相似空间与由人类观察者对图像进行语义评级得出的相似空间进行了比较。在[29]对基于几何和基于Gabor-wavelets的多层感知器人脸表情识别进行了比较。黄等。[30]利用从动态图像序列中提取的时空特征,提出了一种基于增强成分的面部表情识别方法,其中时空特征是从以38个检测基准兴趣点为中心的面部区域中提取的。使用ASM检测面部点,并使用LBP-TOP算子描述这些点的特征。
本文提出了两种动态人脸表情识别方法,一种是直接使用多类AdaBoost,另一种是使用SVM对增强后的几何特征进行识别。让我们考虑一个包含人脸的视频镜头,其面部表情从中性状态演变为完全表达状态。面部表情识别仅使用从面部图像序列中提取的几何信息,而不考虑任何面部纹理信息。提出的面部表情识别系统是全自动的,其中使用弹性束图(EBG)在第一帧初始化面部标志。现在,每个面部地标的多分辨率、多方向Gabor滤波器响应用于跟踪连续帧中的地标。现在,地标跟踪的结果进行了标准化,使得每个面部表情的第一帧上的地标位置相同,并且随着表情从中性状态到最高强度的时间推移,地标的移动也随之变化。现在,将创建与每个地标点对应的特征向量以及来自每对地标的特征向量,并将其视为一个特征池。我们在特征库中有大量的特征向量,但只有其中的一部分为识别面部表情提供了鉴别信息。因此,通过应用AdaBoost算法进行特征选择,并借助动态时间扭曲(DTW)相似距离,选择特征向量的子集[31,32]在每个面部表情的输入特征向量和原型特征向量之间。每个面部表情的原型是通过取相应面部表情数据集的所有跟踪地标位置的中位数形成的。现在可以通过使用具有特征向量之间DTW相似距离的多类AdaBoost,或通过对AdaBooth选择的特征子集使用支持向量机来识别面部表情。无论是几何特征还是外观特征,对于区分每个面部表情和其他面部表情来说,都存在一个重要的特征问题。使用一种全面分类方案,从特征池中为每个面部表情选择特征向量子集,并根据人脸不同区域的地标进行分析,这些地标用于生成特征向量。在CK+面部表情数据库上进行了实验,结果表明,当使用SVM分类器识别六种基本面部表情时,所提出的面部表情识别系统使用少量增强特征可以达到97.35%的良好识别准确率。
本文的组织结构如下:第2节描述了中性帧(视频镜头的第一帧)上的地标初始化过程,随着表达式的演变跟踪这些地标,以及地标跟踪结果的规范化。第3节描述了拟议的几何特征。第4节描述了使用AdaBoost和DTW相似性作为弱分类器的特征向量选择子集。实验结果见第5节。最后,第6节总结了所提出的面部表情识别系统。
2.地标初始化、跟踪和规范化
面部表情识别主要由三个子系统组成:面部地标跟踪、根据地标跟踪结果构建特征以及对提取的特征进行分类。
2.1. 基于弹性束图的地标初始化与跟踪
弹性图匹配(EGM)方法首先由Lades提出等。[33],并应用于人脸识别。基于Lades的工作等。,维斯科特等。[34]提取了一个地标点上的多个特征,称为EBG,并将其应用于人脸识别。我们基于EBG的地标初始化的实现基于Wiskott开发的算法等。它被科罗拉多州立大学(CSU)列为人脸识别算法比较的基准算法[35]. 该算法首先创建一个束图。簇图的每个节点对应于一个面部地标,并包含一组从模型图像中提取的模型喷射(Gabor喷射)。Gabor喷流是图像中同一位置的复杂Gabor系数的集合。系数是使用不同大小、方向和频率的Gabor小波生成的。簇图用作地标描述符的数据库,可用于在新图像中定位地标。
图1显示了地标初始化和跟踪的整个过程。在新颖的图像中定位地标有两个步骤。首先,基于图像中其他地标的已知位置来估计地标的位置,其次,通过从图像中提取近似位置上的Gabor喷流并将该喷流与模型之一进行比较来细化该估计。为了使系统完全自动化,一开始至少需要一个或两个地标的大致位置。这一目标是通过首先使用中提出的基于Haar-like特征的人脸检测方法定位图像中的人脸区域来实现的[36]. 现在,使用与Viola和Jones提出的基于Haar-like特征的目标检测方法相同的方法,在人脸区域内搜索双眼中心的地标[36]. 根据已知的眼睛坐标,估计其他地标的位置很容易。每个新的地标位置都是基于先前定位的点集进行估计的。然后,通过比较从估计点提取的Gabor喷流与束团图中相应的模型喷流,来细化地标位置。重复该过程,直到找到所有地标位置。初始化中性脸图像(视频快照的第一帧)中的52个地标。
一旦在视频快照的第一帧中初始化了地标,下一步就是随着表达式的发展,跟踪它们。在每个输入帧中,应估计地标相对于前一帧的位移。已经计算了中性帧中每个地标对应的Gabor射流。现在提取每个地标的下一帧的Gabor喷射,就像前一帧的地标位置一样。地标相对于前一帧的位移可以使用下面给出的直接位移估计方程从这两个Gabor喷流直接计算得出[34]. 该位移给出了地标在当前帧中的准确位置。现在更新当前帧中每个地标的Gabor喷射,并重复相同的过程,以查找下一帧中地标的位移。利用这一概念,取得了良好的地标跟踪效果。图2示出了在面部表情的一些序列中跟踪52个地标的结果;图中只显示了每个序列中的几个图像。第一排、第二排和第三排分别是愤怒、厌恶和惊讶的面部表情。
2.2。地标标准化
地标归一化使每个地标在视频快照的第一帧中处于统一的坐标位置,随着表达式的发展,地标会相应地发生位移。让我们假设是的跟踪结果我第个里程碑k个th表达序列:
哪里是我中的第个地标坐标位置我的第个帧k个th表达序列,以及N个是表达式序列中的帧数。每个地标对应的平均地标位置由所有中性图像计算得出,这是每个视频快照的第一帧。假设(μx个0,μ年0)我表示我表达序列第一帧中的第个里程碑。对于要归一化标志点的面部表情的每个跟踪结果,确定第一帧标志点和平均标志点之间的差异。这给出了地标相对于平均地标位置的位移。假设表示我第一帧中的第个里程碑k个th表达序列,相对于平均地标位置:
对应于每个地标的位移现在添加到面部表情序列的每个帧中的地标位置。地标跟踪的转换结果现在表示为,定义为:
跟踪结果的规格化方式是,所有表达式序列的每个地标现在都从相同的坐标位置开始,即, (μx个0,μ年0)我并根据后续帧中的位移进行演化。图3显示了归一化前(第一行)和归一化后(第二行)地标的跟踪结果(注意,给出地标之间的边缘只是为了使外观看起来像人脸)。
4.使用AdaBoost的特征选择
Freund和Schapire提出的AdaBoost学习算法[37]以其原始形式,用于提高简单学习算法的分类性能。它通过组合一组弱分类函数来实现这一点,从而形成一个更强的分类器。在boosting语言中,简单的学习算法称为弱分类器。AdaBoost不仅是一个快速分类器;它也是一种特征选择技术。AdaBoost功能选择的一个优点是,功能是根据已经选择的功能进行选择的。在文献中可以找到使用AdaBoost进行面部表情识别的不同类型的基于外观的特征选择[11,19,38,39]. 在我们的系统中,Jhu提出的多类AdaBoost的变体等。[40]用于从第3节定义的特征库中选择足以进行面部表情识别的重要特征。在我们的系统中,分类器学习是不必要的,因为弱分类器是基于DTW相似性的[31,32]在原型特征向量和输入特征向量之间。在使用AdaBoost描述特征选择之前,让我们首先描述原型特征向量的创建,以及DTW相似度,它将用作弱分类器。
通过提取特征向量中每个对应元素的中值,从这些面部表情序列的所有训练集中创建每类面部表情的原型特征向量。这里的假设是,每一类面部表情都可以使用单峰分布进行建模,这是得到实验结果支持的适当假设。选择中值而不是平均值,因为它受异常值的影响较小。让U型是包含面部表情序列的面部表情数据库。数据库分为六个不同的类,U型c(c),c=1,…,6,每个代表六种基本面部表情中的一种(愤怒、厌恶、恐惧、幸福、悲伤和惊讶)。假设类的原型特征向量c(c)对于第一类特征向量和第二类特征向量表示为和,分别为:
图4显示了每类典型面部表情序列的最大强度帧。
我们的目标是从特征库中搜索少量最具鉴别力的特征向量。为了支持这一目标,弱分类器被设计为选择单个特征向量,从而对训练数据进行最佳分类。利用典型特征向量,基于最小DTW相似距离确定特征向量的类级别。DTW是一种著名的算法,旨在比较和对齐两个数据点序列。值得注意的是,序列可以有不同的长度。序列在时间维度上呈非线性“扭曲”,以确定其相似性的度量,与时间维度中的某些非线性变化无关。距离像欧几里得岛、曼哈顿、,等。对齐我一个时间序列上的第个点我另一方面,第个点将产生较差的相似性分数,而非线性对齐产生更直观的相似性度量,允许相似形状匹配,即使它们在时间轴上不同步。虽然DTW最初是为语音识别而开发的[31]它也被应用于许多其他领域。在我们的系统中,DTW是一种查找特征向量之间相似性的有效方法,因为特征向量的长度可以根据面部表情序列中的帧数以及不同的人而不同,因为随着面部表情的发展,地标位置的移动是非线性的。我们使用的DTW算法[32]快速找到两个序列之间的相似性。现在,一个弱分类器(T型(x个,x个(p),(f)))由一个特征向量组成((f)),输入面部表情(x个)和典型的面部表情(x个(p)):
实际上,没有一个特征能够以低错误执行此分类任务。在早期过程中选择的特征产生的分类错误率低于在后期轮次中选择的特性。算法1显示了中提出的多类AdaBoost学习算法的变体[40]他们称之为使用多类指数(SAMME)损失函数的分段加性建模。
算法1中给出的多类AdaBoost算法与AdaBoot非常相似,主要区别在于方程式(13)现在,为了α(米)要做到积极,我们只需要(1-错误(米)) > 1/K(K)或者每个弱分类器的准确度要优于随机猜测,而不是1/2。额外项日志的重要性(K(K)−1)英寸方程式(13)在中进行了解释[40].
算法1。多类AdaBoost学习算法。M(M)假设是使用单个特征向量构造的。最后一个假设是以下各项的加权线性组合M(M)假设。 |
|
初始化观测权重w1中,我=1/n个,我=1,2,…,n个. 对于m=1到m: 规格化权重,. 根据加权误差选择最佳周分类器 定义T(米)(x个) =T型(x个,x个(第页),(f)米)其中f米是误差的最小值(米). 计算 更新权重:
最后一个强分类器是:
|
|
图5显示了多类AdaBoost选择的前几个功能。蓝色圆点表示从该地标生成的第一类特征向量,连接一对地标的每条线表示从该对地标产生的第二类特征向量。大多数选定的特征向量属于第二类特征。这证明,随着表情对每个面部表情的演变,地标的运动并不是独立的。
掸邦等。[8]应用AdaBoost算法来确定每个面部表情的LBP直方图的子集。由于每个LBP直方图都是从一个子区域计算出来的,因此AdaBoost实际上用于根据LBP直方图找到包含面部表情更具区分性信息的子区域。在这里,我们也有兴趣找到每个面部表情的特征向量子集。这将提供有关哪些特征对区分某一特定面部表情类别与其他面部表情类别很重要的信息。值得注意的是,当K(K)=2,算法1中的特征选择多类AdaBoost算法简化为两类AdaBoost算法。由于我们的弱分类器是基于特征向量与原型特征向量的DTW相似性,在两类情况下,我们可以为正类创建一个原型面部表情,但为负类面部表情创建一个单一模型原型是不可行的。例如,如果我们想找出愤怒面部表情的特征,愤怒是积极的类别,而其他面部表情(厌恶、恐惧、幸福、悲伤和惊讶)则属于消极的类别。因此,我们保持所有典型面部表情的原样,对正面表情使用单个原型,而对负面表情使用多个原型(每类面部表情一个原型)。弱分类器现在将输入的面部表情分类为正类,前提是DTW相似距离与所有原型中的原型正类的相似距离最小;否则,它将输入的面部表情分类为否定类。图6显示了使用此方案为每类面部表情选择的前几个特征。可以观察到,不同类别的面部表情具有不同的关键区别几何特征。
一般来说,对于愤怒、厌恶和悲伤的面部表情,通常嘴巴是闭着的,与恐惧、幸福和惊讶的面部表情相比,标志物的运动较小。发件人图6,愤怒、悲伤和厌恶的特征向量似乎来自附近的一对地标,而在恐惧、幸福和惊讶的情况下,大多数特征向量来自远处的一对地标。事实上,仅仅通过观察选定的特征,很难分析标志点,从而确定面部的哪个区域携带了每类面部表情的区别信息。因此,我们根据特定区域将标志划分为不同的子集,以确定包含每个面部表情的区分标志的区域或区域对。图7显示了根据面部区域将地标分组为七个子集。
每个面部表情的选定特征要么来自一个区域内的一对地标,要么来自两个区域的一对地标。表1列出了区域以及一对区域,从中选择地标来提取每个面部表情的最有区别的特征向量。使用R2区域(眼睛和眉毛区域)中的一个或一对地标构建所有面部表情的鉴别特征向量。来自R1–R2和R2–R3区域的成对地标也具有几乎所有面部表情的辨别信息。区域R6,口腔区域,包含愤怒和悲伤面部表情的辨别标志。表1显示了人脸不同区域的更多细节,从中可以使用地标跟踪结果来构建大多数有区别的特征向量。
5.实验结果
5.1. 数据集描述
Extended Cohn-Kanade(CK+)数据库[41]用于六个基本面部表情类(愤怒、厌恶、恐惧、幸福、悲伤和惊讶)中的面部表情识别。该数据库由123名受试者的593个序列组成。图像序列的持续时间不同(即,7到60帧),并将开始(也是中性脸)合并到面部表情的峰值形成。将从中性点到靶点的图像序列数字化为640×480或640×490像素阵列。593个序列中只有327个具有给定的情感等级。这是因为只有这些才符合原型定义。在我们的研究中,从数据库中选择了315个数据集序列,用于基本的面部表情识别。
测试分类器泛化性能的最常用方法是K-fold交叉验证方法。为了最大限度地利用可用数据,并产生平均分类精度结果,使用了五倍交叉验证。对于整个过程,甚至为了获得典型的面部表情,每类面部表情的数据集都被划分为五个子集。每次,每个类的五个子集中的一个子集被用作测试集,其他四个子集被放在一起形成一个训练集。分类准确度是所有五次试验的平均准确度。为了更好地了解单个表达式类型的识别准确性,给出了混淆矩阵。混淆矩阵是n个×n个矩阵,其中矩阵的每一列表示预测类中的实例,而每一行表示实际类中的示例。混淆矩阵的对角线条目是正确分类的面部表情的比率,而非对角线项对应于错误分类的比率。
5.2. 基于多类AdaBoost的面部表情识别
在我们的系统中[40]用于选择从地标跟踪结果中提取的鉴别特征向量。同时,AdaBoost算法确定与每个特征向量关联的权重。面部表情通过使用中给出的强分类器进行识别方程式(14)分类基于测试面部表情序列所选特征向量之间的DTW相似距离,特征向量与每类原型面部表情序列相关联。每个特征向量根据最小DTW相似距离将面部表情分为六类之一。使用DTW相似性度量的优点之一是,要比较的两个特征向量不一定长度相等。增加中的功能数量方程式(14)也将分类精度提高到一定程度。图8显示了功能数量的图表与训练和测试数据的识别精度。
在52个地标跟踪结果中,共有1378个可能的特征向量,但只有少数特征向量足以区分六种基本面部表情。用最少125个特征向量实现了最高的分类准确率95.17%。表2,三分别使用75个和125个特征向量的多类AdaBoost显示面部表情识别的混淆矩阵。有些恐惧和快乐的表情是相互混淆的。对幸福和恐惧的区分失败了,因为这些表情有着相似的嘴部动作。人类观察者甚至很难识别悲伤和愤怒的面部表情。一些厌恶的面部表情被误认为是幸福。
没有一个单独的特征向量能够高精度地分类面部表情。强分类器(方程式(14))将任何输入表达式分类为六个基本类之一,这六个类的置信度最高。了解每个面部表情正确分类的特征向量的百分比,以及错误分类的特征矢量的百分比是很有趣的。这将为每个面部表情的混淆分数提供更准确的信息。图9显示了每类面部表情的弱分类器的混淆分数(百分比)。例如,从图中可以看出,42.52%的特征向量对愤怒的面部表情进行了正确分类,而18.74%的特征矢量将其分类为厌恶,9.44%的特征矢量把其分类为恐惧,7.61%的特征向量把它们分类为快乐,16.70%的特征向量将它们分类为悲伤,最后,4.98%的特征向量将其归类为惊讶的面部表情。对于惊讶的面部表情,百分比最高,即59.51%的特征向量对其进行了正确分类。因此,我们可以看到,大多数情况下,愤怒的面部表情与厌恶和悲伤相混淆;厌恶的面部表情与愤怒相混淆;恐惧的面部表情与快乐和惊讶相混淆,快乐的面部表情则与恐惧和厌恶相混淆;悲伤的面部表情与愤怒混淆;惊讶的面部表情与恐惧混淆。
5.3. 基于增强特征的SVM人脸表情识别
SVM是一类线性分类算法,其目的是在两类不同的数据之间找到一个尽可能宽的分离超平面。在我们的实验中,我们使用了一个公开可用的SVM实现,libsvm[42]其中,我们使用径向基函数(RBF)核,并基于网格搜索策略进行最优参数选择[43].
如中所示方程式(6)和(9)在第3节中,这些是我们系统中使用的地标跟踪结果的两种类型的特征。一旦AdaBoost选择了特征向量,对于使用SVM的面部表情分类,我们将从使用AdaBooster选择的特征向量集生成新的特征集。为了使SVM分类中使用的特征维数尽可能小,我们只从定义在方程式(6),以及与中定义的特征向量的角度和距离的最大变化方程式(9)。中定义的特征向量方程式(6),它与我的第个地标跟踪结果k个面部表情序列,给出以下两个值:
类似地,中定义的特征向量方程式(9),它与我th和j个的第个地标跟踪结果k个面部表情序列,给出以下两个值:
此过程的输出是每个视频的单个特征向量。特征的维度取决于AdaBoost选择的特征数量。如果我们使用L(左)AdaBoost选择的特征向量,用于SVM分类的特征维数为L(左)× 2. 实验表明,90%以上的特征都是从第二类特征中选择出来的,即,由一对地标跟踪结果生成的特征向量。这证明,随着特定面部表情的演变,地标的运动并不是独立的。表4,5和6显示使用100、200和400 AdaBoost选定特征的面部表情识别混淆矩阵,维度分别为200、400和800。使用200、400和800维特征,平均识别准确率分别为93.20%、95.50%和97.35%。与基于DTW相似距离的AdaBoost人脸表情识别相比,基于增强特征的SVM人脸表情识别提高了2.18%。
5.4条。与最新方法的比较
所提出的方法在Cohn-Kanade面部表情数据集上实现的面部表情识别精度与文献中的最佳精度相当。我们使用基于弱分类器的特征向量之间DTW相似性的多类AdaBoost实现了95.17%的面部表情识别准确率,使用基于增强特征的SVM实现了97.35%的识别准确率。到目前为止,该系统[22]显示了优异的性能,并达到了99.7%的识别率。在他们的方法中,地标初始化是一个手动过程,地标的数量也大于所提方法中的地标数量。另一方面,所提出的方法是完全自动的。在[7]使用基于局部二值模式和SVM分类器的方法,识别率达到96.26%。中该方法的主要缺点[7]它只在完全手动对齐的图像序列中进行了测试,没有在全自动条件下进行过实验。类似于[44]通过提取每个面部表情中最易区分的面部标志点,获得了97.16%的识别率。最近,赵等。[9]使用LBP特征和核判别等距图,在单个人脸图像上获得了94.88%的识别准确率。贾比德等。[14]使用与支持向量机的LBP特征相似的局部方向模式特征,识别准确率达到93.69%。张提出的另一种较新方法等。[45],识别率达到97.14%。LBP特征用于稀疏表示分类器。因此,文献中研究人员提出的不同方法的最佳识别准确率约为97%(除了[22]),Cohn-Kanade面部表情数据库上。我们提出的方法也达到了97%以上的识别准确率,这是迄今为止第二高的准确率,至少根据作者的知识。
6.结论
本文提出了两种人脸表情识别方法,一种是将多类AdaBoost与DTW结合使用,另一种是对增强后的特征使用SVM。基于面部标志点的跟踪结果,从面部表情图像序列中提取几何特征。本文提出的面部表情识别系统是全自动的,其中里程碑的初始化和跟踪是基于EBGM方法的。每个提取的几何特征向量用于构建单个弱分类器,该分类器基于输入特征向量与每个面部表情的原型特征向量之间的DTW相似性。使用多类AdaBoost算法来选择判别特征向量的子集。在Extended Cohn-Kanade(CK+)面部表情数据库上,使用特征选择性多类AdaBoost和基于增强特征的SVM分别取得了95.17%和97.35%的识别准确率。使用AdaBoost的特征选择和使用SVM的表达式分类可以获得最佳的识别精度。还确定了每个面部表情的区别特征向量,并根据贡献面部地标跟踪结果的面部区域分析结果,以构建特征向量。
我们的实验表明,随着特定表情的演变,面部标志物的运动并不是相互独立的。在我们的系统中,基于每个面部表情都可以使用单模型分布建模的假设来计算原型面部表情。由于面部表情识别成功,识别精度高,因此我们的假设是正确的。这意味着,对于数据库中的每一类面部表情,都有类似的地标运动,因为面部表情随着时间的推移而演变,与种族、年龄和性别无关。