基于多模态特征的视听情感识别系统

阿南德·汉达、拉希·阿加瓦尔、纳伦德拉·科利

国际标准编号：1557-3958|EISSN公司：1557-3966|EISBN13：9781799859857|DOI（操作界面）：10.4018/IJCINI.20211001.oa34

MLA公司

Handa，Anand等人，《使用多模式特征的视听情感识别系统》伊吉尼语第15卷，第4期，2021年：第1-14页。http://doi.org/10.4018/IJCINI.20211001.oa34

亚太地区

Handa，A.、Agarwal，R.和Kohli，N.（2021）。使用多模式特征的视听情感识别系统。国际认知信息学与自然智能杂志（IJCINI），15(4), 1-14. http://doi.org/10.4018/IJCINI.20211001.oa34

芝加哥

Handa、Anand、Rashi Agarwal和Narendra Kohli。“使用多模式功能的视听情感识别系统”国际认知信息学与自然智能杂志（IJCINI）15，4号：1-14。http://doi.org/10.4018/IJCINI.20211001.oa34

导出参考

收藏夹完整发布下载

查看全文HTML

查看全文PDF

摘要

由于人脸几何形状和外观的高度变化，人脸表情识别（FER）仍然是一个具有挑战性的问题。CNN可以表征二维信号。因此，对于视频中的情感识别，作者在AlexNet体系结构中提出了一种特征选择模型，用于自动提取和过滤面部特征。同样，对于音频中的情感识别，作者使用深度LSTM-RNN。最后，他们提出了一个概率模型，用于使用对象的面部特征和语音融合音频和视频模型。该模型结合了所有提取的特征，并使用它们训练线性SVM（支持向量机）分类器。该模型优于其他现有模型，在音频、视频和融合模型方面达到了最先进的性能。该模型对eNTERFACE’05数据集上的七种已知面部表情进行分类，即愤怒、高兴、惊讶、恐惧、厌恶、悲伤和中性，总准确率为76.61%。