参考中心2
基于多模态特征的视听情感识别系统

基于多模态特征的视听情感识别系统

阿南德·汉达、拉希·阿加瓦尔、纳伦德拉·科利
版权:© 2021|音量:15|问题:4|页:14
国际标准编号:1557-3958|EISSN公司:1557-3966|EISBN13:9781799859857|DOI(操作界面):10.4018/IJCINI.20211001.oa34
引用文章引用文章

MLA公司

Handa,Anand等人,《使用多模式特征的视听情感识别系统》伊吉尼语第15卷,第4期,2021年:第1-14页。http://doi.org/10.4018/IJCINI.20211001.oa34

亚太地区

Handa,A.、Agarwal,R.和Kohli,N.(2021)。使用多模式特征的视听情感识别系统。国际认知信息学与自然智能杂志(IJCINI),15(4), 1-14. http://doi.org/10.4018/IJCINI.20211001.oa34

芝加哥

Handa、Anand、Rashi Agarwal和Narendra Kohli。“使用多模式功能的视听情感识别系统”国际认知信息学与自然智能杂志(IJCINI)15,4号:1-14。http://doi.org/10.4018/IJCINI.20211001.oa34

导出参考

门德利
收藏夹完整发布下载

摘要

由于人脸几何形状和外观的高度变化,人脸表情识别(FER)仍然是一个具有挑战性的问题。CNN可以表征二维信号。因此,对于视频中的情感识别,作者在AlexNet体系结构中提出了一种特征选择模型,用于自动提取和过滤面部特征。同样,对于音频中的情感识别,作者使用深度LSTM-RNN。最后,他们提出了一个概率模型,用于使用对象的面部特征和语音融合音频和视频模型。该模型结合了所有提取的特征,并使用它们训练线性SVM(支持向量机)分类器。该模型优于其他现有模型,在音频、视频和融合模型方面达到了最先进的性能。该模型对eNTERFACE’05数据集上的七种已知面部表情进行分类,即愤怒、高兴、惊讶、恐惧、厌恶、悲伤和中性,总准确率为76.61%。