开朗的微笑

慕尼黑开源多媒体特征提取程序openSMILE的最新进展。我们介绍了openSMILE特征提取工具包的最新进展。版本2.0现在将语音、音乐和一般声音事件的特征提取范例与用于多模式处理的基本视频特征相结合。音频和视频中的描述符可以在一个单一的框架中联合处理,允许参数的时间同步、在线增量处理以及离线和批处理,以及统计函数(特征摘要)的提取,例如矩、峰值、回归参数,特征的后处理包括统计分类器,如支持向量机模型,或用于Weka或HTK等流行工具包的文件导出。可用的低级描述符包括流行的语音、音乐和视频特征,包括Mel频率和类似的倒谱和频谱系数、色度、CENS、基于听觉模型的响度、声音质量、局部二进制模式、颜色和光流直方图。此外,还支持语音活动检测、基音跟踪和人脸检测。openSMILE是用C++实现的,它使用标准的开源库进行在线音频和视频输入。它速度快,运行在Unix和Windows平台上,并且有一个模块化的、基于组件的体系结构,使得通过插件进行扩展变得容易。openSMILE 2.0是根据研究许可发布的,可以从http://opensmile.sourceforge.net/。