听觉工具箱
版本2
马尔科姆·斯莱尼
技术报告#1998-010
Interval Research公司
malcolm@interval.com
 
 

什么是听觉工具箱?

本报告描述了一组工具,这些工具实现了几个常见的数字编程环境M的听觉模型美国实验室.这个工具箱将对那些对听觉外围功能正常,想要比较和测试他们的理论。这个工具箱对于想要看看人类听觉系统是如何表现声音的。

这个版本的工具箱修复了几个错误,特别是在Gammatone中和MFCC实现,并添加了几个新功能。这份报告是之前发布为Apple Computer Technical Report#45。我们很感激从Apple Computer获得重新发布代码的许可更新此包。

有很多方法来描述和表示声音。下图显示了一种基于信号维度的分类。一个简单的波形是声音的一维表示。二维表示将声信号描述为时频图像。这是典型的声音和语音分析方法。该工具箱包括常规工具,如短时傅立叶变换(STFT或Spectrogram)和几种估计听觉神经放电概率的耳蜗模型作为时间的函数。最后,下一个抽象级别是总结用相关图分析耳蜗输出的周期性。相关图提供了一种强大的表示形式,使得理解多重声音和执行听觉场景分析。
 

听觉工具箱包含什么?

在中实现了六种类型的听觉时频表示此工具箱:
  1. Richard F.Lyon描述了一种基于传输的听觉模型基底膜的线性模型,然后是几个适应阶段。该模型可以在任何一个精细的时间尺度上表示声音(概率听觉神经放电)或长时间尺度特征谱图或MFCC分析。这个里昂被动耳朵命令实现了这个特定的ear模型。
  2. 罗伊·帕特森提出了一种基于心理声学滤波的模型在关键波段。这个听觉前端结合了伽马通滤波器银行与Ray Meddis提出的毛细胞动力学模型。这个听觉模型是使用制造商ERB过滤器,ERB过滤器组,MeddisHairCell公司命令。
  3. 斯蒂芬妮·塞内夫(Stephanie Seneff)描述了一种耳蜗模型,该模型结合了带检测和自动增益控制模型的滤波器组。这个工具箱实现了她的模型的第一阶段和第二阶段。
  4. 使用频谱图来表示传统的FFT分析。两者都很窄可以进行频带和宽带谱图。参见频谱图命令了解更多信息。
  5. 许多语音识别系统的通用前端包括Mel-frequency倒谱系数(MFCC)。该技术结合了听觉过滤库用余弦变换给出大致类似于听觉系统。请参阅百万立方厘米命令获取更多信息。此外,一种常见的技术称为拉斯塔包含在筛选器中系数,模拟掩蔽和提供语音的效果识别系统是环境适应的一种度量。
  6. 传统的语音识别系统通常使用线性预测分析为语音信号建模。正向变换,proclpc程序、及其反向,合成液晶包括在内。

我如何获得听觉工具箱?

以下文件可供下载。我将这些代码集合放在一起,以支持我自己的研究。我希望通过添加文档和测试,其他研究人员也将从这项工作中受益。

这些档案包含“.m”文件,m美国实验室mex文件,以及创建mex文件所需的C源。我已经测试过了此代码在运行M的Macintosh、PC、SGI和Sun计算机上美国实验室5.2. 代码是相当可移植的,所以我不希望有任何代码任何运行M的机器上的问题美国实验室.

在计算机上安装此软件后,请使用测试_音频脚本来运行文档中的示例。
 

是否支持听觉工具箱?

不用说,支持是有限的。我使用这个代码,所以我很感兴趣在听取错误报告时。如果我能复制它们,我会修复它们我有时间。但没有保证。发送错误修复是确保我注意力集中的好方法。

如果您有意见或问题,请告诉我。我可以到达时间

马尔科姆·斯莱尼
Interval Research公司
1801 Page Mill路,建筑C类
加利福尼亚州帕洛阿尔托市,邮编94304
       malcolm@interval.com