听觉工具箱

听觉工具箱
版本2
	马尔科姆·斯莱尼
技术报告#1998-010
Interval Research公司
malcolm@interval.com

什么是听觉工具箱？

本报告描述了一组工具，这些工具实现了几个常见的数字编程环境M的听觉模型美国实验室.这个工具箱将对那些对听觉外围功能正常，想要比较和测试他们的理论。这个工具箱对于想要看看人类听觉系统是如何表现声音的。

这个版本的工具箱修复了几个错误，特别是在Gammatone中和MFCC实现，并添加了几个新功能。这份报告是之前发布为Apple Computer Technical Report#45。我们很感激从Apple Computer获得重新发布代码的许可更新此包。

有很多方法来描述和表示声音。下图显示了一种基于信号维度的分类。一个简单的波形是声音的一维表示。二维表示将声信号描述为时频图像。这是典型的声音和语音分析方法。该工具箱包括常规工具，如短时傅立叶变换（STFT或Spectrogram）和几种估计听觉神经放电概率的耳蜗模型作为时间的函数。最后，下一个抽象级别是总结用相关图分析耳蜗输出的周期性。相关图提供了一种强大的表示形式，使得理解多重声音和执行听觉场景分析。

听觉工具箱包含什么？

在中实现了六种类型的听觉时频表示此工具箱：

Richard F.Lyon描述了一种基于传输的听觉模型基底膜的线性模型，然后是几个适应阶段。该模型可以在任何一个精细的时间尺度上表示声音（概率听觉神经放电）或长时间尺度特征谱图或MFCC分析。这个里昂被动耳朵命令实现了这个特定的ear模型。
罗伊·帕特森提出了一种基于心理声学滤波的模型在关键波段。这个听觉前端结合了伽马通滤波器银行与Ray Meddis提出的毛细胞动力学模型。这个听觉模型是使用制造商ERB过滤器,ERB过滤器组,和MeddisHairCell公司命令。
斯蒂芬妮·塞内夫（Stephanie Seneff）描述了一种耳蜗模型，该模型结合了带检测和自动增益控制模型的滤波器组。这个工具箱实现了她的模型的第一阶段和第二阶段。
使用频谱图来表示传统的FFT分析。两者都很窄可以进行频带和宽带谱图。参见频谱图命令了解更多信息。
许多语音识别系统的通用前端包括Mel-frequency倒谱系数（MFCC）。该技术结合了听觉过滤库用余弦变换给出大致类似于听觉系统。请参阅百万立方厘米命令获取更多信息。此外，一种常见的技术称为拉斯塔包含在筛选器中系数，模拟掩蔽和提供语音的效果识别系统是环境适应的一种度量。
传统的语音识别系统通常使用线性预测分析为语音信号建模。正向变换，proclpc程序、及其反向，合成液晶包括在内。

我如何获得听觉工具箱？

以下文件可供下载。

我将这些代码集合放在一起，以支持我自己的研究。我希望通过添加文档和测试，其他研究人员也将从这项工作中受益。

这些档案包含“.m”文件，m美国实验室mex文件，以及创建mex文件所需的C源。我已经测试过了此代码在运行M的Macintosh、PC、SGI和Sun计算机上美国实验室5.2. 代码是相当可移植的，所以我不希望有任何代码任何运行M的机器上的问题美国实验室.

在计算机上安装此软件后，请使用测试_音频脚本来运行文档中的示例。

是否支持听觉工具箱？

不用说，支持是有限的。我使用这个代码，所以我很感兴趣在听取错误报告时。如果我能复制它们，我会修复它们我有时间。但没有保证。发送错误修复是确保我注意力集中的好方法。

如果您有意见或问题，请告诉我。我可以到达时间

马尔科姆·斯莱尼

Interval Research公司

1801 Page Mill路，建筑C类

加利福尼亚州帕洛阿尔托市，邮编94304

malcolm@interval.com