RWTH ASR-RWTH亚琛大学语音识别系统
RWTH ASR(简称“RASR”)是一个软件包,包含语音识别解码器以及用于开发声学模型的工具,用于语音识别系统。自2001年以来,它一直由亚琛工业大学的人类语言技术和模式识别小组开发。使用该框架开发的语音识别系统已成功应用于多个国际研究项目和相应的评估。
RASR由几个用C++编写的库和工具组成。目前,支持Linux(x86和x86-64)和Mac OS X(Intel)平台。
功能
- 大词汇量连续语音识别解码器
- 词条件树搜索(支持跨词模型)
- 使用SIMD指令优化HMM发射概率计算
- 基于语言模型lookahead的精细声学剪枝
- 字格生成
- 特征提取
- 灵活的数据处理框架:流量
- MFCC功能
- PLP功能
- 伽马通特征
- 语音特征
- 声道长度标准化
- 支持多种特征降维方法(例如LDA、PCA)
- 使用Flow网络轻松实现新功能以及轻松集成外部功能
- 声学建模
- HMM发射概率的高斯混合分布
- 三音格上下文中的音素(或更短的上下文)
- 音素的跨词语境依赖
- 基于语音决策的异音参数搭配树(分类和回归树,CART)
- 全局合并对角协方差矩阵(其他类型的协方差建模也是可能的,但尚未完全测试)
- 最大似然训练
- 鉴别训练(最小电话错误(MPE)标准)
- 使用LAPACK、BLAS支持线性代数
- 语言建模
- 支持ARPA格式的语言模型
- 加权文法(加权有限状态自动机)
- 神经网络(v0.6中的新功能)
- 任意深度前馈网络的训练
- CUDA支持在GPU上运行
- OpenMP支持在CPU上运行
- 各种激活函数、训练准则和优化算法
- 序列辨别训练,例如MMI或MPE(v0.7中的新功能)
- 特征提取管道中的集成(“串联方法”)
- 搜索和格处理管道中的集成(“混合NN/HMM方法”)
- 扬声器自适应
- 约束MLLR(CMLLR,“特征空间MLLR”,fMLLR)
- 无监督最大似然线性回归均值自适应(MLLR)
- 使用贝叶斯信息准则(BIC)作为停止准则的说话人/语段聚类
- 点阵处理
- n个最佳列表生成
- 混淆网络生成与解码
- 晶格重构
- 基于格的系统组合
- 输入/输出格式
- 几乎所有输入和输出数据都是易于处理的XML或纯文本格式
- 包括用于生成NIST文件格式的转换器工具
- HTK晶格格式
- HTK模型的转换器工具
文档
RASR的开发正在进行中。手册可在RASR手册Wiki。访问wiki需要注册。
有关所用理论基础和方法的出版物可以在出版物页面。软件包的详细描述见Rybach等人。亚琛RWTH大学开源语音识别系统。2009年国际演讲.
以下是一个简短的介绍幻灯片.
请在中发布问题支持论坛.
安装
RASR仅以源代码形式提供。有关构建说明,请参阅附带的自述文件。
需要一组已安装的工具和库(括号中给出了Debian软件包名称):
- GCC 4.6<=版本<=4.8(GCC,g++)
- GNU野牛
- GNU品牌
- libxml2(libxml2,libxml2-dev)
- libsndfile(libsndffile1,libsndfFile1-dev)
- libcppunit(libcppuni,libcppunit-dev)
- LAPACK(翻盖3,翻盖3-dev)
- blas(refblas3,refblas3-dev)
使用条款
RASR是自由软件;它可以根据RWTH ASR许可证。本许可包括出于非商业目的的免费使用,只要对原始软件所做的任何更改是根据同一许可的条款发布的。其他许可证可以是请求.
下载
备注:不包括声学或语言模型。
要下载软件,您必须接受许可条款。请填写表格。提交的信息仅供内部使用,不会提供给第三方。
系统演示
为了演示大型词汇系统,我们提供了以下为EPPS英语系统开发的模型(二进制格式),以及现成的一次通过识别设置:
- 声学模型(三声道,900K密度),
- 4克语言模型(7.5M多克),用于60K单词的词汇
声学模型使用TC-STAR英语培训语料库.语言模型使用欧洲议会提供的最终文本版本以及声学训练数据的转录。使用条款
所有提供的材料均可用于研究目的。禁止任何商业用途。不允许全部或部分分发所提供的数据。
通过使用原件或修改后的数据必须引用以下作者两份出版物:
J.Löf、C.Gollan、S.Hahn、G.Heigold、B.Hoffmeister、C.Plahl、,D.Rybach、R.Schlüter和H.Ney:“RWTH 2007 TC-STAR欧洲英语和西班牙语评估系统”Interspeech 2007,第2145-2148页,比利时安特卫普,2007年8月。
D.Rybach、S.Hahn、P.Lehnen、D.Nolden、M.Sundermeyer、Z.Tüske、S。Wiesler、R.Schlüter和H.Ney:“RASR-亚琛RWTH大学开源语音识别工具包”。IEEE自动语音认可与理解研讨会(ASRU),美国夏威夷,12月2011
要下载演示系统,请填写下表。我们将向您发送一封关于如何继续下载的电子邮件。