导航菜单

跳到内容

朱利叶斯演讲

存储库文件导航

Julius:开源大词汇量连续语音识别引擎

DOI程序

版权所有(c)1991-2020京都大学川原实验室
版权所有(c)2005-2020名古屋理工学院Lee实验室Julius项目团队
版权所有(c)1997-2000日本信息技术振兴机构
版权所有(c)2000-2005 Shikano Lab.,Nara科学技术研究所

关于朱利叶斯

“Julius”是一款面向演讲相关研究人员和开发人员的高性能、小字体、大词汇量连续语音识别(LVCSR)解码器软件。基于单词N-gram和上下文相关HMM,它可以在从微型计算机到云服务器的各种计算机和设备上执行实时解码。该算法基于二步树格搜索,充分融合了主要的解码技术,如树组织词典、1-最佳/词对上下文近似、秩/分数剪枝、N元分解、跨词上下文依赖处理、包络波束搜索、高斯剪枝、高斯选择等。除搜索效率外,它还被模块化以独立于模型结构,支持多种HMM结构,例如共享状态三元组和绑定混合模型,以及任意数量的混合、状态或电话集。它还可以在单个线程中同时运行多实例识别、听写、基于语法的识别或孤立单词识别。模型采用标准格式,以应对其他语音/语言建模工具包,如HTK、SRILM等。最新版本还支持基于深度神经网络(DNN)的实时解码。

主要平台是Linux和其他基于Unix的系统,以及Windows、Mac、Android和其他平台。

自1997年以来,Julius一直是日本LVCSR的研究软件,并在IPA日语听写工具包项目(1997-2000)、日本连续语音识别协会(CSRC)(2000-2003)和交互式语音技术协会(ISTC)下继续开展工作。

主要开发/维护人员是Akinobu Lee(ri@nitech.ac.jp).

特征

  • 开源LVCSR软件(BSD 3条款许可证)。
  • 基于二通策略的实时、高速、准确识别。
  • 内存要求低:工作区所需的内存小于32MB(对于内存为3克LM的20k字听写,小于64MB)。
  • 支持具有任意N的N-gram的LM。还支持基于规则的语法,以及用于孤立单词识别的单词列表。
  • 语言和单位相关:可以使用ARPA标准格式的任何LM和HTK ascii hmm定义格式的AM。
  • 高度可配置:可以设置各种搜索参数。也可以选择替代解码算法(1-最佳/字对近似、字格/字图中间体等)。
  • 支持的主要功能列表:
    • 麦克风和网络输入的即时识别
    • 基于GMM的输入抑制
    • 连续解码,通过短暂停顿限定输入
    • N最佳输出
    • 字图输出
    • 单词、音素和状态级别上的强制对齐
    • 置信度评分
    • 服务器模式和控制API
    • 许多搜索参数用于调整其性能
    • 结果输出的字符代码转换。
    • (Rev.4)引擎成为库并提供简单的API
    • (第4版)长N-gram支持
    • (版本4)仅以正向/反向N-gram运行
    • (第4版)混淆网络输出
    • (Rev.4)单线程中的任意多模型解码。
    • (修订版4)快速孤立词识别
    • (修订版4)用户定义的LM函数嵌入
  • 基于DNN的解码,使用前端模块进行逐帧状态概率计算以获得灵活性。

快速跑步

如何使用Julius和英语DNN模型测试英语听写。该过程适用于Linux,但对于其他操作系统几乎相同。

(对于日语听写,使用口述工具)

1.构建最新的Julius

%sudo apt-get安装build-essential zlib1g-dev libsdl2-dev libasound2-dev%git克隆https://github.com/julius-speech/julius.git%光盘朱利叶斯% ./configure--启用-words-int%品牌-j4%ls-l朱利叶斯-rwxr-xr-x 1 ri实验室746056 5月26日13:01 julius/julius

2.获取英语DNN模型

转到Julius模型页面并下载名为“ENVR-v5.4.Dnn.标准。箱子.zip“。将其解压缩并将cd放在那里。

%光盘..%解压缩/some/where/ENVR-v5.4.Dnn。箱子.zip%光盘ENVR-v5.4.Dnn.标准。箱子

3.修改配置文件

编辑dnn.jconf公司解压缩文件夹中的文件,以适合最新版本的Julius:

(编辑dnn.jconf)@@ -1,5 +1,5 @@特征类型MFCC_E_D_A_Z-feature_options-htkconf wav_config-cvn-cmnload ENVR-v5.3.normal-cmnstatic+feature_options-htkconf wav_config-cvn-cmnload ENVR-v5.3.normal-cvnstatic线程数1feature_len功能48context_len 11@@ -21,3 +21,4 @@输出_B ENVR-v5.3.layerout_bias.npy状态优先级因子1.0状态优先ENVR-v5.3之前+state_prior_log10nite false

4.识别音频文件

认可“莫齐拉.wav“包含在zip文件中。

% ../julius/julius/julius-C julius.jconf-dnnconf dnn.jconf

您将收到大量消息,但第一个语音部分的最终结果将如下所示:

没有数据就说这篇文章没用wseq1:<s>没有数据表示文章没有用处phseq1:sil | w ih dh aw t | dh ax | d ae t ah | s eh d | dh iy | aa r t ah k ah l | w ax z | y uw s l ah s | silcmscore1:0.785 0.892 0.318 0.284 0.669 0.701 0.818 0.103 0.528 1.000得分1:261.947144

"测试.dbl“包含要识别的音频文件列表。请编辑该文件,然后再次运行以使用其他文件进行测试。

5.使用现场麦克风输入运行

要在现场麦克风输入下运行Julius,请将以下文本另存为“mic.jconf公司".

-输入麦克风-htk转换wav_config-h ENVR-v5.3.am标准-hlist ENVR-v5.3.phn-d ENVR-v5.3.lm标准-v ENVR-v5.3.dct-b 4000人-第12至6页-lmp2 12-6-后备1传球-多路径-综合工作计划-iwcd1最大值-sp模型sp-无CD-萼片150-b2 360-n 40号-2000年-8000米-查找范围5-某人80-强迫

用mic.jconf代替Julius.jconf运行Julius

% ../julius/julius/julius-C mic.jconf-dnnconf dnn.jconf

下载

最新版本为4.62020年9月2日发布。您可以从发布页面.有关更新的完整列表,请参阅“Release.txt”文件。使用“-help”运行以查看选项的完整列表。

安装/构建Julius

按照中的说明进行操作安装.txt.

工具和资产

还有用于运行Julius的工具包和资产。它们由Julius开发团队维护。您可以从以下Github页面获得它们:

一组Julius可执行文件和日语LM/AM。您可以使用此工具包测试60个单词的日语听写。对于AM,包括GMM和DNN的三音HMM。对于DNN,与Julius分离的前端DNN模块计算每个输入帧HMM的状态概率,并通过套接字发送给Julius以执行实时DNN解码。对于LM,包含由BCCWJ语料库训练的60k个单词的3-gram。你可以从其GitHub页面.

文档、示例文件和转换工具,以使用和构建Julius的识别语法。你可以从GitHub页面.

这是一个使用Julius对语音音频文件进行音素分段(又称音素对齐)的便捷工具。给定成对的语音音频文件及其转录,该工具包执行Viterbi对齐以获取每个音素的开始和结束时间。此工具包位于其GitHub页面.

Prompter是一个基于perl/Tkx的微型程序,它以滚动字幕样式显示Julius的识别结果。

关于模型

由于Julius本身是一个独立于语言的解码程序,如果为目标语言提供适当的语言模型和声学模型,您可以制作一个语言识别器。识别精度在很大程度上取决于模型。Julius采用HTK ascii格式的声学模型,几乎HTK格式的发音词典,以及ARPA标准格式的单词3格语言模型(从同一语料库训练的正向2格和反向N格)。

我们已经和Julius一起研究了英语听写,另一位研究人员报告说Julius在英语、斯洛文尼亚语(见Proc.ISLP2002第681-684页)、法语、泰语和许多其他语言方面也很好。

在这里,您可以获得日语和英语语言/声学模型。

日本人

日语模型(通过平衡语料库训练60k个单词)和声学模型(三音GMM/DNN)包含在日语听写套件中国证监会提供了更多种类的日本N-gram LM和声学模型。有关详细信息,请联系csrc@astem.or.jp.

英语

网上有一些针对朱利叶斯的由用户控制的英语模型。

Julius模型为朱利叶斯主办英国和波兰模特。所有模型都基于HTK建模软件和互联网上免费提供的数据集。它们可以从我为此创建的项目网站上下载。请注意,这些模型的DNN版本需要进行微小更改,作者在Github上的Julius的修改版本中包括了这些更改https://github.com/palles77/julius网站.

这个VoxForge项目正在致力于为英语创建开源声学模型。如果您有任何可以免费分发的语言或声学模型,请联系我们好吗?我们想在日语以外的各种语言上运行听写套件,并免费共享,以提供适用于各种语言的免费语音识别系统。

文件

最近的文档:

其他旧文档:

工具书类

  • 官方网站(日语)
  • 旧开发网站,有旧版本
  • 出版物:
    • A.Lee和T.Kawahara。“开源语音识别引擎Julius的最新发展”亚洲太平洋信号和信息处理协会年度峰会和会议(APSIPA ASC),2009年。
    • A.Lee、T.Kawahara和K.Shikano。“Julius——一个开源实时大型词汇识别引擎。”。欧洲语音通信与技术会议(EUROSPEECH),第1691-16942001页。
    • T.川原、A.李、T.小林、K.武田、N.Minematsu、S.佐山、K.伊藤、A.伊藤、M.山本、A.山田、T.Utsuro和K.Shikano。“日语大词汇量连续语音识别的免费软件工具包”。国际口语处理会议(ICSLP),第4卷,第476-4792000页。

已移至UTF-8

我们将转到UTF-8。

4.5(2019/1/2)发布后的主分行有代码转换为UTF-8。所有文件都转换为UTF-8更新也将以UTF-8格式提交。

为了向后兼容和日志可见性,我们保留了旧的在分支“master-4.5-legacy”处编码代码。该分行保留遗产版本4.5的编码版本。如果你想检查代码4.5(2019/1/2)发布前的进度,请查看分支。

许可证和引文

此代码在修改后的BSD许可证(BSD-3-条款许可证)下可用。

除本许可证规定的法律限制外,当您使用本软件发布或展示结果时,如果您提及“大词汇量连续语音识别引擎Julius”的使用,并提供适当的参考或引用,以便读者能够轻松访问软件的信息,我们将不胜感激。这将有助于提高Julius的可见性,进而进一步增强Julius及其相关软件。

对该软件的引用可以是一篇描述该软件的论文,

A.Lee、T.Kawahara和K.Shikano。“Julius——一个开源实时大型词汇识别引擎”。程序中。EUROSPEECH,第1691-16942001页。

A.Lee和T.Kawahara。“开源语音识别引擎Julius的最新发展”亚洲太平洋信号和信息处理协会年度峰会和会议(APSIPA ASC),2009年。

或直接引用此软件,

A.Lee和T.Kawahara:Julius v4.5(2019)https://doi.org/10.5281/zenodo.2530395

或两者兼而有之。