文件Zbl 1415.68181-zbMATH Open

校准AdaBoost进行音素分类。（英语） Zbl 1415.68181号

软计算。 23，第1期，115-128（2019）.

摘要：音素分类是自动语音识别（ASR）的一个分类子任务，它对于实现良好的语音识别精度至关重要。然而，与大多数分类任务不同，除了找到正确的类别外，提供良好的后验分数也是一项重要的要求。部分原因是，以前的高斯混合模型，而最近在这项任务中使用了人工神经网络（ANN），而其他常见的机器学习方法，如支持向量机和AdaBoost。MH很少应用。在之前的研究中，我们展示了AdaBoost。MH在分类精度方面可以与ANN的性能相匹配，但在语音识别过程中利用其输出时却落后于ANN。这部分是由于AdaBoost的后验分数不准确。MH产生，这是该方法的一个众所周知的弱点。为了提高后验评分的质量，通常进行某种后验校准。在本研究中，我们测试了几种后验校准技术，以提高AdaBoost的整体性能。我们发现后验校准是提高ASR准确度的一种好方法，特别是当我们将语音识别过程集成到校准工作流中时。

MSC公司：

68吨10	模式识别、语音识别
68T05型	人工智能中的学习和自适应系统
68T50型	自然语言处理

关键词：

语音识别;音素分类;音素概率估计;后验校准;阿达·布斯特。MH公司

软件：

阿达·布斯特。MH公司;MultiBoost公司

PDF格式 BibTeX公司 XML格式引用

全文： DOI程序

参考文献：

[1]	Ayer M，Brunk H，Ewing G，Reid W，Silverman E（1955）不完全信息抽样的经验分布函数。数学年鉴5（26）：641-647·Zbl 0066.38502号 ·doi:10.1214/aoms/1177728423
[2]	Bartlett PL，Traskin M（2007）AdaBoost是一致的。马赫学习研究杂志8:2347-2368·Zbl 1222.68142号
[3]	Benbouzid D、Busa-Fekete R、Casagrande N、Collin FD、Kégl B（2012）《MultiBoost：一种多用途助推包》。J Mach学习研究13:549-553·Zbl 1283.68281号
[4]	Bishop CM（1995）模式识别的神经网络。牛津克拉伦登出版社·Zbl 0868.68096号
[5]	Bodnár P，Nyül LG（2015）使用增强的弱分类器级联改进QR码定位。网络学报22（1）：21-33·Zbl 1340.68095号 ·doi:10.14232/actacycB.22.1.2015.3
[6]	Busa-Fekete R，Kégl B（2009）使用UCB加速AdaBoost。收件人：KDDCup 2009（JMLR W&CP），第7卷，第111-122页，法国巴黎
[7]	Busa-Fekete R、Kégl B、EltetöT、Szarvas G（2013）《调音与混音：学习使用校准的多类分类器组合进行排名》。马赫学习93（2-3）：261-292·Zbl 1300.68038号 ·doi:10.1007/s10994-013-5360-9
[8]	Crammer K，Singer Y（2001）关于基于核的多类向量机的算法实现。J Mach学习研究2:265-292·Zbl 1037.68110号
[9]	Drish J（2001）从支持向量机获得校准的概率估计。美国加利福尼亚州圣地亚哥加利福尼亚大学技术报告
[10]	Duda RO，Hart PE（1973）模式分类和场景分析。纽约威利·Zbl 0277.68056号
[11]	Ensor KB，Glynn PW（1997），通过网格搜索进行随机优化。收录：应用数学讲座，第33卷。美国数学学会，第89-100页·Zbl 0894.60022号
[12]	Friedman J，Hastie T，Tibshirani R（2000）加性逻辑回归：助推的统计观点。安统计28:337-374·Zbl 1106.62323号 ·doi:10.1214/aos/1016218223
[13]	Gosztolya G（2014）AdaBoost在音素分类方面有竞争力吗？收录：CINTI（IEEE）会议记录，第61-66页，匈牙利布达佩斯
[14]	Gosztolya G（2015）关于社会信号检测的评估指标。收录：《国际演讲会议录》，第2504-2508页，德国德累斯顿
[15]	Gosztolya G，Busa-Fekete R，Tóth L（2013）使用AdaBoost检测自闭症、情绪和社会信号。收录于：法国里昂，第220-224页，《国际演讲会论文集》
[16]	Gosztolya G，Beke A，Neuberger T，Tóth L（2016）使用具有最小特征子集的深度整流神经网络进行笑声分类。拱形Acoust 41（4）：669-682·doi:10.1515/aoa-2016-0064
[17]	Gupta R、Audhkhasi K、Lee S、Narayanan SS（2013）《使用概率时间序列平滑和掩蔽的语音副语言事件检测》。摘自：《语际对话录》，第173-177页
[18]	Imseng D，Bourrad H，Magimai Doss M，Dines J（2011）混合语言语音识别的语言依赖通用音素后验估计。摘自：ICASSP会议记录，第5012-5015页，捷克共和国布拉格
[19]	Jelinek F（1997）语音识别的统计方法。麻省理工学院出版社，剑桥·Zbl 1504.68003号
[20]	Kaya H，Karpov AA，Salah AA（2015），副语言分析的级联归一化Fisher向量。摘自：《语际对话录》，第909-913页
[21]	Lamel L，Kassel R，Seneff S（1986）《语音数据库开发：声学语料库的设计和分析》。摘自：DARPA语音识别研讨会论文集，第121-124页
[22]	Levenshtein VI（1966）能够纠正删除、插入和反转的二进制代码。Sov Phys Dokl 10（8）：707-710·Zbl 0149.15905号
[23]	Manning C，Raghavan P，Schütze H（2008）信息检索导论。剑桥大学出版社·Zbl 1160.68008号 ·doi:10.1017/CBO9780511809071
[24]	Mease D，Wyner A，Buja A（2007），增强分类树和类概率/分位数估计。J Mach学习研究8:409-439·Zbl 1222.68261号
[25]	Morgan N，Bourland H（1995）混合HMM/连接主义连续语音识别简介。信号处理Mag 1025-10281995年5月
[26]	Neuberger T，Beke A（2013）使用GMM-SVM方法自动检测自发性语音中的笑声。收录：TSD会议记录，第113-120页
[27]	Niculescu-Mizil A，Caruana R（2005）《从增压中获得校准概率》。摘自：第21届人工智能不确定性会议论文集（UAI'05），第413-420页
[28]	普拉特，J。；Smola，A.（编辑）；Bartlett，P.（编辑）；Schoelkopf，B.（编辑）；Schuurmans，D.（ed.），支持向量机的概率输出以及与正则化似然方法的比较，61-74（2000），剑桥
[29]	Rabiner L，Juang BH（1993）《语音识别基础》。英格伍德悬崖普伦蒂斯·霍尔
[30]	Robertson T、Wright F、Dykstra R（1988）《顺序限制统计推断》。纽约威利·Zbl 0645.62028号
[31]	Schapire RE，Freund Y（2012）《推进：基础和算法》。麻省理工学院出版社，剑桥·Zbl 1278.68021号
[32]	Schapire RE，Singer Y（1999）使用可信度评估预测改进增压算法。马赫学习37（3）：297-336·Zbl 0945.68194号 ·doi:10.1023/A:1007614523901
[33]	Schölkopf B，Platt JC，Shawe-Taylor JC，Smola AJ，Williamson RC（2001）《估计高维分布的支持》。神经计算13（7）：1443-1471·兹比尔1009.62029 ·doi:10.1162/089976601750264965
[34]	Tóth L，Kocsor A，Csirik J（2005）《语音识别中的朴素贝叶斯》。国际应用数学与计算机科学杂志15（2）：287-294·兹比尔1085.68667
[35]	Tóth S，SztahóD，Vicsi K（2012）人类和机器的言语情感感知。收件人：《成本诉讼程序》，第213-224页，希腊帕特拉斯
[36]	van Leeuwen DA、Martin AF、Przybocki MA、Bouten JS（2006）NIST和NFI-TNO对自动说话人识别的评估。计算机语音语言20（2-3）：128-158·doi:10.1016/j.csl.2005.07.001
[37]	Waegeman W，Dembczynski K，Jachnik A，Cheng W，Hüllermier E（2014）关于f-测度极大值的贝叶斯最优性。J Mach学习研究15（1）：3333-3388·Zbl 1311.62011年
[38]	Wu T，Lin C，Weng R（2004）通过两两耦合进行多类分类的概率估计。J Mach学习研究5:975-1005·Zbl 1222.68336号
[39]	Young S、Evermann G、Gales MJF、Hain T、Kershaw D、Moore G、Odell J、Ollason D、Povey D、Valtchev V、Woodland P（2006）《HTK图书》。剑桥大学
[40]	Zadrozny B，Elkan C（2001）从决策树和朴素贝叶斯分类器中获得校准的概率估计。摘自：ICML会议记录，第609-616页

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	综述，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b：book；一：图书文章）

一&b	逻辑和
一\|b	逻辑或
!ab公司	逻辑不
作业成本法*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

校准AdaBoost进行音素分类。（英语） Zbl 1415.68181号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

校准AdaBoost进行音素分类。 （英语） Zbl 1415.68181号

MSC公司：

关键词：

软件：

参考文献：

校准AdaBoost进行音素分类。（英语） Zbl 1415.68181号