×

校准AdaBoost进行音素分类。 (英语) Zbl 1415.68181号

摘要:音素分类是自动语音识别(ASR)的一个分类子任务,它对于实现良好的语音识别精度至关重要。然而,与大多数分类任务不同,除了找到正确的类别外,提供良好的后验分数也是一项重要的要求。部分原因是,以前的高斯混合模型,而最近在这项任务中使用了人工神经网络(ANN),而其他常见的机器学习方法,如支持向量机和AdaBoost。MH很少应用。在之前的研究中,我们展示了AdaBoost。MH在分类精度方面可以与ANN的性能相匹配,但在语音识别过程中利用其输出时却落后于ANN。这部分是由于AdaBoost的后验分数不准确。MH产生,这是该方法的一个众所周知的弱点。为了提高后验评分的质量,通常进行某种后验校准。在本研究中,我们测试了几种后验校准技术,以提高AdaBoost的整体性能。我们发现后验校准是提高ASR准确度的一种好方法,特别是当我们将语音识别过程集成到校准工作流中时。

MSC公司:

68吨10 模式识别、语音识别
68T05型 人工智能中的学习和自适应系统
68T50型 自然语言处理
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Ayer M,Brunk H,Ewing G,Reid W,Silverman E(1955)不完全信息抽样的经验分布函数。数学年鉴5(26):641-647·Zbl 0066.38502号 ·doi:10.1214/aoms/1177728423
[2] Bartlett PL,Traskin M(2007)AdaBoost是一致的。马赫学习研究杂志8:2347-2368·Zbl 1222.68142号
[3] Benbouzid D、Busa-Fekete R、Casagrande N、Collin FD、Kégl B(2012)《MultiBoost:一种多用途助推包》。J Mach学习研究13:549-553·Zbl 1283.68281号
[4] Bishop CM(1995)模式识别的神经网络。牛津克拉伦登出版社·Zbl 0868.68096号
[5] Bodnár P,Nyül LG(2015)使用增强的弱分类器级联改进QR码定位。网络学报22(1):21-33·Zbl 1340.68095号 ·doi:10.14232/actacycB.22.1.2015.3
[6] Busa-Fekete R,Kégl B(2009)使用UCB加速AdaBoost。收件人:KDDCup 2009(JMLR W&CP),第7卷,第111-122页,法国巴黎
[7] Busa-Fekete R、Kégl B、EltetöT、Szarvas G(2013)《调音与混音:学习使用校准的多类分类器组合进行排名》。马赫学习93(2-3):261-292·Zbl 1300.68038号 ·doi:10.1007/s10994-013-5360-9
[8] Crammer K,Singer Y(2001)关于基于核的多类向量机的算法实现。J Mach学习研究2:265-292·Zbl 1037.68110号
[9] Drish J(2001)从支持向量机获得校准的概率估计。美国加利福尼亚州圣地亚哥加利福尼亚大学技术报告
[10] Duda RO,Hart PE(1973)模式分类和场景分析。纽约威利·Zbl 0277.68056号
[11] Ensor KB,Glynn PW(1997),通过网格搜索进行随机优化。收录:应用数学讲座,第33卷。美国数学学会,第89-100页·Zbl 0894.60022号
[12] Friedman J,Hastie T,Tibshirani R(2000)加性逻辑回归:助推的统计观点。安统计28:337-374·Zbl 1106.62323号 ·doi:10.1214/aos/1016218223
[13] Gosztolya G(2014)AdaBoost在音素分类方面有竞争力吗?收录:CINTI(IEEE)会议记录,第61-66页,匈牙利布达佩斯
[14] Gosztolya G(2015)关于社会信号检测的评估指标。收录:《国际演讲会议录》,第2504-2508页,德国德累斯顿
[15] Gosztolya G,Busa-Fekete R,Tóth L(2013)使用AdaBoost检测自闭症、情绪和社会信号。收录于:法国里昂,第220-224页,《国际演讲会论文集》
[16] Gosztolya G,Beke A,Neuberger T,Tóth L(2016)使用具有最小特征子集的深度整流神经网络进行笑声分类。拱形Acoust 41(4):669-682·doi:10.1515/aoa-2016-0064
[17] Gupta R、Audhkhasi K、Lee S、Narayanan SS(2013)《使用概率时间序列平滑和掩蔽的语音副语言事件检测》。摘自:《语际对话录》,第173-177页
[18] Imseng D,Bourrad H,Magimai Doss M,Dines J(2011)混合语言语音识别的语言依赖通用音素后验估计。摘自:ICASSP会议记录,第5012-5015页,捷克共和国布拉格
[19] Jelinek F(1997)语音识别的统计方法。麻省理工学院出版社,剑桥·Zbl 1504.68003号
[20] Kaya H,Karpov AA,Salah AA(2015),副语言分析的级联归一化Fisher向量。摘自:《语际对话录》,第909-913页
[21] Lamel L,Kassel R,Seneff S(1986)《语音数据库开发:声学语料库的设计和分析》。摘自:DARPA语音识别研讨会论文集,第121-124页
[22] Levenshtein VI(1966)能够纠正删除、插入和反转的二进制代码。Sov Phys Dokl 10(8):707-710·Zbl 0149.15905号
[23] Manning C,Raghavan P,Schütze H(2008)信息检索导论。剑桥大学出版社·Zbl 1160.68008号 ·doi:10.1017/CBO9780511809071
[24] Mease D,Wyner A,Buja A(2007),增强分类树和类概率/分位数估计。J Mach学习研究8:409-439·Zbl 1222.68261号
[25] Morgan N,Bourland H(1995)混合HMM/连接主义连续语音识别简介。信号处理Mag 1025-10281995年5月
[26] Neuberger T,Beke A(2013)使用GMM-SVM方法自动检测自发性语音中的笑声。收录:TSD会议记录,第113-120页
[27] Niculescu-Mizil A,Caruana R(2005)《从增压中获得校准概率》。摘自:第21届人工智能不确定性会议论文集(UAI'05),第413-420页
[28] 普拉特,J。;Smola,A.(编辑);Bartlett,P.(编辑);Schoelkopf,B.(编辑);Schuurmans,D.(ed.),支持向量机的概率输出以及与正则化似然方法的比较,61-74(2000),剑桥
[29] Rabiner L,Juang BH(1993)《语音识别基础》。英格伍德悬崖普伦蒂斯·霍尔
[30] Robertson T、Wright F、Dykstra R(1988)《顺序限制统计推断》。纽约威利·Zbl 0645.62028号
[31] Schapire RE,Freund Y(2012)《推进:基础和算法》。麻省理工学院出版社,剑桥·Zbl 1278.68021号
[32] Schapire RE,Singer Y(1999)使用可信度评估预测改进增压算法。马赫学习37(3):297-336·Zbl 0945.68194号 ·doi:10.1023/A:1007614523901
[33] Schölkopf B,Platt JC,Shawe-Taylor JC,Smola AJ,Williamson RC(2001)《估计高维分布的支持》。神经计算13(7):1443-1471·兹比尔1009.62029 ·doi:10.1162/089976601750264965
[34] Tóth L,Kocsor A,Csirik J(2005)《语音识别中的朴素贝叶斯》。国际应用数学与计算机科学杂志15(2):287-294·兹比尔1085.68667
[35] Tóth S,SztahóD,Vicsi K(2012)人类和机器的言语情感感知。收件人:《成本诉讼程序》,第213-224页,希腊帕特拉斯
[36] van Leeuwen DA、Martin AF、Przybocki MA、Bouten JS(2006)NIST和NFI-TNO对自动说话人识别的评估。计算机语音语言20(2-3):128-158·doi:10.1016/j.csl.2005.07.001
[37] Waegeman W,Dembczynski K,Jachnik A,Cheng W,Hüllermier E(2014)关于f-测度极大值的贝叶斯最优性。J Mach学习研究15(1):3333-3388·Zbl 1311.62011年
[38] Wu T,Lin C,Weng R(2004)通过两两耦合进行多类分类的概率估计。J Mach学习研究5:975-1005·Zbl 1222.68336号
[39] Young S、Evermann G、Gales MJF、Hain T、Kershaw D、Moore G、Odell J、Ollason D、Povey D、Valtchev V、Woodland P(2006)《HTK图书》。剑桥大学
[40] Zadrozny B,Elkan C(2001)从决策树和朴素贝叶斯分类器中获得校准的概率估计。摘自:ICML会议记录,第609-616页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。