×

概率自动机和隐马尔可夫模型之间的联系:概率分布、学习模型和归纳算法。 (英语) Zbl 1101.68651号

摘要:本文概述了概率自动机(PA)和离散隐马尔可夫模型(HMM),旨在阐明它们之间的联系。这项工作的第一部分集中于这些模型生成的概率分布。详细说明了自动机定义概率语言的必要和充分条件。证明了概率确定性自动机是概率非确定性自动机(PNFA)的一个合适的子类。接下来介绍两类等效模型。一方面,没有最终概率的HMM和PNFA在完全有限的无前缀集上生成分布。另一方面,具有最终概率和概率自动机的HMM在有限长字符串上生成分布。本文的第二部分介绍了几种学习模型,它们形式化了PA归纳问题,或者等价地,HMM拓扑归纳和参数估计问题。这些学习模型包括PAC和识别概率1框架。还讨论了与贝叶斯学习的联系。本文的最后一部分概述了使用状态合并、状态分裂、参数剪枝和纠错技术的PA或HMM归纳算法。

理学硕士:

65年第68季度 形式语言和自动机
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Bahl,L。;布朗,P。;de Souza,P。;Mercer,R.,估计隐马尔可夫模型参数以最大化语音识别精度,IEEE Trans。语音音频处理。,1, 1, 77-83 (1993)
[2] K.F.Lee,大词汇量非特定人连续语音识别:SPHINX系统,卡内基梅隆大学计算机科学系博士论文,1988年。;K.F.Lee,《大词汇量非特定人连续语音识别:SPHINX系统》,卡内基梅隆大学计算机科学系博士论文,1988年。
[3] 拉宾纳,L。;Juang,B.-H.,《语音识别基础》(1993),新泽西州普伦蒂斯·霍尔:普伦蒂斯霍尔·恩格尔伍德克利夫斯
[4] Jelinek,F.,《语音识别的统计方法》(1998),麻省理工学院出版社:马萨诸塞州剑桥
[5] 杜宾,R。;Eddy,S。;克罗,A。;Mitchison,G.,《生物序列分析》(1998),剑桥大学出版社:剑桥大学出版社·Zbl 0929.92010号
[6] 巴尔迪,P。;Brunak,S.,《生物信息学机器学习方法》(2001),麻省理工学院出版社·Zbl 0992.92024号
[7] 塞莫尔,K。;McCallum,A。;Rosenfeld,R.,《学习信息提取的隐马尔可夫模型结构》,(AAAI'99信息提取机器学习研讨会,AAAI'1999信息提取机器教学研讨会,佛罗里达州奥兰多(1999)),37-42
[8] 莱文,E。;Pieraccini,R.,《平面隐马尔可夫建模:从语音到光学字符识别》,(Giles,C.L.;Hanton,S.J.;Cowan,J.D.,《神经信息处理系统进展》,第5卷(1993年),Morgan Kauffman:Morgan Kouffman Los Altos,CA),731-738
[9] Fu,K.S。;Booth,T.L.,《语法推理:介绍和调查》,第1部分,IEEE T.系统。手动循环。,5, 85-111 (1975) ·Zbl 0297.68070号
[10] L.Miclet,语法推理,收录于:H.Bunke,A.Sanfeliu(编辑),《句法和结构模式识别:理论和应用》,《计算机科学丛书》,第7卷,《世界科学》,新加坡,1990年,第237-290页。;L.Miclet,语法推理,收录于:H.Bunke,A.Sanfeliu(编辑),《句法和结构模式识别:理论和应用》,《计算机科学丛书》,第7卷,《世界科学》,新加坡,1990年,第237-290页·Zbl 0744.68017号
[11] E.Vidal,P.Casacuberta,P.García,语法推理及其在自动语音识别中的应用,收录于:a.J.Rubio,J.M.López(编辑),北约ASI,语音识别和编码,新进展和趋势,1995年,第174-191页。;E.Vidal,P.Casacuberta,P.García,《语法推理及其在自动语音识别中的应用》,载于:a.J.Rubio,J.M.López(编辑),《北约ASI,语音识别和编码,新进展和趋势》,1995年,第174-191页。
[12] Sakakibara,Y.,语法推理的最新进展,定理。计算。科学。,185, 1, 15-45 (1997) ·Zbl 0901.68163号
[13] J.J.Horning,《语法推理研究》,加州斯坦福大学计算机科学系博士论文,1969年。;J.J.Horning,语法推理研究,博士论文,斯坦福大学计算机科学系,加利福尼亚州斯坦福,1969年·Zbl 0254.68020号
[14] Fu,K.S。;Booth,T.L.,《语法推理:介绍和调查》,第2部分,IEEE T.系统。手动循环。,5, 409-423 (1975) ·Zbl 0323.68052号
[15] F.J.Maryanski,概率文法推理,康涅狄格大学博士论文,1974年。;F.J.Maryanski,概率文法推理,康涅狄格大学博士论文,1974年。
[16] 范德穆德,A。;Walker,A.,《关于随机正则文法的推断》,《Inf.Control》,38,310-329(1978)·Zbl 0387.68070号
[17] Rulot,H。;Vidal,E.,一种有效的无电路自动机推理算法,(Ferratè,G.;Pavlidis,T.;Sanfeliu,A.;Bunke,H.,Advances in Structural and Syntactic Pattern Recognition(1988),NATO ASI:NATO ASI Springer,Berlin),173-184
[18] R.Carrasco,J.Oncina,通过状态合并方法学习随机规则语法,收录于:语法推理和应用,ICGI’94,人工智能课堂讲稿,第862卷,西班牙阿利坎特,1994年。柏林施普林格出版社,1994年,第139-150页。;R.Carrasco,J.Oncina,通过状态合并方法学习随机规则语法,收录于:语法推理和应用,ICGI’94,人工智能课堂讲稿,第862卷,西班牙阿利坎特,1994年。柏林施普林格出版社,1994年,第139-150页。
[19] 罗恩·D。;辛格,Y。;Tishby,N.,《学习可变记忆长度的概率自动机》,(第七届计算学习理论年会论文集(1994),新泽西州新不伦瑞克:新不伦里克,新泽西ACM出版社)·Zbl 0869.68066号
[20] 罗恩·D。;辛格,Y。;Tishby,N.,《关于非循环概率自动机的可学习性和使用》,(第八届计算学习理论年会论文集(1995),加州圣克鲁斯:圣克鲁斯,加州ACM出版社),31-40
[21] 卡拉斯科,R。;Oncina,J.,从多项式时间的随机样本中学习确定性正则文法,Theoret。信息学应用。,33, 1, 1-19 (1999) ·Zbl 0940.68071号
[22] 托拉德,F。;杜邦,P。;de la Higuera,C.,使用Kullback-Leibler发散和极小化的概率DFA推断,(第十七届国际机器学习会议(2000年),Morgan Kauffman:Morgan Kouffman-Los Altos,CA),975-982
[23] 黄,H。;Fu,K.S.,《关于随机无上下文语言》,《信息科学》。,3, 201-224 (1971) ·Zbl 0225.68041号
[24] Wetherell,C.,概率语言:综述和一些开放性问题,计算机。调查。,12, 4, 361-379 (1980) ·Zbl 0466.68073号
[25] 傅家胜,《模式识别中的句法方法》,科学与工程数学,第112卷,学术出版社,纽约,1974年。;傅克胜,《模式识别中的句法方法》,《科学与工程中的数学》,第112卷,学术出版社,纽约,1974年·Zbl 0311.68014号
[26] 共和国冈萨雷斯。;Thomason,M.G.,Syntacic Pattern Recognition,An Introduction(1978),Addision-Wesley:Addision-Vesley Reading,马萨诸塞州·Zbl 0383.68065号
[27] Paz,A.,《概率自动机导论》(1971),学术出版社:纽约学术出版社·Zbl 0234.94055号
[28] Casacuberta,F.,用于自动语音识别的随机有限状态网络之间的一些关系,IEEE Trans。模式分析。机器。智力。,12, 7, 691-695 (1990)
[29] V.Balasubramanian,隐马尔可夫模型的等价性和约简,麻省理工学院博士论文,马萨诸塞州剑桥,1993年。;V.Balasubramanian,隐马尔可夫模型的等价性和约简,麻省理工学院博士论文,马萨诸塞州剑桥,1993年。
[30] Abe,N。;Warmuth,M.,《关于概率自动机近似分布的计算复杂性》,马赫。学习。,9, 205-260 (1992) ·Zbl 0766.68106号
[31] M.J.卡恩斯。;Mansour,Y。;Ron博士。;罗宾菲尔德。;夏皮雷,R.E。;Sellie,L.,《关于离散分布的可学习性》,(第25届ACM计算理论研讨会论文集(1994)),273-282·Zbl 1345.68252号
[32] Bahl,L。;Jelinek,F。;Mercer,R.,《连续语音识别的最大似然方法》,IEEE Trans。模式分析。机器。智力。,5, 2, 179-190 (1983)
[33] Poritz,A.,《隐马尔可夫模型:导览》,(国际声学、语音和信号处理会议(1988)),7-13
[34] Rabiner,L.,语音识别中隐藏马尔可夫模型和选定应用的教程,Proc。IEEE,77,2,257-286(1989)
[35] Valiant,L.G.,《可学习的共同理论》。关联计算。机器。,27, 11, 1134-1142 (1984) ·Zbl 0587.68077号
[36] 盖,T。;Thomas,J.,《信息理论的要素》(1991),Wiley:Wiley New York·Zbl 0762.94001号
[37] A.R.Barron,T.M.Cover,最小复杂度密度估计,IEEE Trans。Inf.Theory(1991)1034-1054。;A.R.Barron,T.M.Cover,最小复杂度密度估计,IEEE Trans。Inf.Theory(1991)1034-1054·兹比尔0743.62003
[38] Gold,E.M.,《限额内的语言识别》,Inf.Control,10,5,447-474(1967)·Zbl 0259.68032号
[39] D.Angluin,从随机示例中识别语言,技术报告YALEU/DCS/RR-614,耶鲁大学,1988年3月。;D.Angluin,从随机示例中识别语言,技术报告YALEU/DCS/RR-614,耶鲁大学,1988年3月。
[40] C.de la Higuera,F.Thollard,《随机确定性有限自动机的概率极限识别》,载于:A.Oliveira(Ed.),《语法推理:算法和应用》,《人工智能课堂讲稿》,编号1891,Springer,Berlin,2000年,第15-24页。;C.de la Higuera,F.Thollard,《随机确定性有限自动机的概率极限识别》,载于:A.Oliveira(Ed.),《语法推理:算法和应用》,《人工智能课堂讲稿》,编号1891,Springer,Berlin,2000年,第15-24页·Zbl 0974.68091号
[41] Mitchell,T.,《机器学习》(1997),McGraw-Hill:McGraw-Hill纽约·Zbl 0913.68167号
[42] 罗恩·D。;Rubinfeld,R.,《学习易出错的确定性有限自动机》,马赫。学习。,18, 149-185 (1995) ·兹比尔083168088
[43] Baum,L.,马尔可夫过程概率函数统计估计中的一个不等式和相关的最大化技术,不等式,3,1-8(1972)
[44] Dempster,A。;莱尔德,N。;Rubin,D.,《通过EM算法从不完整数据中获得最大似然》,J.R.Stat.Soc.Ser。B(方法学),39,1-38(1977)·Zbl 0364.62022号
[45] Y.Esposito,A.Lemay,F.Denis,P.Dupont,学习概率剩余有限自动机,摘自:P.Adrians,H.Fernau,M.van Zaanen(编辑),第六届语法推理国际学术讨论会论文集:算法与应用,人工智能讲义,第2484期,荷兰阿姆斯特丹,2002年9月,柏林施普林格出版社,第77-91页,;Y.Esposito,A.Lemay,F.Denis,P.Dupont,学习概率剩余有限自动机,摘自:P.Adrians,H.Fernau,M.van Zaanen(编辑),第六届语法推理国际学术讨论会论文集:算法与应用,人工智能讲义,第2484期,荷兰阿姆斯特丹,2002年9月,柏林施普林格出版社,第77-91页·Zbl 1028.68113号
[46] Tzeng,W.-G.,概率自动机的等价性和学习,(第30届计算机科学基础年会(1989)),268-273
[47] Abe,N。;Takeuchi,J。;Warmuth,M.K.,概率概念相对于Kullback-Leibler发散的多项式可学习性,(第四届计算学习理论年度研讨会论文集(1991)),277-289
[48] Yamanishi,K.,随机规则的学习标准,马赫数。学习。,9, 165-203 (1992) ·Zbl 0766.68117号
[49] M.Kearns,R.Schapire,概率概念的有效无分布学习,收录于:S.J.Hanson,G.A.Drastal,R.L.Rivest(编辑),计算学习理论与自然学习系统,第一卷:约束与展望,第一卷,麻省理工学院出版社,马萨诸塞州剑桥,1994年。;M.Kearns,R.Schapire,概率概念的有效无分布学习,收录于:S.J.Hanson,G.A.Drastal,R.L.Rivest(编辑),计算学习理论与自然学习系统,第一卷:约束与展望,第一卷,麻省理工学院出版社,马萨诸塞州剑桥,1994年·Zbl 0822.68093号
[50] Baum,L。;Petrie,T。;苏勒斯,G。;Weiss,N.,马尔可夫链概率函数统计分析中出现的最大化技术,《数学年鉴》。Stat.,41,1,164-171(1970)·Zbl 0188.49603号
[51] Viterbi,A.J.,对流码的误差界和渐近最优解码算法,IEEE Trans。Inf.理论,13260-269(1967)·Zbl 0148.40501号
[52] Forney,G.D.,维特比算法,IEEE Proc。,3, 268-278 (1973)
[53] Y.Kamp,最大似然估计的Baum和EM算法简介,技术报告830,感知研究所,1991年。;Y.Kamp,《最大似然估计的Baum和EM算法简介》,《技术报告830》,感知研究所,1991年。
[54] 乔杜里,R。;Rao,A.N.V.,《近似语法概率:猜想的解》,J.Assoc.Compute。机器。,33, 4, 702-705 (1986)
[55] Baker,J.K.,《语音识别的可训练语法》(Klatt,D.;Wolf,J.,《美国声学学会第97届会议的语音通信论文》(1979)),547-550
[56] Lari,K。;Young,S.J.,《使用内外算法估计随机上下文无关文法》,计算。演讲语言,4,35-56(1990)
[57] Lari,K。;Young,S.J.,使用内外算法的随机上下文无关文法的应用,计算。演讲语言,5237-257(1991)
[58] Pao,T。;Carr,J.,正则语言句法归纳引用问题的解决方案,计算。Lang.,353-64(1978)·Zbl 0364.68063号
[59] P.Dupont,L.Miclet,E.Vidal,正则推理的搜索空间是什么?,in:《语法推理与应用》,ICGI’94,《人工智能讲义》,第862期,西班牙阿利坎特,柏林施普林格,1994年,第25-37页。;P.Dupont,L.Miclet,E.Vidal,正则推理的搜索空间是什么?,in:《语法推理与应用》,ICGI’94,《人工智能讲义》,第862期,西班牙阿利坎特,柏林斯普林格,1994年,第25-37页。
[60] Hoeffing,W.,有界随机变量和的概率不等式,J.Am.Statist。协会,58,301,13-30(1963)·Zbl 0127.10602号
[61] Young-Lai,M。;Tompa,F.W.,文本数据库结构的随机语法推断,马赫。学习。,40, 2, 111-137 (2000)
[62] Hirschman,L.,口语语料库的多方数据收集,(《DARPA语音和自然语言研讨会论文集》(1992),雅顿书屋:雅顿书房纽约),7-14
[63] Stolcke,A。;Omohundro,S.M.,《通过贝叶斯模型合并进行隐马尔可夫模型归纳》(Giles,C.L.;Hanton,S.J.;Cowan,J.D.,《神经信息处理系统的进展》(1993),Morgan Kauffman:Morgan Kouffman Los Altos,CA)
[64] A.Stolcke,概率语言模型的贝叶斯学习,加州大学博士论文,1994年。;A.Stolke,概率语言模型的贝叶斯学习,加州大学博士论文,1994年。
[65] J.Takami,S.Sagayama,高效同音异义词建模的连续状态分裂算法,摘自:《声学、语音和信号处理国际会议论文集》,第1卷,1992年,第573-576页。;J.Takami,S.Sagayama,高效同音异义词建模的连续状态分裂算法,收录于:《声学、语音和信号处理国际会议论文集》,第1卷,1992年,第573-576页。
[66] 奥斯滕多夫,M。;Singer,H.,使用最大似然连续状态分裂的拓扑设计,Comput。演讲语言,11,17-41(1997)
[67] B.Stenger,V.Ramesh,N.Paragios,F.Coetzee,J.Buhmann,《无拓扑隐马尔可夫模型:应用于背景建模》,载《计算机视觉第八届国际会议论文集》,2001年第1卷,第294-301页。;B.Stenger,V.Ramesh,N.Paragios,F.Coetzee,J.Buhmann,《无拓扑隐马尔可夫模型:应用于背景建模》,载《计算机视觉第八届国际会议论文集》,2001年第1卷,第294-301页。
[68] Brand,M.E.,通过熵先验和参数消减的条件概率模型中的结构学习,神经计算。J.,11,5,1155-1182(1999)
[69] 瓦斯科,R。;El-Jaroudi,A。;Boston,J.,《确定隐马尔可夫模型拓扑的算法》(国际声学、语音和信号处理会议(1996))
[70] 托马森,M。;Granum,E.,从有限样本字符串集进行马尔可夫网络的动态编程推断,IEEE Trans。模式分析。机器。智力。,8, 4, 491-501 (1986)
[71] P.Dupont,L.Chase,《使用符号聚类改进概率自动化推理》,载于:《语法推理》,ICGI’98,《人工智能讲义》,第1433期,爱荷华州埃姆斯,柏林斯普林格,1998年,第232-243页。;P.Dupont,L.Chase,《使用符号聚类来改进概率自动化推理》,载于:语法推理,ICGI’98,《人工智能讲义》,第1433期,艾奥瓦州埃姆斯市,施普林格市,柏林,1998年,第232-243页。
[72] P.Dupont,J.C.Amengual,《平滑概率自动机:一种纠错方法》,载于:A.Oliveira(Ed.),《语法推理:算法和应用》,《人工智能课堂讲稿》,编号1891,Springer,Berlin,2000年,第51-64页。;P.Dupont,J.C.Amengual,《平滑概率自动机:一种纠错方法》,载于:A.Oliveira(Ed.),《语法推理:算法和应用》,《人工智能课堂讲稿》,编号1891,Springer,Berlin,2000年,第51-64页·Zbl 0974.68515号
[73] 洛伦斯,D。;维拉尔,J.-M。;Casacuberta,F.,《使用n-grams平滑的有限状态语言模型》,国际期刊《模式识别》。Artif公司。智力。,16, 3, 275-289 (2002)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。