×

应用于语音和语言处理的基于能量的模型。 (英语) Zbl 07829054号

概要:基于能量的模型(EBM)是一类重要的概率模型,也称为随机场和无向图形模型。EBM是非规范化的,因此与其他流行的自规范化概率模型(如隐马尔可夫模型(HMM)、自回归模型、生成对抗网(GAN)和变分自动编码器(VAE))截然不同。近年来,EBM不仅吸引了核心机器学习的兴趣,而且也吸引了语音、视觉、自然语言处理(NLP)等应用领域的兴趣,在理论和算法方面取得了重大进展。据我们所知,目前还没有关于语音和语言处理应用的EBM的评论文章。语音和语言的连续性也带来了特殊的挑战,需要不同于处理固定维数据(例如图像)的处理方法。
本专著的目的是系统介绍基于能量的模型,包括算法进展以及在语音和语言处理中的应用,分为四个主要部分。首先,我们将介绍EBM的基础知识,包括经典模型、由神经网络参数化的最新模型、采样方法以及从经典学习算法到最先进的各种学习方法。接下来的三节将介绍如何在三种不同的场景中应用EBM,即分别为边际分布、条件分布和联合分布建模。1) 序列数据的EBM与语言建模应用,其中我们主要关注序列本身的边际分布;2) 用于建模给定观测序列的目标序列的条件分布的EBM,在语音识别、序列标记和文本生成中的应用;3) EBM用于建模观测序列和目标的联合分布,及其在半监督学习和校准自然语言理解中的应用。此外,我们将介绍一些开源工具包,以帮助读者熟悉开发和应用基于能量的模型的技术。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68-02 与计算机科学有关的研究博览会(专著、调查文章)
68T07型 人工神经网络与深度学习
94甲12 信号理论(表征、重建、滤波等)
65二氧化碳 蒙特卡罗方法
62小时30分 分类和区分;聚类分析(统计方面)
60J22型 马尔可夫链中的计算方法
68兰特 计算机科学中的图论(包括图形绘制)
65K10码 数值优化和变分技术
65立方厘米 马尔可夫链的数值分析或方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] F.Amaya和J.M.Benedi,《利用语法特征改进整句最大熵语言模型》。2001年计算语言学协会会议。
[2] K.An,H.Xiang和Z.Ou,“CAT:基于CTC-CRF的ASR工具包,将混合方法和端到端方法结合起来,以实现数据效率和低延迟”,INTERSPEECH,2020年。
[3] K.An、H.Zheng、Z.Ou、H.Xiang、K.Ding和G.Wan,“Cuside:分块,模拟流式ASR的未来上下文和解码”,INTERSPEECH,2022年。
[4] D.Andor、C.Alberti、D.Weiss、A.Severyn、A.Presta、K.Ganchev、S.Petrov和M.Collins,“全球标准化基于转换的神经网络”,载于2016年计算语言学协会第54届年会论文集(第1卷:长篇论文)。
[5] C.安德里厄,É。Moulines和P.Priouret,“可验证条件下随机近似的稳定性”,《SIAM控制与优化杂志》,第44卷,第1期,2005年,第283-312页·Zbl 1083.62073号
[6] C.Andrieu和J.Thoms,“自适应mcmc教程”,《统计与计算》,第18卷,第4期,2008年,第343-373页。
[7] A.Argyriou、T.Evgeniou和M.Pontil,《多任务特征学习》,NIPS,2007年。工具书类
[8] T.Artieres等人,“神经条件随机场”,载于AIS-TATS,2010年。
[9] A.Bakhtin、S.Gross、M.Ott、Y.Deng、M.Ranzato和A.Szlam,“是真是假?学习区分机器和人工生成的文本”,arXiv预印本arXiv:1906.033512019。
[10] D.Belanger和A.McCallum,《结构化预测能源网络》,ICML,2016年。
[11] S.Bengio、O.Vinyals、N.Jaitly和N.Shazeer,“利用递归神经网络进行序列预测的定时采样”,《神经信息处理系统的进展》,2015年。
[12] A.Benveniste、M.Métiver和P.Priouret,《自适应算法和随机近似》。纽约:斯普林格出版社,1990年·Zbl 0752.93073号
[13] J.E.Besag,“对U.Grenander和M.I.Miller的“复杂系统中知识的表示”的评论,《皇家统计学会期刊:B辑》,第56卷,1994年,第549-581页·兹伯利0814.62009
[14] C.M.Bishop,模式识别和机器学习。斯普林格,2006年·Zbl 1107.68072号
[15] G.Bouchard,“混合生成-判定模型中的偏差-方差权衡”,机器学习与应用国际会议(ICMLA),2007年。
[16] H.Bu、J.Du、X.Na、B.Wu和H.Zheng,“Aishell-1:一个开放源码普通话语音语料库和语音识别基线”,2017年,语音数据库和语音I/O系统与评估国际协调委员会(O-COCOSDA)东方分会2017年第20次会议。
[17] S.P.Chatzis和Y.Demiris,“序列数据建模的无限阶条件随机场模型”,IEEE模式分析和机器智能汇刊,2013年。
[18] C.Chelba、T.Mikolov、M.Schuster、Q.Ge、T.Brants、P.Koehn和T.Robinson,“衡量统计语言建模进展的十亿字基准”,INTERSPEECH,2014年。
[19] 陈浩,随机逼近及其应用。斯普林格科学与商业媒体,2002年·兹比尔1008.62071
[20] S.F.Chen和J.Goodman,“语言建模平滑技术的实证研究”,《计算机语音与语言》,第13卷,第4期,1999年,第359-394页。
[21] T.Chen、E.Fox和C.Guestrin,“随机梯度Hamilto-nian Monte Carlo”,ICML,2014年。
[22] T.Chen、S.Kornblith、M.Norouzi和G.Hinton,“视觉表征对比学习的简单框架”,arXiv:2002.057092020。
[23] X.Chen、X.Liu、Y.Wang、A.Ragni、J.H.Wong和M.J.Gales,“利用神经网络语言模型中的未来单词上下文进行语音识别”,IEEE/ACM音频、语音和语言处理交易,第27卷,第9期,2019年,第1444-1454页。
[24] C.-C.Chiu、T.N.Sainath、Y.Wu、R.Prabhavalkar、P.Nguyen、Z.Chen、A.Kannan、R.J.Weiss、K.Rao、E.Gonina等人,“采用序列到序列模型的最先进语音识别”,ICASSP,2018年。
[25] J.Chorowski、D.Bahdanau、K.Cho和Y.Bengio,“使用基于注意力的递归神经网络进行端到端连续语音识别:第一个结果”,arXiv预印本arXiv:1412.16022014。
[26] K.Clark、M.-T.Luong、Q.V.Le和C.D.Manning,“Electra:将文本编码器训练为鉴别器而非生成器”,国际学习表征会议,2020年。
[27] K.Clark、M.-T.Luong、Q.V.Le和C.D.Manning,“作为基于能量的完形填空模型的预训练变压器”,自然语言处理实证方法会议,2020年。
[28] K.Clark、M.-T.Luong、C.D.Manning和Q.Le,“带交叉视野训练的半监督序列建模”,EMNLP,2018年。
[29] M.Collins和B.Roark,“Percep-tron算法的增量解析”,载于ACL,2004年。工具书类
[30] R.Collobert、J.Weston、L.Bottou、M.Karlen、K.Kavukcuoglu和P.Kuksa,“从头开始的自然语言处理(几乎)”,《机器学习研究杂志》,第12卷,2011年8月,第2493-2537页·Zbl 1280.68161号
[31] T.M.Cover,《信息论要素》。John Wiley&Sons,1999年。
[32] R.G.Cowell、A.P.Dawid、S.L.Lauritzen和D.J.Spiegelhal-ter,《概率网络和专家系统》。施普林格出版社,1999年·Zbl 0937.68121号
[33] E.D.Cubuk、B.Zoph、J.Shlens和Q.V.Le,“随机增强:减少搜索空间的实用自动数据增强”,载于CVPR,2020年。
[34] X.Cui、B.Kingsbury、G.Saon、D.Haws和Z.Tuske,“减少训练递归神经网络传感器时的暴露偏差”,INTERSPEECH,2021年。
[35] G.E.Dahl、D.Yu、L.Deng和A.Acero,“用于大范围语音识别的上下文相关预训练深度神经网络”,IEEE音频、语音和语言处理汇刊,2012年第20卷第1期,第30-42页。
[36] Z.Dai、Z.Yang、F.Yang、W.W.Cohen和R.R.Salakhutdinov,“良好的半监督学习需要糟糕的GAN”,NIPS,2017年。
[37] P.Dayan、G.E.Hinton、R.M.Neal和R.S.Zemel,“亥姆霍兹机器”,《神经计算》,第7卷,第5期,1995年,第889-904页。
[38] A.P.Dempster、N.M.Laird和D.B.Rubin,“通过EM算法获得不完整数据的最大似然”,《皇家统计学会杂志》,第39卷,1977年·Zbl 0364.62022号
[39] Y.Deng、A.Bakhtin、M.Ott、A.Szlam和M.Ranzato,“基于剩余能量的文本生成模型”,载于ICLR,2020年。
[40] J.Devlin、M.-W.Chang、K.Lee和K.Toutanova,“伯特:语言独立的深层双向变压器的预训练”,arXiv预印本arXiv:1810.048052018,第4171-4186页。
[41] G.Durrett和D.Klein,《神经CRF分析》,ACL,2015年。
[42] B.J.Frey和N.Jojic,“概率图形模型中推理和学习算法的比较”,IEEE Trans。模式分析和机器智能(PAMI),第27卷,第9期,2005年,第1392-1416页。
[43] S.Gao、Z.Ou、W.Yang和H.Xu,“通过混合特征跨维随机场语言模型整合离散和神经特征”,ICASSP,2020年。
[44] M.Ghazvininejad、O.Levy、Y.Liu和L.Zettlemoyer,“掩码预测:条件掩码语言模式的并行解码”,arXiv预印本arXiv:1904.09324019。
[45] I.Goodfellow、J.Pouget-Abadie、M.Mirza、B.Xu、D.Warde-Farley、S.Ozair、A.Courville和Y.Bengio,《代际广告-个人网络》,NIPS,2014年。
[46] J.Goodman,“语言建模的一点进展”,《计算机语音与语言》,第15卷,2001年,第403-434页。
[47] K.Goyal、C.Dyer和T.Berg-Kirkpatrick,“通过大都市黑斯廷斯揭示隐藏语言模型背后的隐含能量网络”,2022年国际学习表征会议。
[48] W.Grathwohl、K.Swersky、M.Hashemi、D.Duvenaud和C.Maddison,“噢,我采用了梯度:离散分布的可缩放采样”,2021年国际机器学习会议。
[49] W.Grathwohl、K.-C.Wang、J.-H.Jacobsen、D.Duvenaud、M.Norouzi和K.Swersky,“你的分类器秘密地是一个基于能量的模型,你应该像对待一样对待它,”ICLR,2020。
[50] A.Graves,“递归神经网络的序列转导”,arXiv预印本arXiv:121.3711,2012年。
[51] A.Graves、S.Fernández、F.Gomez和J.Schmidhuber,“共分主义时间分类:用递归神经网络标记未分段序列数据”,ICML,2006年。
[52] A.Gunawardana、M.Mahajan、A.Acero和J.C.Platt,“电话分类的隐藏条件随机域”,第九届欧洲语音通信与技术会议(EUROSPEECH),2005年。工具书类
[53] C.E.Guo、S.C.Zhu和Y.N.Wu,“通过整合描述性和生成性方法建立视觉模式”,《国际计算机视觉杂志》,第53卷,第1期,2003年,第5-29页·兹比尔1477.68361
[54] C.Guo、G.Pleiss、Y.Sun和K.Q.Weinberger,“现代神经网络的校准”,《第34届机器学习国际会议论文集》,2017年。
[55] M.Gutmann和A.Hyvärinen,“噪声控制估计:非正规统计模型的新估计原则”,AISTATS,2010年。
[56] M.U.Gutmann和A.Hyvärinen,“非正规统计模型的噪声控制估计,及其在自然图像统计中的应用”,《机器学习研究杂志》,第13卷,第2期,2012年·Zbl 1283.62064号
[57] H.Hadian、H.Sameti、D.Povey和S.Khudanpur,“ASR的基于HMM的扁平式单阶段区分训练模型”,IEEE/ACM音频、语音和语言处理交易,第26卷,第11期,2018年,第1949-1961页。
[58] T.Han、E.Nijkamp、X.Fang、M.Hill、S.C.Zhu和Y.N.Wu,“发电机模型、基于能量的模型和推理模型联合训练的散度三角形”,CVPR,2019年。
[59] T.Hastie、R.Tibshirani、J.H.Friedman和J.H Friedmani,《统计学习的要素:数据挖掘、推理和预测》,第2卷。施普林格,2009年·兹比尔1273.62005
[60] T.He、B.McCann、C.Xiong和E.Hosseini-Asl,“基于能量的联合模型训练,用于更好地校准自然语言理解模型”,预印本arXiv:2101.068292021。
[61] G.E.Hinton,“通过最小化对比差异来培训专家产品”,《神经计算》,第14卷,第8期,2002年,第1771-1800页·Zbl 1010.68111号
[62] G.E.Hinton、P.Dayan、B.J.Frey和R.M.Neal,“无监督神经网络的唤醒睡眠算法”,《科学》,第268卷,第5214期,1995年,第1158-1161页。
[63] G.E.Hinton、S.Osindero和Y.W.Teh,“深度信念网络的快速学习算法”,《神经计算》,第18卷,第7期,2006年,第1527-1554页·Zbl 1106.68094号
[64] A.Holtzman、J.Buys、L.Du、M.Forbes和Y.Choi,“神经文本退化的奇怪案例”,载于2019年国际学习表征会议(ICLR)。
[65] K.Hu、Z.Ou、M.Hu和J.Feng,“用于序列标记的神经CRF传感器”,ICASSP,2019年。
[66] Z.Huang、W.Xu和K.Yu,“序列标记的双向lstm-crf模型”,arXiv:1508.01991年,2015年。
[67] P.Huembeli、J.M.Arrazola、N.Killoran、M.Mohseni和P.Wittek,“基于能量的模型的物理学”,量子机器智能,第4卷,第1期,2022年,第1页。
[68] A.Hyvärinen和P.Dayan,“通过分数匹配估计非标准化统计模型”,《机器学习研究杂志》,第6卷,第4期,2005年·Zbl 1222.62051号
[69] F.Jelinek,“用统计方法进行连续语音识别”,《IEEE学报》,第64卷,第4期,1976年,第532-556页。
[70] M.I.Jordan、Z.Ghahramani、T.S.Jaakkola和L.K.Saul,“图形模型变分方法简介”,机器学习,第37卷,1999年,第183-233页·Zbl 0945.68164号
[71] M.I.Jordan,“图形模型”,《统计科学》,第19卷,第1期,2004年,第140-155页·Zbl 1057.62001号
[72] M.Khalifa、H.Elsahar和M.Dymetman,“受控文本生成的分布式ap-proach”,学习表征国际会议,2021年。
[73] K.Kim、J.Oh、J.Gardner、A.B.Dieng和H.Kim,“马尔可夫链得分提升:具有马尔可夫梯度的变分推理统一框架”,《神经信息处理系统进展》,2022年。
[74] T.Kim和Y.Bengio,“基于能量的概率估计的深度定向生成模型”,ICLR研讨会,2016年。
[75] D.P.Kingma、M.Welling等人,“变分自动编码器简介”,机器学习中的基础和趋势®,第12卷,第4期,2019年,第307-392页。
[76] D.P.Kingma、D.J.Rezende、S.Mohamed和M.Welling,《深度生成模型的半监督学习》,NIPS,2014年。工具书类
[77] D.Koller和N.Friedman,概率图形模型:原理和技术。麻省理工学院出版社,2009年·Zbl 1183.68483号
[78] V.Kuleshov和S.Ermon,“无向图形模型中的神经变分推理和学习”,NIPS,2017年。
[79] J.Lafferty、A.McCallum和F.C.Pereira,“条件随机域:序列数据分割和标记的概率模型”,机器学习国际会议,2001年。
[80] S.Laine和T.Aila,“半监督学习的时间整合”,载于ICLR,2017年。
[81] G.Lample、M.Ballesteros、S.Subramanian、K.Kawakami和C.Dyer,《命名实体识别的神经架构》,NAACL-HLT,2016年。
[82] H.Larochelle、M.I.Mandel、R.Pascanu和Y.Bengio,“分类受限的Boltzmann ma-chine学习算法”,《机器学习研究杂志》,2012年第13卷第1期,第643-669页·Zbl 1283.68293号
[83] F.Liang、C.Liu和R.J.Carroll,“蒙特卡罗计算中的随机近似”,《美国统计协会杂志》,第102卷,第477期,2007年,第305-320页·Zbl 1226.65002号
[84] P.Liang和M.I.Jordan,“属、判别和伪似然估计量的渐近分析”,载于国际机器学习会议(ICML),第584-591页,2008年。
[85] W.Ling、C.Dyer、A.W.Black、I.Trancoso、R.Fermandez、S.Amir、L.Marujo和T.Luis,“在形式中寻找功能:开放词汇单词表示的合成字符模型”,EMNLP,2015年。
[86] H.Liu和Z.Ou,“探索具有不同结构和训练方法的基于能量的语音识别语言模型”,INTERSPEECH,2023年。
[87] J.S.Liu,科学计算中的蒙特卡罗策略,第10卷。斯普林格,2001年·Zbl 0991.65001号
[88] Y.Liu、M.Ott、N.Goyal、J.Du、M.Joshi、D.Chen、O.Levy、M.Lewis、L.Zettlemoyer和V.Stoyanov,“罗伯塔:一种稳健的优化伯特预训练方法”,ArXiv,第abs/1907.116922019卷。
[89] L.Lu、L.Kong、C.Dyer、N.A.Smith和S.Renals,“端到端语音识别的分段递归神经网络”,INTERSPEECH,2016年。
[90] C.Lüscher、E.Beck、K.Irie、M.Kitza、W.Michel、A.Zeyer、R.Schlüter和H.Ney,“图书馆的RWTH ASR系统:混合与注意力”,INTERSPEECH,2019年。
[91] Y.-A.Ma、T.Chen和E.Fox,《随机梯度mcmc的完整配方》,NIPS,2015年。
[92] X.Ma和E.Hovy,“通过双向LSTM-CNNs-CRF进行端到端序列标记”,载于ACL,2016年。
[93] Z.Ma和M.Collins,“条件模型的噪声对比估计和负抽样:一致性和统计效率”,EMNLP,2018年。
[94] D.J.MacKay,《信息理论、推理和学习算法》。剑桥大学出版社,2003年·兹比尔1055.94001
[95] M.Marcus、B.Santorini和M.A.Marcinkiewicz,“构建大型英语注释语料库:宾夕法尼亚树库”,1993年。
[96] S.Martin、J.Liermann和H.Ney,“二元和三元词聚类算法”,《语音通信》,第24卷,1998年,第19-37页。
[97] A.McCallum、D.Freitag和F.Pereira,“信息提取和分割的最大熵马尔可夫模型”,载于ICML,2000年。
[98] G.Mesnil、Y.Dauphin、K.Yao、Y.Bengio、L.Deng、D.Z.Hakkani-Tür、X.He、L.P.Heck、G.Tür、D.Yu和G.Zweig,“在口语理解中使用递归神经网络填补空缺”,IEEE/ACM Trans。《音频、语音和语言处理》,2015年第23卷,第530-539页。
[99] N.Miao,H.Zhou,L.Mou,R.Yan,L.Li,“CGMH:通过大都市-黑斯廷斯抽样生成的约束句子”,《AAAI人工智能会议论文集》,2019年。工具书类
[100] Y.Miao、M.Gowayyed和F.Metze,“EESEN:使用深度RNN模型和基于WFST的解码的端到端语音识别”,ASRU,2015年。
[101] T.Mikolov、S.Kombrink、L.Burget、J.H.Cernocky和S.Khudanpur,“递归神经网络语言模型的扩展”,国际声学、语音和信号处理会议(ICASSP),2011年。
[102] T.Mikolov、I.Sutskever、K.Chen、G.S.Corrado和J.Dean,“单词和短语的分布式表示及其组合”,摘自《神经信息处理系统的进展》,第3111-31119页,2013年。
[103] B.Millidge、Y.Song、T.Salvatori、T.Lukasiewicz和R.Bo-gacz,“基于能量模型的无穷小推理极限下的反向传播:统一预测编码、平衡传播和对比赫布学习”,国际机器学习会议,2023年。
[104] T.Minka,“分歧度量和消息传递”,微软研究技术报告,2005年。
[105] F.Mireshghallah、K.Goyal和T.Berg-Kirkpatrick,“混合与匹配:使用能量语言模型生成无需学习的可控文本”,《计算语言学协会第60届年会会议记录》(第1卷:长篇论文),2022年。
[106] T.Miyato、S.-i.Maeda、M.Koyama和S.Ishii,“虚拟广告-个性化培训:监督和半监督学习的正规化方法”,IEEE模式分析和机器智能交易,第41卷,第8期,2018年,第1979-1993页。
[107] M.Mohri、F.Pereira和M.Riley,“加权有限状态传感器的语音识别”,摘自《Springer语音处理手册》,Springer,2008年,第559-584页。
[108] L.-P.Morency、A.Quattoni和T.Darrell,“连续手势识别的潜在动态鉴别模型”,载于CVPR,2007年。
[109] Y.Mroueh、C.-L.Li、T.Sercu、A.Raj和Y.Cheng,“Sobolev GAN”,载于《国际劳工法》,2018年。
[110] K.P.Murphy,《机器学习:概率视角》。麻省理工学院出版社,2012年·Zbl 1295.68003号
[111] C.Naesseth、F.Lindsten和D.Blei,“Markovian分数爬升:用kl(p||q)进行变异推理”,《神经信息处理系统进展》,2020年。
[112] R.M.Neal,使用马尔可夫链蒙特卡罗方法的概率推断。加拿大多伦多大学计算机科学系,1993年。
[113] R.M.Neal,“MCMC使用哈密顿动力学”,《马尔可夫链蒙特卡罗手册》,2011年·Zbl 1229.65018号
[114] R.M.Neal和G.E.Hinton,“证明增量、稀疏和其他变体的em算法视图”,摘自《图形模型中的学习》,Springer,1998年,第355-368页·Zbl 0916.62019号
[115] R.M.Neal,“信念网络的连接学习”,《人工智能》,第56卷,1992年,第71-113页·Zbl 0761.68081号
[116] A.Ng和M.Jordan,“关于判别与生成分类:逻辑回归和朴素贝叶斯的比较”,《神经信息处理系统进展》,第14卷,2001年。
[117] J.Ngiam、Z.Chen、P.W.Koh和A.Y.Ng,“学习深层能量模型”,机器学习国际会议,2011年。
[118] S.Nowozin,“借记证据近似:关于重要性加权自动编码器和折刀变分推理”,学习表征国际会议,2018年。
[119] A.Oliver、A.Odena、C.Raffel、E.D.Cubuk和I.J.Goodfellow,“半监督学习算法的现实评估”,载于ICLR,2018年。
[120] M.Ostendorf,“连续空间语言处理:超越单词嵌入”,《国际统计语言和语音处理会议》,2016年。
[121] 欧中,“从图形建模的角度回顾深度生成模型的学习”,arXiv预印本arXiv:1808。01630, 2018. 工具书类
[122] 欧志浩和宋义勇,“联合随机近似及其在学习离散潜在变量模型中的应用”,载于《人工智能不确定性会议》,PMLR,第929-938页,2020年。
[123] 欧总和肖杰,“基于有限状态图的大词汇量语音识别解码研究”,第七届中国口语处理国际研讨会,2010年。
[124] V.Panayotov、G.Chen、D.Povey和S.Khudanpur,“Lib-rispeech:基于公共领域音频书籍的asr语料库”,IEEE声学、语音和信号处理国际会议(ICASSP),2015年。
[125] T.Parshakova、J.-M.Andreoli和M.Dymetman,“数据有效序列学习的全球自回归模型”,arXiv预印本arXiv:1909.070632019年。
[126] J.Pearl,《智能系统中的概率推理:似然推理网络》。摩根考夫曼,1988年。
[127] J.Peng、L.Bo和J.Xu,“条件神经场”,NIPS,2009年。
[128] J.Pennington、R.Socher和C.Manning,“手套:单词表征的全球矢量”,《自然语言处理经验方法会议》,第1532-1543页,2014年。
[129] S.D.Pietra、V.D.Pietra和J.Lafferty,“随机场的诱导特征”,IEEE Trans。模式分析和机器智能(PAMI),第19卷,1997年,第380-393页。
[130] V.Popov、I.Vovk、V.Gogoryan、T.Sadekova和M.Kudinov,“Grad-TTS:文本到语音的扩散概率模型”,《机器学习国际会议》,PMLR,第8599-86082021页。
[131] D.Povey、V.Peddenti、D.Galvez、P.Ghahremani、V.Manohar、X.Na、Y.Wang和S.Khudanpur,“基于无晶格MMI的ASR纯序列训练神经网络”,INTER-SPEECH,2016年。
[132] L.Qin、S.Welleck、D.Khashabi和Y.Choi,“冷解码:基于能量的受限文本生成与langevin动力学”,神经信息处理系统(NeurIPS)进展,2022年。
[133] L.R.Rabiner,“语音识别中的隐马尔可夫模型和选定应用教程”,《IEEE学报》,第77卷,第2期,1989年,第257-286页。
[134] A.Radford、K.Narasimhan、T.Salimans和I.Sutskever,“通过生成性预训练提高语言理解”,2018年。
[135] A.Radford,J.Wu,R.Child,D.Luan,D.Amodei,I.Sutskever等人,“语言模型是无监督的多任务学习者”,OpenAI博客,第1卷,第8期,2019年,第9页。
[136] C.Raffel、N.Shazeer、A.Roberts、K.Lee、S.Narang、M.Matena、Y.Zhou、W.Li和P.J.Liu,“使用统一的文本对文本转换器探索迁移学习的局限性”,《机器学习研究杂志》,第21卷,第140期,2020年,第1-67页。
[137] P.Rajpurkar、J.Zhang、K.Lopyrev和P.Liang,“小组:100000多个文本机器理解问题”,EMNLP,2016年。
[138] M.Ranzato、S.Chopra、M.Auli和W.Zaremba,“利用递归神经网络进行序列级训练”,国际学习表征会议(ICLR),2016年。
[139] A.Rasmus、H.Valpola、M.Honkala、M.Berglund和T.Raiko,《阶梯网络半监督学习》,NIPS,2015年。
[140] Y.Ren,C.Hu,X.Tan,T.Qin,S.Zhao,Z.Zhao和T.-Y.Liu,“快速语音2:快速高质量的端到端文本到语音转换”,arXiv预印本arXiv:2006.04582020。
[141] H.Robbins和S.Monro,“随机近似方法”,《数理统计年鉴》,1951年,第400-407页·Zbl 0054.05901号
[142] G.O.Roberts和J.S.Rosenthal,“自适应mcmc的示例”,《计算与图形统计杂志》,第18卷,第2期,2009年,第349-367页。
[143] G.O.Roberts和R.L.Tweedie,“朗之万分布及其离散近似的指数收敛性”,伯努利,第2卷,1996年,第341-363页·Zbl 0870.60027号
[144] R.Rosenfeld、S.F.Chen和X.Zhu,“全句指示语言模型:语言-统计集成工具”,《计算机语音与语言》,第15卷,2001年,第55-73页。工具书类
[145] T.Ruokolainen、T.Alumae和M.Dobrinkat,“在语音识别的整个句子最大熵语言模型中使用依赖语法特征”,波罗的海HLT,2010年。
[146] S.Russell和P.Norvig,《人工智能:现代应用程序》(第3版)。上鞍河,普伦蒂斯·霍尔,2010年。
[147] R.Salakhutdinov和G.Hinton,“Deep Boltzmann机器”,《机器学习研究杂志》,2009年第5卷第2期,1967-2006页。
[148] R.Salakhutdinov,“学习深层生成模型”,多伦多大学博士论文,2009年。
[149] T.Salimans、I.Goodfellow、W.Zaremba、V.Cheung、A.Radford和X.Chen,“训练GANs的改进技术”,NIPS,2016年。
[150] S.Sarawagi和W.W.Cohen,“信息提取的Semi-Markov条件Ran-dom字段”,NIPS,2004年。
[151] R.Sarikaya、S.F.Chen、A.Sethy和B.Ramabhadran,“基于收缩的语言模型的单词分类不真实”,国际语音通信协会第十一届年会,2010年。
[152] I.Sato和H.Nakagawa,“利用福克普朗克方程和ito过程对随机梯度朗之万动力学进行近似分析”,ICML,2014年。
[153] K.Sato和Y.Sakakibara,“条件随机场的RNA二级结构比对”,《生物信息学》,第21卷,2005年,第237-42页。
[154] L.K.Saul、T.Jaakkola和M.I.Jordan,“乙状结肠信念网络的平均场理论”,《人工智能研究杂志》,第4卷,第1期,1996年,第61-76页·Zbl 0900.68379号
[155] B.Scellier和Y.Bengio,“平衡传播:弥合基于能量的模型和反向传播之间的差距”,计算神经科学前沿,2017年第11卷,第24页。
[156] H.Schwenk,“连续空间语言模型”,《计算机语音与语言》,第21卷,2007年,第492-518页。
[157] H.Scudder,“一些自适应模式识别机器的错误概率”,IEEE信息技术汇刊,第11卷,第3期,1965年,第363-371页·Zbl 0133.12704号
[158] N.Shazeer、J.Pelemans和C.Chelba,“跳过图的稀疏非负矩阵语言建模”,INTERSPEECH,2015年。
[159] A.Sögaard和Y.Goldberg,“深层多任务学习,低层监督低水平任务”,载于ACL,第231-235页,2016年。
[160] K.Sohn、D.Berthelot、C.-L.Li等人,“FixMatch:以一致性和信心简化半监督学习”,arXiv:2001.07682020。
[161] Q.Song,M.Wu和F.Liang,“种群与单链随机近似mcmc算法的弱收敛率”,《应用概率进展》,第46卷,第4期,2014年,第1059-1083页·兹比尔1305.60065
[162] 宋彦和欧振中,“使用包含辅助生成器学习神经随机场”,arXiv预印本arXiv:1806.002712018。
[163] Y.Song、Z.Ou、Z.Liu和S.Yang,“将CRF升级为JRF及其对序列建模和标记的益处”,ICASSP,2020年。
[164] Y.Song,H.Zheng,and Z.Ou,“通过基于能量的模型对领域认知半监督学习进行联合训练和预训练的实证比较”,载于IEEE International Work-shop on Machine learning for Signal Processing(MLSP),2021年。
[165] J.T.Springenberg,“无监督和半监督学习与分类生成对抗网络”,ICML,2016年。
[166] N.Srivastava、G.Hinton、A.Krizhevsky、I.Sutskever和R.Salakhutdinov,“辍学:防止神经网络过度拟合的简单方法”,机器学习研究杂志,2014年·Zbl 1318.68153号
[167] W.Sun、Z.Tu和A.Ragni,“基于能量的语音合成模型”,arXiv预印本arXiv:2310.127652023。
[168] M.Sundermeyer、R.Schlüter和H.Ney,“语言建模的Lstm神经网络”,INTERSPEECH,第194-197页,2012年。
[169] I.Sutskever、O.Vinyals和Q.V.Le,“神经网络的序列到序列学习”,《神经信息处理系统进展》,第27卷,2014年。工具书类
[170] C.Sutton,A.McCallum等人,“条件随机场简介”,机器学习中的基础和趋势®,第4卷,第4期,2012年,第267-373页·Zbl 1253.68001号
[171] Z.Tan,“最优调整混合抽样和局部加权直方图分析”,《计算与图形统计杂志》,2017年第26卷,第54-65页。
[172] A.Tarvainen和H.Valpola,“平均教师是更好的角色模型:加权一致性目标改善了半监督的深度学习结果”,NIPS,2017年。
[173] L.Theis、A.V.Den Oord和M.Bethge,“关于生成模型评估的注释”,ICLR,2016。
[174] T.Tieleman,“使用似然梯度近似值训练限制Boltzmann机器”,ICML,2008年。
[175] S.Toshniwal、A.Kannan等,《编解码器语音识别中语言模型集成技术的比较》,SLT,2018年。
[176] L.Tu和K.Gimpel,“学习用于结构化预测的近似推理网络”,载于ICLR,2018年。
[177] Z.Tüske、K.Audhkhasi和G.Saon,“推进基于序列的语音识别”,INTERSPEECH,2019年。
[178] E.Variani、K.Wu、M.D.Riley、D.Rybach、M.Shannon和C.Allauzen,“模块化框架中流式语音识别的全球标准化”,《神经信息处理系统进展》,第35卷,2022年,第4257-4269页。
[179] A.Vaswani、N.Shazeer、N.Parmar、J.Uszkoreit、L.Jones、A.N.Gomez,Ł。Kaiser和I.Polosukhin,“注意力是你所需要的”,《神经信息处理系统进展》,2017年。
[180] M.J.Wainwright、M.I.Jordan等人,“图形模型、指数族和变分推理”,《机器学习中的基础和趋势》,第1卷,第1-2期,2008年,第1-305页·兹比尔1193.62107
[181] A.Wang和K.Cho,“BERT有嘴,它必须说:BERT作为马尔可夫随机场语言模型”,发表于2019年优化和评估神经语言生成方法研讨会论文集。
[182] A.Wang、A.Singh、J.Michael、F.Hill、O.Levy和S.R.Bowman,“GLUE:自然语言理解的多任务基准和分析平台”,国际学习表征会议(ICLR),2019年。
[183] B.Wang,“基于跨维随机场的统计语言模型”,清华大学博士论文,2018年。
[184] B.Wang和Z.Ou,“神经跨维随机场的语言建模”,IEEE自动语音识别和理解研讨会(ASRU),2017年。
[185] B.Wang和Z.Ou,“利用动态噪声对比估计改进神经跨维随机场语言模型的训练”,IEEE口语技术研讨会(SLT),2018年。
[186] B.Wang和Z.Ou,“利用噪声对比估计学习神经跨维ran-dom场语言模型”,ICASSP,2018年。
[187] B.Wang、Z.Ou、Y.He和A.Kawamura,“语音识别用跨维随机场语言模型的模型插值”,arXiv预印本arXiv:1603.091702016年。
[188] B.Wang、Z.Ou和Z.Tan,“语言建模的跨维随机场”,《计算语言学协会第53届年会和第七届国际自然语言处理联合会议论文集》(第1卷:长篇论文),第785-794页,2015年。
[189] B.Wang,Z.Ou,and Z.Tan,“学习跨维ran-dom字段及其在语言建模中的应用”,IEEE模式分析和机器智能跨域作用,第40卷,第4期,2018年,第876-890页。
[190] M.Welling和Y.W.Teh,“通过随机梯度Langevin动力学进行贝叶斯学习”,ICML,2011年。
[191] R.J.Williams和D.Zipser,“连续运行全递归神经网络的学习算法”,《神经计算》,第1卷,第2期,1989年,第270-280页。
[192] S.Wiseman和A.M.Rush,“序列对序列学习作为波束搜索优化”,EMNLP,2016年。
[193] H.Xiang和Z.Ou,“基于CRF的CTC拓扑单级声学建模”,载于ICASSP,第5676-5680页,2019年。
[194] J.Xie,Y.Lu,R.Gao,S.-C.Zhu,Y.N.Wu,“描述符和生成器网络的合作训练”,IEEE模式分析和机器智能交易,第42卷,第1期,2018年,第27-45页。
[195] 谢敬杰、鲁彦、朱世昌、吴彦,“生成性转换网络理论”,载《信息与传播》,2016年。
[196] H.Xu和Z.Ou,“亥姆霍兹机器的联合随机近似学习”,ICLR车间轨道,2016年。
[197] L.Younes,“不完全观测吉布斯场的参数推断”,概率论和相关领域,第82卷,1989年,第625-645页·Zbl 0659.62115号
[198] F.Yu、Z.Yao、X.Wang、K.An、L.Xie、Z.Ou、B.Liu、X.Li和G.Miao,“第2021届儿童语音识别挑战:开放数据集、规则和基线”,IEEE口语技术研讨会,2021年。
[199] W.Zaremba、I.Sutskever和O.Vinyals,“递归神经网络正则化”,arXiv:1409.23292014年。
[200] A.Zeyer、E.Beck、R.Schlüter和H.Ney,“广义全套HMM培训背景下的CTC”,INTERSPEECH,2017年。
[201] B.Zhang,H.Lv,P.Guo,Q.Shao,C.Yang,L.Xie,X.Xu,H.Bu,X.Chen,C.Zeng,D.Wu,Z.Peng,“Wenetspeech:用于语音识别的10000+小时多域普通话语料库”,国际声学、语音和信号处理会议(ICASSP),2022年。
[202] L.Zhang、D.M.Blei和C.A.Naesseth,“传输分数爬升:使用正向kl和自适应神经传输的变异推理”,arXiv预印本arXiv:22022.018412022。
[203] T.Zhang、V.Kishore、F.Wu、K.Q.Weinberger和Y.Artzi,“伯特斯科尔:用伯特评估文本生成”,国际学习表征会议,2020年。
[204] X.Zhang、Z.Tan和Z.Ou,“持续训练、扩散辅助的基于能量的模型”,《统计》,2023年。
[205] Y.Zhang、X.Sun、S.Ma、Y.Yang和X.Ren,“高阶LSTM在分割和标记序列数据方面有更好的准确性吗?”,COLING,2018年。
[206] Y.Zhang、Z.Ou、M.Hu和J.Feng,《半监督学习潜在信念状态的概率端到端任务导向对话模型》。自然语言处理经验方法会议(EMNLP),2020年。
[207] S.Zhao、J.-H.Jacobsen和W.Grathwohl,“半监督分类的基于能量的联合模型”,ICML深度学习中的不确定性和稳健性研讨会,2020年。
[208] H.Zheng、K.An和Z.Ou,“通过直通梯度搜索端到端语音识别的高效神经架构”,2021年IEEE口语技术研讨会(SLT),2021年。
[209] H.Zheng、K.An、Z.Ou、C.Huang、K.Ding和G.Wan,“基于换能器的语音识别语言模型集成的实证研究”,INTERSPEECH,2022年。
[210] H.Zheng,W.Peng,Z.Ou,and J.Zhang,“利用单词和构造器推进基于ctc-crf的端到端语音识别”,arXiv预印本arXiv:2107.030072021。
[211] C.Zhu,K.An,H.Zheng,and Z.Ou,“使用基于语音矢量的电话嵌入的多语言和跨语言语音识别”,IEEE自动语音识别和独立研讨会(ASRU),2021年。
[212] X.Zhu,“半监督学习文献调查”,技术报告,威斯康星大学麦迪逊分校,2006年。
[213] Y.Zhu、R.Kiros、R.Zemel、R.Salakhutdinov、R.Urtasun、A.Torralba和S.Fidler,“调整书籍和电影:通过观看电影和阅读书籍实现故事般的视觉解释”,《IEEE计算机视觉国际会议论文集》,2015年第19-27页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。