×

维特比在PRISM培训。 (英语) Zbl 1379.68272号

摘要:VT(维特比训练)或硬期望最大化(EM)是一种有效的隐变量概率模型参数学习方法。给定一个观察值(y),它通过参数(θ)和(x)上的坐标上升来搜索隐藏变量(x)的状态,从而最大化(p(x,y中θ)。本文将VT引入统计建模中的PRogramming(PRISM),PRISM是一个用于生成模型的基于逻辑的概率建模系统。VT通过三种方式改进了PRISM。首先,由于VT的终止条件,PRISM中的VT比PRISM中的EM收敛得更快。其次,与EM相比,VT学习的参数通常表现出良好的预测性能。我们使用概率文法进行了两次解析实验,同时使用多种推理方法(即VT、EM、MAP和VB)学习参数。结果是,VT在这两个实验中均获得了最佳的解析精度。此外,我们对分类任务进行了类似的实验,其中隐藏变量不像概率文法那样是预测目标。我们发现,在这种情况下,VT不一定会产生优异的性能。第三,由于VT总是处理单个解释的单一概率,即Viterbi解释,如果我们通过VT学习参数,就不再需要对PRISM程序施加排他性条件。最后但并非最不重要的是,我们可以说,由于PRISM中的VT是通用的,适用于任何PRISM节目,它大大减少了用户为特定模型开发特定VT算法的需要。此外,由于可以通过适当设置PRISM标志来使用PRISM中的VT,因此它使(概率)逻辑程序员很容易访问VT。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 巴切。和LichmanM.2013。UCI机器学习库[网址:http://archiveics.uci.edu/ml]. 加利福尼亚州欧文:加利福尼亚大学信息与计算机科学学院。
[2] 贝洛迪。和Riguzzi F.2012。概率逻辑程序二进制决策图上的期望最大化。智能数据分析16、6。
[3] 棕色P。,彼得拉夫。,皮埃特拉斯。和MercerR.1993。统计机器翻译的数学:参数估计。计算语言学19263-311。
[4] 卡斯蒂略。和《2005年伽马期刊》。贝叶斯网络分类器的偏差管理。《发现科学-DS 2005》,第八届国际会议,新加坡,人工智能讲义,第3735卷。Springer-Verlag,纽约州纽约市,70-83。
[5] 科恩斯。和SmithN.2010。PCFGs的维特比训练:均匀初始化的硬度结果和竞争力。计算语言学协会(ACL’10)第48届年会会议记录。1502-1511.
[6] De RaedtL公司。和Kersting K.2008。概率归纳逻辑编程。《概率归纳逻辑程序设计理论与应用》,L.DeRaedt、P.Frasconi、K.Kersting和S.Muggleton编辑,《计算机科学讲义》,第4911卷。纽约州纽约州施普林格市,1-27.10.1007/978-3-540-78652-8_1·Zbl 1137.68530号 ·doi:10.1007/978-3-540-78652-8_1
[7] De RaedtL.公司。,Kimmig公司。和Toivonen H.2007。ProbLog:一种概率Prolog及其在链路发现中的应用。《第20届国际人工智能联合会议论文集》(IJCAI'07)。麻省理工学院出版社,马萨诸塞州剑桥,2468-2473。
[8] 弗里德曼。,盖革D。和GoldszmidtM.1997。贝叶斯网络分类器。机器学习29,2,131-163.10.1023/A:1007465528199·Zbl 0892.68077号 ·doi:10.1023/A:1007465528199
[9] GetoorL.和TaskarB。,2007年版。统计关系学习导论。麻省理工学院出版社,马萨诸塞州剑桥·Zbl 1141.68054号
[10] 古德曼J.1996。解析算法和度量。《计算语言学协会第34届年会论文集》(ACL'96)。ACL,纽约州纽约市,177-183。
[11] 古特曼。,Kimmig公司。,科斯廷K。和De RaedtL.2008。概率数据库中的参数学习:最小二乘法。《欧洲数据库机器学习和知识发现会议论文集》(ECML/PKDD 2008),第一部分,施普林格,纽约州纽约市,473-488。
[12] 古特曼B。,ThonI公司。和De RaedtL.2011。从解释中学习概率逻辑程序的参数。《欧洲数据库机器学习和知识发现会议论文集》(ECML/PKDD 2011),第一部分,LNCS,第6911卷。施普林格,纽约州纽约市,581-596。
[13] HuynhT公司。和MooneyR.2010。马尔可夫逻辑网络在线最大边缘权值学习。AAAI-10统计关系人工智能研讨会论文集(Star-AI 10)。32-37.
[14] 贾普科维奇。和沙姆。,2011年版。评估学习算法:分类视角。剑桥大学出版社,英国剑桥·Zbl 1230.68020号
[15] 姜瑜。,张华。和财资.2009。一种新的贝叶斯模型:隐藏的朴素贝叶斯。IEEE知识与数据工程汇刊21,10,1361-1371.10.1109/TKDE.2008.234·doi:10.1109/TKDE.2008.234
[16] 乔希博士。,LiJ公司。王J.2006。一种计算效率高的估计二维和三维隐马尔可夫模型的方法。IEEE图像处理汇刊15,7,1871-1886.10.1109/TIP.2006.87703916830909·Zbl 1296.94033号 ·doi:10.1109/TIP.2006.877039
[17] JuangB公司。和拉宾L.1990。隐马尔可夫模型参数估计的分段K-均值算法。IEEE信号处理汇刊381639-1641.10.1109/29.60082·Zbl 0708.62076号 ·doi:10.1109/29.60082
[18] Kimmig公司。,CostaV.公司。,罗查尔。,德梅森B。和De RaedtL.2008。关于ProbeLog程序的有效执行。在第24届逻辑程序设计国际会议(ICLP’08)的会议记录中。175-189. ·Zbl 1185.68162号
[19] LemberJ.和KoloydenkoA.2007年。调整了维特比训练。工程和信息科学中的概率21,3,451-475.10.1017/S0269964807000083S02699964807000083·Zbl 1120.62075号 ·doi:10.1017/S0269964807000083
[20] LomsadzeA、。,Ter-HovhannisyanV.、。,切尔诺夫。和BorodovskyM.2005。通过自训练算法识别新真核基因组中的基因。核酸研究33,6494-6506.10.93/nar/gki93716314312·数字对象标识代码:10.1093/nar/gki937
[21] MacQueenJ.1967年。多元观测值分类和分析的一些方法。第五届伯克利数理统计与概率研讨会论文集,第1卷。281-297. ·Zbl 0214.46201号
[22] 曼宁C.1997。使用左角语言模型的概率分析。第五届解析技术国际会议论文集(IWPT-97)。麻省理工学院出版社,马萨诸塞州剑桥,147-158。
[23] 里古兹。和SwiftT.2011。PITA系统:不确定性推理的表格和答案包容。逻辑程序设计理论与实践(TPLP)11,4-5,433-449.10017/S14710684110010X·Zbl 1218.68169号 ·文件编号:10.1017/S14710684110010X
[24] 罗克B。和JohnsonM.1999。高效的概率自顶向下和左角解析。在计算语言学协会第37届年会的会议记录中。421-428.
[25] 1995年星期六。具有分布语义的逻辑程序的统计学习方法。第十二届逻辑程序设计国际会议(ICLP’95)论文集。剑桥大学出版社,英国剑桥,715-729。
[26] 2007年星期六。信念传播的内外概率计算。《第20届国际人工智能联合会议论文集》(IJCAI'07)。2605-2610.
[27] 2011年星期六。基于逻辑的概率建模中贝叶斯推理的通用MCMC方法。第22届国际人工智能联合会议论文集(IJCAI’11)。1472-1477.
[28] 佐藤。和KameyaY.2001。符号统计建模逻辑程序的参数学习。《人工智能研究杂志》15,391-454·Zbl 0994.68025号
[29] 佐藤。和KameyaY.2008。PRISM基于逻辑的概率建模的新进展。在概率归纳逻辑编程中,L.De Raedt、P.Frasconi、K.Kersting和S.Muggleton,LNAI编辑,第4911卷。纽约州纽约州施普林格市,118-155.10.1007/978-3-540-78652-8·Zbl 1132.68007号 ·doi:10.1007/978-3-540-78652-8
[30] 周六。,卡梅亚。和KuriharaK.2009。基于PRISM中命题概率计算的变分贝叶斯算法。数学与人工智能年鉴54,135-158·Zbl 1178.68591号
[31] 辛拉普。和Domingos P.2005。马尔可夫逻辑网络的判别训练。在《第二十届全国人工智能会议论文集》(AAAI-05)中,M.M.Veloso和S.Kambhampati,Eds.Kluwer,荷兰,868-873。
[32] 斯皮特科夫斯基。,阿尔沙维。,朱拉夫斯基D。和ManningC.2010。维特比训练改进了无监督依赖解析。第十四届计算自然语言学习会议论文集。9-17.
[33] 斯特罗姆。,赫瑟林顿。,哈森特。,桑德斯E。和GlassJ.1999。基于分段的语音识别器中的声学建模改进。在IEEE ASRU研讨会论文集(ASRU’99)中。IEEE信号处理协会,139-142。
[34] SuJ公司。和ZhangH.2006。全贝叶斯网络分类器。在《第23届国际机器学习大会论文集》(ICML'06)上。897-904.
[35] 乌拉塔尼亚。,武扎瓦。,松下。和MoritaC.1994。ATR集成语音和语言数据库。技术报告TR-IT-0056,ATR解释电信研究实验室,日本京都。(日语)。
[36] 范·尤瑟尔。,范·孔波勒(Van CompernolleD)。和WambacqP.2001。基于PLCG语言模型的最大似然训练。IEEE自动语音识别与理解研讨会(ASRU'01)会议记录。IEEE信号处理协会,210-213。
[37] 网站。,布顿J。和Wang Z.2005。不那么天真的贝叶斯:聚合单依赖估计量。机器学习58,1,5-24.10.1007/s10994-005-4258-6·Zbl 1075.68078号 ·doi:10.1007/s10994-005-4258-6
[38] 周恩-F.、KameyaY。和SatoT.2010。用于动态编程、机器学习和约束求解的模式定向表。第22届人工智能工具国际会议论文集(ICTAI-2010)。IEEE计算机学会,213-218。
[39] 周恩-F.,佐藤。和ShenY-D.2008年。线性列表策略和优化。逻辑程序设计理论与实践(TPLP)8,1,81-109·兹比尔1128.68018
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。