×

通过贪婪搜索从大数据中学习贝叶斯网络:计算复杂性和高效实现。 (英语) Zbl 1430.62275号

摘要:从数据中学习贝叶斯网络的结构是一个具有计算挑战性的NP难题。长期以来,由于人们对系统生物学和遗传学中的高维应用(“小(n,)大(p)”)普遍感兴趣,文献研究了如何从包含大量变量的数据中进行结构学习。最近,具有大量观察结果的数据集(所谓的“大数据”)变得越来越普遍;而且这些数据集不一定是高维的,根据应用程序的不同,有时只有几十个变量。在此背景下,我们重新审视了贝叶斯网络结构学习的计算复杂性,表明通常选择用估计的局部分布数来衡量它,导致对最常见的基于分数的算法类别贪婪搜索的时间复杂性估计不切实际。然后,我们在常见分布假设下推导出更准确的表达式。这些表达式表明,通过利用局部分布的闭式估计的可用性,可以提高贝叶斯网络学习的速度。此外,我们发现使用预测性而不是样本内的优秀分数可以提高速度;我们证实,它也提高了网络重建的准确性,正如前面通过D.M.Chickering博士D.赫克曼[《贝叶斯模型选择的科学和工程标准比较》,同上,第10号,第55–62页(2000年;doi:10.1023/a:1008936501289)]. 我们在大量真实环境和流行病学数据上证明了这些结果;以及公共存储库中可用的参考数据集。

MSC公司:

62兰特 大数据和数据科学的统计方面
68T05型 人工智能中的学习和自适应系统
62-08 统计问题的计算方法
62页第10页 统计学在生物学和医学科学中的应用;元分析
62页第12页 统计在环境和相关主题中的应用
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Allen,T.V.,Greiner,R.:学习信念网络的模型选择标准:实证比较。摘自:《第17届国际机器学习会议(ICML)论文集》,第1047-1054页(2000)
[2] Baldi,P.、Sadowski,P.和Whiteson,D.:用深度学习在高能物理中搜索外来粒子。《自然通讯》5(4308),(2014)。https://doi.org/10.1038/ncomms5308
[3] Baldi,P.、Cranmer,K.、Faucett,T.、Sadowski,P.和Whiteson,D.:高能物理参数化神经网络。欧元。物理学。J.C 76、235(2016)·doi:10.1140/epjc/s10052-016-4099-4
[4] Bollobás,B.,Borgs,C.,Chayes,J.,Riordan,O.:有向无标度图。摘自:第14届ACM-SIAM离散算法年会论文集,第132-139页(2003)·Zbl 1094.68605号
[5] Böttcher,S.G.:学习混合变量的贝叶斯网络。摘自:第八届人工智能与统计国际研讨会论文集(2001年)
[6] Campos,L.M.D.,Fernández-Luna,J.M.,Gámez,J.A.,Puerta,J.M:学习贝叶斯网络的蚁群优化。国际期刊近似原因。31(3), 291-311 (2002) ·Zbl 1033.68091号 ·doi:10.1016/S0888-613X(02)00091-9
[7] Chickering,D.M.:等效贝叶斯网络结构的转换特征。收录于:《第11届人工智能不确定性会议论文集》,第87-98页(1995年)
[8] 起皱,DM;Fisher,D.(编辑);Lenz,H.(编辑),《学习贝叶斯网络是NP-complete》,121-130(1996),柏林·doi:10.1007/978-1-4612-2404-4_12
[9] Chickering,D.M.:贪婪搜索的最优结构识别。J.马赫。学习。第3507-554号决议(2002年)·兹比尔1084.68519
[10] Chickering,D.M.和Heckerman,D.:学习贝叶斯网络是NP-hard。微软公司技术代表MSR-TR-94-17(1994)·Zbl 1222.68169号
[11] Chickering,D.M.,Heckerman,D.:贝叶斯模型选择的科学和工程标准比较。统计计算。10, 55-62 (2000) ·doi:10.1023/A:1008936501289
[12] Chickering,D.M.,Heckerman,D.,Meek,C.:贝叶斯网络的大样本学习是NP-hard。J.马赫。学习。第5号决议,1287-1330(2004年)·Zbl 1222.68169号
[13] Claassen,T.、Mooij,J.M.、Heskes,T.:学习稀疏因果模型不是NP-hard。摘自:《第29届人工智能不确定性会议论文集》,第172-181页(2013)
[14] Cooper,G.,Herskovits,E.:从数据中归纳概率网络的贝叶斯方法。机器。学习。9, 309-347 (1992) ·Zbl 0766.68109号
[15] Cowell,R.:条件独立性和评分方法导致贝叶斯网络模型相同选择的条件。摘自:《第17届人工智能不确定性会议论文集》,第91-97页(2001年)
[16] Cussens,J.:使用切割平面的贝叶斯网络学习。摘自:《第27届人工智能不确定性会议论文集》,第153-160页(2012)
[17] Dawid,A.P.:现状和潜在发展:一些个人观点:统计理论:优先方法。J.R.统计社会服务。A 147(2),278-292(1984)·Zbl 0557.62080号 ·电话:10.2307/2981683
[18] Dempster,A.P.,Laird,N.M.,Rubin,D.B.:通过EM算法获得不完整数据的最大似然。J.R.统计社会服务。B 39(1),1-38(1977)·Zbl 0364.62022号
[19] Dheeru D,Karra Taniskidou E(2017)UCI机器学习库。http://archive.ics.uci.edu/ml
[20] Draper,N.R.,Smith,H.:应用回归分析,第3版。威利,伦敦(1998)·Zbl 0895.62073号 ·doi:10.1002/978111862590
[21] Elidan,G.:Copula贝叶斯网络。收录人:Lafferty JD、Williams CKI、Shawe-Taylor J、Zemel RS、Culotta A(eds)Advances In Neural Information Processing Systems 23,pp.559-567(2010)
[22] Fonollosa,J.、Sheik,S.、Huerta,R.、Marco,S.:储层计算可补偿连续监测中暴露于快速变化气体浓度的化学传感器阵列的缓慢响应。传感器执行器B:化学。215, 618-629 (2015) ·doi:10.1016/j.snb.2015年3月28日
[23] 弗里德曼,N.:在缺失值和隐藏变量存在的情况下学习信念网络。摘自:《第十四届机器学习国际会议(ICML)论文集》,第125-133页(1997)
[24] Friedman,N.,Koller,D.:关于网络结构的贝叶斯主义:贝叶斯网络中结构发现的贝叶斯主义方法。机器。学习。50, 95-125 (2003) ·Zbl 1033.68104号 ·doi:10.1023/A:1020249912095
[25] Geiger,D.,Heckerman,D.:学习高斯网络。摘自:《第十届人工智能不确定性会议论文集》,第235-243页(1994)
[26] Gillispie,S.,Perlman,M.:非循环有向图模型的马尔可夫等价类的大小分布。Artif公司。智力。14, 137-155 (2002) ·Zbl 1043.68096号 ·doi:10.1016/S0004-3702(02)00264-3
[27] Glover,F.,Laguna,M.:禁忌搜索。柏林施普林格(1998)·Zbl 0930.90083号
[28] Goldenberg,A.,Moore,A.:从稀疏数据中跟踪学习大型贝叶斯网络结构。摘自:《第21届机器学习国际会议论文集》,第44-52页(2004年)
[29] Goodfellow,I.,Bengio,Y.,Courville,A.:深度学习。麻省理工学院出版社,剑桥(2016)·Zbl 1373.68009号
[30] Harary,F.,Palmer,E.M.:图形枚举。爱丁堡学术出版社(1973)·Zbl 0266.05108号
[31] Heckerman,D.,Geiger,D.,Chickering,D.M.:学习贝叶斯网络:知识与统计数据的结合。机器学习20(3):197-243,作为技术报告MSR-TR-94-09(1995)提供·Zbl 0831.68096号
[32] JSM,数据公开会议(2009),航空公司准时性能。http://stat-computing.org/dataexpo/200/
[33] Kalisch,M.,Bühlmann,P.:用PC-算法估计高维有向非循环图。J.马赫。学习。第8613-636号决议(2007年)·Zbl 1222.68229号
[34] Karan,S.、Eichhorn,M.、Hurlburt,B.、Iraci,G.、Zola,J.:机器学习应用中的快速计数。摘自:第34届人工智能不确定性会议记录,第540-549页(2018年)
[35] Larranaga,P.,Poza,M.,Yurramendi,Y.,Murga,R.H.,Kuijpers,C.M.H.:用遗传算法学习贝叶斯网络的结构:控制参数的性能分析。IEEE传输。模式分析。机器。智力。18(9), 912-926 (1996) ·doi:10.1109/34.537345
[36] Lauritzen,S.L.,Wermuth,N.:变量之间关联的图形模型,其中一些是定性的,一些是定量的。Ann.Stat.17(1),31-57(1989)·Zbl 0669.62045号 ·doi:10.1214/aos/1176347003
[37] Moore,A.,Lee,M.S.:利用大型数据集缓存足够的统计信息以实现高效的机器学习。J.阿蒂夫。智力。第867-91号决议(1998年)·兹伯利0894.68119 ·doi:10.1613/jair.453
[38] Moral,S.,Rumi,R.,Salmerón,A.:混合贝叶斯网络中截断指数的混合。In:《不确定性推理的符号和定量方法》(ECSQARU),Springer,计算机科学课堂讲稿,第2143卷,第156-167页(2001)·Zbl 1001.68544号
[39] Pearl,J.:《智能系统中的概率推理:合理推理网络》。Morgan Kaufmann(1988)·Zbl 0746.68089号
[40] Peña,J.M.、Björkegren,J.、Tegnèr,J.:通过交叉验证学习动态贝叶斯网络模型。Patter识别。莱特。26, 2295-2308 (2005) ·doi:10.1016/j.patrec.2005.04.005
[41] Russell,S.J.,Norvig,P.:《人工智能:现代方法》,第3版。普伦蒂斯·霍尔(Prentice Hall),恩格尔伍德悬崖(Englewood Cliffs)(2009年)·Zbl 0835.68093号
[42] Scanagatta,M.,de Campos,C.P.,Corani,G.,Zaffalon,M.:学习具有数千个变量的贝叶斯网络。高级神经信息处理。系统。28, 1864-1872 (2015)
[43] Schwarz,G.:估算模型的维数。Ann.Stat.6(2),461-464(1978)·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[44] Scutari,M.:使用bnlearn R包学习贝叶斯网络。J.统计软件。35(3), 1-22 (2010) ·doi:10.18637/jss.v035.i03
[45] Scutari,M.:贝叶斯网络基于约束的结构学习算法:bnlearn R包中的并行和优化实现。J.统计软件。77(2), 1-20 (2017) ·doi:10.18637/jss.v077.i02
[46] Scutari,M.,Denis,J.B.:贝叶斯网络及其在R.Chapman&Hall中的实例,伦敦(2014)·Zbl 1341.62025号 ·doi:10.1201/b17065
[47] Seber,G.A.F.:统计员矩阵手册。威利,纽约(2008)·兹比尔1143.15001
[48] Spites,P.,Glymour,C.,Scheines,R.:因果关系、预测和搜索,第二版。麻省理工学院出版社,剑桥(2001)·Zbl 0806.62001 ·doi:10.7551/mitpress/1754.001.0001
[49] 铃木,J.:一种有效的贝叶斯网络结构学习策略。N.通用。计算。35(1),105-124(2017)·Zbl 1442.68205号 ·doi:10.1007/s00354-016-0007-6
[50] Tsamardinos,I.,Brown,L.E.,Aliferis,C.F.:最大最小爬山贝叶斯网络结构学习算法。机器。学习。65(1),31-78(2006)·Zbl 1470.68192号 ·doi:10.1007/s10994-006-6889-7
[51] Vitolo,C.、Scutari,M.、Ghalaieny,M.,Tucker,A.、Russell,A.:使用贝叶斯网络模拟空气污染、气候和健康数据:英国地区的案例研究。提交的地球与空间科学5(2018年)
[52] Weatherburn,C.E.:数理统计第一课程。剑桥大学出版社,剑桥(1961)·Zbl 0111.15205号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。