×

二元成对马尔可夫网络的高维结构学习:一项比较数值研究。 (英语) Zbl 1507.62144号

摘要:从数据中学习马尔可夫网络的无向图结构是近几十年来备受关注的问题。由于模型类的普遍适用性,在几个研究领域中并行开发了大量方法。最近,随着所考虑系统规模的增加,新方法的重点已转向高维领域。特别是,伪似然函数的引入,推动了基于分数的方法的局限性,这些方法最初是基于似然函数。同时,为了应对计算生物学中日益庞大的数据集带来的挑战,已经开发了基于简单成对测试的方法。除了适用于高维问题外,基于伪似然检验和成对检验的方法从根本上来说是非常不同的。为了比较不同类型方法的准确性,对二进制成对马尔可夫网络生成的数据进行了广泛的数值研究。提出了一种基于受限玻尔兹曼机的可并行吉布斯采样器,作为一种从稀疏高维网络中有效采样的工具。研究结果表明,在高维结构学习应用中经常遇到的情况下,成对方法比伪似然方法更准确。

MSC公司:

62-08 统计学相关问题的计算方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Alanis-Lobato,G.,CNM-用于构建人工复杂网络的Matlab工具箱(2014),https://se.mathworks.com/matlabcentral/fileexchange/45734-cnm
[2] Barabási,A.-L。;Albert,R.,《随机网络中尺度的出现》,《科学》,286,5439,509-512(1999)·Zbl 1226.05223号
[3] Barber,R.F。;Drton,M.,《贝叶斯信息准则下的高维伊辛模型选择》,Electron。J.Stat.,9,1,567-607(2015)·Zbl 1309.62050号
[4] Besag,J.,《非晶格数据的统计分析》,J.R.Stat.Soc.Ser。D.Stat.,24179-195(1975)
[5] Butte,A.J。;Kohane,I.S.,相互信息相关性网络:使用成对熵测量的功能基因组聚类,太平洋大学。交响乐团。生物计算。,5, 415-426 (2000)
[6] de Oliveira,S.H。;史J。;Deane,C.M.,《比较共同进化方法及其在无模板蛋白质结构预测中的应用》,生物信息学,33,3,373-381(2016)
[7] 埃克伯格,M。;Hartonen,T。;Aurell,E.,从许多同源氨基酸序列直接耦合分析蛋白质结构的快速伪似然最大化,J.Compute。物理。,276341-356(2014)·Zbl 1349.92108号
[8] 埃克伯格,M。;Lövkvist,C。;Lan,Y。;韦格特,M。;Aurell,E.,《改进蛋白质接触预测:使用伪似然推断Potts模型》,Phys。E版,87,012707(2013)
[9] 费斯,J.J。;Hayete,B。;Thaden,J.T。;莫尼奥,I。;Wierzbowski,J。;科塔雷尔,G。;Kasif,S。;柯林斯,J.J。;Gardner,T.S.,《表达谱简编中大肠杆菌转录调控的大规模绘图和验证》,PLoS Biol。,5,1,文章e8 pp.(2007)
[10] 风机,R.-E。;Chang,K.-W。;谢长杰。;王,X.-R。;Lin,C.-J.,LIBLINERAL:大型线性分类库,J.马赫。学习。1871-1874年第9号决议(2008年)·Zbl 1225.68175号
[11] Feizi,S。;马尔巴赫,D。;Medard,M。;Kellis,M.,《网络反卷积作为区分网络中直接依赖性的通用方法》,《自然生物技术》。,31, 8, 726-733 (2013)
[12] 霍尔,A.E。;Kennard,R.W.,《岭回归:非正交问题的有偏估计》,技术计量学,12,1,55-67(1970)·Zbl 0202.17205号
[13] Höfling,H。;Tibshirani,R.,使用伪似然法估计稀疏二进制成对马尔可夫网络,J.Mach。学习。决议,10883-906(2009)·兹比尔1245.62121
[14] Hyvärinen,A.,完全可见Boltzmann机器伪似然估计的一致性,神经计算。,18, 10, 2283-2292 (2006) ·Zbl 1114.68055号
[15] 科勒,D。;弗里德曼,N.,《概率图形模型:原理和技术》(2009),麻省理工学院出版社·Zbl 1183.68483号
[16] 李,S.-I。;加纳帕蒂,V。;Koller,D.,使用(ell_1)正则化的马尔可夫网络的有效结构学习,(神经信息处理系统进展19(2006)),817-824
[17] Margolin,A.A。;内曼,I。;Basso,K。;威金斯,C。;斯托洛维茨基,G。;R·D·法维拉。;Califano,A.,ARACNE:哺乳动物细胞环境中基因调控网络重建算法,BMC生物信息学,7,Suppl 1,S7(2006)
[18] Martens,J.,Sutskever,I.,2010年。马尔可夫随机场的可并行采样。摘自:《第13届国际人工智能与统计会议记录》,第9卷。第517-524页。;Martens,J.,Sutskever,I.,2010年。马尔可夫随机场的可并行采样。摘自:《第13届国际人工智能与统计会议记录》,第9卷。第517-524页。
[19] Meinshausen,北卡罗来纳州。;Bühlmann,P.,《高维图与拉索变量选择》,Ann.Statist。,341436-1462(2006年)·兹比尔1113.62082
[20] Puranen,S。;佩森,M。;彭萨尔,J。;Xu,Y.Y。;Lees,J.A。;宾利,S.D。;新泽西州克劳彻。;Corander,J.,全基因组上位性分析的SuperDCA,Microb。基因组。,4, 6, 1-12 (2018)
[21] 拉维库马尔,P。;Wainwright,M.J。;Lafferty,J.D.,使用(ell_1)正则化逻辑回归的高维Ising模型选择,Ann.Statist。,38, 1287-1319 (2010) ·Zbl 1189.62115号
[22] Schmidt,M.,《L1-正则化图形模型结构学习》(2010),不列颠哥伦比亚大学(博士论文)
[23] Schmidt,M.,L1General-用于解决L1规则化问题的Matlab代码(2010),https://www.cs.ubc.ca网站/schmidtm/Software/L1General.html
[24] 斯科瓦克,M.J。;新泽西州克劳彻。;Puranen,S。;Chewapreecha,C。;佩森,M。;Xu,Y.Y。;特纳,P。;哈里斯·S·R。;Beres,S.B。;穆瑟,J.M。;Parkhill,J。;宾利,S.D。;奥雷尔,E。;Corander,J.,通过全基因组上位性分析确定的抗性、毒力和核心机械基因的相互作用网络,《公共科学图书馆·遗传学》。,13,2,文章e1006508 pp.(2017)
[25] Watts,D.J。;Strogatz,S.H.,《小世界网络的集体动力学》,《自然》,393440-442(1998)·Zbl 1368.05139号
[26] Whittaker,J.,应用多元统计中的图形模型(1990),Wiley:Wiley Chichester·Zbl 0732.62056号
[27] Xu,T.,Ihler,A.,2011年。稠密非结构化图中的多核吉布斯采样。摘自:《第十四届国际人工智能与统计会议记录》,第15卷。第798-806页。;Xu,T.,Ihler,A.,2011年。稠密非结构化图中的多核吉布斯采样。摘自:《第十四届国际人工智能与统计会议记录》,第15卷。第798-806页。
[28] Xu,Y。;Puranen,S。;Corander,J。;Kabashima,Y.,用于高维显著性分析的逆有限尺寸缩放,Phys。E版,97、6、062112(2018)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。