×

混合影响集群数据的随机林。 (英语) Zbl 1453.62543号

摘要:本文将随机森林(RF)方法扩展到聚类数据的情况。提出的“混合效应随机森林”(MERF)是在期望最大化算法框架内使用标准RF算法实现的。仿真结果表明,当随机效应不可忽略时,所提出的MERF方法比标准RF有显著改善。该方法用于预测电影第一周的票房收入。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62-08 统计问题的计算方法
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] L.Breiman,《随机森林》,马赫。学习。45(2001),第5-32页。doi:10.1023/A:1010933404324[Crossref],[Web of Science®],[Google学者]·兹比尔1007.68152
[2] M.Hamza和D.Larocque,基于分类树的集成方法的经验比较,J.Statist。计算。模拟。75(2005),第629-643页。doi:10.1080/00949650410001729472[Taylor&Francis Online],[Web of Science®],[Google学者]·Zbl 1075.62051号
[3] G.Biau、L.Devroye和G.Lugosi,随机森林和其他平均分类器的一致性,J.Mach。学习。第9号决议(2008年),第2015-2033页。[Web of Science®],[Google学者]·Zbl 1225.62081号
[4] L.Rokach,分类任务中表征集合方法的分类学:综述和注释书目,计算。统计数据分析。53(2009年),第4046-4072页。doi:10.1016/j.csda.2009.07.017[Crossref],[Web of Science®],[Google学者]·Zbl 1453.62185号
[5] D.S.Siroky,导航随机森林和算法建模的相关进展,《统计调查3》(2009年),第147-163页。doi:10.1214/07-SS033[对照],[谷歌学者]·Zbl 1190.62100号
[6] A.Verikas、A.Gelzinis和M.Bacauskine,用随机森林挖掘数据:新测试的调查和结果,模式识别。44(2011),第330-349页。doi:10.1016/j.patcog.2010.08.011[Crosref],[Web of Science®],[谷歌学者]
[7] A.Hajjem、F.Bellavance和D.Larocque,集群数据的混合效应回归树,Stat.Probab。莱特。81(2011),第451-459页。doi:10.1016/j.spl.2010.12.003[Crossref],[Web of Science®],[Google学者]·Zbl 1207.62136号
[8] L.Breiman、J.H.Friedman、R.A.Olshen和C.J.Stone,《分类和回归树》,加利福尼亚州贝尔蒙特沃兹沃斯出版社,1984年。[谷歌学者]·Zbl 0541.62042号
[9] A.P.Dempster、N.M.Laird和D.B.Rubin,通过EM算法获得不完整数据的最大似然,J.R.Statist。Soc.序列号。B 39(1977),第1-38页。[谷歌学者]·Zbl 0364.62022号
[10] G.J.McLachlan和T.Krishman,《EM算法和扩展》,威利出版社,纽约,1997年。[谷歌学者]·Zbl 0882.62012号
[11] R.J.Sela和J.S.Simonoff,《RE-EM树:纵向和聚类数据的数据挖掘方法》,马赫。学习。86(2012),第169-207页。doi:10.1007/s10994-011-5258-3[Crossref],[Web of Science®],[Google学者]·Zbl 1238.68131号
[12] S.W.Raudenbush和A.S.Bryk,《层次线性模型:应用和数据分析方法》,第二版,Sage,加利福尼亚州纽伯里公园,2002年。[谷歌学者]·Zbl 1001.62004号
[13] H.Wu和J.T.Zhang,《纵向数据分析的非参数回归方法:混合效应建模方法》,威利,纽约,2006年。[谷歌学者]·Zbl 1127.62041号
[14] R开发团队,R:统计计算的语言和环境,R统计计算基金会,2007年。网址:www.R-project.org。[谷歌学者]
[15] A.Liaw和M.Wiener,《随机森林的分类和回归》,R News 2(2002),第18-22页。[谷歌学者]
[16] T.M.Therneau和E.J.Atkinson,《使用rpart例程的递归分区介绍》,技术代表61,卫生科学研究部,梅奥诊所,罗切斯特,1997年。[谷歌学者]
[17] A.S.Bryk和S.W.Raudenbush,层次线性模型在评估变化中的应用,心理学。牛市。101(1987),第147-158页。doi:10.1037/0033-2909.101.1.147[Crossref],[Web of Science®],[Google学者]
[18] R.I.Jennrich和M.D.Schluchter,《结构协方差矩阵的非平衡重复测量》,《生物统计学》42(1986),第805-820页。doi:10.2307/2530695[Crosref],[PubMed],[Web of Science®],[谷歌学者]·Zbl 0625.62052号
[19] C.A.Field和A.H.Welsh,Bootstrapping集群数据,J.R.Statist。Soc.序列号。B 69(2007),第369-390页。doi:10.1111/j.1467-9868.2007.00593.x[交叉引用],[谷歌学者]·Zbl 07555357号
[20] Y.V.Karpievitch、E.G.Hill、A.P.Leclerc、A.R.Dabney和J.S.Almeida,《随机森林分类器的内省比较》,用于通过RF++分析聚类相关数据,《公共科学图书馆·综合》4(9)(2009),文章编号e7087。doi:10.1371/journal.pone.0007087[Crossref],[PubMed],[Web of Science®],[Google学者]
[21] W.Adler、S.Potapov和B.Lausen,使用基于树的集合方法对重复测量数据进行分类,计算统计26(2011),第355-369页。doi:10.1007/s0180-011-0249-1[Crosref],[Web of Science®],[谷歌学者]·Zbl 1304.65014号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。